Kas ir Box Plot?

Kastes diagramma vai kastes un ūsu diagramma ir metode skaitlisku datu kārtošanai pa vienu skaitļu līniju, kas var būt gan horizontāla, gan vertikāla. Faktiskā kaste, kad sižets ir horizontāls, atrodas nedaudz virs skaitļu līnijas un sastāv no trim vertikālām līnijām, kas savienotas ar horizontālām līnijām. Lodziņa horizontālās robežas apzīmē pirmo un trešo kvartili (25. un 75. procentile), kas atdalītas ar vidējo līniju, kas ir datu mediāna jeb 50. procentile. Abās lodziņu pusēs no horizontālo līniju vidus stiepjas vertikālas līnijas, ko dažreiz sauc par ūsām. Kad tie sasniedz minimālo un maksimālo datu kopas skaitu, tie beidzas ar mazākām horizontālām līnijām, lai gan tas var nedaudz atšķirties atkarībā no datu izplatības.

Ir daži svarīgi elementi, kas veido labu lodziņu, un daži skaitļi, kas cilvēkiem ir jāzina, veidojot šīs diagrammas. Pirmo no tiem sauc par piecu skaitļu kopsavilkumu, ko bieži saīsina kā pieci cipari. summa. Šis ir pirmās un trešās kvartiles, mediānas un minimālā un maksimālā datu skaita saraksts. Dažās lietojumprogrammās cilvēkiem tie būs jānorāda diagrammas tuvumā, lai gan, analizējot diagrammu ar labu skaitļu līniju, šos skaitļus var iegūt, aplūkojot trīs horizontālās līnijas un beigu ūsas. Tas nav vistas/olu jautājums personai, kas zīmē sižetu, jo pieci num. summa. ir jāizmanto, lai izveidotu sižetu.

Cilvēkiem ir jāzina arī skaitlis, ko sauc par interkvartila diapazonu (IQR). Atņemot pirmo kvartili no trešās kvartiles, tiek iegūts IQR, un, izmantojot dažādu programmatūru vai zinātniskus kalkulatorus, var iegūt arī šo skaitli un piecu skaitļu kopsavilkumu, ievadot visus datus. IQR ir svarīgs, jo līnijas, kas stiepjas no lodziņa, parasti sniedzas tikai līdz 1.5 reizēm par IQR. Dati, kas atrodas aiz šī punkta, tiek apzīmēti ar punktiem, nevis nepārtrauktu līniju. Šie punkti bieži liek domāt, ka datiem ir novirzes.

Kastes sižetam ir dažādi lietojumi. Virs vienas skaitļu līnijas var uzzīmēt vairākus grafikus, un tie var salīdzināt līdzīgas datu kopas, kas atšķiras pēc kāda svarīga faktora. Piemēram, zinātnieki vai statistiķi var reģistrēt vīriešu un sieviešu sirdsdarbības ātrumu un pēc tam izveidot divus sakrautus lodziņus, lai meklētu būtiskas atšķirības diapazonā un kvartilēs.

Kastes diagrammas nenorāda datu biežumu. Papildu skalas (vertikālās vai horizontālās) trūkuma dēļ netiek sniegta informācija par atkārtotiem skaitļiem, datu kopas lielumu un lielāko daļu atsevišķu skaitļu. Persona, kas aplūko lodziņu diagrammu, vislabāk sapratīs piecu skaitļu kopsavilkumu, diapazonu un to, vai datiem ir novirzes. Kastes izmērs, mediānas attiecība pret kvartilēm un ūsu garums var parādīt, vai dati ir šķībi, taču tie nevar runāt par tādām lietām kā vidējā vērtība, režīms vai standarta novirze. Citas diagrammas, piemēram, histogrammas, var būt noderīgākas, ja cilvēki vēlas attēlot tādas lietas kā biežums vai iegūt labākus attēlus par datu izplatīšanu.