Charakteristiky variability 4 страница

 

Obrázek 1.4

 

Modus číselné proměnné je každá obměna, jejíž absolutní, a tedy i relativní četnost, je větší než příslušné četnosti obou sousedních obměn. Vícevrcholové rozdělení četností má více než jeden modus. Takováto rozdělení četností proto nazýváme rovněž vícemodální rozdělení četností nebo multimodální rozdělení četností. Jedná se zejména o rozdělení mající dva vrcholy, a tedy dvě modální obměny, kdy jedná o bimodální rozdělení četností, viz obrázek 1.5 Speciálním případem bimodálního rozdělení četností je U–rozdělení, kdy jeden modus je minimální a druhý modus maximální obměna proměnné, a tedy toto rozdělení má vrcholy na obou krajích, viz obrázek 1.6. V případě U–rozdělení se obměna s nejmenší absolutní i relativní četností nazývá antimodus.

 

Obrázek 1.5

 

 

Obrázek 1.6

 

Podle souměrnosti rozlišujeme souměrná rozdělení četností, neboli symetrická rozdělení četností, viz obrázek 1.7, a nesouměrná rozdělení četností, neboli asymetrická rozdělení četností. Jsou-li četnosti malých obměn v rozdělení četností vcelku větší než četnosti velkých obměn, a tedy vrchol spíše nalevo, jedná se o nesouměrné rozdělení sešikmené kladně, neboli o rozdělení četností s kladnou šikmostí, viz obrázek 1.8. Jsou-li četnosti malých obměn vcelku menší než četnosti velkých obměn, a tedy vrchol je spíše napravo, jedná se o nesouměrné rozdělení sešikmené záporně, neboli o rozdělení četností se zápornou šikmostí, viz obrázek 1.9.

 

Obrázek 1.7

Obrázek 1.8

Obrázek 1.9

Rozdělení četností se také mohou lišit špičatostí. To rozdělení četností, které má výraznější vrchol, je špičatější než jiné rozdělení četností, které je plošší, viz obrázek 1.10.

 

Obrázek 1.10

 

Příklad 1.3

U 40 domácností sledujeme počet členů domácnosti, viz tabulka 1.9.

 

Tabulka 1.9
Číslo domácnosti Počet členů   Číslo domácnosti Počet členů   Číslo domácnosti Počet členů   Číslo domácnosti Počet členů
     

 

Sestavte tabulku rozdělení četností a kumulativních četností, v obou případech absolutních i relativních, počtu členů domácnosti. Výsledky okomentujte a znázorněte graficky.

 

Řešení:

Jedná se o číselnou proměnnou nabývající k = 6 obměn, které uspořádáme vzestupně od nejmenší po největší: x1 = 1, x2 = 2, x3 = 3, x4 = 4, x5 = 5 a x6 = 6. Rozsah výběrového statistického souboru n = 40. Ze statistického souboru čtyřiceti domácností je n1 = 4 domácností s x1 = 1 členem domácnosti, n2 = 7 domácností s x2 = 2 členy domácnosti, n3 = 7 domácností s x3 = 3 členy domácnosti, n4 = 12 domácností s x4 = 4 členy, n5 = 6 domácností s x5 = 5 členy a n6 = 4 domácnosti s x6 = 6 členy domácnosti. Příslušné relativní četnosti vypočteme s využitím vztahu (1.2)

 

 
 
 
 
 

 

dále vypočteme kumulativní absolutní četnosti a kumulativní relativní četnosti

 

 
 
 
 
 
 
 
 
 
 
 
 

 

Sestavíme tabulku rozdělení četností, viz tabulka 1.10.

 

Tabulka 1.10
Počet Četnost Kumulativní četnost
členů absolutní relativní absolutní relativní
0,100 0,175 0,175 0,300 0,150 0,100 0,100 0,275 0,450 0,750 0,900 1,000
Celkem 1,000 X X

 

Komentář: absolutní četnosti

Je zřejmé, že ve statistickém souboru jsou čtyři domácnosti jednočlenné, sedm dvoučlenných a sedm tříčlenných. Nejvíce domácností, tj. dvanáct domácností, je čtyřčlenných. Dále máme šest pětičlenných domácností a čtyři šestičlenné.

 

Komentář: relativní četnosti (po vynásobení relativních četností stem)

Jednočlenné domácnosti tvoří 10 % domácností. Dvoučlenné domácnosti tvoří 17,5 % stejně jako domácnosti tříčlenné. Nejvíce domácností je čtyřčlenných, které tvoří 30 % celkového statistického souboru domácností. Pětičlenných domácností je z celkového počtu domácností 15 % a šestičlenných 10 %.

 

Komentář: kumulativní četnosti

Ve čtyřech domácnostech je jeden člen, což je 10 % všech domácností. Jedenáct domácností je tvořeno jedním nebo dvěma členy, tj. 27,5 % všech domácností. Osmnáct domácností je nejvýše tříčlenných, což představuje 45 % všech domácností, třicet domácností se skládá ze čtyř a méně členů, tj. 75 % domácností, ve 36 domácnostech je nejvýše pět členů, což je 90 % všech domácností. Ani v jedné z uvažovaných domácností není více než šest členů, neboli ve všech domácnostech je nejvýše šest členů.

 

Nejpoužívanějším grafickým znázorněním rozdělení četností je polygon četností, viz obrázek 1.11.

 

 

Obrázek 1.11

 

1.4.2 Intervalové rozdělení četností

 

V případě číselné proměnné nabývající mnoha obměn nenese tabulka rozdělení četností v podstatě žádné požadované zpřehlednění statistických dat. Z tohoto důvodu, jestliže číselná proměnná nabývá mnoha obměn, sestavujeme tabulku intervalového (skupinového) rozdělení četností, kdy vědomě zanedbáváme drobné odlišnosti mezi sobě blízkými obměnami a rozdělíme variační rozpětí souboru, které představuje rozdíl mezi maximální a minimální zjištěnou hodnotou proměnné a které nejprve zvětšíme na nějaké hladké číslo (např. vypočtené variační rozpětí 8 428 zvětšíme na 8 500), na určitý počet intervalů a poté zjistíme počty hodnot patřících do jednotlivých intervalů. Začátek prvního intervalu volíme tak, aby všechny intervaly dohromady pokrývaly všechny hodnoty sledované proměnné. Obměny patřící do jednoho intervalu zastupujeme středem tohoto intervalu.

K určení počtu intervalů existuje více návrhů, nejpoužívanější z nich je Sturgesovo pravidlo, podle kterého by měl být počet intervalů k přibližně

 

(1.8)

 

kde „log“ představuje dekadický logaritmus a n je rozsah souboru.

Při zařazování jednotlivých hodnot proměnné do intervalů se může stát, že máme zařadit hodnotu, která leží na hranici dvou intervalů. Tuto hodnotu zařazujeme zpravidla do vyššího intervalu, neboť se tím dopouštíme menší relativní chyby. Kumulativní absolutní četnosti nás potom informují, kolik statistických jednotek má hodnotu menší než horní hranice příslušného intervalu a kumulativní relativní četnosti po vynásobení stem podávají informaci o tom, kolik procent statistických jednotek má hodnotu menší než horní mez daného intervalu.

Vhodným grafickým znázorněním intervalového rozdělení četností je histogram četností, což je sloupkový graf skládající se z obdélníků, jejichž základny mají délku zvolených intervalů a jejichž obsahy ploch jsou úměrné četnostem jednotlivých intervalů (intervaly obecně nemusí být stejně dlouhé).

Zpracováváme-li data o číselné proměnné nabývající velmi mnoha obměn výše uvedeným způsobem, ztrácíme tím informaci o výši napozorovaných hodnot této proměnné. Takováto ztráta informace se zmírní, jestliže statistická data zpracujeme do grafu stem–and–leaf(stonek a listy), neboli do číslicového dendrogramu. Tento graf vzniká ve dvou krocích pro data neuspořádaná vzestupně podle velikosti nebo přímo pro data, která jsou uspořádaná vzestupně od nejmenší hodnoty po největší. Stonek (vlevo od kolmice) je tvořen desítkami, stovkami či tisíci, stonek je nejvyšší řád a listy (vpravo od kolmice) jsou tvořeny jednotkami, desítkami či stovkami, tj. listy jsou druhý nejvyšší řád (je-li např. stonek tvořen tisíci, listy budou tvořeny stovkami apod.). Číslice na ostatních řádech zanedbáváme, ale nezaokrouhlujeme. V prvním sloupci jsou kumulace absolutních četností od nejmenší hodnoty k mediánu (prostřední hodnota) a od největší hodnoty k mediánu. Číslo v závorce identifikuje skupinu, v níž se nachází medián a je to absolutní četnost této skupiny.

 

Příklad 1.4

V tabulce 1.11 jsou k dispozici údaje o výši měsíčního příjmu 36 domácností.

 

Tabulka 1.11
  Číslo domácnosti Výše měsíčního příjmu     Číslo domácnosti Výše měsíčního příjmu     Číslo domácnosti Výše měsíčního příjmu
   

 

Sestavte tabulku intervalového rozdělení četností ze statistického souboru 36 domácností podle výše měsíčního příjmu domácnosti. Výsledky interpretujte a znázorněte graficky.

 

Řešení:

Je zřejmé, že se v tomto případě jedná o číselnou proměnnou nabývající mnoha obměn. S využitím Sturgesova pravidla (1.8) určíme počet intervalů, rozsah souboru n = 36

 

 

přičemž nejmenší hodnota číselné proměnné výše měsíčního příjmu domácnosti je v uvažovaném statistickém souboru 22 500 Kč a největší hodnota 36 125 Kč. Vypočteme variační rozpětí představující rozdíl mezi největší a nejmenší hodnotou sledované proměnné

 

 

Vypočtené variační rozpětí nejprve zvětšíme na nějaké hladké číslo tak, abychom takto upravené variační rozpětí mohli snadno rozdělit na k = 6 stejně dlouhých intervalů, např. variační rozpětí zvětšíme tímto způsobem z 13 625 Kč na 15 000 Kč. Protože 15 000/6 = 2500 Kč, hodnoty číselné proměnné výše měsíčního příjmu domácnosti rozdělíme do následujících intervalů, které představují jednu z mnoha možností: 1. 22 001 - 24 500, 2. 24 501 - 27 000, 3. 27 001 - 29 500, 4. 29 501 - 32 000, 5. 32 001 - 34 500, 6. 34 501 - 37 000. Jednotlivé intervaly jsme vytvořili tak, aby se krajní meze sousedních intervalů nepřekrývaly, odpadne nám tím problém týkající se toho, do jakého intervalu zařadit hodnotu, která leží právě v bodě krajních mezí dvou sousedních intervalů. Čárkovací metodou určíme absolutní četnosti v jednotlivých intervalech ni, i = 1, 2, ..., 6, viz tabulka 1.12.

 

  Tabulka 1.12
      Absolutní četnosti  
  Interval   ni  
  22 001 - 24 500 ½½½½½ ½½    
  24 501 - 27 000 ½½½½½ ½½½½½ ½  
  27 001 - 29 500 ½½½½½ ½½½    
  29 501 - 32 000 ½½½½½ ½    
  32 001 - 34 500 ½½½      
  34 501 - 37 000 ½      

 

V prvním intervalu se nachází n1 = 7 hodnot sledované proměnné, v druhém intervalu n2 = 11 hodnot, ve třetím intervalu n3 = 8 hodnot, ve čtvrtém intervalu n4 = 6 hodnot, v pátém intervalu n5 = 3 hodnoty a v šestém intervalu n6 = 1 hodnota sledované proměnné a skutečně opět platí vztah (1.1), kde ni, i = 1, 2, ..., k, představují absolutní četnosti tentokrát v jednotlivých intervalech

 

 

S využitím vztahu (1.2) vypočteme příslušné relativní četnosti analogicky, jako tomu bylo v příkladu 1.3

 

 
 

 

 
 
 

 

Je zřejmé, že opět platí vztah (1.3)

 

 

Obdobně, jako v příkladu 1.3, vypočteme i kumulativní četnosti

 

 
 
 
 
 
 
 
 
 
 
 

 

Nyní již můžeme sestavit tabulku intervalového rozdělení četností, viz tabulka 1.13

 

Tabulka 1.13
Číslo Interval pro výši Četnost Kumulativní četnost
intervalu měsíčního příjmu absolutní relativní absolutní relativní
22 001 - 24 500 24 501 - 27 000 27 001 - 29 500 29 501 - 32 000 32 001 - 34 500 34 501 - 37 000 0,194 0,306 0,222 0,167 0,083 0,028 0,194 0,500 0,722 0,889 0,972 1,000
Celkem 1,000 X X

 

Komentář: absolutní a relativní četnosti (po vynásobení relativních četností stem)

Je vidět, že měsíční příjem v intervalu od 22 001 Kč do 24 500 Kč má sedm domácností, tj. 19,4 % ze všech 36 domácností. V intervalu od 24 501 Kč do 27 000 Kč má měsíční příjem jedenáct domácností, což je 30,6 % všech domácností daného statistického souboru. Osm domácností, tj. 22,2 % domácností, má měsíční příjem v intervalu od 27 001 Kč do 29 500 Kč, šest domácností, tj. 16,7 % domácností, má měsíční příjem v intervalu od 29 501 Kč do 32 000 Kč, tři domácnosti, tj. 8,3 %, mají měsíční příjem v intervalu od 32 001 Kč do 34 500 Kč a jedna domácnost, která tvoří pouze 2,8 % domácností zkoumaného statistického souboru, má měsíční příjem v intervalu od 34 501 Kč do 37 000 Kč.