Charakteristiky variability 5 страница

Tabulka 1.16

Číslo domácnosti

Věk člena s nejvyšším příjmem

Číslo domácnosti

Věk člena s nejvyšším příjmem

⇐ Предыдущая

Komentář: kumulativní četnosti

Sedm domácností, které představují 19,4 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 24 500 Kč, osmnáct domácností, které představují 50,0 % domácností, má měsíční příjem v intervalu od 22 001 Kč do 27 000 Kč, 26 domácností, tj. 72,2 %, má měsíční příjem domácnosti v intervalu od 22 001 Kč do 29 500 Kč, 32 domácností, což je 88,9 % všech domácností, má měsíční příjem v intervalu od 22 001 Kč do 32 000 Kč, 35 domácností, tj. 97,2 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 34 500 Kč a všech 36 domácností zkoumaného statistického souboru, tj. všech 100 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 37 000 Kč, neboli žádná z uvažovaných domácností nemá měsíční příjem větší než 37 000 Kč.

Grafickým znázorněním intervalového rozdělení četností je histogram četností, viz obrázek 1.12.

Obrázek 1.12

Cvičení

1.U 60 studentů druhého ročníku Vysoké školy finanční a správní byly před zápisem do třetího ročníku zjištěny následující údaje tykající se počtu ztracených kreditů v druhém ročníku. Tyto údaje se nacházejí v tabulce 1.14.

Tabulka 1.14
Číslo studenta	Počet ztracených kreditů	Číslo studenta	Počet ztracených kreditů	Číslo studenta	Počet ztracených kreditů	Číslo studenta	Počet ztracených kreditů

Sestavte tabulku rozdělení četností a kumulativních četností, v obou případech absolutních a relativních, počtu ztracených kreditů studenta.

2. U 36 domácností jsou k dispozici údaje týkající se průměrného věku vydělávajících členů domácnosti (po zaokrouhlení na celá čísla), viz tabulka 1.15.

Tabulka 1.15
Číslo domácnosti	Průměrný věk vydělávajících členů	Číslo domácnosti	Průměrný věk vydělávajících členů	Číslo domácnosti	Průměrný věk vydělávajících členů

Sestavte tabulku intervalového rozdělení četností pro průměrný věk vydělávajících členů domácnosti.

Výsledky

Počet ztracených	Četnost	Kumulativní četnost
kreditů	absolutní	relativní	absolutní	relativní
		0,200 0,117 0,150 0,083 0,150 0,067 0,133 0,067 0,033		0,200 0,317 0,467 0,550 0,700 0,767 0,900 0,967 1,000
Celkem		1,000	X	X

R = 41

dělitelné k = 6 a větší než R = 41 je číslo 42, variační rozpětí zvětšíme na 42, abychom hodnoty mohli rozdělit do k = 6 stejně dlouhých intervalů, např. zvolíme intervaly

Číslo	Interval pro průměrný věk	Četnost	Kumulativní četnost
intervalu	vydělávajících členů	absolutní	relativní	absolutní	relativní
	24 - 30 31 - 37 38 - 44 45 - 51 52 - 58 59 - 65		0,222 0,167 0,361 0,139 0,083 0,028		0,222 0,389 0,750 0,889 0,972 1,000
Celkem		1,000	X	X

Kvantily

Kvantil je hodnota, která je určená tak, že hodnoty menší než daný kvantil nebo stejné jako tento kvantil tvoří procentuálně předem stanovenou část rozsahu statistického souboru (např. 5 %, 10 %, 25 % apod.) a hodnoty, které jsou větší než příslušný kvantil nebo stejné jako tento kvantil, tvoří zbývající procentuální část rozsahu statistického souboru (např. 95 %, 90 %, 75 % apod.). Označme p relativní četnost malých hodnot číselné proměnné x. 100p% kvantil proměnné x rozděluje statistický soubor hodnot této proměnné na dvě části tak, že odděluje 100p % malých hodnot proměnné x od 100(1 – p) % velkých hodnot proměnné x. 100p% kvantil proměnné x označujeme

Pro výpočet kvantilů je nutné nejprve všechny napozorované hodnoty sledované číselné proměnné uspořádat vzestupně podle velikosti od nejmenší hodnoty po největší. Označme m_100p pořadové číslo hodnoty ve vzestupně uspořádané posloupnosti odpovídající hledanému kvantilu (tj. m_100p je přirozené číslo) a n je počet statistických jednotek v proměnné, tj. rozsah statistického souboru. Při výpočtu kvantilu je třeba určit pořadové číslo prvku m_100p, které určíme pomocí vztahu

(1.9)

Vyjdou-li n · p a n · p + 1 jako desetinná čísla, je hledaným kvantilem m_100p-tá hodnota v uspořádané posloupnosti hodnot sledované proměnné. Vyjdou-li n · p a n · p + 1 jako celá čísla (přirozená čísla), potom příslušný kvantil vypočteme jako aritmetický průměr dvou hodnot, které mají pořadí n · p a n · p + 1 (určené nerovností (1.9)) ve vzestupně uspořádané posloupnosti hodnot dané proměnné.

Z tabulky intervalového rozdělení četností je možné odhadnout přibližnou hodnotu 100p% kvantilu lineární interpolací podle vztahu

(1.10)

kde:

x_h je dolní hranice intervalu, ve kterém leží hledaný kvantil, x_d je horní hranice intervalu, ve kterém leží hledaný kvantil, i_h je kumulativní relativní četnost v procentech (po vynásobení stem) odpovídající x_h, i_d je kumulativní relativní četnost v procentech (po vynásobení stem) odpovídající x_d,

přičemž s využitím sloupce kumulativních relativních četností nejprve zjistíme, ve kterém intervalu se hledaný kvantil nachází.

Nejdůležitější z kvantilů je 50% kvantil, který se nazývá medián a značíme jej

nebo v případě mediánu i . Medián, neboli prostřední hodnota, rozděluje statistický soubor na dvě stejně četné poloviny. Při lichém rozsahu statistického souboru n je medián vždy hodnota prostřední statistické jednotky souboru (po vzestupném uspořádání hodnot proměnné), při sudém rozsahu statistického souboru n leží medián mezi hodnotami dvou prostředních statistických jednotek (opět po vzestupném uspořádání hodnot sledované proměnné) a vypočte se jako aritmetický průměr těchto dvou hodnot.

Druhů kvantilů je velmi mnoho, kvantily menší než medián nazýváme dolní kvantily a kvantily větší než medián nazýváme horní kvantily.

Tercily jsou dva kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na tři stejně četné části. Dolní tercil

je kvantil a odděluje jednu třetinu statistických jednotek s menší nebo stejnou hodnotou sledované proměnné jako dolní tercil od dvou třetin statistických jednotek s větší nebo stejnou hodnotou sledované proměnné jako dolní tercil. Horní tercil

je kvantil a odděluje dvě třetiny statistických jednotek, které mají hodnotu sledované proměnné menší nebo stejnou jako horní tercil, od jedné třetiny statistických jednotek, které mají hodnotu sledované proměnné větší nebo stejnou jako horní tercil.

Kvartily jsou tři kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na čtyři stejně četné části. Dolní kvartil

je 25% kvantil a odděluje jednu čtvrtinu statistických jednotek s menší nebo stejnou hodnotou sledované proměnné jako dolní kvartil od tří čtvrtin statistických jednotek s větší nebo stejnou hodnotou sledované proměnné jako dolní kvartil. Prostřední kvartil je medián. Horní kvartil

je 75% kvantil a odděluje tři čtvrtiny statistických jednotek, které mají hodnotu sledované proměnné menší nebo stejnou jako horní kvartil, od jedné čtvrtiny statistických jednotek, které mají hodnotu sledované proměnné větší nebo stejnou jako horní kvartil.

Kvintily jsou čtyři kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na pět stejně četných částí. Jedná se o dolní kvintily

a horní kvintily

Stejným způsobem rozdělují neklesající řadu hodnot sledované proměnné sextily na šest stejně četných částí, septily na sedm stejně četných částí, oktávily na osm stejně četných částí, nonily na devět stejně četných částí, decily na deset stejně četných částí atd. až percentily, rovněž se používá název centily nebo procentily, na sto stejně četných částí. Podobně např. půlpercentily rozdělují neklesající řadu hodnot sledované proměnné na 200 stejně četných částí atd.

Oblíbeným znázorněním extrémních hodnot a kvartilů je krabičkový graf, viz obrázek 1.13, kde extrémní hodnoty: x_min je minimální hodnota sledované proměnné a x_max je maximální hodnota sledované proměnné v souboru.

Obrázek 1.13

Příklad 1.5

Tabulka 1.16 obsahuje údaje o věku člena domácnosti s největším příjmem v dokončených letech 32 domácností.

Určete nejmenší a největší hodnotu, variační rozpětí a kvartily věku člena domácnosti s nejvyšším příjmem. Výsledky interpretujte a znázorněte graficky.

Řešení:

Všechny výše uvedené hodnoty věku člena domácnosti s nejvyšším příjmem nejprve uspořádáme podle velikosti od nejmenší hodnoty po největší, viz tabulka 1.17.

Tabulka 1.17
Pořadí	1.	2.	3.	4.	5.	6.	7.	8.
Hodnota

Pořadí	9.	10.	11.	12.	13.	14.	15.	16.
Hodnota

Pořadí	17.	18.	19.	20.	21.	22.	23.	24.
Hodnota

Pořadí	25.	26.	27.	28.	29.	30.	31.	32.
Hodnota

Z tabulky 1.17 je zřejmé, že nejmenší hodnota věku člena domácnosti s nejvyšším příjmem je

x_min = 25 let

a největší hodnota

x_max = 68 let,

a tedy variační rozpětí

R = x_max – x_min = 68 – 25 = 43 let.

Počet sledovaných statistických jednotek (rozsah výběru) n = 32 domácností. Kvartily jsou tři, a to dolní kvartil, tj. 25% kvantil, medián (prostřední kvartil), tj. 50% kvantil, a horní kvartil, tj. 75% kvantil.

Nejprve vypočteme dolní kvartil, v takovém případě je 100 p = 25, a tedy p = 0,25. Dosadíme do vztahu (1.9)

Odtud získáváme

z tabulky 1.17 je vidět, že 8. nejmenší hodnota je 33 let a 9. nejmenší hodnota je 35 let. Protože n · p = 8 a n · p + 1 = 9 jsou celá čísla (přirozená) a nikoliv čísla desetinná, vypočteme dolní kvartil jako aritmetický průměr 8. nejmenší hodnoty a 9. nejmenší hodnoty, tj. jako aritmetický průměr z hodnot 33 a 35

V případě mediánu je 100 p = 50, a tedy p = 0,5. Opět dosadíme do vztahu (1.9)

a získáváme

Z tabulky 1.17 vyplývá, že 16. nejmenší hodnota je 41 let a 17. nejmenší hodnota je rovněž 41 let. Protože opět n · p = 16 a n · p + 1 = 17 jsou celá čísla (přirozená) a nikoliv čísla desetinná, vypočteme medián jako aritmetický průměr 16. a 17. nejmenší hodnoty

Zbývá vypočítat horní kvartil, kdy 100 p = 75, a tedy p = 0,75. Dosazením do vztahu (1.9) získáváme

Z tabulky 1.17 je zřejmé, že 24. nejmenší hodnota je 46 let a 25. nejmenší hodnota je 47 let. Horní kvartil z již uvedených důvodů vypočteme opět jako aritmetický průměr těchto dvou hodnot

Lze konstatovat, že v případě 25 % domácností uvažovaného statistického souboru je věk člena domácnosti s nejvyšším příjmem nejvýše 34 let a v případě 75 % domácností uvažovaného statistického souboru je věk člena domácnosti s nejvyšším příjmem nejméně 34 let. Obdobně, polovina domácností z uvažovaného statistického souboru domácností má věk člena s nejvyšším příjmem nejvýše 41 let a polovina nejméně 41 let. U třech čtvrtin domácností je věk člena domácnosti s nejvyšším příjmem maximálně 46 let (protože se jedná o věk v dokončených letech, můžeme konstatovat 46 místo 46,5 let) a u jedné čtvrtiny domácností je věk člena domácnosti s nejvyšším příjmem minimálně 47 let (číslo 46,5 je mezi čísly 46 a 47).

Pro zobrazení kvartilů se nejčastěji používá krabičkový graf, viz obrázek 1.14.

Obrázek 1.14

25 34 41 46,5 68

Další možností znázornění dat je číslicový dendrogram, který na ukázku vytvoříme z neuspořádaných dat, tedy z tabulky 1.16. Data v tomto příkladu mají nejvyšší řád desitky, stonek bude tvořen tedy desítkami. Druhý nejvyšší řád jsou jednotky, listy budou tedy tvořeny jednotkami. Hodnoty věku člena domácnosti s nejvyšším příjmem se pohybují od 25 let do 68 let. Stonek bude tedy tvořen číslicemi od 2 (25) do 6 (68). Aby graf nebyl příliš široký, dohodneme se tak, že všechny číslice (s výjimkou krajních, pokud nejsou potřeba) budou ve stonku obsaženy dvakrát, a to tak, že k hoření číslici budeme přiřazovat listy v rozmezí 0 až 4 a k dolení číslici listy v rozmezí 5 až 9. Nadepíšeme si číslice stonku a číslice listů k nim postupně dopisujeme z tabulky 1.16. Zde končí první krok. V druhém kroku číslice stonku v každém řádku uspořádáme podle velikosti vzestupně od nejmenší po největší. Vzniká následující graf, viz obrázek 1.15.

Obrázek 1.15

⇐ Предыдущая

Следующая ⇒