7. P o p i s n á
statistika
7.1. Poznámka: Při statistickém zkoumání nás zajímají hromadné jevy a procesy, u kterých zkoumáme zákonitosti, které se projevují u velkého počtu prvků. Prvky zkoumání nazýváme statistické jednotky. Sledujeme vlastnosti statistických jednotek, které nazýváme statistické znaky nebo stručněji veličiny (variable). Souhrn znaků a veličin tvoří data. Při zkoumání používáme dva základní druhy statistiky, popisnou statistiku (describe statistics) a interferenční statistiku. Popisná statistika zjišťuje a sumarizuje informace, zpracovává je ve formě grafů a tabulek a vypočítává jejich číselné charakteristiky jako průměr, rozptyl percentily, rozpětí a pod. Interferenční statistika činí závěry na základě dat získaných z šetření provedených pro vybraný soubor respondentů. Analyzuje tyto závěry a predikuje z nich závěr pro celý soubor. (Volební průzkum, průzkum trhu a pod.) Při statistickém šetření máme k dispozici: - základní soubor je soubor všech statistických jednotek; - výběrový soubor je vybraná část ze základního souboru. Rozsah základního (výběrového) souboru je počet jednotek v souboru. Při vytváření souboru jednotek provádíme výběr ve tvaru prostého náhodého výběru. 7.2. Definice: Prostý náhodný výběr (simple random sample) je náhodný výběr ze základního souboru vytvořený tak, že každá statistická jednotka ze základního souboru má stejnou pravděpodobnost, že bude vybrána. Pokud je možné vybrat tutéž jednotku znova, mluvíme o výběru s vracením, pokud opakovaný výběr není možný jedná se o výběr bez vracení. Poznámka: Jiné metody používají definovaný způsob výběru, který je popsán zadaným algoritmem. Využívá se především vytváření výběru s menším rozsahem, který podchycuje zákonitosti obsažené v rozsáhlejším výběru. V dalším se budeme zabývat popisnou statistikou. 116
Popisná statistika Vlastnosti, které se pro jednotlivé jednotky mění nazýváme veličinami, případně statistickými znaky nebo proměnnými (variable). Vyskytují se veličiny - kvantitativní, popsané číselnou hodnotou (výška, váha, cena); - kvalitativní, popsané vlastnostmi (muž, žena, barva očí, dosažené vzdělání). Kvantitativní veličiny mohou být diskrétní (discrete), nabývající hodnot ze zadané konečné množiny, nebo spojité (continuous), které nabývají hodnot ze zadaného intervalu. Pozorovaním nebo měřením hodnot zkoumané veličiny na několika statistických jednotkách získáme vstupní data. Soubor těchto údajů nazýváme datový soubor. Tento soubor je jednorozměrný, jestliže sledujeme jeden znak, nebo vícerozměrný (multistage random sample), pokud sledujeme více znaků. Při zpracování jednorozměrného datového souboru kvantitativních dat x1 , x2 , . . . , xn potřebujeme pro některá šetření data uspořádat podle velikosti. Dostaneme pak uspořádaný datový soubor tvaru x(1) ≤ x(2) . . . ≤ x(n) , kde x(1) = min{xi ; 1 ≤ i ≤ n} a x(n) = max{xi ; 1 ≤ i ≤ n}. Metody zpracovaní dat 7.3. Třídění dat je rozdělení dat do skupin provedené tak, aby vynikly charakteristické vlastnosti sledovaných jevů. Uspořádáme a zhustíme data do přehlednější formy. Rozeznáváme - jednostupňové třídění, jestliže třídíme data podle změn jednoho statistického znaku; - vícestupňové třídění, pokud provádíme třídění podle více znaků najednou. Nejčastěji při jednostupňovém třídění kvantitativních dat uspořádáme data podle velikosti a stanovíme intervaly, které odpovídají jednotlivým třídám. Mluvíme pak o intervalovém třídění. Máme-li datový soubor {x1 , x2 , . . . , xn }, který obsahuje celkem n dat, pak interval mezi největší a nejmenší hodnotou rozdělíme na k disjunktních intervalů, tříd (classes), tvaru (ai−1 , ai i, 1 ≤ i ≤ k. Potom prvek 117
xj patří do i−té třídy, pokud je ai−1 < xj ≤ ai . Používáme následujících termínů a označení: - třída (class) je část dat z intervalu (ai−1 , ai i; - dolní hranice třídy (lower class limit) je hodnota ai−1 ; - horní hranice třídy (upper class limit) je hodnota ai ; - střed třídy (class mark) je průměr horní a dolní hranice třídy, tedy yi = 21 (ai−1 + ai ); - šířka třídy (class width) je rozdíl horní a dolní hranice třídy, tedy hodnota ai − ai−1 ; - (absolutní) četnost třídy (frequency) ni je počet prvků souboru, které patří do i−té třídy; - relativní četnost (relative frequency) pi = nni je poměr četnosti třídy ku celkovému počtu dat; - kumulativní (absolutní) četnost (cumulative frequency) Ni = n1 +n2 +. . .+ni je součet četnosti třídy a četností tříd předchozích; - kumulativní relativní četnost (cumulative relative frequency) Pi = p1 + p2 + . . . + pi je součet relativní četnosti třídy a relativních četností tříd předchozích. Potom platí: k X i=1
ni = n,
k X i=1
pi = 1,
i X
nj = Ni ,
j=1
i X
pj = Pi , Nk = n, Pk = 1.
j=1
Při stanovení hranic tříd obvykle zachováváme tato dvě pravidla: - šířku třídy h volíme pro všechny intervaly shodnou, s vyjímkou krajních tříd pokud tvoří neomezené intervaly: - při stanovení šířky třídy h dodržujeme Sturgesovo pravidlo, kdy pro . 1 + 3, 3 log n. V tabulce jsou uvedeny počty počet tříd k platí, že k = tříd pro některé hodnoty rozsahů souboru. n 5 10 20 40 50 100 200 1000 k 3 4 5 6 7 8 9 11 - pokud jsou krajní intervaly dělení neomezené, pak za střed první, resp. poslední třídy volíme bod, který má od konečného krajního bodu třídy stejnou vzdálenost jakou má od středu sousední třídy. Při třídění kvalitativních dat postupujeme obdobně. Jenom místo intervalu tvoří třídu prvky, které mají stejný znak, nebo skupinu znaků. 118
7.4. Grafická znázornění Pro větší názornost požíváme místo tabulek znázornění datového souboru pomocí grafů. Používá se několika typů. Histogram (histogram) je graf kdy na vodorovnou osu znázorníme třídy a na svislou osu četnosti či relativní četnosti. Často se používá ve tvaru, kdy se hodnota odpovídající třídě znázorní jako sloupec s intervalem třídy jako základnou a výška je dána četností. Polygon četností a relativních četností je graf, kdy úsečkami spojíme body (yi , ni ), resp. (yi , pi ). Bodový graf (dot diagram) dostaneme tak, že na vodorovnou osu vyneseme třídy jako body i, 1 ≤ i ≤ k, a ve svislém směru vynášíme jednotlivé prvky třídy znázorněné jako jednotlivé body (i, j), j = 1, 2, . . . ni . Sloupkový graf je podobný histogramu, ale sloupce bývají oddělené, mají stejnou šířku a každý sloupec odpovídá jedné třídě. Používáme je předeším u kvalitativních dat. Kruhový (výsečový) diagram (pie chart) je znázornění pomocí výsečí kruhu, kde každé třídě odpovídá jedna výseč. Velikosti obsahů výsečí odpovídají četnostem třídy. Stem-and-Leaf diagram je uspořádání dat do tabulky, kdy první sloupec -stem=stonek odpovídá třídě a do řádku -leaf=list vypisujeme prvky třídy. Pokud tyto prvky uspořádáme podle velikosti mluvíme o uspořádaném diagramu. Krabicový nebo vrubový krabicový graf (box or whiskers plot) znázorňuje význačné a extrémní hodnoty souboru. 7.5. Příklad: Ze 7 možných výsledků jsme dostali datový soubor o 14 datech i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 xi 2 1 3 2 5 2 7 1 4 5 4 2 1 5 Tab. 7.1. Datům odpovídá tabulka četností Tab. 7.2 a bodový graf na obrázku Obr. 7.1.
119
4 3 2 1
třída 1 2 3 4 5 6 7 četnost 3 4 1 2 3 0 1
i
Obr. 7.1.
Polygon četností k Tab 7.2. • − • − • BB B • BB − BB B • −
•
1 2 3 4 5 6 7
Tab. 7.2.
4 3 2 1
− • − • • • − • • • • − • • • • •
4 3 2 1
• B B
1 2 3 4 5 6 7 Obr. 7.2.
Histogram četností k Tab. 7.2.
i
− − − − 1 2 3 4 5 6 7 Obr. 7.3.
i
Sloupkový graf k tabulce Tab. 7.2. 4 3 2 1
− − − − 1 2 3 4 5 6 7 Obr. 7.4.
i
Řada vlastností datového souboru se dá vyčíst z tvaru histogranu či polygonu četností. Ty odpovídají grafu hustoty u rozdělení pravděpodobnosti náhodné veličiny. Rozlišuje se několik charakteristických průběhů těchto grafů. - souměrný ve tvaru zvonu, trojúhelníku či rovnoměrný; - nesouměrné ve tvaru J, obráceného J, vpravo či vlevo protažené; - podle počtu vrcholů jedno-, dvou-, či vícevrcholové (unimodal, bimodal, multimodal) . 7.6. Charakteristiky (míry) polohy. Nejznámější a nejčastěji používanou charakteristkou polohy je aritmetický průměr hodnot souboru. 120
Průměr (mean, sample mean) datového souboru {x1 , x2 , . . . , xn } je definován vztahem n 1 X x= xk . n k=1 Pokud jsou {z1 , zk , . . . , zm } různé hodnoty souboru s četnostmi nj , j = 1, 2, . . . , m, a s relativními četnostmi pj , pak x=
m m X 1 X zj nj = zj pj . n j=1 j=1
Věta 1. Vlastnosti průměru Pro průměr datového souboru platí: 1. Součet odchylek hodnot souboru od průměru je roven nule, t.j. n P (xi − x) = 0. i=1 2. Přičteme-li k hodnotám souboru konstantu a, pak průměr nového souboru n P {yi = xi + a} je y = n1 (xi + a) = x + a. i=1
3. Násobíme-li hodnoty souboru číslem b, násobí se průměr také b, n P bxi = bx. neboť pro soubor {yi = bxi } je y = n1 i=1
Pokud soubor {x0 , x1 , . . . , xn } tvoří data, která odpovídají časové řadě sledující trend vývoje, pak jako charakteristiku polohy používáme průměrný přírůstek. Zavádíme jej jako průměr y souboru {yi = xi − x0 , 1 ≤ i ≤ n}. Je pak y=
x 1X 1 (xi − x0 ) = (xn − x0 ). n i=1 n
Medián (median). Průměr datového souboru je citlivý na hrubé chyby, kdy jedna chybná hodnota může výrazně změnit hodnotu průměru. Proto někdy používáme robustních charakteristik, které jsou méně citlivé na zadání chybné hodnoty. Mezi ně patří medián (median) x˜, který je pro datový soubor x1 , x2 , . . . xn definován vztahem *
x˜ =
1 2
x(m) , pro n = 2m − 1, x(m) + x(m+1) , pro n = 2m.
Hodnoty mediánů pro dva různé typy rozsahů souborů znázorníme na obrázcích. 121
n liché, n = 5 x˜ = x3 • x1 x2 x3 x4 x5
n sudé, n = 6 x˜ = (x3 + x4 )/2 • x1 x2 x3 x4 x5 x6
Obr. 7.5. medián Obr. 7.6. medián Používáme jej i v případech, kdy soubor obsahuje některá extrémní data, tzv. odlehlá pozorování. Ta se v hodnotě mediánu výrazněji neprojeví a medián tak lépe vystihuje „průměrÿ souboru. Další z robustních charakteristik je modus (mode) xˆ, který je definován jako hodnota souboru s největší četností, tedy xˆ = zj , nj ≥ ni , 1 ≤ i ≤ m. Poznamenejme, že modus nemusí být jednoznačně určen, může nabývat několika hodnot. Používáme jej v případech, kdy nás zajímají „špičkovéÿ hodnoty souboru, např. při sledování dopravní zátěže v místě, počet cestujících v hromadné dopravě, spotřeba elektrické energie během dne a roku, či průtok řekou. Kvantily, kvartily, decily, percentily Pro podrobnější popis rozdělení hodnot datového souboru používáme kvantily (quantiles). Kvantil datového souboru rozděluje soubor na dvě části. V jedné jsou hodnoty souboru, které jsou menší či nejvýše rovny kvantilu a ve druhé jsou hodnoty větší než kvantil. Definujeme pro p, 0 < p < 1, p − kvantil, resp. 100p%kvantil, (quantile) jako tu hodnotu x˜100p ze souboru {x1 , x2 , . . . , xn }, pro kterou je přibližně 100p% hodnot ze souboru menších a 100(1 − p)% hodnot je větších než x˜100p . Nejjemnější používané rozdělení souboru je pomocí percentilů (percentile) x˜1 , x˜2 , . . . , x˜99 . Často se využívají decily (deciles) x˜10 , . . . , x˜90 . Speciální názvy mají kvantily: - x˜50 je medián (median); - x˜25 dolní kvartil (lower quartile); - x˜75 horní kvartil (upper quartile). Jako mezikvartilové rozpětí IQR (interquartile range) se definuje rozdíl IQR = x˜75 − x˜25 . Jsou-li x(1) ≤ x(2) ≤ . . . ≤ x(n) hodnoty souboru uspořádané podle 122
velikosti pak p− kvantil, resp. 100p% kvantil určíme podle vzorce *
x˜100p =
x([np]+1) , 1 2 (x(np) + x(np)+1 )
pokud np není celé číslo, pro np celé,
kde [np] je celá část čísla, tedy celé číslo, které je nejbližší menší. Při větších rozdílech mezi jednotlivými daty používáme pro přesnější vymezení kvantilů lineární aproximace mezi sousedními hodnotami. Závěr modus snadno se najde, má ale minimální vypovídací hodnotu: medián určuje střed souboru a je méně citlivý na chyby; průměr zohledňuje všechny hodnoty, ale je citlivý na chyby. Useknuté průměry Je-li x(1) ≤ x(2) ≤ . . . ≤ x(n) uspořádaný výběr, pak pro číslo 0 < α < 0, 5 nazýváme hodnotu n−[nα] X 1 xα = x(i) n − 2[nα] i=[nα]+1
α-useknutým průměrem (alpha-trimmed mean). Hodnotu xαw
X 1 n−[nα] = [nα]x([nα]) + x(i) + [nα]x(n−[nα]+1) n i=[nα]+1
nazýváme α-winsorizovaný průměr (α-winsored mean). Symbol [nα] označuje největší celé číslo k, pro které je k ≤ nα. Jiné průměrové charakteristiky polohy. Pro soubory kladných dat používáme také jiné průměry. Jsou to: Geometrický průměr (geometric mean) xG , který je pro soubor x1 , x2 , . . . , xn kladných dat definován vztahem √ x G = n x 1 x 2 . . . xn . Takový charakter mají např. hodnoty, které zachycují časový vývoj, např. v ekonomice růst produkce, či cen, přírůstek počtu obyvatel a pod. Je-li časový vývoj popsán hodnotami souboru {x0 , x1 , . . . , xn }, pak k položíme zk = xxk−1 , 1 ≤ k ≤ n a hodnoty zk vyjadřují poměrný přírůstek 123
během zvoleného úseku sledovaného období. Průměrný přírůstek za celé období je pak dán hodnotou zG =
√ n
z1 .z2 . . . zn =
v u u xn n t .
x0
Vlastnosti geometrického průměru. Násobíme-li hodnoty původního souboru číslem c, násobí se týmž číslem i geometrický průměr. Pro logaritmus geometrického průměru platí: n 1X lnxi . lnxG = lnx = n i=1
Věta 2. Pro soubor s kladnými daty je xG ≤ x a rovnost nastane jedině pro x1 = x2 = . . . = xn . Důkaz: Funkce f (x) = ln x je konvexní a tedy pro x a h je f (x) ≤ f (h) + f 0 (h)(x − h). Situaci znázorníme na obrázku y
y = y(x) + y 0 (x)(x − x) y = lnx
1
x
x
Obr. 7.7. Jestliže zvolíme x = xi a h = x, pak pro 1 ≤ i ≤ n platí nerovnice (♠)
ln xi ≤ ln x + (xi − x)f 0 (x), 1 ≤ i ≤ n.
Sečtením dostaneme nerovnici n X
0
ln xi ≤ nln x + f (x)
i=1
n X
(xi − x) = nln x,
i=1
124
protože podle věty 1 je Dále je
n P
(xi − x) = 0.
i=1
n √ 1X ln xG = ln( n x1 x2 . . . xn ) = ln xi , n i=1
tedy ln xG ≤ ln x ⇒ xG ≤ x, neboť je funkce ln x rostoucí. Rovnost ve vztahu (♠) nastane jedině pro xi = x, tedy pokud je x1 = x2 = . . . = xn . Harmonický průměr (harmonic mean) xH , který je pro soubor kladných dat definován vztahem xH =
x−1 1
+
x−1 2
n . + . . . + x−1 n
Poznámka: Využívá se tam, kde má vypovídací hodnotu převrácená hodnota k původní. Nejčastěji je to v případech, kdy hodnota xi odpovídá době nutné k provedení nějakého pracovního úkonu. Převrácená hodnota pak uvádí, jaká část pracovního úkonu je splněna za jednotku času. Věta 3. Pro soubor s kladnými daty je xH ≤ xG ≤ x, přičmž rovnost nastane pouze pro x1 = x2 = . . . = xn . Důkaz: Z definice harmonického průměru vyplývá vztah n 1 1 1X = . xH n i=1 xi
což je aritmetický průměr souboru n 1 1 1X = ≥ xH n i=1 xi
r n
1 xi
. Podle věty 2 je ale
−2 −n x−1 1 x 2 . . . xn = √ n
1 1 = ⇒ xH ≤ xG . x 1 x 2 . . . xn xG
Rovnost platí pouze v případě, že x1 = x2 = . . . = xn . Kvadratický průměr (quadratic mean)xK je definován vztahem xK =
v u n u1 X t
n i=1
125
x2i .
Věta 4. Je x ≤ xK a rovnost platí pouze v případě, že x1 = x2 = . . . xn . Důkaz: Funkce f (x) = x2 je konkávní a tedy je x2 ≥ h2 + f 0 (h)(x − h). Situace znázorníme na obrázku y
y = y(x) + y 0 (x)(x − x)
y = x2
x
x
Obr. 7.8. Jestliže položíme x = xi a h = x, pak x2i
2
0
≥ (x) + f (x)(xi − x) ⇒
n X
x2i ≥ n(x)2 + f 0 (x)(xi − x) ⇒
i=1
n(xK )2 ≥ n(x)2 ⇒ xK ≥ x. Rovnost nastane pouze pro xi = x, tedy pro x1 = x2 = . . . = xn . Věta 5. Pro soubory kladných dat je x(1) ≤ xH ≤ xG ≤ x ≤ xK ≤ x(n) a rovnost nastane pouze v případě, že x1 = x2 = . . . = xn . 7.7. Charakteristiky (míry) rozptýlenosti. Rozpětí datového souboru (range) je hodnota R = xmax − xmin . Hodnota se po uspořádání souboru snadno spočítá, ale její hodnota je citlivá na zavlečené chyby. Vychází pouze ze dvou hodnot a ignoruje informaci z ostatních hodnot souboru. V některých případech proto používáme jako charakteristiku tohoto druhu hodnotu x˜90 − x˜10 . Provedeme vlastně „ořezáníÿ souboru, když vynecháme hodnoty menší než x˜10 a větší než x˜90 , tedy 10% nejmenších a 10% největších hodnot.Odstraníme tím vliv případných chybných hodnot, které leží na hranicích souboru. Podobnou charakteristikou je mezikvartilové rozpětí (interquartile range) IQR = x˜75 − x˜25 . 126
Střední kvadratická odchylka (MSD) (mean of squared deviation) je průměr čtverců odchylek od průměru a je definován vztahem n 1X (xi − x)2 . s = n i=1 2
Rozptyl (dispersion, variance) je definován vzrcem n 1 X n M SD = (xi − x)2 S = n−1 n − 1 i=1 2
a směrodatná odchylka (standard deviation) S je odmocninou z rozptylu. Věta 6. Vlastnosti rozptylu a MSD a vzorce pro výpočet. 1. Je 2
(n − 1)S =
n X
2
(xi − x) =
i=1
=
n X
x2i − 2x
n X
xi + x
i=1
i=1
n X
− 2x
i=1 n X
n X
i=1
i=1
n X
xi + n(x)2 =
i=1
xi =
S2 =
x2i
x2i − n(x)2 ⇒
n 1 X x2i − n(x)2 , n − 1 i=1
s2 = x2 − (x)2 .
2. Je-li yi = bxi + a, 1 ≤ i ≤ n, pak s2y = b2 s2x , sy = |b|sx ; Sy2 = b2 Sx2 , Sy = |b|Sx n P
Věta 7. Funkce S(α) = n1 (xi − α)2 nabývá svého minima s2 pro i=1 α = x. Důkaz: Je n n P P 0 S (α) = n1 2(xi − α)(−1) = 0 ⇒ (xi − α) = 0 ⇒ nx = nα. i=1
i=1
Pro soubory, které obsahují velké množství dat je výhodnější charakteristiky polohy a rozpětí odhadovat. Uvedeme některé jednoduché odhady a o dalších pojednáme později. Pomocné tvrzení (Cauchyova nerovnost): Pro n−tice čísel (a1 , a2 , . . . , ak ) a (b1 , b2 , . . . , bk ) je
k X
i=1
2
ai b i ≤
k X a2i b2i . i=1 i=1 k X
127
Jestliže interpretujeme n−tice čísel jako aritmetické vektory v Rk , pak lze uvedenou nerovnici přepsat do tvaru |(~a.~b)|2 ≤ |~a|2 .|~b|2 . Ta ale platí, neboť skalární součin dvou vektorů je roven |~a.~b| = |~a|.|~b|. cos (~a, ~b). Protože je funkce kosinus omezená v absolutní hodnotě jedničkou, uvedená nerovnice platí. Ve vztahu platí rovnost pouze v případě, že je kosinus úhlu nulový a to nastane, je-li ~b = α~a, t.j. bi = αai , 1 ≤ i ≤ n. Věta 8. Pro soubor xi , 1 ≤ i ≤ n platí √ max{|xi − x|; 1 ≤ i ≤ n} ≤ s n − 1. Důkaz: Položme v tvrzení pomocné věty ~a = (x1 − x, . . . , xi−1 − x, xi+1 − x, . . . , xn − x) a ~b = (1, 1, . . . , 1). Potom je 2
X
(xj − x) ≤ (n−1)
j6=i
X
(xj −x)2 = (n−1)
n X
(xj − x)2 − (xi − x)2 .
j=1
j6=i
Protože je n X
(xj − x) = 0 ⇒ (xi − x) = −
j=1
X
(xj − x)
j6=i
tak z předchozí nerovnice vyplývá, že (xi − x)2 ≤ (n − 1)
n X
(xj − x)2 − (n − 1)(xi − x)2 ⇒
j=1 n n−1 X (n − 1)2 2 2 2 (xi − x) ≤ S ≤ (n − 1)S 2 . (xj − x) = (n − 1)s = n j=1 n 2
Odmocněním získáme dokazovanou nerovnici. Tato nerovnice platí pro všechny hodnoty indexu i, 1 ≤ i ≤ n, platí tedy i pro tu kde nabývá funkce maximuma. Věta 9. Pro rozpětí souboru platí R2 s ≤ , 4 2
nR2 R n S ≤ tedy S ≤ . 4(n − 1) 2 n−1 s
2
128
Důkaz: Označme m = 12 (x(1) + x(n) ). Je tedy |xi − m| ≤ R2 , 1 ≤ i ≤ n. Funkce S(α) z věty 7 nabývá svého minima pro α = x a tedy je s2 = S(x) ≤ S(m) = Ze vztahu S 2 =
n 2 n−1 s
n 1X R2 (xi − m)2 ≤ . n i=1 4
dostaneme uvedený odhad.
Průměrná odchylka (mean of absolute deviation) da od bodu a je pro soubor dat xi definována vztahem da =
n 1X |xi − a|. n i=1
Nejčastěji se používá průměrná odchylka od aritmetického průměru x nebo mediánu x˜. K tomu nás vede následující vlastnost. Věta 10. Funkce da nabývá svého minima pro medián a = x˜. n P Důkaz: Je-li a < x(1) , pak je da = n1 (xi −a) = x−a, tedy d0 (a) = −1 i=1
a tudíž je funkce da klesající v intervalu (−∞, x(1) ). Obdobně pro a > x(n) je da = a − x, tedy d0 (a) = 1 a tudíž je funkce da rostoucí v intervalu (x(n) , ∞). Nechť je x(j) < a < x(j+1) pro nějaké 1 ≤ j ≤ n. Potom je 1 n 1X 1 X da = (a − x(i) ) + (x(i) − a). n i=1 n i=j+1
Je tedy
1 2j − n (j + (n − j)(−1)) = . n n Derivace funkce da je záporná a tedy funkce je klesající pro 2j − n < 0 a je kladná, tedy funkce je rostoucí, pro 2j − n > 0. Je-li n = 2m + 1 liché číslo, pak 2j < n = 2m + 1 ⇒ j < m + 1, tedy funkce da je klesající v intervalu (−∞, x(m+1) ) a 2j > 2m + 1 ⇒ j > m + 1, je tedy funkce da rostoucí v intervalu (a(m+1) , ∞). Nabývá tedy svého minima v bodě x(m+1) což je medián x˜. Je-li n = 2m sudé číslo, pak má funkce da derivaci nulovou a tedy je konstantní v intervalu (x(m) , x(m+1) ). Hodnota v tomto intervalu je její minimum a střed intervalu je medián x˜. Situaci pro rozsahy 1,2 a 3 znázorníme na obrázcích, na kterých je patrná idea důkazu. d0 (a) =
129
y
y da
da
@ @
@ @
@ @ @
@ @ @
@ @
x1
Obr.7.9
a
x1
x2
a
Obr. 7.10
y da @ @ @ @H H
H x1 x2 x3
a
Obr.7.11 Pokud používáme jako charakteristiku polohy medián x˜ = x0,5 , pak místo směrodatné odchylky s používáme jako charakteristiku rozptylu mezikvartilové rozpětí IQR = x˜0,75 − x˜0,25 . V tomto intervalu leží 50% hodnot souboru. Omezujeme tím vliv případných extrémních hodnot, které mohou být zatížené chybou. Pětičíselná charakteristika (five-number summary)souboru je pětice čísel xmin , x˜25 , x˜50 , x˜75 , xmax , na které jsou založeny krabicové grafy. Relativní variabilita Můžeme také používat charakteristiky relativní variability, které jsou definovány jako poměr směrodatné odchylky a některého průměru. Nejčastěji se používá variační koeficient, který je definován vztahem s V = . x Určuje nám jakou částí se podílí směrodatná odchylka na aritmetickém průměru dat. Je-li V > 0, 5 pak se jedná o nesourodý soubor. Variační 130
koeficient má tyto vlastnosti, které pro jednoduchost budeme uvažovat pro kladná data. Věta 11. Označme x soubor dat {xi }, 1 ≤ i ≤ n, bx = {bxi }, b > 0 a x ± a = {xi ± a}, a > 0. Potom pro variační koeficient V platí: a) V (bx) = V (x); b) V (x + a) < V (x); c) V (x + a) < V (x) < V (x − a), 0 < a < x. Poznamenejme, že s(bx) = bs(x), s(x + a) = s(x) a bx = bx, x + a = x + a. Odtud dostaneme, že V (bx) =
s(bx) bs(x) = = V (x). bx bx
Dále je s(x + a) s(x) s(x) = < = V (x) x+a x+a x a obdobně pro 0 < a < x je V (x + a) =
V (x − a) =
s(x − a) s(x) s(x) = > = V (x). x−a x−a x
Jako aproximace se používá relativní kvartilová odchylka Qr je definována vztahem x˜0,75 − x˜0,25 Qr = x˜0,75 + x˜0,25 Jiné charakteristiky Koeficient šikmosti (skewness) A3 =
n 1 X (xi − x)3 3 ns i=1
a koeficient špičatosti (kurtosis) A4 =
n 1 X (xi − x)4 − 3 4 ns i=1
Pro data, která jsou rozložena symetricky kolem hodnoty x je A3 = 0. Hodnoty A3 blízké nule odpovídají rozdělení, které se blíží symetrickému. Je-li A3 > 0, pak je rozložení dat sešikmené vpravo, menší hodnoty než průměr x jsou k němu více nahuštěny než hodnoty větší. Pro A3 < 0 je 131
rozdělení sešikmené vlevo, větší hodnoty jsou více nahuštěny k průměru než hodnoty nižší. Je-li A4 blízké nule, říkáme, že jedná o soubor s normální špičatostí. Při A4 < 0 mluvíme o souborech plochých a při A4 > 0 mluvíme o souborech špičatých. Příklad: Uvedeme výpočty uváděných charakteristik pro soubor dat z tabulky Tab. 7.1. Je x=
1 · 44 = 3, 143, 14
R = 7 − 1 = 6 a s2 = 3, 5165,
s = 1, 875.
Pro kvantily dostaneme: x˜10 = x2 = 1, x˜25 = x4 = 2,
x˜90 = x13 = 5,
x˜50 = x13 = 5,
x˜75 = x11 = 5.
Mezikvartilové rozpětí IQR = x˜75 − x˜25 = 5 − 2 = 3. 1, 875 s = 0, 597. Variační koeficient V = = x 3, 143 Sheppardovy korekce V případě výpočtů číselných charkteristik ze setříděného souboru opravujeme některé výběrové momenty, abychom potlačili vliv chyb, které vzniknou při nahrazení dat průměrem příslušné třídy. Označme: {x1 , x2 , . . . , xn } původní datový soubor; {z1 , z2 , . . . , zk } setříděný soubor; nj , 1 ≤ j ≤ k absolutní četnost j−té třídy; nj pj = , 1 ≤ j ≤ k relativní četnost j−té třídy; n h rozpětí třídy. Výběrové momenty původního souboru n 1 X Mr0 = xri , r−tý obecný moment; n i=1 n 1 X Mr = (xi − x)r , r−tý centrální moment; n i=1 n 1 X 0 xi ; x = M1 = n i=1 Výběrové momenty setříděného souboru 132
1 = n 1 mr = n m0r
k X j=1 k X
zjr nj
=
k X
zjr pj , r−tý obecný moment;
j=1
(zj − x)r nj =
j=1
k X
(zj − x)r pj , r−tý centrální moment;
j=1
Opravené hodnoty M10 = m01 = x; h2 h2 = − , M2 = m2 − ; 12 12 2 h M30 = m03 − m01 , M3 = m3 ; 4 h2 0 7h4 h2 7h4 0 0 M4 = m4 − m2 + , M4 = m4 − m2 + . 2 240 2 240 M20
m02
7.9. Písmenkové charakteristiky V některých aplikacích se používají označení charakteristik polohy a variability pomocí písmen. Označujeme tak kvantily, které mají po řadě hodnoty p = 21n a některé veličiny, které charakterizují rozptýlení hodnot souboru. M − medián x˜ = x0,5 , tedy 0, 5−kvantil; F − kvartily; FD dolní kvartil x0,25 ; FH horní kvartil x0,75 ; E − oktily; ED dolní oktil, kvantil x1/8 ; EH horní oktil, kvantil x7/8 ; D − sedecily; DD dolní sedecil, kvantil x1/16 ; DH horní sedecil, kvantil x15/16 . RF = FH − FD = IQR je mezikvartilové rozpětí. BD , BH vnitřní hradby souboru, kde BD = FD − 1, 5RF , BH = FH + 1, 5RF . Poznamenejme, že pro normované normální rozdělení N (0; 1) je . 0, 04. BH − BD ≈ 4, 2 a P (X < BD ∪ X > BH ) = √ F a (ID , IH ) interval spolehlivosti pro medián, kde ID = M − 1,57R n 1,57R F √ IH = M + n , přičemž n je počet prvků v souboru. 7.10. Grafická znázornění I. Graf dat x(1)
BD
FD
M
FH
133
BH
x(n)
Obr. 7.12 II. Krabicový graf x(1)
Šířku obdélníka volíme úměrnou hodnotě
BD M
n
x(n)
BH FD
√
FH
Obr. 7.13 III. Vrubový krabicový graf √ hodnotě n ID x(1)
Šířku obdélníka volíme úměrnou IH
@
BD
BH
@
FD
M
x(n)
FH
Obr. 7.14 Krabicové grafy jsou vhodné pro porvnání dvojice souborů, kdy případné rozdíly jsou okamžitě patrné z rozměrů „krabicÿ. IV. Histogram V. Graf polosum k testování symetrie. Na osu x vynášíme hodnoty x(i) a na osu y hodnoty „polosumÿ yi = 21 (x(i) + x(n+1−i) ). Pro symetrické rozdělení leží body kolem přímky y = M. VI. Kvantil=kvantilový Q − Q graf je grafem kvantilové funkce. i Na osu x vynášíme hodnoty Pi − kvantilů Q(Pi ), Pi = n+1 a na osu y hodnoty y = x(i) . VII. Pravděpodobnostní P − P graf je grafem distribuční funkce. i Na osu x vynášíme hodnoty x(i) a na osu y hodnoty Pi = n+1 . Oba grafy slouží k testování shody rozdělení, kde porovnáváme průběhy pro dva soubory. Používáme je ve dvojici, kdy využíváme toho, že 134
Q − Q graf je citlivější na chyby v okrajových datech souboru a P − P graf je naopak citlivý na chyby v okolí mediánu. VIII. Rankitový graf je kvantilový Q − Q graf, ve kterém porovnáváme rozdělení s normálním rozdělením. Na osu x vynášíme Pi kvantil xPi normálního rozdělení a na osu y hodnoty y = x(i). Parametry příslušnéo normálního rozdělení odhadneme pomocí hodnot 3 σ ˆ = (FH − FD ). 4 Odpovídající kvantily určíme pomocí vzorců µ ˆ = M,
x(i) − µ ˆ 1 Ui = Φ , xPi = Φ−1 (Ui−1 + Ui+1 ) , U0 = 0, Un+1 = 1. σ ˆ 2 V případě normálního rozdělení leží body na přímce. !
!
7.11. Vícerozměrné soubory Sledujeme-li dva znaky, pak soubor dat má charakter uspořádaných dvojic {(xi , yi ), 1 ≤ i ≤ n}. První otázkou, kterou obvykle řešíme je popis závislosti prvního a druhého znaku. Jako charakteristiku polohy volíme dvojici (x, y). Za charakteristiku variability obvykle volíme směrodatné odchylky sx , sy . Jako míru statistické závislosti volíme koeficient korelace. 7.12. Koeficient korelace (covariance, coefficient of variation) rxy dvou souborů {xi } a {yi }, 1 ≤ i ≤ n je definován vztahem rxy =
n 1 P n i=1 (xi
− x)(yi − y) sx .sy
Vlastnosti koeficientu korelace ! n 1 P a) rxy = ( n xi yi ) − xy /(sx .sy ); i=1
b) rxy = ryx ; rxx = 1; c) |rxy | ≤ 1; d) pro yi = axi + b je rxy = sgna. e) rxy = ±1 ⇒ y = ax + b. Důkaz: a) Pro čitatel zlomku dostaneme n X i=1
(xi − x)(yi − y) =
n X
(xi yi − xi y − xyi + xy) =
i=1
n X i=1
135
(xi yi − nxy).
Odtud dostaneme odvozovaný vzorec. b) Tvrzení jsou zřejmá. c) Z Cauchyovy nerovnosti dostaneme |
n X
(xi − x)(yi − y)|2 ≤
n X i=1
i=1
n X
(xi − x)2 .
(yi − y)2 = n2 s2x .s2y
i=1
a odtud plyne příslušné tvrzení. d) Pro soubor y = ax + b je podle: sy = |a|sx a y = ax + b. Dále je n n n 1X 1X 1X xi yi = xi (axi + b) = a xi yi + bx. n i=1 n i=1 n i=1 Je tedy a rxy =
n 1 P 2 n i=1 (xi )
! 2
− (x)
|a|sx .sx
+ bx − bx =
a = sgna. |a|
Druhá část tvrzení plyne z Cauchyovy nerovnosti, kde rovnost nastává pouze v případě, že yi − y = a(xi − x), tedy pro yi = axi + b. Vztah ve dvojici (xi , yi ), který jsme použili lze jednoduše graficky znázornit. Do roviny vyneseme body o souřadnicích (xi −x, yi −y). Závislost podobná lineární závislosti y = ax+b se projeví tak, že kladné hodnotě x bude odpovídat kladná hodnota y a záporné hodnotě x záporná hodnota y pro a > 0. V obrázku je to oblast I, která odpovídá kladným hodnotám čitatele ve vzorci pro koeficient korelace. Čím budou body bliže přímce y = ax, tím bude hodnota rxy blíže 1. Pro a < 0 bude závislost opačná, body ležet v oblasti II a hodnota bude bližší −1. V případě nezávislosti hodnot x a y budou body rozmístěny rovnoměrně v obou částech I i II a hodnota koeficientu korelace bude blízká nule, záporné a kladné hodnoty v součtu se vyrovnají. y I II x I
II
Obr. 7.15
136