STATISTIKA
Transcription
STATISTIKA
STATISTIKA UP FAMNIT, Biopsihologija Zapiski s predavanj Martin Raič NEPOPOLNA PUBLIKACIJA Kazalo 1. Opisna statistika 7 1.1 Tipi statističnih spremenljivk . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Povzemanje ene statistične spremenljivke – univariatna analiza . . . . . . . 10 1.3 1.2.1 Imenske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.2 Urejenostne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.3 Intervalske spremenljivke: interpolacija . . . . . . . . . . . . . . . . 16 1.2.4 Intervalske spremenljivke: mere centralne tendence . . . . . . . . . 18 1.2.5 Intervalske spremenljivke: mere razpršenosti . . . . . . . . . . . . . 20 1.2.6 Združevanje vrednosti v razrede . . . . . . . . . . . . . . . . . . . . 26 1.2.7 Primerjanje vrednosti razmernostnih spremenljivk . . . . . . . . . . 29 Mere povezanosti dveh statističnih spremenljivk – bivariatna analiza . . . . 31 1.3.1 Povezanost dveh imenskih spremenljivk . . . . . . . . . . . . . . . . 31 1.3.2 Povezanost dveh intervalskih spremenljivk . . . . . . . . . . . . . . 35 1.3.3 Povezanost intervalske in dihotomne spremenljivke . . . . . . . . . 42 1.3.4 Povezanost intervalske in imenske spremenljivke . . . . . . . . . . . 45 1.3.5 Povezanost dveh urejenostnih spremenljivk . . . . . . . . . . . . . . 47 1.3.6 Povezanost urejenostne in dihotomne spremenljivke . . . . . . . . . 50 1.3.7 Povezanost urejenostne in imenske spremenljivke 2. Teorija verjetnosti 2.1 8 . . . . . . . . . . 52 55 Verjetnostni prostori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.1.1 Osnovni pojmi verjetnosti . . . . . . . . . . . . . . . . . . . . . . . 55 2.1.2 Diskretna verjetnost . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.1.3 Relacije in operacije na dogodkih . . . . . . . . . . . . . . . . . . . 61 2.1.4 Aksiomi Kolmogorova . . . . . . . . . . . . . . . . . . . . . . . . . 63 3 4 M. RAIČ: STATISTIKA 2.2 2.3 Pogojna verjetnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.2.1 Definicija pogojne verjetnosti . . . . . . . . . . . . . . . . . . . . . 66 2.2.2 Relejni poskusi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Slučajne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.3.1 Osnovni pojmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.3.2 Navzkrižne porazdelitve . . . . . . . . . . . . . . . . . . . . . . . . 71 2.3.3 Bernoullijeva zaporedja poskusov . . . . . . . . . . . . . . . . . . . 76 2.3.4 Funkcije slučajnih spremenljivk . . . . . . . . . . . . . . . . . . . . 82 2.3.5 Porazdelitve urejenostnih slučajnih spremenljivk . . . . . . . . . . . 83 2.3.6 Porazdelitve intervalskih slučajnih spremenljivk . . . . . . . . . . . 86 2.3.7 Centralni limitni izrek . . . . . . . . . . . . . . . . . . . . . . . . . 92 3. Inferenčna statistika 99 3.1 Verjetnost uspeha poskusa . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 3.2 Frekvenčna porazdelitev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.3 Sredina pri znanem σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 3.4 Sredina pri neznanem σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Uvod Statistika je veda, ki preučuje bolj ali manj množične podatke (pojave) ali pa tudi pojme, ki so motivirani z njimi. Med drugim zajema: • Zbiranje podatkov, torej kako (pri določenih praktičnih, npr. finančnih omejitvah) pravilno zbrati podatke, od katerih lahko pričakujemo čim natančnejšo informacijo o zadevi, ki nas zanima. Pomemben del te veje je teorija vzorčenja (angl. sampling). • Povzemanje podatkov – temu pravimo opisna statistika (angl. descriptive statistics). Tudi povzetku podatkov (npr. povprečju) pravimo kar statistika. • Vrednotenje podatkov – temu pravimo inferenčna statistika. Njeni najpomembnejši veji sta statistično sklepanje (dajanje sklepov – izjav na podlagi dobljenih podatkov, angl. statistical inference) in statistično odločanje (dajanje navodil, kako ravnati, da bomo v povprečju imeli največjo možno korist, angl. decision theory). Matematična podlaga za teorijo vzorčenja in inferenčno statistiko je verjetnostni račun. 5 6 M. RAIČ: STATISTIKA 1. Opisna statistika Podatki so v statistiki vrednosti ene ali več statističnih spremenljivk na statistični množici. Statistično množico sestavljajo enote. Primeri statističnih množic: • če delamo anketo, množica anketirancev; • če gledamo vreme po različnih krajih, nabor vremenskih postaj; • če gledamo spreminjanje cen različnih artiklov s časom, nabor časov (enote so tako npr. 15. januar, 15. februar, 15. marec . . . ); Število enot imenujemo numerus in ga navadno označujemo z n, tudi N . Statistična spremenljivka je predpis, ki vsaki enoti (potem ko jo pomerimo) priredi določeno vrednost. Množico vrednosti posamezne spremenljivke imenujemo zaloga vrednosti. Statistične spremenljivke navadno označujemo z velikimi tiskanimi črkami s konca abecede, npr. X, Y , Z, njihove vrednosti pa z malimi črkami. Vrednosti statistične spremenljivke X tako navadno označimo z x1 , x2 , . . . xn . Tako je xi vrednost spremenljivke X na i-ti enoti statistične množice. Primer : vreme po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri: 7 8 M. RAIČ: STATISTIKA smer vetra hitrost vetra (km/h) Postaja oblačnost padavine temperatura (◦ C) Kredarica v oblakih posamezne snežinke −13 ↓ 4 pretežno oblačno – 2 ↓ 11 oblačno – 1 ց 4 5 ← 22 2 ր 4 Letališče Edvarda Rusjana Maribor Letališče Jožeta Pučnika Ljubljana Letališče Portorož oblačno Ljubljana oblačno rahlo dežuje rahlo dežuje Tukaj postaja predstavlja enoto, padavine, oblačnost, temperatura ter smer in hitrost vetra pa so spremenljivke. 1.1 Tipi statističnih spremenljivk Statistične spremenljivke delimo glede na njihove zaloge vrednosti oziroma glede na to, katere operacije lahko izvajamo na zalogah vrednosti. Ločimo opisne (kvalitativne, atributivne) in številske (kvantitativne, numerične) spremenljivke. Opisne spremenljivke se nadalje delijo na: • Imenske (nominalne), pri katerih gledamo le gole vrednosti, na katerih ni definiranih nobenih operacij. Primeri: barva, politična stranka, rasa, pasma, skupina. Včasih lahko povemo, katere vrednosti so si blizu oz. sosedne – to je pomembno pri združevanju vrednosti v razrede. • Urejenostne (ordinalne), pri katerih lahko povemo, katera vrednost je večja in katera manjša. Primeri: kakovost razpoloženja, čin, stopnja izobrazbe, trdota minerala, odtenek sivine (kadar ocenjujemo na oko). Številske spremenljivke pa se delijo na: • Intervalske, pri katerih lahko definiramo razlike med posameznima vrednostma in jih seštevamo, odštevamo ali delimo, medtem ko seštevanje, množenje in deljenje samih vrednosti a priori ni definirano oz. smiselno. Intervalske spremenljivke nimajo vnaprej določenega izhodišča (ničle). Lahko torej recimo povemo, da je razlika med vrednostma a in b dvakratnik razlike med b in c, ni pa recimo smiselno reči, da je vrednost b dvakratnik vrednosti a. Primeri intervalskih spremenljivk: letnica, nadmorska višina (v običajnih okoliščinah), temperatura (v običajnih okoliščinah, 9 M. RAIČ: STATISTIKA ko jo je smiselno gledati v Celzijevih stopinjah, recimo ko je ne povezujemo z energijo molekul). • Razmernostne, pri katerih lahko vrednosti same seštevamo, odštevamo in delimo. Le-te imajo naravno izhodišče (ničlo) in lahko recimo povemo, da je vrednost b dvakratnik vredosti a. Primeri: moč motorja, dohodek, odtenek sivine (če jo merimo z instrumentom ali določimo računalniško) in tudi temperatura, kadar jo je smiselno gledati v kelvinih, recimo pri fiziki nizkih temperatur (blizu absolutne ničle), pri kinetični teoriji plinov in pri preučevanju zvezd. Vsako razmernostno spremenljivko lahko gledamo tudi kot intervalsko, vsako intervalsko kot urejenostno in vsako urejenostno kot imensko. Poseben primer statističnih spremenljivk so dihotomne ali tudi binarne, to so take, ki lahko zavzemajo le dve vrednosti, recimo da/ne, za/proti, pravilno/nepravilno, kontrolna/eksperimentalna skupina. Tudi če je dihotomna spremenljivka opisna, jo lahko včasih naravno obravnavamo kot številsko, navadno tako, da vrednostma priredimo števili 0 in 1. Pri primeru z vremenom so padavine, oblačnost in smer vetra imenske spremenljivke, pri katerih lahko povemo, katere vrednosti so si blizu. Temperatura je intervalska, hitrost vetra pa je razmernostna spremenljivka. Smer in hitrost vetra lahko združimo v razmernostno vektorsko spremenljivko. Tudi te so pomembne, a se z njimi ne bomo ukvarjali. Če bi pri oblačnosti gledali le, koliko neba ni vidnega (meglo bi torej izenačili z oblačnostjo) in tega ne bi kvantitativno merili (recimo v odstotkih), temveč bi le ločili npr. med jasnim, delno oblačnim, pretežno oblačnim in oblačnim vremenom, bi bila oblačnost urejenostna spremenljivka. Delež neba v odstotkih, ki ga zakrivajo oblaki, pa bi bil razmernostna spremenljivka. Iz padavin je malo težje narediti urejenostno spremenljivko, ki ne bi mogla biti tudi razmernostna: težko je namreč primerjati dež in sneg. Najbolj objektivno bi bilo meriti, koliko milimetrov padavin pade recimo na uro: to bi bila razmernostna spremenljivka. Glavna razlika med urejenostnimi in intervalskimi spremenljivkami je ta, da ne moremo primerjati razkorakov med posameznimi vrednostmi. Zato tudi ne moremo računati povprečij. Dostikrat sicer urejenostno spremenljivko ‘povišamo’ v intervalsko, tako da vrednostim priredimo številske vrednosti. Rezultati nadaljnje obdelave pa so lahko zavajajoči. V nekem podjetju bi lahko imeli naslednjo strukturo izobrazbe: Nedokončana osnovna šola 70 Osnovna šola 5 Poklicna srednja šola 2 Gimnazija 1 Fakulteta 22 10 M. RAIČ: STATISTIKA in lahko bi izračunali, da je povprečna izobrazba osnovnošolska. Če pa bi šli fakultetno izobrazbo podrobneje razčlenjevat, bi recimo dobili: Nedokončana osnovna šola 70 Osnovna šola 5 Poklicna srednja šola 2 Gimnazija 1 Visoka strokovna izobrazba 2 Univerzitetna diploma bolonjske 1. stopnje 0 Univerzitetna diploma po starih programih 0 Univerzitetna diploma bolonjske 2. stopnje 0 Magisterij po starem programu 0 Doktorat 20 in izračunali, da je povprečna izobrazba poklicna srednja šola. 1.2 1.2.1 Povzemanje ene statistične spremenljivke – univariatna analiza Imenske spremenljivke Pri imenski (torej vsaki) statistični spremenljivki lahko povemo, kolikokrat se je pojavila določena vrednost. Temu pravimo frekvenca. Relativna frekvenca je frekvenca, deljena s številom enot. Zapis vseh vrednosti skupaj z (relativnimi) frekvencami imenujemo frekvenčna porazdelitev, ki jo lahko predstavimo v obliki tabele: vrednosti frekvence relativne frekvence a1 f1 f1◦ a2 f2 f2◦ .. .. .. . . . ak fk fk◦ Frekvenca fi je torej število enot, na katerih ima spremenljivka vrednost ai . Število enot z določeno lastnostjo bomo označevali z znakom ♯. Tako lahko s formulo zapišemo: fi = ♯(X = ai ) ; Velja še: i = 1, 2, . . . k . fi , f1◦ + f2◦ + · · · + fk◦ = 1 . n Frekvenčno porazdelitev imenskih spremenljivk grafično predstavimo s tortnim diagramom (angl. pie chart ali circle graph) ali s histogramom. f1 + f2 + · · · + fk = n , fi◦ = 11 M. RAIČ: STATISTIKA Za ročni izris tortnega diagrama potrebujemo kotomer. Kot, ki pripada i-ti vrednosti, je enak fi◦ · 360◦ . Modus je vrednost z najvišjo frekvenco. Označevali ga bomo z M , pogosta oznaka pa je tudi Mo ali Mo. Modusov je lahko več. Modus je ena od mer centralne tendence. Če vemo, katere vrednosti so si blizu oz. sosedne, lahko definiramo tudi lokalne moduse. Porazdelitev je bimodalna, če ima dva izrazita lokalna modusa, pri čemer enake frekvence na sosednih vrednostih obravnavamo kot en lokalni modus. Porazdelitev je multimodalna, če ima več kot dva izrazita lokalna modusa v prejšnjem smislu. Včasih modusi, posebej lokalni, za prvotne vrednosti ne odražajo realne slike. To se zgodi takrat, ko je vrednosti veliko, frekvence pa majhne. Če vemo, katere vrednosti so si blizu oz. sosedne, jih lahko združimo v razrede√in na njih gledamo frekvenčno porazdelitev. Grobo pravilo je, naj bo razredov približno n (korensko pravilo). Več o združevanju v razrede kasneje. 1.2.2 Urejenostne spremenljivke Vrednosti urejenostne spremenljivke lahko uredimo po velikosti – razvrstimo v ranžirno vrsto: x(1) ≤ x(2) ≤ · · · ≤ x(n) . Ranžirna vrsta je natančno določena z zgornjim pogojem in s tem, da se njena frekvenčna porazdelitev ujema s frekvenčno porazdelitvijo statistične spremenljivke. Elementu x(i) pravimo i-ta vrstilna statistika (angl. order statistics). Rang dane vrednosti je njen položaj v ranžirni vrsti: rang vrednosti x je enak i, če je x = x(i) . Če so vse vrednosti spremenljivke X različne in je vrednost x zavzeta, je njen rang natančno določen. Označimo ga z R(x). V tem primeru velja: R(x) = ♯(X ≤ x) = ♯(X < x) + 1 . Primer : če izmerjene vrednosti: 4, 2, 75, 42, 15, 63 razvrstimo v ranžirno vrsto, dobimo: 2, 4, 15, 42, 63, 75 in velja: R(2) = 1 , R(4) = 2 , R(15) = 3 , Rangi ostalih vrednosti (še) niso definirani. R(42) = 4 , R(63) = 5 , R(75) = 6 . 12 M. RAIČ: STATISTIKA Če vrednosti spremenljivke niso vse različne, govorimo o vezeh (angl. ties): vez je skupek dveh ali več enot, na katerih ima spremenljivka enako vrednost. Če so prisotne vezi, rang ni nujno natančno določen. Primer : naj bo A < B < C < D < E in naj bo dana ranžirna vrsta podatkov: A, B, B, B, B, C, D, D, D, E . Očitno je R(A) = 1, R(C) = 6 in R(E) = 10. Rang vrednosti B je lahko 2, 3, 4 ali 5, rang vrednosti D pa 7, 8 ali 9. Vsem možnim rangom vrednosti x pravimo surovi rangi. Spodnji rang je najnižji, zgornji rang pa najvišji možni surovi rang. Velja: spodnji rang = ♯(X < x) + 1 , zgornji rang = ♯(X ≤ x) . Spodnji in zgornji rang lahko definiramo za poljubno, ne le zavzeto vrednost. Vezani rang je aritmetična sredina spodnjega in zgornjega ranga in oznaka R(x) bo zadevala to število: spodnji rang + zgornji rang ♯(X < x) + ♯(X ≤ x) + 1 R(x) = = . 2 2 . Tako je v zgornjem primeru R(A) = 1, R(B) = 3 5, R(C) = 6, R(D) = 8 in R(E) = 10. Če bi namesto A, . . . E imeli števila, npr.: 21, 27, 27, 27, 27, 28, 29, 29, 29, 32 , . . . . bi veljalo npr. R(27) = 3 5, R(30) = 9 5, R(20) = 0 5 in R(40) = 10 5. Relativni ali tudi kvantilni rang je definiran po predpisu: r(x) = R(x) − n 1 2 . in ne glede na vezi velja: ♯(X < x) + ♯(X ≤ x) . 2n . . V prejšnjem primeru bi tako veljalo r(27) = 0 3, r(30) = 0 9, r(20) = 0 in r(40) = 1. r(x) = Relativni rang pove položaj posamezne vrednosti v skupini. Primer : oglejmo si rezultate dveh kolokvijev: Ambrož Blaž Cvetka Darja Emil 83 22 61 45 49 Florjan Gal Helena Iva Jana Karmen Lev Mojca 84 86 71 67 67 88 89 64 13 M. RAIČ: STATISTIKA in se vprašajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal? . . Cvetka ima rang 4 in relativni rang 3 5/5 = 0 7, Gal pa ima rang 6 in relativni rang . 5 5/8 = 0.6875, kar je skoraj enako. Pri zapisu frekvenčne porazdelitve urejenostne spremenljivke vrednosti uredimo po velikosti: a1 < a2 < · · · < ak ter dodamo še kumulativne frekvence in relativne kumulativne frekvence: relativne vrednosti frekvence frekvence a1 a2 a3 .. . f1 f2 f3 .. . ak fk kumulativne frekvence F0 = 0 F 1 = f1 F 2 = F 1 + f2 F 3 = F 2 + f3 .. . f1◦ f2◦ f3◦ .. . fk◦ relativne kumulativne frekvence F0◦ = 0 F1◦ = f1◦ ◦ F2 = F1◦ + f2◦ F3◦ = F2◦ + f3◦ .. . ◦ Fk = Fk−1 + fk = n Fk◦ = Fk−1 + fk◦ = 1 Seveda velja tudi: Fi◦ = Fi . n Primer : ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem študiju matematike na UL FMF v študijskem letu 2010/11: ocena neg. 6 7 8 9 10 fi 25 13 12 7 3 4 Fi 25 38 50 57 60 64 F◦ . i 0 391 . 0 594 . 0 781 . 0 891 . 0 938 1 Iz frekvenčne porazdelitve lahko odčitamo vrstilne statistike, in sicer velja: x(i) = aj , če je 1 + Fj−1 ≤ i ≤ Fj . Pri določanju i-te vrstilne statistike moramo torej pogledati prvo kumulativno frekvenco, ki je enaka vsaj i. Nekaj vrstilnih karakteristik iz prejšnjega primera: x(40) = 7, x(60) = 9, x(61) = 10. Iz kumulativnih frekvenc lahko odčitamo tudi range: vrednost aj ima surove range od 1 + Fj−1 do Fj in vezani rang: R(aj ) = Fj−1 + Fj + 1 . 2 14 M. RAIČ: STATISTIKA Seveda so vezani rangi definirani tudi za vrednosti, ki niso zavzete: če je a < a1 , je R(a) = 1/2; če je a > ak , je R(a) = n + 1/2. Za aj−1 < a < aj pa je R(a) = Fj−1 + 1/2. Rangi ocen pri prejšnjem primeru: . . R(neg.) = 13 , R(6) = 32 , R(7) = 44 5 , R(8) = 54 , R(9) = 59 , R(10) = 62 5 . Vrednost q je kvantil statistične spremenljivke X za delež p, če velja: ♯(X < q) ≤ p in n ♯(X ≤ q) ≥ p. n Primer : dana je ranžirna vrsta: 10, 10, 20, 30, 50, 80, 130, 210, 340, 550 . Kvantil q0.49 mora izpolnjevati pogoja: . ♯(X < q0.49 ) ≤ 4 9 in . ♯(X ≤ q0.49 ) ≥ 4 9 . Prvi pogoj izpolnjujejo vrednosti do vključno 50, drugega pa vrednosti od vključno 50 . naprej. Torej je 50 edini možni kvantil za delež 0 49. Kvantil q0.5 mora izpolnjevati pogoja: ♯(X < q0.5 ) ≤ 5 in ♯(X ≤ q0.5 ) ≥ 5 . Prvi pogoj izpolnjujejo vrednosti do vključno 80, drugega pa vrednosti od vključno 50 . naprej. Torej je vsako število iz intervala [50, 80] lahko kvantil za delež 0 5. To je kvantilni interval za ta delež. Kvantil q0.1 mora izpolnjevati pogoja: ♯(X < q0.1 ) ≤ 1 in ♯(X ≤ q0.1 ) ≥ 1 . Prvi pogoj izpolnjujejo vrednosti do vključno 10, drugega pa vrednosti od vključno 10 . naprej. Torej je 10 edini možni kvantil za delež 0 1. Lastnosti kvantilov: • Za vsak p ∈ [0, 1] obstaja kvantil dane spremenljivke za delež p. • Kvantili niso nujno enolično določeni. • Če sta q ′ in q ′′ kvantila za isti delež p in velja q ′ ≤ q ≤ q ′′ , je tudi q kvantil za ta delež. Kvantil za delež p je vrednost s kvantilnim rangom približno p. Velja tudi, da je vrednost, ki ima kvantilni rang p, kvantil za delež p. Sicer pa lahko kvantile (za deleže, ki niso nujno kvantilni rangi) dobimo iz vrstilnih karakteristik, in sicer: 15 M. RAIČ: STATISTIKA • Kvantil za delež 0 je katero koli število iz (−∞, x(1) ]. • Kvantil za delež 1 je katero koli število iz [x(n) , ∞). • Če je 0 < p < 1 in je np celo število, je kvantil za delež p katero koli število iz intervala [x(np) , x(np+1) ]. • Če je 0 < p < 1 in np ni celo število, je kvantil za delež p enolično določen, in sicer je enak x(⌈np⌉) . Kvantil za delež p navadno označimo s qp . Pomembni kvantili: • Kvantilu za delež 1/2 pravimo mediana in jo bomo označevali z m. Pogosta oznaka je tudi Me ali Me. Mediani pravimo tudi srednja vrednost in je mera centralne tendence. Pri dihotomnih spremenljivkah je mediana enaka modusu. • Kvantila za deleža 1/3 in 2/3 sta prvi in drugi tercil. • Kvantili za deleže 1/4, 1/2 in 3/4 so kvartili. Drugi kvartil je torej mediana. . . . • Kvantilom za deleže 0 1, 0 2, . . . 0 9 pravimo decili. . . . • Kvantilom za deleže 0 01, 0 02, . . . 0 99 pravimo centili ali tudi percentili. 1., 5., 95. in 99. percentil so pomembni v inferenčni statistiki, ker na njih temeljijo dogovorjeni pojmi. Pomembni so tudi q0.005 , q0.025 , q0.975 in q0.995 . Primer : pri ranžirni vrsti: 10, 10, 20, 30, 50, 80, 130, 210, 340, 550 je mediana kar koli iz [x(5) , x(6) ] = [50, 80] (kar smo že ugotovili), tretji kvartil pa je x(8) = 210. . . Vrednost 20 ima kvantilni rang 0 25 in je zato tudi kvantil za delež 0 25; kvantil za . ta delež je enolično določen. Prav tako pa je enolično določen tudi kvantil za delež 0 26, . prav tako je enak 20, vendar 0 26 ni kvantilni rang vrednosti 20. Pri sodem številu podatkov mediana tipično ni natančno določena: b b b b b b b b b b b b b b b pri lihem pa je: b b 16 M. RAIČ: STATISTIKA Še en primer z rezultati 50 meritev, kjer je s sivo označen interval za 9. decil : Primer : pri ocenah s kolokvijev so vsi kvartili natančno določeni. Prvi kvartil je sicer res na intervalu [x(16) , x(17) ], mediana na [x(32) , x(33) ] in tretji kvartil [x(48) , x(49) ], toda x(16) = x(17) = neg., x(32) = x(33) = 6 in x(48) = x(49) = 7, zato lahko zapišemo q1/4 = neg., m = 6 in q3/4 = 7. Vrstilne karakteristike lahko grafično predstavimo s škatlo z brki (angl. box plot). Navadno narišemo minimalno vrednost, kvartile in maksimalno vrednost, lahko pa tudi kakšne druge karakteristike. Primer : rezultati kolokvijev iz matematike na univerzitetnem študiju gozdarstva na UL BTF v študijskem letu 2004/05: 72 54 36 18 0 1.2.3 Intervalske spremenljivke: interpolacija Intervalske spremenljivke lahko vselej ‘degradiramo’ v urejenostne in na njih gledamo npr. kvantile. Kot smo spoznali, le-ti niso vselej enolično določeni. Včasih pa se pokaže potreba, da določimo eno samo vrednost. Pri intervalskih spremenljivkah imamo za to dosti več manevrskega prostora. Eden od prijemov, ki so tukaj na voljo, je interpolacija. Denimo, da opazujemo spreminjanje ene spremenljivke v odvisnosti od druge, npr. od časa. Ob časih t1 < t2 < . . . tn naj ima spremenljivka x vrednosti x1 , x2 , . . . xn . Kakšno vrednost pa bi imela ob času t, ki ni zajet v časih t1 , t2 , . . . tn (vozlih)? 17 M. RAIČ: STATISTIKA Interpoliramo lahko za tk ≤ t ≤ tk+1 (kar je izven tega, je ekstrapolacija). Primeri interpolacij: a) interpolacija z vrednostjo v prejšnjem vozlu: xˆ = xk ; b) interpolacija z vrednostjo v naslednjem vozlu: xˆ = xk+1 ; c) interpolacija z minimalno vrednostjo: xˆ = min{xk , xk+1 }; d) interpolacija z maksimalno vrednostjo: xˆ = max{xk , xk+1 }; e) interpolacija z aritmetično sredino: xˆ = (xk + xk+1 )/2; f) linearna interpolacija: xˆ = xk + Primer : xk+1 − xk (t − tk ) . tk+1 − tk t k xk 1 5 3 9 6 9 10 7 Interpolirane vrednosti za manjkajoče vmesne cele čase: tk 1 2 3 4 5 6 7 8 9 10 xk a) b) 5 5 5 5 9 9 9 9 9 9 9 9 9 9 9 9 7 9 7 9 7 7 7 7 c) 5 5 9 9 9 9 7 7 7 7 d) 5 9 9 9 9 9 9 9 9 7 e) 5 7 9 9 9 9 8 8 8 7 f) 5 7 9 9 9 9 . 85 8 . 75 7 Interpolacije a)–e) so zelo grobe. Graf za linearno interpolacijo: 18 M. RAIČ: STATISTIKA 10 x b b 8 b 6 b 4 2 1 2 3 4 5 6 7 8 9 t 10 Tako lahko interpoliramo range. Črtnemu grafikonu (angl. line chart, line graph) iz linearno interpoliranih relativnih rangov zavzetih vrednosti pravimo ogiva, tudi oživa (angl., fr. ogive, v prvotnem pomenu gotski lok). Pri podatkih: 21, 27, 27, 27, 27, 28, 29, 29, 29, 32 , dobimo: relativni rangi r ogiva 1 b b b 0.5 b b 21 27 28 29 32 x Interpoliramo tudi kvantile, in sicer na mnogo načinov. Interpolirani kvantili imajo pomembno vlogo v inferenčni statistiki. Iz ogive dobimo interpolirane range in eno vrsto interpoliranih kvantilov. 1.2.4 Intervalske spremenljivke: mere centralne tendence Mera centralne tendence za dano statistično spremenljivko nam grobo povedani da vrednost, proti kateri se nagibajo vrednosti te spremenljivke na statistični množici. Dve meri centralne tendence smo že spoznali: pri imenskih spremenljivkah je bil to modus, pri urejenostnih pa mediana. Pri intervalskih lahko mediano še interpoliramo. Pri intervalskih spremenljivkah pa kot mero centralne tendence najpogosteje gledamo aritmetično sredino (angl. arithmetic mean): µ= x1 + x2 + · · · + xn . n 19 M. RAIČ: STATISTIKA Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri (v Celzijevih stopinjah): −13, 2, 1, 5, 2 . Aritmetična sredina: −13 + 2 + 1 + 5 + 2 . = −0 6 5 To seveda ni verodostojna ocena za povprečno temperaturo vseh naseljenih krajev v Sloveniji, ker vzorec ni reprezentativen, a več o tem kasneje. Verodostojnejša ocena je mediana: m = 2. Če bi temperaturo −13 stopinj, ki je bila izmerjena na Kredarici, zamenjali npr. s temperaturo 0 stopinj, izmerjeno v kakšnem nižje ležečem kraju, bi za povprečje dobili 2 stopinji, mediana pa se ne bi spremenila. µ= Včasih je aritmetično sredino lažje izračunati po u-metodi : za poljubno izhodišče u velja: (x1 − u) + (x2 − u) + · · · + (xn − u) µ=u+ . n Razlikam xi − u pravimo tudi odkloni (angl. deviations). Primer : 876, 879, 878, 878, 877 . Če za izhodišče vzamemo u = 876, dobimo: µ = 876 + 0+3+2+2+1 . . = 876 + 1 6 = 877 6 . 5 Če spremenljivko linearno transformiramo, se enako zgodi tudi z vsemi omenjenimi merami centralne tendence: Količina Na stari spremenljivki Na novi spremenljivki Vrednost na i-ti enoti xi axi + b Modus M aM + b Mediana m am + b Aritmetična sredina µ aµ + b Pravimo, da mere centralne tendence komutirajo z linearnimi transformacijami. To velja tudi za vrstilne statistike in kvantile, če je a > 0: Količina Na stari spremenljivki Na novi spremenljivki Vrednost na i-ti enoti xi axi + b i-ta vrstilna statistika x(i) ax(i) + b Kvantil za delež p qp aqp + b Pri a < 0 pa se vrstilne statistike in kvantili zamenjajo: Količina Na stari spremenljivki Na novi spremenljivki Vrednost na i-ti enoti xi axi + b i-ta vrstilna statistika x(i) ax(n+1−i) + b Kvantil za delež p qp aq1−p + b 20 M. RAIČ: STATISTIKA Primer : če podatkom 876, 879, 878, 878, 877 , . ki imajo aritmetično sredino 877 6, odštejemo 870, dobimo podatke: 6, 9, 8, 8, 7 , . ki imajo aritmetično sredino 7 6. Če slednje pomnožimo z 10, dobimo podatke: 60, 90, 80, 80, 70 , ki imajo aritmetično sredino 76. Primer : v anglosaksonskih državah uporabljajo Fahrenheitove stopinje. Zveza med obojimi je: 9x 5(y − 32) ⇐⇒ y = + 32 x◦ C = y ◦ F ⇐⇒ x = 9 5 . . (0◦ F = −17.78◦ C ustreza hudemu mrazu, 100◦ F = 37.78◦ C pa hudi vročini v zmerno toplem podnebju). Temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri lahko torej zapišemo takole: Postaja temperatura (◦ C) temperatura (◦ F) . Kredarica −13 86 . Letališče Edvarda Rusjana Maribor 2 35 6 . Letališče Jožeta Pučnika Ljubljana 1 33 8 . Letališče Portorož 5 41 0 . Ljubljana 2 35 6 Kot smo že izračunali, je povprečna temperatura v stopinjah Celzija: −13 + 2 + 1 + 5 + 2 . = −0 6 , 5 v stopinjah Fahrenheita pa: . . . . . . 154 6 8 6 + 35 6 + 33 8 + 41 0 + 35 6 . = = 30 92 5 5 in to lahko dobimo tudi kot 1.2.5 9 5 · (−0.6) + 32. Intervalske spremenljivke: mere razpršenosti Mere razpršenosti povedo, za koliko se posamezne vrednosti med seboj razlikujejo. Ena od preprostih mer razpršenosti je interkvartilni razmik (angl. interquartile range, midspread, middle fifty): IQR = q3/4 − q1/4 . 21 M. RAIČ: STATISTIKA (če kvartila nista natančno določena, ju interpoliramo). Lahko gledamo tudi povprečni absolutni odklon (average absolute deviation) od primerne mere centralne tendence. Če le-to začasno označimo z u, dobimo količino: |x1 − u| + |x2 − u| + · · · + |xn − u| . n Ta količina je najmanjša, če za u vzamemo mediano. Zato je smiselno gledati povprečni absolutni odmik od mediane: AADu = AADm = |x1 − m| + |x2 − m| + · · · + |xn − m| . n Čeprav mediana ni natančno določena, je zgornja količina vedno natančno določena. Dostikrat se gleda tudi povprečni absolutni odklon od aritmetične sredine: AADµ = |x1 − µ| + |x2 − µ| + · · · + |xn − µ| . n Najlepše računske lastnosti pa imajo mere razpršenosti, ki temeljijo na varianci ali disperziji : (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 var = . n Varianca je torej povprečni kvadratni odklon od aritmetične sredine. Lahko jo izračunamo tudi po u-metodi: (x1 − u)2 + (x2 − u)2 + · · · + (xn − u)2 − (µ − u)2 . n Od tod se vidi tudi, da je povprečni kvadratni odklon od u najmanjši, če je u = µ. var = Primer : 8, 8, 9, 11, 11, 13, 14, 14, 14, 37 . Prvi in tretji kvartil sta natančno določena: q1/4 = 9, q3/4 = 14, torej je IRQ = 5. Mediana ni natančno določena – je namreč kar koli iz intervala [11, 13]. Toda kar koli iz tega intervala vzamemo za izračun AADm , dobimo isto: 2 · |8 − 11| + |9 − 11| + 2 · |11 − 11| + |13 − 11| + 3 · |14 − 11| + |37 − 11| . =45 10 2 · |8 − 13| + |9 − 13| + 2 · |11 − 13| + |13 − 13| + 3 · |14 − 13| + |37 − 13| . = 4 5. 10 Nadalje velja: 2 · (−6) + (−5) + 2 · (−3) + (−1) + 23 . = 13 9 , µ = 14 + 10 1 . . . . AADµ = 2 · |8 − 13 9| + |9 − 13 9| + 2 · |11 − 13 9| + |13 − 13 9| + 10 . . . + 3 · |14 − 13 9| + |37 − 13 9| = 4 68 . 22 M. RAIČ: STATISTIKA Končno je še: 2 · (8 − 14)2 + (9 − 14)2 + 2 · (11 − 14)2 + (13 − 14)2 + (37 − 14)2 − 10 . − (13 9 − 14)2 = . = 64 49 . var = Interkvartilni razmik in povprečni absolutni odklon sta neposredno primerljiva s podatki oz. njihovimi razlikami, varianca pa ne. Če podatke linearno transformiramo, se te tri količine transformirajo takole: Količina Na stari spremenljivki Na novi spremenljivki Vrednost na i-ti enoti xi axi + b Interkvartilni razmik IQR |a| · IQR Povpr. abs. odklon od mediane AADm |a| · AADm Povpr. abs. odklon od aritm. sredine AADµ |a| · AADµ Varianca var a2 · var Primer : zamislimo si, da so podatki iz prejšnjega primera dolžine v centimetrih. Če bi jih podali v metrih: . . . . . . . . . . 0 08, 0 08, 0 09, 0 11, 0 11, 0 13, 0 14, 0 14, 0 14, 0 37 , bi dobili: . . . . . . m ∈ [0 11, 0 13] , µ = 0 139 , AADm = 0 045 , AADµ = 0 0468 , var = 0 006449 . To so zdaj vse dolžine, razen variance, ki je v resnici ploščina. Varianca ni neposredno primerljiva s podatki. Zato računamo standardni odklon (angl. standard deviation), ki je kvadratni koren variance: √ σ = var . Varianco zato namesto z var navadno označimo kar s σ 2 . Standardni odklon je neposredno primerljiv s podatki. Pri prejšnjih podatkih bi, če bi računali v centimetrih, dobili: √ . . . σ = 64 49 = 8 03 , če bi računali v metrih, pa bi dobili: √ . . . σ = 0 006449 = 0 0803 . Če podatke linearno transformiramo, se standardni odklon transformira tako kot interkvartilni razmik ali povprečni absolutni odklon: Količina Na stari spremenljivki Na novi spremenljivki Vrednost na i-ti enoti xi axi + b Standardni odklon σ |a|σ 23 M. RAIČ: STATISTIKA Vse zgoraj omenjene količine preprosto dobimo iz frekvenčnih porazdelitev. Za zgled omenimo izražavo aritmetične sredine: 1 µ= f 1 a1 + f 2 a2 + · · · + f k ak = n = f1◦ a1 + f2◦ a2 + · · · + fk◦ ak = 1 = u + f1 (a1 − u) + f2 (a2 − u) + · · · + fk (ak − u) = n = u + f1◦ (a1 − u) + f2◦ (a2 − u) + · · · + fk◦ (ak − u) in variance: 1 f1 (a1 − µ)2 + f2 (a2 − µ)2 + · · · + fk (ak − µ)2 = n = f1◦ (a1 − µ)2 + f2◦ (a2 − µ)2 + · · · + fk◦ (ak − µ)2 = 1 = f1 (a1 − u)2 + f2 (a2 − u)2 + · · · + fk (ak − u)2 − (u − µ)2 = n = f1◦ (a1 − u)2 + f2◦ (a2 − u)2 + · · · + fk◦ (ak − u)2 − (µ − u)2 . σ2 = Pravimo, da je µ tehtana sredina vrednosti a1 , a2 , . . . ak z utežmi f1◦ , f2◦ , . . . fk◦ . V splošnem je tehtana sredina vsak izraz zgornje oblike, pri katerem so uteži nenegativne, njihova vsota pa je 1. Primer : pozitivne ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem študiju matematike na UL FMF v študijskem letu 2010/11: ocena fi 6 13 7 12 8 7 9 3 10 4 Velja: 13 · 6 + 12 · 7 + 7 · 8 + 3 · 9 + 4 · 10 285 . . = = 7 31 . 39 39 Lahko računamo tudi po u-metodi: µ= 27 . . 13 · (−2) + 12 · (−1) + 7 · 0 + 3 · 1 + 4 · 2 =8− = 7 31 . 39 39 Za izračun standardnega odklona je navadno potreben kalkulator. Lahko računamo tako, da damo µ v spomin in vtipkamo: µ=8+ 13 · (6 − µ)2 + 12 · (7 − µ)2 + 7 · (8 − µ)2 + 3 · (9 − µ)2 + 4 · (10 − µ)2 . = 1.649 , 39 √ . σ = var = 1.284 , var = lahko računamo tudi po u-metodi: var = 13 · (−2)2 + 12 · 12 + 7 · 02 + 3 · 12 + 422 . . − (8 − µ)2 = 1 649 . 39 24 M. RAIČ: STATISTIKA Večina kalkulatorjev ima vgrajene posebne funkcije za izračun povprečja, variance in standardnega odklona, biti pa moramo previdni, saj obstaja tudi popravljena varianca, ki je pomembna v inferenčni statistiki: s2 = (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 . n−1 Posebej preprosti so izračuni za dihotomne spremenljivke: • Če spremenljivka zavzame le vrednosti 0 in 1, je aritmetična sredina enaka kar relativni frekvenci vrednosti 1. • Če spremenljivka zavzame vrednost a z relativno frekvenco q, vrednost b pa z relativno frekvenco p, velja: AADm = min{p, q}|b − a| , AADµ = 2pq|b − a| , √ σ = |b − a| pq . Standardizacija je postopek, pri katerem od vrednosti odštejemo aritmetične sredine in jih delimo s standardnim odklonom. Dobimo standardizirane vrednosti: zi = xi − µ . σ Standardizirane vrednosti nam omogočajo primerjavo različnih spremenljivk, recimo na isti enoti. So invariantne za linearne transformacije s pozitivno strmino, t. j. le-te jih ohranjajo. Natančneje: Na stari spremenljivki Količina Vrednost na i-ti enoti Standardizirana vrednost xi zi X Primer : µ σ Če podatkom odštejemo 22, dobimo: 83 22 61 45 49 52 20 Na novi spremenljivki (a > 0) axi + b zi standardizirana vrednost . 1 55 . −1 50 . 0 45 . −0 35 . −0 15 0 1 Na novi spremenljivki (a < 0) axi + b −zi 25 M. RAIČ: STATISTIKA X µ σ 61 0 39 23 27 30 20 standardizirana vrednost . 1 55 . −1 50 . 0 45 . −0 35 . −0 15 0 1 in če te vrednosti podvojimo, dobimo: X µ σ 122 0 78 46 54 60 40 standardizirana vrednost . 1 55 . −1 50 . 0 45 . −0 35 . −0 15 0 1 Standardizirane vrednosti so ostale enake. Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri: Postaja/karakteristika Kredarica Letališče Maribor Letališče Ljubljana Letališče Portorož Ljubljana µ var σ temperatura (◦ C) −13 2 1 5 2 . −0 6 . 40 24 . 6 34 temperatura standardizirana (◦ F) vrednost . . 86 −1 95 . . 35 6 0 41 . . 33 8 0 25 . . 41 0 0 88 . . 35 6 0 41 . 30 92 0 . 130 38 1 . 11 42 1 Standardizirane vrednosti so enake, najsi jih računamo v Celzijevih ali Fahrenheitovih stopinjah. Standardizirana vrednost podobno kot relativni rang pove, kje v skupini je določen podatek (pri dnu, v sredini, pri vrhu . . . ) Še en primer : spet si oglejmo rezultate dveh kolokvijev: 26 M. RAIČ: STATISTIKA Ambrož Blaž Cvetka Darja Emil 83 22 61 45 49 Florjan Gal Helena Iva Jana Karmen Lev Mojca 84 86 71 67 67 88 89 64 in se vprašajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal? Pri prvem kolokviju je µ = 52 in σ = 20, torej je Cvetkina standardizirana vrednost: 61 − 52 . = 0 45 . 20 Pri drugem kolokviju pa je µ = 77 in σ = 10, torej je Galova standardizirana vrednost: 86 − 77 . = 0 9. 10 1.2.6 Združevanje vrednosti v razrede Kadar je vrednosti veliko, frekvence pa so majhne (če so vrednosti zelo natančno izmerjene, se vsaka od njih tipično pojavi le enkrat), se splača vrednosti združevati v razrede. Pri tem obstajajo določena pravila: • Razredi se ne smejo prekrivati. • Pri imenskih spremenljivkah, pri katerih vemo, katere vrednosti so bližnje, morajo razredi obsegati bližnje vrednosti. • Pri urejenostnih spremenljivkah mora vsak razred zajemati vrednosti iz določenega intervala. Paziti moramo na enoten dogovor, katera krajišča intervalov (spodnja, zgornja) razred vključuje in katerih ne. • Pri intervalskih spremenljivkah lahko določamo širine razredov. Kadar to delamo, se morajo sosedni intervali stikati: zgornja meja prejšnjega razreda se mora ujemati s spodnjo mejo naslednjega. Izbiramo čimbolj realistične meje: če so podatki, ki so na voljo, zaokroženi, poskusimo predvideti, iz katerih realnih vrednosti je lahko bila dobljena posamezna zaokrožena vrednost. Ne gre vedno za najbližjo vrednost – starost se zaokrožuje navzdol. Ni enotnega pravila, koliko razredov narediti oziroma kako široki naj bodo. • V splošnem se lahko držimo že omenjenega korenskega pravila, √ ki ga lahko zdaj interpretiramo tudi tako, da je v posameznem razredu približno n enot (kar nanese √ približno n razredov). Le-ti so lahko zelo različnih širin. 27 M. RAIČ: STATISTIKA • Če želimo dobiti enako široke razrede, Freedman–Diaconisovo pravilo pravi, naj bo √ 3 širina posameznega razreda približno 2 · IQR/ n. Primer : razporeditev točk svetovnem pokalu v alpskem smučanju za ženske do 7. 3. 2012. V kombinaciji tekmuje 39 smučark. Točke: 180, 125, 120, 110, 79, 63, 62, 56, 55, 50, 47, 45, 40, 39, 36, 32, 31, 28, 24, 22, 21, 20, 18, 18, 17, 16, 14, 13, 13, 9, 8, 6, 5, 4, 3, 3, 2, 1, 1 . Po korenskem pravilu bi moralo biti v posamezni skupini približno 6 smučark. Tako bi bila morda smiselna naslednja razporeditev: Točke Frekvenca Gostota Rel. gostota . . [0, 5) 6 1 200 0 03077 . . [5, 15) 7 0 700 0 01795 . . [15, 25) 8 0 800 0 02051 , . . [25, 40) 5 0 333 0 00855 . . [40, 60) 6 0 300 0 00769 . . [60, 180) 7 0 058 0 00150 Pri različno širokih razredih je smiselno narediti histogram iz gostot frekvenc (angl. frequency densities). Če je fi frekvenca, di pa širina i-tega razreda, je gostota frekvence njun kvocient, lahko pa definiramo tudi relativno gostoto: gi = fi , di gi◦ = fi◦ . di Delež enot, katerih vrednosti spremenljivke se nahajajo v določenih razredih, je tako enak ploščini ustreznih pravokotnikov v histogramu iz relativnih gostot frekvenc. Histogram za prejšnjo razdelitev smučark: 28 M. RAIČ: STATISTIKA gi 1.2 1 0.8 0.6 0.4 0.2 20 40 60 80 100 120 140 160 180 x Nazorneje pa bi bilo, če bi zadnjo (najvišjo) skupino razdelili še glede na 100 točk, smučarko z najvišjim rezultatom pa sploh prikazali posebej. Na primer: Točke Frekvenca Gostota Rel. gostota . . [0, 5) 6 1 200 0 03077 . . [5, 15) 7 0 700 0 01795 . . [15, 25) 8 0 800 0 02051 . . [25, 40) 5 0 333 0 00855 , . . [40, 60) 6 0 300 0 00769 . . [60, 100) 3 0 075 0 00192 . . [100, 150) 3 0 060 0 00154 180 1 Histogram: gi 1.2 b 1 0.8 0.6 0.4 0.2 20 40 60 80 100 120 140 160 180 x 29 M. RAIČ: STATISTIKA Po Freedman–Diaconisovem pravilu pa bi morala biti širina razreda približno: 2 · (50 − 9) . . √ = 24 18 , 3 39 kar pomeni, da je smiselno, če je širina razredov 25. Dobili bi: Točke Frekvenca [0, 25) 21 [25, 50) 8 [50, 75) 5 [75, 100) 1 . [100, 125) 2 [125, 150) 1 [150, 175) 0 [175, 200) 1 Histogram: fi 25 20 15 10 5 25 1.2.7 50 75 100 125 150 175 200 x Primerjanje vrednosti razmernostnih spremenljivk Razmernostne spremenljivke se odlikujejo po tem, da lahko poljubni dve vrednosti delimo. Če npr. delimo dva različna decila, dobimo interdecilni količnik. Pogosto je v uporabi razmerje q0.9 /q0.1 . 30 M. RAIČ: STATISTIKA Primer : razporeditev točk svetovnem pokalu v alpskem smučanju za ženske do 7. 3. 2012. V kombinaciji tekmuje 39 smučark. Točke: Iz q0.9 = 110 in q0.1 180, 125, 120, 110, 79, 63, 62, 56, 55, 50, 47, 45, 40, 39, 36, 32, 31, 28, 24, 22, 21, 20, 18, 18, 17, 16, 14, 13, 13, 9, 8, 6, 5, 4, 3, 3, 2, 1, 1 . . = 3 dobimo interdecilni količnik 36 7. Koeficient dinamike je razmerje med vrednostma razmernostne spremenljivke na dveh statističnih enotah: xs . Ks/t = xt indeks pa je koeficient dinamike, pomnožen s 100: xs Is/t = 100Ks/t = 100 . xt Koeficiente dinamike in indekse navadno uporabljamo takrat, ko so enote časi. Včasih določeno enoto, recimo t0 , vzamemo za izhodišče. Takrat koeficientom dinamike Kt/t0 oziroma indeksom It/t0 pravimo bazni koeficienti dinamike oz. indeksi ali pa tudi koeficienti dinamike oz. indeksi s stalno osnovo. Vse koeficiente dinamike in indekse lahko izpeljemo iz tistih s stalno osnovo: Ks/t = Ks/s0 , Kt/t0 Is/t = 100 Is/s0 . It/t0 Če so enote urejene po velikosti: t0 < t1 < t2 < · · · < tn (recimo če gre za čase), pa lahko gledamo verižne koeficiente dinamike: Kt1 /t0 , Kt2 /t1 , Kt3 /t2 , . . . Ktn /tn−1 oz. indekse: It1 /t0 , It2 /t1 , It3 /t2 , . . . Itn /tn−1 Velja: Ktn /t0 = Kt1 /t0 Kt2 /t1 · · · Ktn /tn−1 . Če so časi enakomerno razmaknjeni, ima smisel računati povprečni koeficient dinamike, ki je geometrična sredina verižnih koeficientov dinamike: p K tn /t0 = n Kt1 /t0 Kt2 /t1 · · · Ktn /tn−1 . Njegov pomen je, da, če bi vse verižne koeficiente dinamike zamenjali s povprečnim, se bazni koeficient dinamike Ktn /t0 ne bi spremenil. Podobno velja tudi za povprečni verižni indeks: p I tn /t0 = n It1 /t0 It2 /t1 · · · Itn /tn−1 . 31 M. RAIČ: STATISTIKA Primer : xi Kti /t0 Iti /t0 Kti /ti−1 Iti /ti−1 20 1 100 – – . . 25 1 25 125 1 25 125 . . 30 1 5 150 12 120 . . 27 1 35 135 09 90 √ . . . Povprečni koeficient dinamike: 3 1 35 = 1 105 . Povprečni verižni indeks: 110 5. 1.3 Mere povezanosti dveh statističnih spremenljivk – bivariatna analiza Gre za to, da želimo za dve statistični spremenljivki, definirani na isti statistični množici, izmeriti, koliko sta odvisni druga od druge. POZOR! Povezanost dveh statističnih spremenljivk še ne pomeni, da ena od njiju neposredno vpliva na drugo – povezanost ne implicira vzročnosti. Navadno povezanost nastane zaradi tega, ker na obe spremenljivki vpliva neka tretja spremenljivka (lahko zelo posredno), le-to pa je dostikrat težko določiti. Kvantitativno (številsko) opredeljevanje odvisnosti je odvisno od tipa spremenljivk. 1.3.1 Povezanost dveh imenskih spremenljivk Porazdelitev dveh imenskih spremenljivk predstavimo s kontingenčno tabelo: a1 a2 .. . ak b1 b2 f11 f12 f21 f22 .. .. . . fk1 fk2 f·1 f·2 · · · bl · · · f1l · · · f2l . . . .. . · · · fkl · · · f·l f1· f2· .. . fk· n Pri tem so: • a1 , a2 , . . . ak vrednosti prve spremenljivke, npr. X; • b1 , b2 , . . . bl vrednosti druge spremenljivke, npr. Y ; • fij navzkrižne frekvence (angl. joint frequencies, cross-frequencies): navzkrižna frekvenca fij pove, na koliko enotah je X = ai in hkrati Y = bj ali s formulo: fij = ♯(X = ai , Y = bj ) ; 32 M. RAIČ: STATISTIKA • fi· in f·j robne frekvence (angl. marginal frequencies): robne frekvence: fi· = fi1 + fi2 + · · · + fil = ♯(X = ai ) tvorijo frekvenčno porazdelitev spremenljivke X, robne frekvence: f·j = f1j + f2j + · · · + flj = ♯(Y = bj ) pa tvorijo frekvenčno porazdelitev spremenljivke Y . Seveda velja: n = f1· + f2· + · · · + fk· = f·1 + f·2 + · · · + f·l . Definiramo lahko tudi relativne navzkrižne frekvence in relativne robne frekvence: fij◦ fij , = n l fi·◦ fi· X = = fij , n j=1 l f·j◦ f·j X = = fij . n i=k Primer : barva oči in barva las Absolutne frekvence: oči\lasje modre zelene rjave Skupaj blond rdeči rjavi, črni Skupaj 7 2 2 11 4 0 2 6 0 0 9 9 11 2 13 26 oči\lasje modre zelene rjave Skupaj blond 0.269 0.154 0.000 0.423 Relativne frekvence: rdeči 0.077 0.000 0.000 0.077 rjavi, črni Skupaj 0.077 0.423 0.077 0.231 0.346 0.346 0.500 1.000 Obstaja veliko številskih mer (pokazateljev) povezanosti. Eden najboljših je Cramérjev koeficient asociiranosti, osnova za njegov izračun pa so teoretične relativne navzkrižne frekvence: f˜ij◦ = fi·◦ f·j◦ , Teoretične relativne frekvence v našem primeru: oči\lasje modre zelene rjave Skupaj blond 0.179 0.098 0.146 0.423 rdeči 0.033 0.018 0.027 0.077 rjavi, črni Skupaj 0.212 0.423 0.115 0.231 0.173 0.346 0.500 1.000 33 M. RAIČ: STATISTIKA Cramérjev koeficient asociiranosti pa je definiran s formulo: v u k X l ◦ ˜◦ 2 X u − f f 1 ij ij . V := t min{k, l} − 1 i=1 j=1 f˜ij◦ Pri našem primeru izračunamo: . . . . . . (0 269 − 0 179)2 (0 077 − 0 033)2 (0 077 − 0 212)2 V = + + + . . . 0 179 0 033 0 212 . . . . . . (0 154 − 0 098)2 (0 000 − 0 018)2 (0 077 − 0 115)2 + + + + . . . 0 098 0 018 0 115 1/2 . . . . . . (0 000 − 0 146)2 (0 000 − 0 027)2 (0 346 − 0 173)2 . + + + = . . . 0 146 0 027 0 173 . . = 0 55 . Cramérjev koeficient asociiranosti lahko izračunamo tudi iz (absolutnih) frekvenc. Za ta namen najprej izračunamo teoretične (absolutne) frekvence: fi· f·j f˜ij = nf˜ij◦ = n in velja: V = s χ2 , n min{k, l} − 1 kjer je χ2 Pearsonova statistika hi kvadrat (angl. chi-squared ): k X l k X l ◦ ˜◦ 2 X X f − f (fij − f˜ij )2 ij ij 2 χ =n = f˜◦ f˜ij i=1 j=1 ij i=1 j=1 Teoretične absolutne frekvence pri prejšnji tabeli barv oči in las so: oči\lasje modre zelene rjave Skupaj blond rdeči rjavi, črni Skupaj 4.65 0.84 5.50 11 2.54 0.46 3.00 6 3.81 0.69 4.50 9 11 2 13 26 . . Velja χ2 = 15 62. Lastnosti Cramérjevega koeficienta asociiranosti: • Velja 0 ≤ V ≤ 1. • Če sta X in Y neodvisni in je dovolj podatkov, je V blizu 0: več kot je podatkov, bolj natančno to velja. Kasneje pri inferenčni statistiki se bomo naučili, kako postaviti mejo. 34 M. RAIČ: STATISTIKA • Koeficient V je maksimalen (enak 1) natanko tedaj, ko spremenljivki natančno določata druga drugo (sta popolnoma povezani ). Kvalitativno opredeljevanje koeficienta asociiranosti je precej subjektivne narave. Tu se bomo držali naslednjih dogovorov: . • do 0 2: neznatna povezanost; . . • od 0 2 do 0 4: nizka povezanost; . . • od 0 4 do 0 7: zmerna povezanost; . . • od 0 7 do 0 9: visoka povezanost; . • od 0 9 do 1: zelo visoka povezanost. Pri primeru z barvo oči in las sta torej spremenljivki zmerno povezani. Če sta obe spremenljivki dihotomni (lahko zavzameta le dve vrednosti) in je njuna porazdelitev podana s kontingenčno tabelo: a1 a2 b1 b2 A B , C D je izražava Cramérjevega koeficienta asociiranosti preprostejša: |AD − BC| V =p . (A + B)(C + D)(A + C)(B + D) Več informacije pa nam da predznačena vrednost: AD − BC . φ= p (A + B)(C + D)(A + C)(B + D) • Če je φ > 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvo vrednost, nagibajo k temu, da tudi druga spremenljivka zavzame prvo vrednost; nasprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajo k temu, da tudi druga spremenljivka zavzame drugo vrednost. • Če je φ < 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvo vrednost, nagibajo k temu, da druga spremenljivka zavzame drugo vrednost; nasprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajo k temu, da tudi druga spremenljivka zavzame prvo vrednost. Primer : rezultati ankete z dvema vprašanjema: 1. Ali verjamete v horoskop? 2. Ali verjamete v NLP-je? 35 M. RAIČ: STATISTIKA so zbrani v naslednji tabeli: Horoskop\NLP vsaj malo ne Skupaj vsaj malo ne 5 7 6 9 11 16 Skupaj 12 15 27 5·9−7·6 . . = 0 017. 12 · 15 · 11 · 16 Gre torej za neznatno pozitivno povezanost. Velja φ = √ 1.3.2 Povezanost dveh intervalskih spremenljivk Povezanost dveh intervalskih spremenljivk lahko merimo s Pearsonovim korelacijskim koeficientom. Če vrednosti prve označimo z x1 , . . . xn , vrednosti druge pa z y1 , . . . yn , najprej izračunamo kovarianco: K = K x,y := (x1 − µx )(y1 − µy ) + (x2 − µx )(y2 − µy ) + · · · + (xn − µx )(yn − µy ) , n kjer sta µx in µy aritmetični sredini naših spremenljivk: µx = x1 + x2 + · · · + xn , n µy = y1 + y2 + · · · + yn . n Če je kovarianca pozitivna, pravimo, da sta spremenljivki pozitivno korelirani. Če je negativna, sta negativno korelirani. Če je enaka nič, sta nekorelirani. Kovarianco lahko računamo tudi po u-metodi: za poljubna u in v velja: K x,y = (x1 − u)(y1 − v) + (x2 − u)(y2 − v) + · · · + (xn − u)(yn − v) − (µx − u)(µy − v) . n Lahko jo računamo tudi iz kontingenčne tabele: k K x,y = = l 1 XX fij (ai − µx )(bj − µy ) = n i=1 j=1 k X l X i=1 j=1 k fij◦ (ai − µx )(bj − µy ) = l 1 XX = fij (ai − u)(bj − v) − (µx − u)(µy − v) = n i=1 j=1 = k X l X i=1 j=1 fij◦ (ai − µx )(bj − µy ) − (µx − u)(µy − v) 36 M. RAIČ: STATISTIKA Varianca statistične spremenljivke je njena kovarianca same s seboj. Če preučujemo več spremenljivk hkrati (multivariatna analiza), je pomembna kovariančna matrika: K11 K12 . . . K1n K21 K22 . . . K2n K = .. .. .. . . . . . . Kn1 Kn2 . . . Knn S Kij smo tu označili kovarianco i-te in j-te spremenljivke. V multivariatni analizi je analiza matrik (ki temelji na linearni algebri) ključnega pomena. Pearsonov korelacijski koeficient je definiran s formulo: r = rx,y = K x,y , σx σy kjer sta σx in σy standardna odklona naših spremenljivk: r (x1 − µx )2 + (x2 − µx )2 + · · · + (xn − µx )2 , σx = n r (y1 − µy )2 + (y2 − µy )2 + · · · + (yn − µy )2 σy = . n Lastnosti Pearsonovega korelacijskega koeficienta: • Definiran je, če nobena od spremenljivk ni konstantna. • Velja −1 ≤ r ≤ 1. • Če sta X in Y neodvisni in je dovolj podatkov, je r blizu 0 (kasneje pri inferenčni statistiki se bomo naučili, kako postaviti mejo). • Pearsonov korelacijski koeficient je maksimalen (enak 1), če je katera koli od spremenljivk naraščajoča linearna funkcija druge. • Pearsonov korelacijski koeficient je minimalen (enak −1), če je katera koli od spremenljivk padajoča linearna funkcija druge. Pearsonov korelacijski koeficient meri stopnjo linearne povezanosti med statističnima spremenljivkama. Absolutna vrednost Pearsonovega korelacijskega koeficienta (|r|) je v grobem primerljiva s Cramérjevim koeficientom asociiranosti. Še več, za par dihotomnih spremenljivk se to dvoje celo ujema, ne glede na to, kateri dve (različni) števili priredimo vrednostma posamezne spremenljivke (ki nista nujno številski – lahko sta le imenski). Če gledamo par urejenostnih dihotomnih spremenljivk in če številske vrednosti priredimo v skladu z urejenostjo, velja r = φ. 37 M. RAIČ: STATISTIKA Zato je smiselno, če tudi Pearsonov korelacijski koeficient enako kvalitativno opredeljujemo kot pri Cramérjev koeficient, s tem da lahko sedaj povemo tudi smer povezanosti: . vrednost r = −0 6 torej pomeni zmerno negativno koreliranost. Kvadratu korelacijskega koeficienta (r2 ) pravimo determinacijski koeficient. Njegovo kvalitativno opredeljevanje je torej naslednje: . • do 0 04: neznatna povezanost; . . • od 0 04 do 0 16: nizka povezanost; . . • od 0 16 do 0 49: zmerna povezanost; . . • od 0 49 do 0 81: visoka povezanost; . • od 0 81 do 1: zelo visoka povezanost. Primer : vremenska napoved temperatur za naslednjih nekaj dni dan petek sobota nedelja ponedeljek torek jutranja dnevna 14 19 12 20 10 21 11 22 12 21 Grafično lahko to ponazorimo z diagramom razpršenosti (tudi razsevni diagram, angl. scatter plot, scattergraph): dnevna 22 21 b b b 20 b 19 b 10 11 12 13 14 jutranja Izračun Pearsonovega korelacijskega koeficienta: xi 14 12 10 11 12 Vsota Povprečje yi xi − 10 yi − 20 (xi − 10)2 (yi − 20)2 (xi − 10)(yi − 20) 19 4 −1 16 1 −4 20 2 0 4 0 2 21 0 1 0 1 0 22 1 2 1 4 0 21 2 1 4 1 2 9 3 25 7 2 . . . . 18 06 5 14 04 38 M. RAIČ: STATISTIKA . . . . Kovarianca: K = 0 − 1 8 · 0√6 = −1 08. √ . . 2 . . . . . Standardna odklona: σx = 5 − 1 8 = 1 327, σ 1 4 − 0 62 = 1 020 y = . −1 08 . . . = −0 80. Pearsonov korelacijski koeficient: r = . . 1 327 · 1 020 . Determinacijski koeficient: 0 64. Jutranja in dnevna temperatura sta torej visoko negativno povezani: pri višji jutranji temperaturi lahko pričakujemo nižjo dnevno. Pri takšni napovedi, kot je ta (za nekaj zaporednih dni) ima pri korelaciji verjetno nejvečjo težo vpliv oblačnosti, ki viša jutranjo, a niža dnevno temperaturo. Pri napovedi za daljše obdobje bi bila korelacija bistveno drugačna. Še en primer : med 20 študenti izvedemo anketo z dvema vprašanjema: 1. Koliko ur na dan preživiš na računalniku? 2. Koliko ur na dan preživiš zunaj s prijatelji? Rezultati ankete so zbrani v naslednji kontingenčni tabeli (vrstice so ure na računalniku, stolpci pa ure s prijatelji): X \Y 1 2 3 4 5 f·j 1 1 2 3 0 1 7 2 1 2 1 1 1 6 3 0 2 1 1 0 4 4 0 0 0 1 0 1 5 1 1 0 0 0 2 fi· 3 7 5 3 2 20 Gre za intervalski spremenljivki, zato je smiselno gledati Pearsonov korelacijski koeficient. Najprej izračunamo povprečja: 1·3+2·7+3·5+4·3+5·2 . µx = = 2 7, 20 1·7+2·6+3·4+4·1+5·2 . µy = = 2 25 . 20 . Anketiranci so, kot trdijo, torej v povprečju na dan preživeli 2 7 ure za računalnikom in . 2 25 ure s prijatelji. Kot naslednji korak bomo izračunali standardna odklona. Če gremo računat po umetodi in vzamemo u = 3 (za x) in v = 2 (za y), dobimo: 1h (1 − 3)2 · 3 + (2 − 3)2 · 7 + (3 − 3)2 · 5 + (4 − 3)2 · 3 + (5 − 3)2 · 2 − σx2 = 20 . . − (2 7 − 3)2 = 1 41 , 1h 2 σy = (1 − 2)2 · 7 + (2 − 2)2 · 6 + (3 − 2)2 · 4 + (4 − 2)2 · 1 + (5 − 2)2 · 2 − 20 . . − (2 25 − 2)2 = 1 5875 , 39 M. RAIČ: STATISTIKA . . . . od koder dobimo σx = 1 1874 in σy = 1 2600. Kovarianca: 1 (−2) · (−1) · 1 + (−2) · 0 · 1 + (−2) · 1 · 0 + (−2) · 2 · 0 + (−2) · 3 · 1 + K x,y = 20 + (−1) · (−1) · 2 + (−1) · 0 · 2 + (−1) · 1 · 2 + (−1) · 2 · 0 + (−1) · 3 · 1 + + 0 · (−1) · 3 + 0 · 0 · 1 + 0 · 1 · 1 + 0 · 2 · 0 + 0 · 2 · 0 + + 1 · (−1) · 0 + 1 · 0 · 1 + 1 · 1 · 1 + 1 · 2 · 1 + 1 · 2 · 0 + + 2 · (−1) · 1 + 2 · 0 · 1 + 2 · 1 · 0 + 2 · 2 · 0 + 2 · 2 · 0 − . . − (2 7 − 3) · (2 25 − 2) = . = −0 225 . . −0 225 . . . = −0 15. Gre torej za neznatno Pearsonov korelacijski koeficient: r = . . 1 1874 · 1 2600 negativno povezanost. Še nekaj primerov diagramov razpršenosti z različnimi korelacijskimi koeficienti : To so rezultati tistih 52 študentov, ki so v študijskem letu 2010/11 na biopsihologiji pisali oba kolokvija iz statistike: y b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b r = 0.58 b b b bb b b bb bb b b b b b b b b b b x To so naključno generirani podatki, a naključnost je nastavljena tako, da so nekorelirani. 40 M. RAIČ: STATISTIKA y b b b b b r=0 b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b bbb b b bb b b b b b b b b b bb b b b b b bb b b b b b b b b b b b b bb b b b b b b b b b b x Ti podatki so visoko pozitivno korelirani. y b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b bb b b b b b bb b b b b b b r = 0.9 b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b bb b b b b b b b b b b x Skrajni primer je korelacija 1, ko gre za linearno odvisnost. bb y b b bb b bb b bb b b b b b b bb bbb bb b b r=1 x Korelacija je lahko tudi negativna: y r = −0.5 b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b bb b bb b b b b b b b b b b b bb b b b b b b b b b b b b x 41 M. RAIČ: STATISTIKA Tukaj je korelacija enaka −1: y r = −1 b b bb b b bbb b b b b b b b b b b bb b b b b b b x Še en primer nekoreliranih podatkov: b b y b b b b r=0 b b b b b b b b b b b b b b b b b b b b b b b b b b b b bb b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b bb b b bb b b b b b b bb bb b b b b x Tukaj se y deterministično izraža z x, podatki pa so nekorelirani. b y b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b r=0 b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b x 42 M. RAIČ: STATISTIKA 1.3.3 Povezanost intervalske in dihotomne spremenljivke Podatke, kjer sta na isti statistični množici definirani intervalska spremenljivka (recimo U ) in dihotomna spremenljivka (recimo S), lahko predstavimo bodisi kot: u1 , u2 , . . . u N s1 , s2 , . . . sN bodisi podatke razdelimo glede na vrednost dihotomne spremenljivke. Če le-ta zavzame vrednosti a in b, lahko podatke, na katerih druga spremenljivka zavzame vrednost a, predstavimo z: x1 , x2 , . . . xm , podatke, na katerih druga spremenljivka zavzame vrednost b, pa z: y1 , y2 , . . . yn . Še drugače, gledati dve spremenljivki, od katerih je druga dihotomna, na eni statistični množici, je ekvivalentno gledanju prve spremenljivke na dveh različnih statističnih množicah (dihotomna spremenljivka nam statistično množico razdeli na dve skupini). Primer : pri nekem izpitu gledamo rezultat in spol: Ime Rezultat (ui ) Spol (si ) Jan 22 M Karmen 39 Ž Barbara 73 Ž Kristina 34 Ž Domen 52 M Katja 34 Ž Aljaž 39 M Rok 52 M Sabina 38 Ž Diana 53 Ž Jerica 59 Ž Tilen 43 M Rezultate lahko ločimo po spolih: Ženske: x1 = 39 , x2 = 73 , x3 = 34 , x4 = 34 , x5 = 38 , x6 = 53 , x7 = 59 . Moški: y1 = 22 , y2 = 52 , y3 = 39 , y4 = 52 , y5 = 43 . Prikaz s pikami: b Ženske: Moški: b b b b b b b b b b b 43 M. RAIČ: STATISTIKA Če sta a in b numerični vrednosti, lahko izračunamo Pearsonov korelacijski koeficient. Brž ko je a > b, je le-ta enak: √ µx − µy mn , rpb = σ m+n ne glede na to, koliko sta vrednosti a in b dejansko enaki. Zato ni nujno, da je dihotomna spremenljivka numerična, lahko je le imenska. Koeficient za ta primer imenujemo točkovni biserialni korelacijski koeficient (angl. point biserial correlation coefficient). Oznaka σ se tu nanaša na celostni standardni odklon, t. j. standardni odklon spremenljivke U : r (u1 − µ)2 + (u2 − µ)2 + · · · + (uN − µ)2 σ= = N r (x1 − µ)2 + (x2 − µ)2 + · · · + (xm − µ)2 + (y1 − µ)2 + (y2 − µ)2 + · · · + (yn − µ)2 = , N µ pa je aritmetična sredina vseh podatkov: µ= u1 + u 2 + · · · + uN , N Pri našem primeru je: . . . . . . . . . µx = 47 14 , µy = 41 6 , µ = 44 83 , σ 2 = 169 8 , σ = 13 03 , torej je: rpb . . √ . 47 14 − 41 6 7 · 5 . . = = 0 2097 . . 13 03 7+5 Kvalitativno opredeljevanje točkovnega biserialnega koeficienta je enako kot pri Pearsonovem: gre torej za nizko povezanost v korist žensk. Ali drugače, ženske so pisale malo boljše kot moški. Aritmetična sredina vseh podatkov je enaka tehtani sredini aritmetičnih sredin posameznih skupin: n m µx + µy . µ= m+n m+n z utežema, ki sta sorazmerni z velikostma skupin, ki ju predstavljata. Kvadrat celostnega standardnega odklona, torej celostno (celotno, totalno) varianco, pa lahko zapišemo kot vsoto: 2 σ 2 = σW + σB2 , kjer je: n m σx2 + σ2 m+n m+n y varianca znotraj skupin (angl. within groups) ali tudi nepojasnjena varianca (angl. unexplained variance, pooled variance) in: mn σB2 = (µx − µy )2 (m + n)2 2 σW = 44 M. RAIČ: STATISTIKA varianca med skupinama (angl. between groups ali tudi pojasnjena varianca (angl. explained variance). To je tisti del variance, ki jo pojasnjuje skupina, v kateri je podatek. Na zgornji in splošnejših razčlenitvah variance temelji analiza variance (angl. analysis of variance, ANOVA), ki je pomemben del inferenčne statistike. Malo kasneje bomo omenili posplošitev na več skupin. Kvadrat točkovnega biserialnega korelacijskega koeficienta (točkovni biserialni determinacijski koeficient) predstavlja delež pojasnjene variance ali tudi moč učinka (angl. strength of effect, effect size), saj velja: 2 rpb = σB2 σB2 . = 2 σ2 σW + σB2 Njegovo kvalitativno opredeljevanje je torej enako kot pri determinacijskem koeficientu. Pri našem primeru je recimo: 5 . . 7 . . . µ = 44 83 = · 47 14 + · 41 6 . 12 12 Varianca med skupinama (varianca, pojasnjena s spolom), je enaka: σB2 = Nadalje je: 7·5 . . . . (47 14 − 41 6)2 = 7 5 . (7 + 5)2 . . . . σx2 = 191 3 , σx = 13 83 , . . . . σy2 = 121 8 , σy = 11 04 . in varianca znotraj skupin (nepojasnjena varianca) je enaka: 5 . . . . 2 . 7 σW = · 191 3 + · 121 8 = 162 3 . 12 12 . . . . . 2 Opazimo, da je res σ 2 = 169 8 = 7 5 + 121 8 = σB2 + σW . Delež pojasnjene variance je enak: . 75 . . . . 2 . = 0 04398 = 0 2097 . 169 8 Če sta obe spremenljivki dihotomni, velja rpb = φ. Kot mero za povezanost intervalske in dihotomne spremenljivke lahko gledamo tudi standardizirano razliko povprečij (angl. standardized mean difference) ali tudi Cohenov koeficient: µx − µy d= σW Točkovni biserialni in Cohenov koeficient nam dajeta isto informacijo, saj se izražata drug z drugim: d r m+n √ . rpb = q , d= √ mn 1 − r2 (m+n)2 2 d + mn 45 M. RAIČ: STATISTIKA Nudita pa dva različna pogleda: točkovni biserialni korelacijski koeficient je osredotočen bolj na povezanost, Cohenov koeficient pa bolj na razliko. V našem primeru je: 1.3.4 . . . 47 14 − 41 6 . . d= √ . = 0 435 . 162 3 Povezanost intervalske in imenske spremenljivke Podatke, kjer sta na isti statistični množici definirani intervalska spremenljivka (recimo X) in imenska spremenljivka (recimo S), lahko spet predstavimo bodisi kot: x1 , x2 , . . . xn s1 , s2 , . . . sn bodisi podatke razdelimo glede na vrednost imenske spremenljivke. Če le-ta zavzame vrednosti a1 , a2 , . . . ak , podatke preindeksiramo v: x11 , x12 , . . . x1n1 : vrednosti spremenljivke X, kjer je S = a1 x21 , x22 , . . . x2n2 : vrednosti spremenljivke X, kjer je S = a2 .. . xk1 , xk2 , . . . xkn2 : vrednosti spremenljivke X, kjer je S = ak Seveda velja n1 + n2 + · · · + nk = n. Še drugače, na eni statistični množici gledati dve spremenljivki, od katerih je druga imenska, ki zavzame k vrednosti, je ekvivalentno gledanju prve spremenljivke na k različnih statističnih množicah (imenska spremenljivka nam statistično množico razdeli na k skupin). Merjenje povezanosti med intervalsko in imensko spremenljivko temelji na analizi variance (natančneje, v našem kontekstu je to analiza variance z enojno klasifikacijo). Spet označimo z µ aritmetično sredino na celotni statistični množici: µ= x1 + x2 + · · · + xn , n z µ1 , µ2 , . . . µk pa aritmetične sredine na posameznih skupinah: µi = xi1 + xi2 + · · · + xini , ni Tedaj je µ tehtana sredina aritmetičnih sredin µi : µ= n2 nk n1 µ1 + µ2 + · · · + µk . n n n Celostna varianca: σ2 = (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 n 46 M. RAIČ: STATISTIKA spet razpade na nepojasnjeno in pojasnjeno varianco: 2 σ 2 = σW + σB2 , kjer je nepojasnjena varianca ali varianca znotraj skupin tehtana sredina posameznih varianc v skupinah: (xi1 − µi )2 + (xi2 − µi )2 + · · · + (xini − µi )2 , ni nk 2 n1 2 n2 2 σ1 + σ2 + · · · + σ , = n n n k σi2 = 2 σW pojasnjena varianca ali varianca med skupinami pa je tehtana sredina kvadratov odklonov aritmetičnih sredin posameznih skupin od celostne aritmetične sredine: σB2 = n2 nk n1 (µ1 − µ)2 + (µ2 − µ)2 + · · · + (µk − µ)2 . n n n Lahko jo izračunamo tudi po u-metodi: σB2 = n1 n2 nk (µ1 − u)2 + (µ2 − u)2 + · · · + (µk − u)2 − (µ − u)2 . n n n Zgoraj definirane variance so posplošitve varianc, ki smo jih gledali pri povezanosti intervalske in dihotomne spremenljivke. Tako povezanost intervalske in imenske spremenljivke spet merimo z deležem pojasnjene variance oz. močjo učinka: η2 = σB2 , σ2 Delež pojasnjene variance kvalitativno opredeljujemo enako kot determinacijski koeficient: . če je pojasnjenih 25% variance (η 2 = 0 25), to pomeni zmerno povezanost. Če je intervalska spremenljivka dihotomna, se delež pojasnjene variance ujema s kvadratom Cramérjevega koeficienta asociiranosti: η 2 = V 2 . Če sta torej obe spremenljivki dihotomni, velja η 2 = φ2 . Primer : želimo izmeriti povezavo med pogostnostjo zahajanja v kino in najbolj priljubljeno zvrstjo filma. Za ta namen izvedemo anketo z dvema vprašanjema: 1. Kolikokrat na mesec greš v kino? 2. Katera zvrst filma ti je najbolj všeč? (a) Komedija. (b) Akcija. (c) Romantični film. (d) Drama. (e) Grozljivka. 47 M. RAIČ: STATISTIKA Pogostnost zahajanja v kino je intervalska, zvrst filma pa imenska spremenljivka. Rezultati ankete so naslednji: zvrst filma\št. obiskov kina komedija akcija romantični drama grozljivka Skupaj 0 4 0 0 4 0 8 1 2 1 3 1 0 7 2 2 0 1 2 0 5 Skupaj Povprečje . 8 0 75 1 1 . 4 1 25 . 7 0 7143 0 – . 20 0 85 Celostna varianca: . . . 8 · (0 − 0 85)2 + 7 · (1 − 0 85)2 + 5 · (2 − 0 85)2 . = 0 6275 . σ = 20 2 Varianca med skupinami (pojasnjena varianca): σB2 . . . . . . . 8 · (0 75 − 0 85)2 + 1 · (1 − 0 85)2 + 4 · (1 25 − 0 85)2 + 7 · (0 7143 − 0 85)2 . = = 20 . . = 0 0436 . Delež pojasnjene variance: . . 0 0436 . . η = . = 0 069 . 0 6275 . Različnost najljubših zvrsti filma torej pojasni 6 9% variance števila obiskov kina. To pomeni nizko povezanost. 2 1.3.5 Povezanost dveh urejenostnih spremenljivk Povezanost dveh urejenostnih spremenljivk merimo s Spearmanovim ali Kendallovim korelacijskim koeficientom. Računanje slednjega je nekoliko bolj zapleteno, zato se bomo posvetili le prvemu. Splošni pristop pri urejenostnih spremenljivkah je, da uporabimo metode za intervalske spremenljivke na rangih. Spearmanov korelacijski koeficient je definiran natanko v tem (x) (x) (x) duhu: to je Pearsonov koeficient, izračunan za vezane range. Če z R1 , R2 , . . . Rn ozna(y) (y) (y) čimo vezane range spremenljivke X, z R1 , R2 , . . . Rn pa vezane range spremenljivke Y po enotah, se kovarianca rangov izraža s formulo: (x) ¯ R1(y) − R ¯ + R2(x) − R ¯ R2(y) − R ¯ + · · · + Rn(x) − R ¯ Rn(y) − R ¯ R1 − R KR(x) ,R(y) = n kjer je: ¯ = n+1 R 2 48 M. RAIČ: STATISTIKA povprečni rang (ker je le-ta celo število ali pa celo število in pol, u-metoda tu ni toliko smiselna). Nato izračunamo še standardna odklona rangov: s (x) ¯ 2 + R2(x) − R ¯ 2 + · · · + Rn(x) − R ¯ 2 R1 − R σR(x) = , n s (y) ¯ 2 + R2(y) − R ¯ 2 + · · · + Rn(y) − R ¯ 2 R1 − R , σR(y) = n Če ni vezi, velja kar: r n2 − 1 . 12 Spearmanov korelacijski koeficient torej definiramo po formuli: σR(x) = σR(y) = ρ = ρx,y := K R(x) ,R(y) σR(x) σR(y) Seveda lahko zgornje količine izračunamo tudi iz kontingenčne tabele. Če z R(x) (a) označimo vezani rang vrednosti a glede na spremenljivko X, z R(y) (b) označimo vezani rang vrednosti b glede na spremenljivko Y , velja: K R(x) ,R(y) σR(x) σR(y) k l 1 XX ¯ R(y) (bj ) − R ¯ , = fij R(x) (ai ) − R n i=1 j=1 v u k u1 X ¯ 2, fi· R(x) (ai ) − R =t n i=1 v u l u1 X ¯ 2. f·j R(y) (bj ) − R =t n j=1 Spearmanov korelacijski koeficient je primerljiv s Pearsonovim in ga tudi enako kvalitativno opredeljujemo. Če sta obe spremenljivki dihotomni, se Spearmanov in Pearsonov koeficient ujemata. Nasploh ima Spearmanov korelacijski koeficient podobne lastnosti kot Pearsonov: • Definiran je, če nobena od spremenljivk ni konstantna. • Velja −1 ≤ ρ ≤ 1. • Če sta X in Y neodvisni in je dovolj podatkov, je ρ blizu 0 (kasneje pri inferenčni statistiki se bomo naučili, kako postaviti mejo). • Spearmanov korelacijski koeficient je maksimalen (enak 1), če je katera koli od spremenljivk strogo naraščajoča (a ne nujno linearna) funkcija druge. 49 M. RAIČ: STATISTIKA • Spearmanov korelacijski koeficient je minimalen (enak −1), če je katera koli od spremenljivk strogo padajoča (a ne nujno linearna) funkcija druge. Spearmanov korelacijski koeficient torej meri stopnjo monotone povezanosti. Tudi Kendallov korelacijski koeficient (τ ) je primerljiv s Spearmanovim. Primer : želimo izmeriti povezavo med zadovoljstvom s telesno težo in subjektivnim vplivom medijev. Za ta namen izvedemo anketo z dvema vprašanjema, pri katerih imamo naslednje izbire: 1. Ali ste zadovoljni s svojo težo? (a) Da. (b) Srednje. (c) Ne. 2. V kolikšni meri mediji vplivajo na vašo samopodobo? (a) Sploh ne vplivajo. (b) Srednje vplivajo, z njimi se primerjam. (c) Močno vplivajo, sam(a) sebi se zdim grd(a). Obe spremenljivki (zadovoljstvo s telesno težo in vpliv medijev) sta tako urejenostni. Rezultati ankete so predstavljeni v naslednji kontingenčni tabeli: Zad. s težo\Vpliv medijev da srednje ne Skupaj ga ni 8 2 2 12 srednji 1 1 4 6 močan 0 0 2 2 Skupaj 9 3 8 20 ¯ = 10.5. Povprečni rang: R Rangi posameznih odgovorov in njihovi odmiki od povprečnega: ai R(x) (ai ) da 5 srednje 11 . ne 16 5 ¯ R(x) (ai ) − R . -5 5 . 05 6 Standardna odklona rangov: r σR(x) σR(y) bj da srednje ne R(y) (bj ) . 65 . 15 5 . 19 5 ¯ R(y) (bj ) − R -4 5 9 1 . 2 . 2 . 2 = 9 · (−5 5) + 3 · 0 5 + 8 · 6 = 5 296 , 20 r 1 . 12 · (−4)2 + 6 · 52 + 2 · 92 = 5 020 . = 20 50 M. RAIČ: STATISTIKA Kovarianca rangov: K R(x) ,R(y) 1 . . . = 8 · (−5 5) · (−4) + 1 · (−5 5) · 5 + 0 · (−5 5) · 9 + 20 . . . + 2 · 0 5 · (−4) + 1 · 0 5 · 5 + 0 · 0 5 · 9 + + 2 · 6 · (−4) + 4 · 6 · 5 + 2 · 6 · 9 = . = 16 35 . Spearmanov korelacijski koeficient: . 16 35 . . . = 0 615 . ρ= . . 5 296 · 5 020 Gre torej za zmerno povezanost. 1.3.6 Povezanost urejenostne in dihotomne spremenljivke Povezanost urejenostne in dihotomne spremenljivke se da meriti s Spearmanovim korelacijskim koeficientom (izbrani vrstni red vrednosti dihotomne spremenljivke vpliva le na predznak). Vendar pa je navadno boljša mera povezanosti Herrnstein–Vargha–Delaneyjev koeficient. Za izračun tega koeficienta potrebujemo ranžirno vrsto vseh vrednosti prve (urejenostne) spremenljivke. Označimo z R(a) vezani rang vrednosti a glede na to ranžirno vrsto. Nato podatke razdelimo glede na vrednosti druge (dihotomne spremenljivke), nastaneta dve skupini. Če so: x1 , x2 , . . . xm vrednosti prve spremenljivke v prvi skupini, y1 , y2 , . . . yn pa vrednosti prve spremenljivke v drugi skupini, je Herrnstein–Vargha–Delaneyjev koeficient definiran s predpisom: R(x1 ) + R(x2 ) + · · · + R(xm ) − m(m+1) 2 = mn R(y1 ) + R(y2 ) + · · · + R(yn ) − n(n+1) 2 . =1− mn A := (navadno računamo po tisti različici, kjer je treba sešteti manj rangov). Lastnosti Herrnstein–Vargha–Delaneyjevega korelacijskega koeficienta: • Definiran je vedno. • Velja 0 ≤ A ≤ 1. M. RAIČ: STATISTIKA 51 • Če sta vrednost urejenostne spremenljivke in skupina neodvisni ter je dovolj podatkov, je A blizu 1/2 (kasneje pri inferenčni statistiki se bomo naučili, kako postaviti mejo). • Koeficient A je minimalen (enak 0), če so vse vrednosti iz prve skupine (x1 , . . . xm ) strogo manjše od vseh vrednosti iz druge skupine (y1 , . . . yn ). • Koeficient A je maksimalen (enak 1), če so vse vrednosti iz prve skupine (x1 , . . . xm ) strogo večje od vseh vrednosti iz druge skupine (y1 , . . . yn ). Herrnstein–Vargha–Delaneyjev koeficient A ni neposredno primerljiv s Spearmanovim koeficientom ρ (t. j. Spearmanovim koeficientom urejenostne spremenljivke in skupine, če prvo skupino postavimo na prvo, drugo pa na drugo mesto), pač pa je ρ v grobem primerljiv z 2A − 1, A pa je v grobem primerljiv z (ρ + 1)/2. Zato je smiselno naslednje kvalitativno opredeljevanje: . • od 0 do 0 05: vrednosti iz prve skupine so skoraj vse manjše od vrednosti iz druge skupine; . . • od 0 05 do 0 15: vrednosti iz prve skupine so precej manjše od vrednosti iz druge skupine; . . • od 0 15 do 0 3: vrednosti iz prve skupine so zmerno manjše od vrednosti iz druge skupine; . . • od 0 3 do 0 4: vrednosti iz prve skupine so malo manjše od vrednosti iz druge skupine; . . • od 0 4 do 0 5: vrednosti iz prve skupine so neznatno manjše od vrednosti iz druge skupine; . . • od 0 5 do 0 6: vrednosti iz prve skupine so neznatno večje od vrednosti iz druge skupine; . . • od 0 6 do 0 7: vrednosti iz prve skupine so malo večje od vrednosti iz druge skupine; . . • od 0 7 do 0 85: vrednosti iz prve skupine so zmerno večje od vrednosti iz druge skupine; . . • od 0 85 do 0 95: vrednosti iz prve skupine so precej večje od vrednosti iz druge skupine; . • od 0 95 do 1: vrednosti iz prve skupine so skoraj vse večje od vrednosti iz druge skupine. Koeficienta A in ρ ne nudita iste informacije: • Koeficient A opisuje, v kolikšni meri skupina določa nabor surovih rangov znotraj nje: skrajni vrednosti pomenita, da so vrednosti v eni skupini vse na eni strani, v drugi skupini pa vse na drugi strani ranžirne vrste, medtem ko so vrednosti znotraj posamezne skupine lahko različne. • Koeficient ρ pa opisuje, v kolikšni meri skupina določa vezane range znotraj nje: skrajni vrednosti pomenita, da so vse vrednosti znotraj posamezne skupine enake (vendar v obeh skupinah različne, sicer ni definiran). 52 M. RAIČ: STATISTIKA Primer : gledamo povezavo med končnim uspehom v 4. letniku srednje šole in spolom. Rezultati so naslednji: uspeh\spol nezadosten zadosten dober prav dober odličen Skupaj moški ženski 0 0 2 1 4 2 4 4 2 1 12 8 Skupaj Kumulativno Vezani rang 0 0 – 3 3 2 . 6 9 65 . 8 17 13 5 3 20 19 20 . Povprečni rang: 10 5. Če A vzamemo v korist moških, dobimo: . . 2 · 2 + 4 · 6 5 + 4 · 13 5 + 2 · 19 − 12·13 2 = 12 · 8 . . 1 · 2 + 2 · 6 5 + 4 · 13 5 + 1 · 19 − 8·9 2 =1− = 12 · 8 . . = 0 458 . A= Moški so bili torej neznatno slabši od žensk. 1.3.7 Povezanost urejenostne in imenske spremenljivke Povezanost urejenostne in imenske spremenljivke merimo s Kruskal–Wallisovim deležem pojasnjene variance. V skladu s splošno filozofijo obravnave urejenostnih spremenljivk je to delež pojasnjene variance za vezane range. Gre torej za vrsto analize variance. Če torej imenska spremenljivka S zavzame vrednosti a1 , a2 , . . . ak , lahko range urejenostne spremenljivke indeksiramo takole: R11 , R12 , . . . R1n1 : rangi na enotah, kjer je S = a1 R21 , R22 , . . . R2n2 : rangi na enotah, kjer je S = a2 .. . Rk1 , Rk2 , . . . Rkn2 : rangi na enotah, kjer je S = ak Seveda velja n1 + n2 + · · · + nk = n. ¯ = n + 1 , celostna varianca pa je enaka: Spet je povprečni rang vedno enak R 2 k n i 1 XX ¯ 2 σ = (Rij − R) n i=1 j=1 2 53 M. RAIČ: STATISTIKA in če ni vezi, je σ 2 = posameznih skupinah: n2 − 1 ¯1, R ¯2, . . . R ¯ k označimo povprečne range na . Če zdaj z R 12 ¯ i = Ri1 + Ri2 + · · · + Rini , R ni je pojasnjena varianca rangov enaka: σB2 = n1 ¯ ¯ 2 + n2 ( R ¯ 2 − R) ¯ 2 + · · · + nk ( R ¯ k − R) ¯ 2. (R1 − R) n n n Kruskal–Wallisov delež pojasnjene variance (moč učinka) pa je enak: 2 ηKW σB2 = 2, σ Primer : želimo izmeriti povezavo med počutjem in barvo zgornjega dela oblačila. Za ta namen vzamemo 20 anketirancev in: • Jih povprašamo, kako se počutijo, pri čemer jim damo na voljo 5-stopenjsko lestvico. To je urejenostna spremenljivka. • Si ogledamo barvo njihovega zgornjega oblačila. Barve razdelimo v štiri kategorije: temne (črna, rjava, siva, temno modra, vijoličasta), bela, svetle (rumena, rdeča, roza, oranžna, zelena, svetlo modra), pisane. To je imenska spremenljivka. Rezultati ankete: počutje\barva zelo slabo slabo nevtralno kar dobro odlično Skupaj Povprečje temna 0 2 4 4 1 11 . 11 27 bela 0 0 1 1 0 2 . 12 5 svetla 0 1 1 0 0 2 . 5 25 Celostni povprečni rang: pisana 0 0 4 1 0 5 . 10 1 Skupaj Kum. Rang 0 0 – 3 3 2 . 10 13 85 . 6 19 16 5 1 20 20 20 20 + 1 . = 10 5. 2 Povprečni rangi po skupinah v zadnji vrstici tabele so dobljeni na naslednji način: h i . . ¯ 1 = 1 2 · 2 + 4 · 8.5 + 4 · 16.5 + 1 · 20 = R 11 27 , 11 h i . . ¯ 2 = 1 1 · 8.5 + 1 · 16.5 = R 12 5 , 2 h i . . ¯ 3 = 1 1 · 2 + 1 · 8. 5 = 5 25 , R 2 h i . . ¯ 4 = 1 4 · 8.5 + 1 · 16.5 = R 10 1 . 5 54 M. RAIČ: STATISTIKA Celostna varianca: i 1h . 2 . . 2 . . 2 . 2 . 2 3 · (2 − 10 5) + 10 · (8 5 − 10 5) + 6 · (16 5 − 10 5) + 1 · (20 − 10 5) = 28 15 . σ = 20 Varianca znotraj skupin (pojasnjena varianca): h i . . . 1 . . . . . . . . 11·(11 27−10 5)2 +2·(12 5−10 5)2 +2·(5 25−10 5)2 +5·(10 1−10 5)2 = 3 525 . σB2 = 20 Kruskal–Wallisov delež pojasnjene variance: . . 3 525 . . 2 ηKW = . = 0 125 . 28 15 Gre torej za nizko povezanost. 2. Teorija verjetnosti 2.1 2.1.1 Verjetnostni prostori Osnovni pojmi verjetnosti Pojem verjetnost (angl. probability) v praksi navadno interpretiramo kot predvideni (ocenjeni, pričakovani) delež poskusov, pri katerih se zgodi določen dogodek. Primer : stavek: ‘Verjetnost, da boste pri statistiki dobili oceno 10, je 9%’ si navadno razlagamo kot: ‘Ocenjujemo, da bo 9% takih, kot ste vi, pri statistiki dobilo oceno 10.’ Take ocene dostikrat temeljijo na podatkih iz preteklosti, včasih pa tudi na simetriji ali fizikalnih dejstvih. Primer : če je kovanec simetričen, domnevamo, da je pošten, kar pomeni, da cifra in grb padeta z enako verjetnostjo, t. j. 1/2. Niso pa vsi kovanci vedno pošteni, še zlasti ne, če kovanec zavrtimo in čakamo, da se prevrne. Bolje je, če kovanec vržemo v zrak, tako da se velikokrat zavrti. Zapišimo zdaj to malo splošneje. Poskus je realizacija natančno določenih pogojev, pri katerih opazujemo enega ali več dogodkov. Po realizaciji poskusa mora biti za vsak dogodek jasno, ali se je zgodil ali ne. To ponazorimo z diagramom: dogodek poskus 55 56 M. RAIČ: STATISTIKA pri čemer pikčasta puščica pomeni, da je to, na kar kaže, znano šele po realizaciji poskusa. Pri prejšnjih dveh primerih je bil poskus opravljen izpit (v tiste, ki odnehajo, se tu ne bomo spuščali) in met kovanca. Pri kovancu je smiselno obravnavati dogodka ‘pade grb’ in ‘pade cifra’, pri izpitu pa je dogodkov, ki jih je smiselno obravnavati, več, npr. ‘dobimo 10’, ‘dobimo 6’, ‘dobimo več kot 7’ itd. Ali se je dani dogodek zgodil ali ne, izvemo šele po realizaciji poskusa. Navadno pa želimo kaj izračunati, še preden izvedemo poskuse. Zato je smiselno vzpostaviti pojem, na podlagi katerega lahko a priori (že pred izvedbo poskusa) opredelimo, ali se je posamezen dogodek zgodil ali ne. To vlogo igra pojem izida: če poznamo izid, moramo za vsak dogodek vedeti, ali se je zgodil ali ne. Po realizaciji poskusa pa moramo vedeti tudi, kateri izid se je zgodil (kako se je izšel poskus). To prikažemo z diagramom: poskus dogodek izid pri čemer pikčasta puščica spet pomeni, da je to, na kar kaže, znano šele po realizaciji poskusa, neprekinjena puščica pa, da je znano a priori, že vnaprej. Teorija verjetnosti se gradi od izidov naprej: vsi možni izidi sestavljajo množico, dogodki pa so njene podmnožice. Množico izidov bomo označevali z Ω. Primer : pri metu kovanca je množica izidov Ω = {c, g}, možni dogodki pa so štirje: ∅ = {}, {c}, {g} in {c, g} = Ω. Prvi dogodek je nemogoč, drugi pa gotov. Primer : pri metu standardne kocke je smiselno postaviti: Ω={ b , b b , b b b , b b b b , b , b b b b b }. b b b b b Možnih dogodkov je 26 = 64 (za vsak izid imamo dve možnosti – ali je v izbranem dogodku ali pa ga ni notri). Oglejmo si naslednjih šest: A = {pade B = {pade C = {pade D = {pade E = {pade D = {pade natanko šest pik } = { } , najmanj pet pik} = { , } , liho število pik} = { , , } , manj kot šest pik} = { , , , , } , največ šest pik} = { , , , , , } = Ω več kot šest pik} = {} = ∅ . b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b (2.1.1) b b b b b b b b b Dogodek F je nemogoč, dogodek E pa je gotov. Pripomnimo naj, da za dogodke ne moremo vedno proglasiti vseh podmnožic prostora izidov, temveč le določeno družino podmnožic, ki mora imeti posebne lastnosti. Več o tem v nadaljevanju. V teoriji je verjetnost preslikava, ki vsakemu dogodku A priredi število P(A) iz intervala [0, 1], njegovo verjetnost. Omenili smo, da verjetnost navadno interpretiramo kot 57 M. RAIČ: STATISTIKA oceno za delež poskusov. V teoriji zahtevamo, da ima verjetnost določene lastnosti, ki jih ima tudi delež. To so tako imenovani aksiomi Kolmogorova, ki jih bomo predstavili v nadaljevanju. Primer : pri poštenem kovancu so verjetnosti vseh možnih dogodkov enake: P(∅) = 0 , 1 , 2 P({c}) = P({g}) = 1 , 2 P({c, g}) = 1 . Primer verjetnosti pri nepoštenem (pristranskem) kovancu: P(∅) = 0 , 2.1.2 . P({c}) = 0 7 , . P({g}) = 0 3 , P({c, g}) = 1 . Diskretna verjetnost Omenili smo že, da je v teoriji verjetnost nekaj, kar se obnaša podobno kot delež. No, če verjetnost izida (dogodka) kar definiramo kot delež poskusov, ki se izidejo na predpisani način (pri katerih se zgodi dani dogodek), velja: • Verjetnost vsakega izida je število iz intervala [0, 1]. • Verjetnost vsakega dogodka je vsota verjetnosti izidov, ki jih dani dogodek zajema. • Vsota verjetnosti vseh izidov je enaka 1. Če torej v tem primeru poznamo verjetnosti posameznih izidov, poznamo tudi verjetnosti dogodkov. To nam da navdih za naslednjo splošnejšo, bolj teoretično definicijo verjetnosti. Verjetnostna funkcija (angl. probability mass function, pmf ) na danem prostoru izidov Ω je predpis, ki vsakemu izidu ω ∈ Ω priredi število iz intervala [0, 1], ki ga bomo navadno označevali s p(ω) in mu rekli verjetnost izida. Vsota verjetnosti vseh izidov mora biti 1: X p(ω) = 1 . ω∈Ω Če je Ω = {ω1 , ω2 , . . . ωn }, kjer so vsi izidi ω1 , . . . ωn različni, zgornji zapis pomeni: p(ω1 ) + p(ω2 ) + · · · + p(ωn ) = 1 . Primer : pri poštenem kovancu je p(c) = p(g) = 21 , pri prejšnjem primeru pristranskega . . kovanca pa je p(c) = 0 7 in p(g) = 0 3. Verjetnostno funkcijo lahko zapišemo z verjetnostno shemo, ki je zapis oblike: ω1 ω2 · · · ωn , p1 p2 · · · pn 58 M. RAIČ: STATISTIKA kjer so ω1 , ω2 , . . . ωn vsi možni izidi, t. j. Ω = {ω1 , ω2 , . . . ωn }. Verjetnostna shema je v kanonični obliki, če so vse vrednosti ω1 , ω2 , . . . ωn različne. Tako zapisana verjetnostna shema definira verjetnostno funkcijo po predpisu: p(ω1 ) = p1 , p(ω2 ) = p2 , . . . p(ωn ) = pn . Verjetnostna shema poštenega kovanca: c g . 1/2 1/2 Primer verjetnostne sheme pristranskega kovanca: c g . . . 07 03 c g c g c g niso verjetnostne sheme: pri prvi je in Primer : . . . . . . , 1 2 −0 2 08 03 05 03 vsota verjetnosti manjša od 1, pri drugi večja od 1, pri tretji pa je sicer enaka 1, a verjetnosti niso iz intervala [0, 1]. Včasih ima smisel, da se vrednosti v verjetnostni shemi ponavljajo. V tem primeru vrednost verjetnostne funkcije dobimo s seštevanjem: X p(ω) = pi . i;ωi =ω in tako lahko vsako verjetnostno shemo zapišemo v kanonični obliki. Primer : verjetnostna shema: a b a c b . . . . . 01 02 03 01 03 je ekvivalentna verjetnostni shemi v kanonični a b . . 04 05 obliki: c . . 01 Diskretni verjetnostni prostor je množica izidov Ω skupaj z verjetnostno funkcijo. Verjetnost dogodka A z verjetnostno funkcijo definiramo kot: X P(A) := p(ω) . ω∈A Za enostavne dogodke (t. j. tiste, ki vsebujejo en sam izid) velja: P({ω}) = p(ω) . Če je verjetnostna funkcija podana z verjetnostno shemo (v kanonični ali nekanonični obliki), velja: X P(A) = pi . i;ωi ∈A 59 M. RAIČ: STATISTIKA Torej za vsako verjetnostno shemo velja p1 + p2 + · · · + pn = 1. Velja tudi, da vsaka shema zgornje oblike, v kateri je 0 ≤ pi ≤ 1 za vse i in še p1 + p2 + · · · + pn = 1, predstavlja verjetnostno shemo neke verjetnostne funkcije. Primer : poštena kocka ima verjetnostno shemo: b b b b b b b b b b b b b b b b b b b b b 1/6 1/6 1/6 1/6 1/6 1/6 . in verjetnosti dogodkov iz (2.1.1) so enake: P(A) = 1 , 6 P(B) = 2 1 = , 6 3 3 1 = , 6 2 P(C) = 5 , 6 P(D) = P(E) = 1 , P(F ) = 0 . Pri pošteni kocki so vsi izidi enako verjetni. V splošnem, če verjetnostni prostor vsebuje n enako verjetnih izidov, je p(ω) = 1/n za vse ω. Verjetnosti dogodkov se potem izražajo kot razmerja: ♯(A) ♯(A) P(A) = = . n ♯(Ω) Pri pošteni kocki lahko rečemo tudi, da je število pik izbrano na slepo iz množice {1, 2, 3, 4, 5, 6}. Splošno, slepa izbira (angl. by chance, uniformly at random) pomeni, da so vse možnosti, ki jih lahko izberemo, enako verjetne. Pri slepi izbiri je torej verjetnost dogodka kar delež izidov, ki so zajeti v tem dogodku. To spomninja na motivacijo za verjetnost iz podrazdelka 2.1.1, kjer je verjetnost ocena za delež poskusov, pri katerih se zgodi dani dogodek. No, če verjetnost dejansko definiramo kar kot delež poskusov, to pomeni, da smo privzeli, da je poskus izbran na slepo. Seveda pa ni nujno, da so vsi izidi enako verjetni. Primer : pri nepošteni kocki z verjetnostno shemo: . . . . . . 0 05 0 15 0 15 0 15 0 15 0 35 b b b b b b b b b b b b b b b b b b b b b (2.1.2) so verjetnosti prej omenjenih dogodkov enake: . . P(A) = p( ) = 0 35 , P(B) = p( ) + p( ) = 0 5 , . P(C) = p( ) + p( ) + p( ) = 0 35 , . P(D) = p( ) + p( ) + p( ) + p( ) + p( ) = 0 65 , P(E) = 1 , P(F ) = 0 . b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b Posvetimo se zdaj še malo slepi izbiri. Pomembna primera sta slepo vlečenje z vračanjem in brez vračanja. Slepo vlečenje r elementov z vračanjem iz dane množice pomeni, da so vse urejene r-terice (a1 , a2 , . . . ar ) izvlečenih elementov enako verjetne (ločimo torej različne vrstne rede vlečenja). Slepo vlečenje brez vračanja pa pomeni, da so enako verjetne vse tiste r-terice, ki imajo vse elemente različne. 60 M. RAIČ: STATISTIKA Primer : Iz množice kart {as, kralj, dama, fant} na slepo izvlečemo dve karti. Kolikšna je verjetnost, da bo med njima vsaj ena dama? Odgovor je odvisen od tega, ali vlečemo z vračanjem ali brez. Če vlečemo z vračanjem, verjetnostni prostor sestavlja naslednjih 16 enako verjetnih izidov: AA AK AQ AJ KA KK KQ KJ QA QK QQ QJ JA JK JQ JJ kjer prva črka pomeni prvo, druga pa drugi izvlečeno karto, in kjer se držimo standardnih kratic A za asa, K za kralja, Q za damo in J za fanta. Vsaj eno damo izvlečemo pri . natanko pri natanko 7 izidih. Verjetnost tega dogodka je torej 7/16 = 0 4375. Če pa vlečemo brez vračanja, verjetnostni prostor sestavlja le naslednjih 12 enako verjetnih izidov: AK AQ KA KQ QA QK JA JK JQ AJ KJ QJ in vsaj eno damo izvlečemo pri natanko 6 izidih (in v tem primeru je to isto kot reči, da . izvlečemo natanko eno damo). Verjetnost tega dogodka je zdaj torej 6/12 = 1/2 = 0 5. Slepo vlečenje je pomembno v statistiki, kjer mu pravimo enostavno slučajno vzorčenje s ponavljanjem ali brez, naboru izvlečenih elementov pa vzorec. Na statistični množici velikosti n obstaja nr možnih vzorcev s ponavljanjem in: n(n − 1)(n − 2) · · · (n − r + 1) vzorcev brez ponavljanja. Pri statističnem sklepanju vrstni red vlečenja navadno ni pomemben (podobno kot tudi ni bil pomemben pri dogodku, da je vsaj ena izvlečena karta dama). Če pri vzorčenju brez ponavljanja zanemarimo vrstni red, se ohrani, da so vsi vzorci enako verjetni (kar pa ni res pri vzorčenju s ponavljanjem). Vzorcev brez ponavljanja brez informacije o vrstnem redu pa je: n(n − 1)(n − 2) · · · (n − r + 1) n = . r! r Izrazu na desni pravimo binomski simbol. Le-ta v verjetnosti igra zelo pomembno vlogo. 10 · 9 · 8 10 = 120. Primer izračuna binomskega koeficienta: = 1·2·3 3 10 Velja pa tudi = 120. 7 61 M. RAIČ: STATISTIKA n n Nasploh velja = . Čisto vseeno je namreč, ali povemo, katerih r elemenr n−r tov smo vzeli v vzorec ali pa katerih n − r nismo vzeli. 2.1.3 Relacije in operacije na dogodkih • Pravimo, da je A način dogodka B, če vsi izidi, ki so v dogodku A, pripadajo tudi dogodku B. Pišemo A ⊆ B ali tudi B ⊇ A. Posebej velja, da je vsak dogodek tudi način samega sebe: A ⊆ A. • Unija (tudi vsota) dogodkov A in B je dogodek, ki ga sestavljajo tisti izidi, ki so v A ali v B. Unijo označujemo z A ∪ B, v starejši literaturi tudi z A + B. • Presek (tudi produkt) dogodkov A in B je dogodek, ki ga sestavljajo tisti izidi, ki so v A in hkrati v B. Presek označujemo z A ∩ B, v starejši literaturi tudi z AB. • Razlika dogodkov A in B je dogodek, ki ga sestavljajo tisti izidi, ki so v A, ne pa tudi v B. Razliko bomo označevali z A \ B, možna pa je tudi oznaka A − B. • Dogodka A in B sta nezdružljiva, če je A ∩ B = ∅. • Dogodka A in B sta si nasprotna, če sta nezdružljiva in je A ∪ B = Ω. Pravimo tudi, da je dogodek A nasproten dogodku B oziroma B nasproten dogodku A. • Dogodek, ki je (v danem prostoru izidov) nasproten danemu dogodku A, je en sam ¯ možna pa je in mu pravimo tudi komplement dogodka A. Označevali ga bomo z A, c tudi oznaka A . Primer : Če spet vzamemo standardno kocko in dogodke (2.1.1), velja: • A je način dogodka B in C je način dogodka D: A ⊆ B, C ⊆ D. • B∪C ={ • B∩C ={ • B\C ={ • C \B ={ , b b b b b b b b b b b b b b b b , b b b b b , b b b b b b }. }. } = A. , b b b }. • Dogodka A in C sta nezdružljiva, prav tako dogodka A in D. ¯ A = D. ¯ • Dogodka A in D sta si nasprotna: D = A, 62 M. RAIČ: STATISTIKA Nasploh veljajo naslednje zveze: A¯ = Ω \ A A¯ = A ¯ A\B =A∩B ¯ A ∪ B = A¯ ∩ B ¯. A ∩ B = A¯ ∪ B Zadnjima dvema zvezama pravimo de Morganova zakona. Verjetnost, definirana s pomočjo verjetnostne funkcije, ima naslednje lastnosti: • Za vsak dogodek A je 0 ≤ P(A) ≤ 1. • P(∅) = 0, P(Ω) = 1. • Če je A način dogodka B, je P(A) ≤ P(B). Primer: pri dogodkih (2.1.1) na nepo. . šteni kocki (2.1.2) je A ⊆ B in P(A) = 0 35 ≤ 0 5 = P(B). ¯ = 1 − P(A). Primer: pri dogodkih (2.1.1) na nepošteni kocki (2.1.2) je P(D) = • P(A) ¯ = 0.65 = 1 − P(A). P(A) • Če sta dogodka A in B nezdružljiva, velja P(A ∪ B) = P(A) + P(B). Primer: pri . . dogodkih (2.1.1) na nepošteni kocki je P(A) = 0 35, P(C) = 0 35 in P(A ∪ C) = . 0 7 = P(A) + P(C). Nasploh pa verjetnost unije ni vsota verjetnosti. Primer : pri dogodkih (2.1.1) na nepošteni kocki (2.1.2) velja: . . . P(B) = 0 15 + 0 35 = 0 5 , . . . . P(C) = 0 05 + 0 15 + 0 15 = 0 35 , . . . . . P(B ∪ C) = 0 05 + 0 15 + 0 15 + 0 35 = 0 7 , medtem ko je P(B) + P(C) = 0.85. Ko namreč seštejemo P(B) + P(C), verjetnost izida , ki tvori presek B ∩ C, štejemo dvakrat. Če želimo dobiti P(B ∪ C), ga moramo nazaj odšteti. b b b b b Tako dobimo formulo za verjetnost unije v splošnem: P(A ∪ B) = P(A) + P(B) − P(A ∩ B) . 63 M. RAIČ: STATISTIKA 2.1.4 Aksiomi Kolmogorova Včasih želimo gledati tudi verjetnost, ki se je ne da opisati z verjetnostno funkcijo ali pa bi bilo to nenaravno. V tem primeru definiramo verjetnost neposredno na dogodkih. Žal pa se izkaže, da tega ne moremo vedno storiti na vseh podmnožicah prostora izidov Ω, temveč le na določeni družini podmnožic. Pojem dogodka bomo omejili na izbrano družino, za katero bomo zahtevali, da je σ-algebra. Družina podmnožic F dane množice Ω je σ-algebra, če velja: • ∅ ∈ F. • Če je A ∈ F , je tudi A¯ ∈ F . • Za poljubno zaporedje dogodkov A1 , A2 , A3 , . . . mora biti tudi A1 ∪ A2 ∪ A3 ∪ · · · ∈ F . Slednji dogodek sestavljajo vsi izidi, ki so v vsaj enem izmed dogodkov A1 , A2 , A3 , . . .. Če je F σ-algebra, mora veljati tudi: ¯ • Ω ∈ F , saj je Ω = ∅. • Za poljubna A, B ∈ F mora biti A ∪ B ∈ F , saj je A ∪ B = A ∪ B ∪ ∅ ∪ ∅ ∪ · · · . ¯ • Za poljubna A, B ∈ F mora biti A ∩ B ∈ F , saj je A ∩ B = A¯ ∪ B. Verjetnost (ali verjetnostna mera) na σ-algebri F , ki jo sestavljajo določene podmnožice množice izidov Ω (dogodki), je predpis, ki vsakemu dogodku A priredi število, ki ga označimo s P(A) in mu pravimo verjetnost dogodka A. Pri tem mora veljati: • 0 ≤ P(A) ≤ 1 za vsak dogodek A. • P(∅) = 0, P(Ω) = 1. • Če sta dogodka A in B nezdružljiva, mora biti P(A ∪ B) = P(A) + P(B). • Za poljubno zaporedje dogodkov A1 ⊆ A2 ⊆ A3 ⊆ · · · mora veljati: P(A1 ∪ A2 ∪ A3 ∪ · · · ) = lim P(An ) . n→∞ Zgornjim pravilom pravimo aksiomi Kolmogorova. Prvim trem pravilom bomo rekli osnovni aksiomi verjetnosti. Množico izidov skupaj z verjetnostno mero imenujemo verjetnostni prostor. Vsaka verjetnost, definirana s pomočjo verjetnostne funkcije, izpolnjuje aksiome Kolmogorova, pri čemer so lahko dogodki kar vse podmnožice prostora izidov Ω. Diskretni verjetnostni prostori so torej poseben primer verjetnostnih prostorov, definiranih z aksiomi Kolmogorova. Zato je na mestu naslednja definicija. 64 M. RAIČ: STATISTIKA Verjetnostna mera je diskretna, če izvira iz verjetnostne funkcije. Natančneje, to je tedaj, ko so dogodki kar vse podmnožice prostora izidov Ω in ko obstaja taka funkcija p : Ω → [0, 1], da za vsak dogodek A velja: X P(A) = p(ω) . ω∈A Verjetnostna funkcija p je natančno določena, saj velja p(ω) = P({ω}). Zato lahko ekvivalentno definiramo, da je verjetnostna mera diskretna, če so dogodki kar vse podmnožice prostora izidov Ω in če za vsak dogodek A velja: X P(A) = P({ω}) . ω∈A Diskretne verjetnostne mere so torej tiste, pri katerih je verjetnost določena že na enostavnih dogodkih. Velja tudi, da je verjetnostnaPmera P iskkretna natenko tedaj, ko je p(ω) := P({ω}) verjetnostna funkcija, t. j. ko je ω∈Ω p(ω) = 1. Verjetnost, definirana s pomočjo aksiomov Kolmogorova, ima vse lastnosti, ki smo jih nanizali za diskretne verjetnostne mere: ¯ = 1 − P(A): to velja zato, ker sta dogodka A in A¯ nezdružljiva, njuna unija • P(A) pa je gotov dogodek Ω, ki ima verjetnost 1. • Če je A ⊆ B, je P(A) ≤ P(B): to velja zato, ker je v tem primeru B = A∪(B \A) in kar sta dogodka A in B\A nezdružljiva, mora veljati P(B) = P(A)+P(B\A) ≥ P(A). • P(A ∪ B) = P(A) + P(B) − P(A ∩ B): to velja zato, ker je A ∪ B unija nezdružljivih dogodkov A in B \ A, B pa je unija nezdružljivih dogodkov B \ A in A ∩ B. Sledi: P(A ∩ B) = P(A) + P(B \ A) P(B) = P(B \ A) + P(A ∩ B) Če enačbi odštejemo in uredimo, dobimo prej omenjeno zvezo. • Če so A1 , A2 , . . . An paroma nezdružljivi (t. j. poljubna dva z različnima indeksoma sta nezdružljiva), velja: P(A1 ∪ A2 ∪ · · · ∪ An ) = P(A1 ) + P(A2 ) + · · · + P(An ) . Trditev velja tudi za neskončno zaporedje paroma nezdružljivih dogodkov: P(A1 ∪ A2 ∪ · · · ) = P(A1 ) + P(A2 ) + · · · , kjer je vrednost izraza na desni, ki mu pravimo vrsta, definirana kot limita delnih vsot. Zgornja formula je (ob privzetju ostalih) ekvivalentna zadnjima dvema aksiomoma Kolmogorova. M. RAIČ: STATISTIKA 65 Iz zadnje lastnosti sledi, da je vsaka verjetnostna mera na končnem ali števno neskončnem verjetnostnem prostoru diskretna. Primer nediskretne verjetnostne mere. Avtobus vozi na 10 minut. Pridemo na slepo na postajo. Kolikšna je verjetnost, da bomo čakali več kot 7 minut? Za prostor izidov tu postavimo interval (0, 10]. Posamezen izid naj recimo predstavlja čas, ki je minil od odhoda zadnjega avtobusa, na katerega nismo mogli priti (izid 10 pomeni, da je ob istem času kot mi prišel avtobus in nas je voznik ravno še spustil noter). Dogodek, da čakamo več kot 7 minut, ustreza intervalu (0, 3]. Torej je verjetnost tega dogodka enaka 30%. Kako smo dobili zadnji rezultat? Tako, da smo dolžino intervala (0, 3] delili z dolžino celotnega intervala (0, 10]. Če je torej dogodek I ⊆ (0, 10] interval, je njegova verjetnost enaka: dolžina(I) P(I) = . 10 Interval je lahko odprt, zaprt ali polodprt. Lahko je tudi izrojen, torej ena sama točka. To ustreza vprašanju, kolikšna je verjetnost, da bomo čakali natanko 7 minut (niti delčka sekunde več niti delčka sekunde manj). Ker je dolžina ena same točke enaka nič, je tudi verjetnost dogodka, da bomo čakali natanko 7 minut, enaka nič (takim dogodkom pravimo skoraj nemogoči ). Od tod sledi tudi, da ta verjetnostna mera ni diskretna, saj je pripadajoča funkcija p povsod enaka nič in zato ne more biti verjetnostna funkcija. Prejšnji primer je primer slepe izbire, definirane splošnejše. Za slepo izbiro iz končne množice smo že definirali, da je to takrat, ko so vse možnosti enako verjetne. Z drugimi besedami, če Ω končna množica, je izid izbran na slepo, če za vsak dogodek A velja ♯(A) . P(A) = ♯(Ω) Slepa izbira iz intervala na realni osi, ravninskega lika ali prostorskega telesa pa pomeni, da je: mera(A) P(A) = , mera(Ω) kjer je mera dolžina (za intervale na realni osi), ploščina (za ravninske like) oziroma prostornina (za prostorska telesa). Primer : na slepo izberemo točko iz trikotnika v ravnini z vodoravno osnovnico: in zanima nas verjetnost, da je izbrana točka na več kot polovici višine trikotnika. Dogodek A je prikazan kot osenčeno območje: 66 M. RAIČ: STATISTIKA Dogodek A je trikotnik s polovično osnovnico in polovično višino trikotnika, ki ponazarja cel verjetnostni prostor Ω, torej je njegova ploščina četrtina ploščine trikotnika Ω. Sledi P(A) = 1/4. 2.2 2.2.1 Pogojna verjetnost Definicija pogojne verjetnosti Pogojna verjetnost dogodka A glede na dogodek B, P(A | B), je verjetnost, če vemo, da se je zgodil B. Privzemimo za hip, da je verjetnost dogodka definirana kar kot delež poskusov, pri katerih se zgodi dani dogodek, torej: t. j. P(A) = število poskusov, pri katerih se zgodi A , število vseh poskusov je smiselno definirati: P(A | B) = število poskusov, pri katerih se zgodi A, med tistimi, pri katerih se zgodi B število poskusov, pri katerih se zgodi B Velja: število poskusov, pri katerih se zgodita A in B = število poskusov, pri katerih se zgodi B število poskusov, pri katerih se zgodita A in B število vseh poskusov = število poskusov, pri katerih se zgodi B število vseh poskusov P(A ∩ B) = . P(B) P(A | B) = = Slednje vzamemo za definicijo pogojne verjetnosti v splošnem, ko verjetnost ni nujno delež poskusov: P(A ∩ B) P(A | B) := . P(B) Omenili smo že, da definicija verjetnosti z deležem poskusov pomeni slepo izbiro poskusa. No, če gre za slepo izbiro, t. j. če so vsi izidi enako verjetni, to pomeni: P(A | B) = ♯(A ∩ B) . ♯(B) 67 M. RAIČ: STATISTIKA Primer : Vzemimo pošteno kocko in dogodka iz (2.1.1): B = {pade najmanj pet pik} = { , } , D = {pade manj kot šest pik} = { , , b b b b b b b b b b b b b b b b b , b b b b , . Tedaj velja P(B | D) = 1/5 = 0 2. b b b b b }, Če pa kocka ni poštena, temveč sledi porazdelitveni shemi (2.1.2): , . . . . . . 0 05 0 15 0 15 0 15 0 15 0 35 b b b b b b b b b b b b b b b b b b b b b . . 0 15 0 15 . . velja P(B | D) = . = . . . . . = 0 231. 0 05 + 0 15 + 0 15 + 0 15 + 0 15 0 65 Pri neodvisnih dogodkih se pogojna verjetnost ujema z brezpogojno: če sta A in B neodvisna, velja: P(A) P(B) P(A ∩ B) = = P(A) . P(A | B) = P(B) P(B) 2.2.2 Relejni poskusi Dostikrat poznamo določene pogojne verjetnosti, želeli pa bi izračunati brezpogojno verjetnost. To se dogaja pri relejnih poskusih, ki potekajo v več fazah. Recimo, da se v prvi fazi lahko zgodi dogodek A, v drugi pa dogodek B. Tedaj navadno po naravi stvari poznamo P(A) in P(B | A), brezpogojno verjetnost P(A ∩ B) pa izračunamo po formuli: P(A ∩ B) = P(A) P(B | A) . Primer : Žena pošlje moža na trg po glavo solate, ki jo prodajata dve branjevki, Francka in Micka. Verjetnost, da mož kupi solato pri Francki, je 40%, da kupi pri Micki, pa 60%. Francka ima 10%, Micka pa 20% nagnitih glav solate. Privzamemo, da Francka in Micka izbirata solato na slepo. Tukaj gre za dvofazni relejni poskus: v prvi fazi mož izbira branjevko, v drugi pa branjevka izbira solato. Žena si zastavlja naslednja vprašanja: 1. Najprej jo zanima verjetnost, da bo mož prinesel domov nagnito glavo solate. 2. Nato gre z mislimi še malo dlje in se vpraša po verjetnosti, da bo šel k Micki in tam kupil nagnito glavo solate. 3. Končno se mož vrne domov – z nagnito glavo solate. Sedaj se žena vpraša po pogojni verjetnosti, da je solato kupil pri Micki. 68 M. RAIČ: STATISTIKA Zaenkrat znamo dogovoriti na drugo vprašanje: če je G dogodek, da mož prinese domov nagnito gnilo solate, M pa dogodek, da kupi solato pri Micki, vemo: . P(M ) = 0 6 , . P(G | M ) = 0 2 . Odgovor na iskano vprašanje je: . . . P(M ∩ G) = P(M ) P(G | M ) = 0 6 · 0 2 = 0 12 . Za odgovor na prvo in tretje vprašanje pa potrebujemo še malo teorije. Dogodki H1 , H2 , . . . Hn tvorijo popoln sistem dogodkov ali tudi razčlenitev (angl. partition) prostora izidov, če so paroma nezdružljivi, njihova unija pa je gotov dogodek. Z drugimi besedami, vsak izid pripada natanko enemu izmed dogodkov H1 , H2 , · · · Hn . Če je H1 , H2 , . . . Hn popoln sistem dogodkov in A poljuben dogodek, so tudi dogodki H1 ∩ A, H2 ∩ A, . . . Hn ∩ A paroma nezdružljivi, njihova unija pa je dogodek A. Sledi: P(A) = P(H1 ∩ A) + P(H2 ∩ A) + · · · + P(Hn ∩ A) oziroma: P(A) = P(H1 ) P(A | H1 ) + P(H2 ) P(A | H2 ) + · · · + P(Hn ) P(A | Hn ) . Zgornji formuli pravimo izrek o polni verjetnosti (angl. law of total probability). Uporaben je pri dvofaznih relejnih poskusih. Dogodki H1 , H2 , . . . Hn predstavljajo vse možnosti za prvo fazo poskusa, zato jim pravimo tudi hipoteze, dogodek A pa se nanaša na drugo fazo poskusa. Sedaj lahko odgovorimo na prvo ženino vprašanje. Če z F označimo še dogodek, da mož kupi solato pri Francki, dogodka F in M sestavljata popoln sistem dogodkov. Velja: . P(F ) = 0 4 , . P(G | M ) = 0 1 . Po izreku o polni verjetnosti velja: . . . . . P(G) = P(F ) P(G | F ) + P(M ) P(G | M ) = 0 4 · 0 1 + 0 6 · 0 2 = 0 16 . Preostane še tretje vprašanje. Tu skušamo iz druge faze poskusa, ki je opazljiva (angl. observable) – žena opazi nagnito glavo solate, rekonstruirati prvo fazo, ki ni opazljiva – žena ne ve, pri kateri branjevki je mož kupil solato. V splošnem kontekstu nas torej zanimajo pogojne verjetnosti neopazljivih hipotez glede na opaženo drugo fazo poskusa, t. j. P(Hi | A). Po definiciji pogojne verjetnosti je: P(Hi | A) = P(Hi ∩ H) P(Hi ) P(A | Hi ) = . P(A) P(A) Če v imenovalec vstavimo izrek o polni verjetnosti, dobimo Bayesovo formulo: P(Hi | A) = P(Hi ) P(A | Hi ) . P(H1 ) P(A | H1 ) + P(H2 ) P(A | H2 ) + · · · + P(Hn ) P(A | Hn ) M. RAIČ: STATISTIKA 69 Bayesova formula torej potrebuje brezpogojne verjetnosti dogodkov Hi , ki jim pravimo tudi apriorne verjetnosti (apriorne so zato, ker se nanašajo na čas pred realizacijo druge faze poskusa), da pa nam pogojne verjetnosti, ki jim pravimo tudi aposteriorne verjetnosti (ker se nanašajo na čas po realizaciji druge faze poskusa). Odgovor na tretje vprašanje pri našem primeru je torej: . . P(M ) P(G | M ) 06·02 . P(M | G) = = . . . . = 0 75 . P(F ) P(F | M ) + P(M ) P(G | M ) 04·01+06·02 . Dogodek, da mož kupi solato pri Micki, ima torej apriorno verjetnost 0 6, njegova apo. steriorna verjetnost glede na dano opažanje pa je 0 75. Na Bayesovi formuli temelji cela veja statistike, ki ji pravimo Bayesova statistika. Ta se razlikuje od klasične inferenčne statistike po tem, da potrebuje apriorne verjetnosti za tisto, kar nas zanima. Klasična statistika ne privzema nikakršnih apriornih verjetnosti, zato pa so tudi njeni rezultati šibkejše narave. 2.3 2.3.1 Slučajne spremenljivke Osnovni pojmi Ideja slučajne spremenljivke je, da je to število ali kakšna druga vrednost, ki ni natančno določena, je pa v zvezi z njo smiselno gledati verjetnost. Pač pa postane natančno določena, ko enkrat realiziramo poskus. Z drugimi besedami, če poznamo izid poskusa, poznamo vrednosti vseh slučajnih spremenljivk. Tako je smiselno postaviti naslednjo definicijo: Slučajna spremenljivka z vrednostmi v množici M je predpis, ki vsakemu izidu priredi določeno vrednost v M , torej preslikava iz Ω v M . Slučajne spremenljivke označujemo tako kot statistične, torej navadno z velikimi tiskanimi črkami. Statistična spremenljivka postane slučajna spremenljivka, če slučajno (npr. na slepo) izberemo en element iz statistične množice. Tako kot statistične tudi slučajne spremenljivke ločimo po tipu (torej po strukturi, ki je definirana na množici M ) na imenske, urejenostne, intervalske in razmernostne, poleg tega pa imamo še dihotomne slučajne spremenljivke. Tudi veliko drugih pojmov iz opisne statistike, torej definirane za statistične spremenljivke, je možno definirati tudi za slučajne spremenljivke. Osnovno vodilo pri tem je, naj pojma sovpadata, če je slučajna spremenljivka dobljena iz statistične s slepo izbiro enote. Primer . Briškula se igra s 40 kartami, ki jih tvorijo vse možne kombinacije 4 barv (špada – meč, kopa – pokal, bašton – palica in denar) in 10 moči (2, 4, 5, 6, 7, fant – F, kaval – C, kralj – R, trojka – 3 in as – A). Moč določa, katera karta pobere, če gre za isto barvo. Poleg tega ima vsaka karta glede na moč tudi svojo vrednost in vrednosti se na koncu seštejejo. 70 M. RAIČ: STATISTIKA Komplet kart je tako statistična množica, prejšnji pojmi pa statistične spremenljivke na njej: • Barva je imenska spremenljivka (vsaj dokler ni znan adut – briškula). • Moč je urejenostna spremenljivka: 2 < 4 < 5 < 6 < 7 < F < C < R < 3 < A). • Vrednost je razmernostna spremenljivka. Enaka je 0 za liše (moči 2, 4, 5, 6, 7), 2 za fante, 3 za kavale, 4 za kralje, 10 za trojke in 11 za ase. Lahko pa s kupa slučajno izberemo eno karto (ali pa gledamo aduta spodaj). V tem primeru postane množica kart verjetnostni prostor, barva, moč in vrednost pa slučajne spremenljivke. Če barvo označimo z B, moč z M in vrednost z V ter gledamo izid–karto ω, ki naj bo špadni fant (fant pri mečih), velja: B(ω) = špada , M (ω) = fant , V (ω) = 2 . Porazdelitev slučajne spremenljivke pove, katere vrednosti zavzame s kolikšnimi verjetnosti. V splošnem porazdelitev opišemo tako, da za vse množice A iz določene σ-algebre povemo P(X ∈ A), t. j. verjetnost, da X pripada množici A. Toda če je X definirana na diskretnem verjetnostnem prostoru, je dovolj povedati točkaste verjetnosti P(X ∈ x) za vse možne vrednosti x, saj velja: X P(X ∈ A) = P(X = x) . x∈A Za slučajno spremenljivko, za katero velja zgornja formula (in torej lahko njeno porazdelitev opišemo s točkastimi verjetnostmi), pravimo, da je diskretna oz. diskretno porazdeljena. Pravimo tudi, da je njena porazdelitev diskretna. Porazdelitev diskretne slučajne spremenljivke lahko opišemo s porazdelitveno shemo, ki odgovarja verjetnostni shemi. Če X lahko zavzame vrednosti a1 , a2 , . . . ak , ki so vse različne, in če je P(X = a1 ) = p1 , P(X = a2 ) = p2 , . . . P(X = ak ) = pk , pišemo: a1 a2 · · · ak X∼ . p1 p2 · · · pk Seveda velja p1 + p2 + · · · pk = 1. Če vrednosti P a1 , . . . ak niso vse različne, moramo seštevati. V vsakem primeru velja P(X ∈ A) = i;ai ∈A pi . Primer : Če na slepo izberemo karto pri briškuli, so porazdelitve njene barve, moči in 71 M. RAIČ: STATISTIKA vrednosti podane s shemami: špada bašton kopa denar špada bašton kopa denar = , B∼ 10 10 10 1 1 1 1 10 40 40 40 40 4 4 4 4 2 4 5 6 7 fant kaval kralj trojka as M∼ 1 1 1 1 1 , 1 1 1 1 1 10 10 10 10 10 10 10 10 10 10 0 2 3 4 10 11 0 0 0 0 0 2 3 4 10 11 V ∼ 1 1 1 1 1 1 1 1 1 1 = 1 1 1 1 1 1 10 10 10 10 10 10 10 10 10 10 2 10 10 10 10 10 Verjetnost dogodka, da bo vrednost karte manjša of 4, je enaka: P(V < 4) = P(V = 0) + P(V = 2) + P(V = 3) = 1 1 7 1 + + = . 2 10 10 10 Verjetnost dogodka, da bo vrednost karte strogo med 3 in 7, pa je enaka: P(3 < V < 7) = P(V = 4) = 1 . 10 Diskretna porazdelitev je enakomerna na množici {a1 , a2 , . . . ak }, če so vse vrednosti a1 , a2 , . . . ak enako verjetne, druge vrednosti pa niso zavzete. To pa lahko povemo tudi drugače: slepa izbira stvari, ki je definirana kot vrednost slučajne spremenljivke, iz dane množice pomeni, da je porazdelitev te slučajne spremenljivke enakomerna na tej množici. Pri prej omenjenih slučajnih spremenljivkah pri briškuli sta tako barva B in moč M porazdeljeni enakomerno, vrednost V pa ne. Slepa izbira karte pri briškuli torej pomeni slepo izbiro barve iz množice {špada, bašton, kopa, denar}, in slepo izbiro moči iz množice {2, 4, 5, 6, 7, fant, kaval, kralj, trojka, as}, ne pomeni pa slepe izbire vrednosti. Modus diskretne slučajne spremenljivke je tista njena vrednost, kjer je njena verjetnostna funkcija največja. Modusov je lahko tudi več. Primer : porazdelitev s shemo: 0 2 3 4 10 11 1 2 1 10 1 10 1 10 1 10 1 10 ima modus 0. Porazdelitev s shemo: 0 1 2 3 . . . . 0 125 0 375 0 375 0 125 ima dva modusa (1 in 2). Pri enakomerni porazdelitvi pa so kar vse vrednosti modusi. 2.3.2 Navzkrižne porazdelitve Podobno kot smo pri opisni statistiki gledali povezanost med dvema statističnima spremenljivkama, moramo tudi v verjetnosti dostikrat hkrati gledati dve ali več slučajnih 72 M. RAIČ: STATISTIKA spremenljivk. Če sta na istem verjetnostnem prostoru definirani dve slučajni spremenljivki X in Y , je njuna navzkrižna ali skupna porazdelitev (angl. joint distribution) opišemo z navzkrižnimi verjetnostmi P(X ∈ A, Y ∈ B), pri diskretnih slučajnih spremenljivkah pa je dovolj povedati navzkrižne točkaste verjetnosti P(X = a, Y = b). Primer : iz dobro premešanega kupa 10 kart za briškulo ene same barve na slepo vzamemo dve karti. Označimo z V1 vrednost prve, z V2 pa druge izvlečene karte. Če jemljemo z vračanjem, je možnih 100 enako verjetnih izidov in navzkrižno porazdelitev slučajnih spremenljivk V1 in V2 lahko predstavimo s tabelo: V2 = 0 V2 = 2 V2 = 3 V2 = 4 V2 = 10 V2 = 11 1 4 1 20 1 20 1 20 1 20 1 20 V1 = 0 V1 = 2 V1 = 3 V1 = 4 V1 = 10 V1 = 11 1 20 1 100 1 100 1 100 1 100 1 100 1 20 1 100 1 100 1 100 1 100 1 100 1 20 1 100 1 100 1 100 1 100 1 100 1 20 1 100 1 100 1 100 1 100 1 100 1 20 1 100 1 100 1 100 1 100 1 100 Izračunajmo še verjetnost dogodka, da je skupna vrednost obeh kart manjša od 4. Velja: P(V1 + V2 < 4) = P(V1 = 0, V2 = 0) + P(V1 = 0, V1 = 2) + P(V1 = 0, V2 = 3) + + P(V1 = 2, V2 = 0) + P(V1 = 3, V2 = 0) = 9 . . = 0 45 = 20 Če pa jemljemo brez vračanja, imamo 90 enako verjetnih izidov in navzkrižno porazdelitev predstavlja tabela: V2 = 0 V2 = 2 V2 = 3 V2 = 4 V2 = 10 V2 = 11 V1 = 0 V1 = 2 V1 = 3 V1 = 4 V1 = 10 V1 = 11 in velja P(V1 + V2 < 4) = 2 9 1 18 1 18 1 18 1 18 1 18 1 18 0 1 90 1 90 1 90 1 90 1 18 1 90 0 1 90 1 90 1 90 1 18 1 90 1 90 0 1 90 1 90 1 18 1 90 1 90 1 90 0 1 90 1 18 1 90 1 90 1 90 1 90 0 4 . . = 0 444. 9 Če imamo podano navzkrižno porazdelitev slučajnih spremenljivk X in Y , poznamo tudi porazdelitvi posamičnih slučajnih spremenljivk. Pravimo jima robni porazdelitvi, to pa zato, ker ju v diskretnem primeru dobimo s seštevanjem navzkrižnih verjetnosti, te 73 M. RAIČ: STATISTIKA pa navadno zapišemo na rob tabele. Če lahko Y zavzame vrednosti b1 , b2 , . . . bm (vse različne), velja: P(X = ai ) = P(X = ai , Y = b1 ) + P(X = ai , Y = b2 ) + · · · + P(X = ai , Y = bn ) . Z navzkrižnimi porazdelitvami je povezana še ena različica slepe izbire. Če izbiramo dve stvari, ki sta definirani kot vrednosti dveh slučajnih spremenljivk X in Y , pri čemer lahko X zavzame vrednosti {a1 , . . . am } (vse različne), Y pa vrednosti {b1 , . . . bn } (prav tako vse različne), pravimo, da X in Y izberemo na slepo in neodvisno, če so vsi dogodki: {X = a1 , Y = b1 }, {X = a2 , Y = b1 }, .. . {X = a1 , Y = b2 }, · · · {X = a1 , Y = bn }, {X = a2 , Y = b2 }, · · · {X = a2 , Y = bn }, .. .. ... . . {X = am , Y = b1 }, {X = am , Y = b2 }, · · · {X = am , Y = bn }, 1 . mn Podobno definiramo tudi slepo in neodvisno izbiro treh ali več stvari. enako verjetni, torej če ima vsak izmed njih verjetnost Poseben primer slepe in neodvisne izbire je vlečenje s ponavljanjem: če izvlečemo dva elementa, slučajna spremenljivka X predstavlja prvi, slučajna spremenljivka Y pa drugi izvlečeni element. Tedaj imata X in Y isto zalogo vrednosti. Ni pa to nujno. Primer : neodvisno vržemo pošten kovanec in pošteno standardno kocko, kar pomeni, da na slepo in neodvisno izberemo grb oz. cifro na kovancu in eno izmed šestih strani kocke. Če X predstavlja stran kovanca, Y pa stran kocke, dobimo naslednjo navzkrižno porazdelitev: Y = X = cifra X = grb 1 12 1 12 b Y = Y = b b 1 12 1 12 1 12 1 12 b b b Y = b b b b Y = 1 12 1 12 1 12 1 12 b b b b b Y = b b b b b b 1 12 1 12 Recimo zdaj, da dobimo za cifro na kovancu dva evra in za vsako piko na kocki en evro. Dogodek, da skupaj dobimo vsaj 6 evrov, lahko tedaj zapišemo v obliki: } ∪ {X = cifra, Y = 4 1 in njegova verjetnost je enaka = . 12 3 {X = cifra, Y = b b b b b b b b b } ∪ {X = cifra, Y = b b b b b b } ∪ {X = grb, Y = b b b b b b } Primer : če na slepo izvlečemo karto iz kupa pri briškuli, to pomeni tudi, da na slepo in neodvisno izberemo njeno moč in barvo. Naj bo A dogodek, da izvlečemo figuro (kralja, kavala ali fanta) B pa dogodek, da izvlečemo denar ali kopo. Tedaj velja: 12 3 . P(A) = = =03 40 10 2 1 20 . = = =05 P(B) = 40 4 2 6 3 . P(A ∩ B) = = = 0 15 . 40 20 74 M. RAIČ: STATISTIKA Opazimo, da je P(A ∩ B) = P(A) P(B). Opažanja iz zgornjega primera lahko posplošimo na naslednji dve pomembni ugotovitvi: • Če dve ali več slučajnih spremenljivk izbiramo na slepo in neodvisno, je tudi posamezna slučajna spremenljivka izbrana na slepo (z drugimi besedami, ima enakomerno porazdelitev). • Če sta X in Y izbrani na slepo in neodvisno ter je A dogodek, ki je enolično določen z X (pišemo tudi A ∈ σ(X)), B pa je dogodek, ki je enolično določen z Y (pišemo tudi B ∈ σ(Y )), velja P(A ∩ B) = P(A) P(B). Slednje opažanje pa vodi v pojem neodvisnosti dogodkov. To je posplošitev primera, ko dogodka izhajata iz slepe in neodvisne izbire tako kot zgoraj. Dogodka A in B sta neodvisna, če velja P(A ∩ B) = P(A) P(B). Neodvisnost je navadno nekaj, iz česar izhajamo, kar privzamemo a priori. Včasih pa dobimo neodvisnost tudi kar tako. Primer : pri pošteni kocki sta naslednja dogodka iz (2.1.1): B = {pade najmanj pet pik} = { , } , C = {pade liho število pik} = { , , } , b b b neodvisna. Velja namreč B ∩ C = { P(B) = 1 , 3 b b b P(C) = b b b b b b b b b b b b b b b b b b b } in: 1 , 2 P(B ∩ C) = 1 = P(B) P(C) . 6 Neodvisnost lahko izrazimo s pomočjo pogojne verjetnosti: če je P(B) > 0, sta A in B neodvisna natanko tedaj, ko je P(A | B) = P(A). To lahko interpretiramo kot ‘A je neodvisen od B’. Pri neodvisnosti je pomembno naslednje dejstvo: če sta dogodka A in B neodvisna, ¯ To lahko tudi dokažemo: to velja tudi za dogodka A in B. ¯ = A \ B nezdružljiva z unijo A, velja • Ker sta A ∩ B in A ∩ B ¯ P(A) = P(A ∩ B) + P(A ∩ B). ¯ = P(A) − P(A ∩ B) = P(A) − P(A) P(B) = P(A) 1 − P(B) = • P(A ∩ B) ¯ = P(A) P(B). To pomeni, da je neodvisnost dogodkov A in B ekvivalentna neodvisnosti katerih koli ˜ kjer je A˜ = A ali A˜ = A¯ in B ˜ = B ali B ˜ = B. ¯ dogodkov A˜ in B, Neodvisnost dogodkov motivira neodvisnost slučajnih spremenljivk. 75 M. RAIČ: STATISTIKA Slučajni spremenljivki X in Y sta neodvisni, če sta kateri koli dogodek, ki je natančno določen z X, in kateri koli dogodek, ki je natančno določen z Y , neodvisna. Za diskretni slučajni spremenljivki X in Y se da dokazati, da sta neodvisni natanko tedaj, ko za poljubna relevantna a in b velja P(X = a, Y = b) = P(X = a) P(Y = b). Za enakomerno porazdeljene slučajne spremenljivke (slepo izbiro) pa se da dokazati naslednje: X in Y sta izbrani na slepo in neodvisno natanko tedaj, ko sta X in Y vsaka zase izbrani na slepo in ko sta neodvisni. Tako formulacija ‘na slepo in neodvisno’ dobi smisel. Primer : pri slepem vlečenju s ponavljanjem sta prvi in drugi izvlečeni element neodvisna. To pa ne velja za vlečenje brez ponavljanja. Primer : če na slepo izvlečemo karto iz kupa pri briškuli, sta tudi njena vrednost in barva neodvisni, čeprav vrednost ni porazdeljena enakomerno. 1 2 3 1 2 sta neodvisni in Y ∼ Primer : slučajni spremenljivki X ∼ . . . . . 02 05 02 04 06 natanko tedaj, ko je njuna navzkrižna porazdelitev podana s tabelo: X=1 X=2 Y =1 Y =2 Y =3 . . . 0 12 02 0 08 . . . 0 18 03 0 12 . . . 03 05 02 . 04 . 06 1 Pojem neodvisnosti lahko posplošimo tudi na več dogodkov in slučajnih spremenljivk, a pri dogodkih moramo biti nekoliko previdni. Izkaže se, da ima smisel definirati, da so dogodki A1 , A2 , . . . An neodvisni, če veljajo vse zveze oblike: P(A˜1 ∩ A˜2 ∩ · · · A˜n ) = P(A˜1 ) P(A˜2 ) · · · P(A˜n ) , kjer za vsak i lahko postavimo bodisi A˜i = Ai bodisi A˜i = A¯i . V tem primeru se namreč neodvisnost ohrani, če določene dogodke izločimo. Če so recimo A, B in C neodvisni, sta tudi A in B neodvisna. Primer : vržemo dva poštena in neodvisna kovanca in si oglejmo naslednje dogodke: A := {prvič pade cifra} B := {drugič pade cifra} C := {prvič in drugič pade enako} Za verjetnostni prostor lahko tedaj postavimo Ω = {cc, cg, gc, gg} in vsi štirje izidi so enako verjetni. Velja: A = {cc, cg} , B = {cc, gc} , C = {cc, gg} , A ∩ B = A ∩ C = B ∩ C = A ∩ B ∩ C = {cc} 76 M. RAIČ: STATISTIKA in še: P(A) = P(B) = P(C) = 1 , 2 P(A ∩ B) = P(A ∩ C) = P(B ∩ C) = P(A ∩ B ∩ C) = 1 , 4 od koder dobimo, da sta dogodka A in B neodvisna, prav tako tudi A in C ter B in C. Dogodki A, B in C pa so odvisni. Primer : na slepo izberemo en element iz množice {A, K, Q, J, 10, 9, 8, 7}, ki naj bo kar verjetnostni prostor. Definirajmo naslednje dogodke: F := {A, K, Q, J} , G := {A, 9, 8, 7} , H := {A, K, Q, 10} . Dogodki F , G in H niso neodvisni, čeprav velja P(F ∩ G ∩ H) = P(F ) P(G) P(H). Pri slučajnih spremenljivkah pa je posplošitev bolj premočrtna: slučajne spremenljivke X1 , X2 , . . . Xn so neodvisne, če za vse možne nabore dogodkov A1 , A2 , . . . An , kjer je dogodek Ai enolično določen z Xi , velja: P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 ) P(A2 ) · · · P(An ) . Pri diskretnih slučajnih spremenljivkah pa je dovolj, da se množijo točkaste verjetnosti: P(X1 = a1 , X2 = a2 , . . . Xn = an ) = P(X1 = a1 ) P(X2 = a2 ) · · · P(Xn = an ) . 2.3.3 Bernoullijeva zaporedja poskusov Bernoullijevo zaporedje poskusov je zaporedje slučajnih poskusov, pri čemer pri vsakem gledamo, ali uspe ali ne uspe. Pri tem morajo biti poskusi neodvisni (t. j. dogodki, da posamezen poskus uspe, morajo biti neodvisni) in vsak poskus mora uspeti z enako verjetnostjo, ki jo bomo označevali s p. Primer . mečemo pošteno kocko, meti so neodvisni. Če je poskus met kocke, uspešen poskus pa je met, pri katerem pade šestica, dobimo Bernoullijevo zaporedje poskusov. Recimo, da pod temi pogoji petkrat vržemo pošteno kocko. • Verjetnost, da šestica pade v prvem metu, je 1 . . = 0 167. 6 • Verjetnost, da šestica pade v petem metu, je 1 . . = 0 167. 6 • Verjetnost, da šestica pade v prvem in petem metu, je 1 . . 1 1 · = = 0 0278. 6 6 36 77 M. RAIČ: STATISTIKA 5 • Verjetnost, da šestica pade vsaj enkrat v petih metih, ni . Verjetnosti dogodkov, 6 da v posameznem metu pade šestica, namreč ne smemo kar sešteti, ker ti dogodki niso paroma nezdružljivi. Pač pa si lahko pomagamo z nasprotnim dogodkom, ki je 5 5 . . dogodek, da šestica ne pade v nobenem metu. Njegova verjetnost je = 0 402. 6 5 5 . = Verjetnost dogodka, da šestica pade vsaj enkrat, pa je potemtakem 1 − 6 . 0 598. 4 5 1 . = • Verjetnost dogodka, da šestica pade v prvem in samo v prvem metu, je · 6 6 . 0 0804. • Verjetnost dogodka, da šestica pade natanko enkrat, je vsota verjetnosti dogodkov, da pade v posameznem metu, sicer pa ne. Te verjetnosti lahko seštevamo, 4 so ker 1 5 . dogodki paroma nezdružljivi. Torej je verjetnost danega dogodka enaka 5· · = 6 6 . 0 402. • Verjetnost dogodka, da šestica pade natanko dvakrat, je vsota verjetnosti, da pade natanko v i-tem in j-tem metu, po vseh možnih neurejenih parih {i, j}, kjer sta i in j različna, t. j.: {1, 2} , {1, 3} , {1, 4} , {1, 5} , {2, 3} , {2, 4} , {2, 5} , {3, 4} , {3, 5} , {4, 5} . Teh neurejenih parov je toliko, kot je vseh možnih izbir dveh elementov izmed 5 = 10. Za vsak par {i, j} je verjetnost, da pade šestica natanko v petih, torej 2 2 3 5 1 . . = 0 0161. Iskana verjetnost je torej enaka i-tem in j-tem metu, enaka 6 6 2 3 1 5 . . 10 · = 0 161. · 6 6 • Verjetnost dogodka, da šestica pade manj kot trikrat, je: 2 3 4 5 1 1 5 5 5 . . = 0 965 . +5· · + 10 · · 6 6 6 6 6 Primer : če kocko vržemo 10-krat in želimo izračunati verjetnost dogodka, da šestica pade natankotrikrat, moramo prešteti vse možne izbire treh metov, v katerih pade šestica. Teh 10 izbir je = 120, iskana verjetnost pa je enaka: 3 3 7 10 1 5 . . · = 0 155 . · 3 6 6 78 M. RAIČ: STATISTIKA V splošnem lahko vsakemu Bernoullijevemu zaporedju n poskusov priredimo slučajno spremenljivko S, ki pove število uspelih poskusov. Za k = 0, 1, . . . n velja: n k P(S = k) = p (1 − p)n−k , k kjer je p verjetnost, da posamezen poskus uspe. Zgornji obrazec imenujemo Bernoullijeva formula, porazdelitvi tako definirane slučajne spremenljivke S pa pravimo binomska porazdelitev. Pišemo S ∼ Bi(n, p). Ta zapis je po definiciji ekvivalenten veljavnosti zgornje formule za vse k = 0, 1, . . . n. . . . . Če je torej S ∼ Bi(5, 1/6), je npr. P(S = 2) = 0 161, P(S < 3) = 0 965, P(S = 5/2) = 0 in P(S < 6) = 1. Če pa bi 5-krat neodvisno vrgli pošten kovanec in gledali število grbov, bi imelo le-to porazdelitev Bi(5, 1/2). Nekaj histogramov: 0.3 Bi(5, 1/2) 0.06 0.2 0.04 0.1 0.02 0 0.4 1 2 3 4 5 Bi(5, 1/6) 50 0.08 0.3 0.06 0.2 0.04 0.1 0.02 0 1 2 3 4 5 Bi(180, 1/2) 100 150 200 100 150 200 Bi(180, 1/6) 50 Za velike n je verjetnosti pri binomski porazdelitvi Bi(n, p) brez sodobnih pripomočkov težko računati. Zato so že zgodaj iznašli približne obrazce. Najširše uporabni sta Laplaceovi približni formuli. Naj bo S ∼ Bi(n, p). Laplaceova lokalna formula pravi: 1 2 2 P(S = k) ≈ √ e−(k−np) /(2σ ) , σ 2π p kjer je σ = np(1 − p). Produkt np je pričakovana vrednost, σ pa je standardni odklon binomske porazdelitve. Natančnejšo definicijo bomo navedli v podrazdelku 2.3.6, v grobem pa lahko rečemo, da pri slučajni spremenljivki S lahko pričakujemo vrednosti blizu 79 M. RAIČ: STATISTIKA np, in sicer z odmiki reda velikosti σ. Slednja vrednost je tudi glavno merilo za natančnost obrazca: večji kot je σ, natančnejši je obrazec. Razumno natančnost dosežemo pri σ ≥ 5. Toda to velja za napako glede na največjo točkasto verjetnost. Če pa natančnost merimo z relativno napako, mora biti še absolutna razlika |k − np| majhna v primerjavi s σ 4/3 (razumno natančnost dosežemo pri |k − np| ≤ σ 4/3 ). Primer : 180-krat vržemo pošteno kocko, r meti so 1 180 · šestic, je S ∼ Bi(180, 1/6). Velja σ = 6 izračunov: neodvisni. Če z S označimo število 5 · = 5. Nekaj primerov približnih 6 1 . . . • P(S = 30) ≈ √ e0 = 0 07979. Točen rezultat: 0 07956. 5 2π 1 . . . • P(S = 35) ≈ √ e−1/2 = 0 04839. Točen rezultat: 0 04640. 5 2π 1 . . . • P(S = 25) ≈ √ e−1/2 = 0 04839. Točen rezultat: 0 05072. 5 2π 1 . . . • P(S = 20) ≈ √ e−2 = 0 01080. Točen rezultat: 0 01079. 5 2π 1 . . . • P(S = 15) ≈ √ e−9/2 = 0 00089. Točen rezultat: 0 00052. 5 2π Pri zadnjem primeru je absolutna napaka še vedno majhna v primerjavi z maksimalno verjetnostjo P(S = 30), relativna napaka pa je velika: velja |k − np| = 15, medtem ko je . . σ 4/3 = 8 55. Laplaceova integralska formula pa pravi: P(a < S < b) ≈ P(a ≤ S ≤ b) ≈ Φ b − np σ −Φ a − np σ , kjer je Φ Gaussov verjetnostni integral : 1 Φ(x) = √ 2π Z x e−t 2 /2 dt . 0 To je specialna funkcija: je pomembna, ne da pa se izraziti z elementarnimi funkcijami. Njene vrednosti lahko odčitavamo iz tabel. Graf: 80 M. RAIČ: STATISTIKA Φ(x) 1/2 −3 −2 −1 1 2 3 x −1/2 Na grafu so razvidne naslednje lastnosti funkcije Φ: • Φ(0) = 0; 1 • lim Φ(x) = ; x→∞ 2 1 • lim Φ(x) = − ; x→−∞ 2 • Φ(−x) = −Φ(x) (lihost). Pripomnimo naj, da definicije funkcije Φ v literaturi zelo variirajo, zato se mora bralec vselej prepričati, kako je ta funkcija v posameznem viru definirana. Tudi za natančnost Laplaceove integralske formule je merilo standardni odklon σ: večji kot je, natančnejša je. Razumno natančnost spet dosežemo pri σ ≥ 5. Pomembno pa je tudi, da večjo natančnost dosežemo, če sta a in b na polovici med dvema zaporednima celima številoma. To je skupaj s pogojem, da je vsaj ena od absolutnih razlik |a − np| in |b − np| majhna v primerjavi s σ 4/3 , tudi jamstvo za majhno relativno napako (razumno natančnost spet dosežemo pri |a − np| ≤ σ 4/3 ali |b − np| ≤ σ 4/3 ). Primer : če je spet S ∼ Bi(180, 1/6), gremo lahko računat: . . P(25 ≤ S ≤ 35) ≈ Φ(1) − Φ(−1) = 2Φ(1) = 0 6827 . Ker je {25 ≤ S ≤ 35} = {24 < S < 36}, lahko isto verjetnost približno računamo tudi kot: . . . . . P(24 ≤ S ≤ 36) ≈ Φ(1 2) − Φ(−1 2) = 2Φ(1 2) = 0 7699 . Najnatančnejša aproksimacija pa pride, če jo računamo kot: . . . . . . . P(24 5 < S < 35 5) ≈ Φ(1 1) − Φ(−1 1) = 2Φ(1 1) = 0 7287 . . Točen rezultat: 0 7292. Še en primer izračuna: 1 . . . . . P(S < 20) = P(−∞ < S < 19 5) ≈ Φ(−2 1) − Φ(−∞) = − Φ(2 1) = 0 0179 . 2 81 M. RAIČ: STATISTIKA . Točen rezultat: 0 0142. Za spodnjo mejo smo tukaj postavili −∞. To je najenostavneje, čeprav bi se bralcu morda zdela naravnejša spodnja meja 0. Toda razlika je zanemarljiva, saj bi se Φ(∞) = . . . 0 5 zamenjal s Φ(6) = 0 499999999013. Laplaceova integralska formula pove, da je binomska porazdelitev za vslike σ približno normalna. Normalna ali tudi Gaussova porazdelitev s sredino µ in standardnim odklonom σ, kjer je µ ∈ R in σ > 0, je določena z lastnostjo, da slučajna spremenljivka X, ki ima to porazdelitev, zadošča: b−µ a−µ P(a < X < b) = P(a ≤ X ≤ b) = Φ −Φ . σ σ Pišemo X ∼ N(µ, σ). Tako lahko Laplaceovo integralsko formulo zapišemo kot približno ujemanje porazdelitev: p Bi(n, p) ≈ N np, np(1 − p) . Za σ = 0 dobimo degenerirano normalno porazdelitev: če je X ∼ N(µ, 0), to pomeni, da je X = µ z verjetnostjo 1. Standardna normalna porazdelitev pa je porazdelitev N(0, 1). Za X ∼ N(0, 1) torej velja P(a < X < b) = P(a ≤ X ≤ b) = Φ(b) − Φ(a). Primer : če je X ∼ N(50, 20), je: • P(35 < X < 80) = P(35 ≤ X < 80) = P(25 < X ≤ 80) = P(35 ≤ X ≤ 80) = . . . . Φ(1 5) + Φ(0 75) = 0 7066; . . . • P(X < 0) = 12 − Φ(2 5) = 0 0062. Histogram porazdelitve celoštevilske slučajne spremenljivke, katere porazdelitev je približno normalna, ima obliko Gaussove krivulje: σ σ µ Slučajna spremenljivka, porazdeljena normalno N(µ, σ), se: • z verjetnostjo približno 68% nahaja med µ − σ do µ + σ; • z verjetnostjo približno 95% nahaja med µ − 2σ do µ + 2σ; . • z verjetnostjo približno 99 7% nahaja med µ − 3σ do µ + 3σ. 82 M. RAIČ: STATISTIKA 2.3.4 Funkcije slučajnih spremenljivk Iz slučajne spremenljivke X in funkcije f dobimo novo slučajno spremenljivko f (X), ki izidu ω priredi vrednost f (X(ω)). Če ima X diskretno porazdelitev, podano s shemo: a1 a 2 · · · ak , p1 p2 · · · pk je tudi f (X) diskretna, njeno porazdelitev pa določa shema: f (a1 ) f (a2 ) · · · f (ak ) . p1 p2 ··· pk Toda tudi če so vrednosti a1 , . . . ak vse različne, vrednosti f (a1 ), . . . f (ak ) niso nujno različne. Če hočemo torej dobiti točkaste verjetnosti (verjetnostno funkcijo), moramo v splošnem seštevati. Primer . Naj bo: X∼ 1 2 3 4 5 6 . . . . . . 0 05 0 15 0 15 0 15 0 15 0 35 in Y = (X − 2)2 . Tedaj sicer lahko pišemo: 4 1 0 1 4 9 , X∼ . . . . . . 0 05 0 15 0 15 0 15 0 15 0 35 . . . . . toda verjetnost P(Y = 4) ni enaka niti 0 05 niti 0 15, temveč 0 05 + 0 15 = 0 2. Porazdelitvena shema, iz katere lahko točkaste verjetnosti neposredno razberemo, je: 0 1 4 9 . X∼ . . . . 0 05 0 3 0 2 0 35 Lahko gledamo tudi funkcije več slučajnih spremenljivk. Primer . Slučajni spremenljivki X in Y naj imata navzkrižno porazdelitev: X=1 X=2 Y =1 Y =2 Y =3 0 0.25 0.15 0.25 0.25 0.1 0.25 0.5 0.25 0.4 0.6 Tedaj je njuna vsota X + Y funkcija obeh slučajnih spremenljivk in velja: 3 4 5 . X +Y ∼ . . . 05 04 01 Če pa vzamemo neodvisni slučajni spremenljivki X ′ in Y ′ z enakima porazdelitvama kot X in Y , t. j.: 83 M. RAIČ: STATISTIKA X′ = 1 X′ = 2 ′ ′ je X + Y ∼ Y′ =1 Y′ =2 Y′ =3 0.1 0.2 0.1 0.15 0.3 0.15 0.25 0.5 0.25 0.4 0.6 2 3 4 5 , čeprav sta robni porazdelitvi v obeh primerih enaki. . . . . 0 1 0 35 0 4 0 15 Nauk : za izračun porazdelitve funkcije dveh ali več slučajnih spremenljivk potrebujemo navzkrižno porazdelitev. 2.3.5 Porazdelitve urejenostnih slučajnih spremenljivk Eden temeljnih pojmov pri urejenostnih slučajnih spremenljivkah je kumulativna porazdelitvena funkcija: F X (x) = P(X ≤ x) . Primer : za X ∼ 1 2 3 4 5 6 . . . . . . 0 05 0 15 0 15 0 15 0 15 0 35 je npr.: . F X (2) = P(X = 1) + P(X = 2) = 0 2 , . . F X (1 9) = P(X = 1) = 0 05 , F X (0) = 0 , F X (6) = 1 , F X (1000) = 1 . Graf: 1 F X (x) 0.8 0.6 0.4 0.2 1 2 3 4 5 6 x 84 M. RAIČ: STATISTIKA Če urejenostna slučajna spremenljivka X zavzame vrednosti v množici, ki se da urejenostno vložiti v realna števila, je s kumulativno porazdelitveno funkcijo njena porazdelitev natančno določena. Velja namreč: P(X < x) = F X (x− ) = lim F X (y) y↑x ter za a ≤ b še: P(a ≤ X P(a < X P(a ≤ X P(a < X ≤ b) = P(X ≤ b) = P(X < b) = P(X < b) = P(X ≤ b) − P(X ≤ b) − P(X < b) − P(X < b) − P(X < a) = F X (b) − F X (a− ) , ≤ a) = F X (b) − F X (a) , < a) = F X (b− ) − F X (a− ) , ≤ a) = F X (b− ) − F X (a) . Velja tudi: P(X = x) = P(X ≤ x) − P(X < x) = F X (x) − F (x− ) . Točkasta verjetnost je torej enaka skoku kumulativne porazdelitvene funkcije v dani točki. Kumulativna porazdelitvena funkcija F ima naslednje lastnosti: • Je naraščajoča, a ne nujno strogo: če je a ≤ b, je F (a) ≤ F (b). • limx→−∞ F (x) = 0 in limx→∞ F (x) = 1. • Je z desne zvezna: limy↓x F (y) = F (x+ ) = F (x). Velja tudi, da je vsaka funkcija z zgornjimi lastnostmi kumulativna porazdelitvena funkcija neke slučajne spremenljivke. Kumulativna porazdelitvena funkcija slučajne spremenljivke, ki zavzame kvečjemu končno mnogo vrednosti, je stopničasta. To pa ni res za vsako kumulativno porazdelitveno funkcijo. Kumulativna porazdelitvena funkcija standardne normalne porazdelitve je tako F (x) = 12 + Φ(x). Graf: F (x) 1/2 −3 −2 −1 1 1 2 3 x 85 M. RAIČ: STATISTIKA Kvantil slučajne spremenljivke za verjetnost p je vrednost q, za katero velja: P(X < q) ≤ p in P(X ≤ q) ≥ p . To je posplošitev kvantila spremenljivke na statistični množici: slednji je kvantil porazdelitve slučajne spremenljivke, ki jo dobimo tako, da enoto na populaciji izberemo na slepo. Kvantile lahko grafično določimo iz grafa kumulativne porazdelitvene funkcije: v skokih graf dopolnimo z ustreznimi navpičnimi daljicami in kvantil za verjetnost p je vsaka abscisa točke na dobljeni črti, ki ima ordinato enako p. Gledamo torej presečišča dopolnjenega grafa z ustrezno vodoravnico. 1 2 3 4 5 6 , je kvantil slučajne spremenPrimer . Če je X ∼ . . . . . . 0 05 0 15 0 15 0 15 0 15 0 35 . ljivke X za verjetnost 0 3 natančno določen, in sicer je enak 3: . . . . • Velja P(X < 3) = 0 2 ≤ 0 3 in P(X ≤ 3) = 0 35 ≥ 0 3. . . • Brž ko je x < 3, je P(X ≤ x) ≤ 0 2 < 0 3, zato x ni ustrezni kvantil. . . • Brž ko je x > 3, je P(X < x) ≥ 0 35 > 0 3, zato x ni ustrezni kvantil. Podobno je tudi prvi kvartil lahko enak le 3. Mediana pa ni natančno določena, lahko je kar koli iz intervala [4, 5]. Primer : kumulativna porazdelitvena funkcija števila šestic pri 5 metih poštene kocke skupaj s kumulativno porazdelitveno funkcijo ustrezne aproksimativne normalne porazdelitve: 1 F X (x) 0.8 0.6 0.4 0.2 1 2 3 4 5 6 x Primer : kumulativna porazdelitvena funkcija števila šestic pri 180 metih poštene kocke skupaj s kumulativno porazdelitveno funkcijo ustrezne aproksimativne normalne porazdelitve: 86 M. RAIČ: STATISTIKA F X (x) 1 0.8 0.6 0.4 0.2 10 2.3.6 20 30 40 x Porazdelitve intervalskih slučajnih spremenljivk Eden temeljnih pojmov pri intervalskih slučajnih spremenljivkah je matematično upanje ali tudi pričakovana vrednost. Le-to sicer ni vselej definirano, lahko pa ga izračunamo za vsako slučajno spremenljivko, ki zavzame le končno mnogo vrednosti. Matematično upanje slučajne spremenljivke: a1 a2 · · · ak X∼ p1 p2 · · · pk je definirano kot: E(X) := a1 p1 + a2 p2 + · · · + ak pk . Pri tem ni nujno, da so vse vrednosti a1 , a2 , . . . ak različne. Izkaže se, da je matematično upanje neodvisno od sheme, s katero podamo porazdelitev. Matematično upanje je posplošitev aritmetične sredine: aritmetična sredina spremenljivke, definirane na določeni statistični množici, je matematično slučajne spremenljivke, ki nastane, če enoto iz množice izberemo na slepo. Matematično upanje je mera centralne tendence: v grobem lahko rečemo, da lahko pri realizacijah slučajne spremenljivke X pričakujemo vrednosti blizu E(X). Primer : za X ∼ 1 2 3 4 5 6 . . . . . . 0 1 0 15 0 15 0 15 0 15 0 3 je: . . . . . . E(X) = 1 · 0 1 + 2 · 0 15 + 3 · 0 15 + 4 · 0 15 + 5 · 0 15 + 6 · 0 3 = 4 . Neposredno iz porazdelitvene sheme se da izračunati tudi matematično upanje poljubne funkcije slučajne spremenljivke. Velja namreč: E f (X) = f (a1 )p1 + f (a2 )p2 + · · · + f (ak )pk . 87 M. RAIČ: STATISTIKA 1 2 3 4 5 6 in Y = (X − 4)2 . Tedaj Primer . Naj bo spet X ∼ . . . . . . 0 1 0 15 0 15 0 15 0 15 0 3 lahkoE(Y ) izračunamo nadva načina. Lahko upoštevamo, da je 0 1 4 9 in zato: Y ∼ . . . . 0 15 0 3 0 45 0 1 . . . . E(Y ) = 0 · 0 15 + 1 · 0 3 + 4 · 0 45 + 9 · 0 1 = 3 ali pa: . . . . E(Y ) = (1 − 4)2 · 0 1 + (2 − 4)2 · 0 15 + (3 − 4)2 · 0 15 + (4 − 4)2 · 0 15 + . . + (5 − 4)2 · 0 15 + (6 − 4)2 · 0 3 = = 3. Matematično upanje lahko izmenjamo z linearno funkcijo. Velja namreč: E(kX + n) = k E(X) + n . To pa ne velja kar za vsako funkcijo: v splošnem je E f (X) 6= f E(X) . 1 Primer . Naj bo spet X ∼ . 01 lahkoE(Z) spet izračunamo na 1010 1020 1030 1040 Z∼ . . . . 0 1 0 15 0 15 0 15 2 3 4 5 6 in Z = 10X + 1000. Tedaj . . . . . 0 15 0 15 0 15 0 15 0 3 dva načina. Lahko upoštevamo, da je 1050 1060 in zato: . . 0 15 0 3 . . . . . . E(Z) = 1010 · 0 1 + 1020 · 0 15 + 1030 · 0 15 + 1040 · 0 15 + 1050 · 0 15 + 1060 · 0 3 = 1040 ali pa preprosto izračunamo E(Z) = 10 · 4 + 1000 = 1040. Če pa postavimo Y = (X − 4)2 , smo v prejšnjem primeru izračunali, da je E(Y ) = 3, medtem ko je (4 − 4)2 = 0. Izmenljivost matematičnega upanja je temelj za u-metodo, ki jo poznamo že iz računanja aritmetične sredine: za poljuben u ∈ R velja: E(X) = u + E(X − u) . Primer : za X ∼ 490 500 520 . . . 01 03 06 lahko izračunamo: . . E(X) = 500 + (−10) · 0 1 + 20 · 0 6 = 511 . Matematično upanje je tudi aditivno: za slučajni spremenljivki velja: E(X + Y ) = E(X) + E(Y ) . Matematično upanje vsote je torej določeno že z robnima porazdelitvama, čeprav to ne velja za samo porazdelitev vsote. 88 M. RAIČ: STATISTIKA Primer . Slučajni spremenljivki X in Y naj imata navzkrižno porazdelitev: X=1 X=2 Y =1 Y =2 Y =3 0 0.25 0.15 0.25 0.25 0.1 0.25 0.5 0.25 0.4 0.6 Iz robnih porazdelitev dobimo: . . . E(X) = 1 · 0 4 + 2 · 0 6 = 1 6 , . . . E(Y ) = 1 · 0 25 + 2 · 0 5 + 3 · 0 25 = 2 . 3 4 5 in posledično: Nadalje je X + Y ∼ . . . 05 04 01 . . . . . E(X + Y ) = 3 · 0 5 + 4 · 0 4 + 5 · 0 1 = 3 6 = 1 6 + 2 . Če pa vzamemo neodvisni slučajni spremenljivki X ′ in Y ′ z enakima porazdelitvama kot X in Y , t. j.: X′ = 1 X′ = 2 Y′ =1 Y′ =2 Y′ =3 0.1 0.2 0.1 0.15 0.3 0.15 0.25 0.5 0.25 0.4 0.6 . ′ je seveda prav 6 in E(Y ′ ) = 2. Vsota je sicer drugače porazdeljena: tako E(X ) = 1 2 3 4 5 , toda spet je: X′ + Y ′ ∼ . . . . 0 1 0 35 0 4 0 15 . . . . . . E(X ′ + Y ′ ) = 2 · 0 1 + 3 · 0 35 + 4 · 0 4 + 5 · 0 15 = 3 6 = 1 6 + 2 . Zaenkrat smo matematično upanje definirali le za slučajne spremenljivke, ki zavzamejo končno mnogo vrednosti. Da se ga smiselno posplošiti na veliko slučajnih spremenljivk, ne pa na vse. Omenimo naj, da za X ∼ N(µ, σ) velja E(X) = µ. Za intervalske spremenljivke na statističnih množicah smo definirali tudi varianco. Varianca slučajne spremenljivke je definirana kot: h 2 i var(X) = E X − E(X) . Izkaže pa se, da velja tudi: var(X) = E(X 2 ) − E(X) 2 , kar često pride prav pri računanju peš. Uporaba te formule za računalnik pa je lahko nevarna, ker je formula lahko numerično nestabilna: majhne napake pri računanju vodijo v velike napake pri končnem rezultatu. To je zato, ker se lahko zgodi, da se dve veliki količini odštejeta v majhno količino. 89 M. RAIČ: STATISTIKA 1 Primer . Varianco slučajne spremenljivke X ∼ . 01 izračunamo na vsaj dva načina. Prvič, ker vemo, da 2 4) = 3. Drugič, lahko izračunamo: 2 3 4 5 6 lahko . . . . . 0 15 0 15 0 15 0 15 0 3 je E(X) = 4, je var(X) = E (X − . . . . . . E(X 2 ) = 1 · 0 1 + 4 · 0 15 + 9 · 0 15 + 16 · 0 15 + 25 · 0 15 + 36 · 0 3 = 19 in posledično var(X) = 19 − 16 = 3. Varianca je mera razpršenosti: v grobem pove, za koliko se realizirane vrednosti slučajne spremenljivke X lahko razlikujejo. Natančneje, je mera za kvadrate teh razlik. Za varianco velja: var(aX + b) = a2 var(X) + b . 1 2 3 4 5 6 in Z = 10X + 1000 velja var(Z) = Primer : za X ∼ . . . . . . 0 1 0 15 0 15 0 15 0 15 0 3 2 100 var(X) = 300. Opazimo še, da bi se, če bi šli računat var(Z) = E(Z 2 ) − E(Z) , odšteli dve količini z vrednostjo približno milijon. Ker varianca ni neposredno primerljiva z vrednostmi slučajne spremenljivke, je spet ugodno uvesti standardni odklon: p σ(X) = var(X) . Velja σ(aX b) = |a|σ(X). √ Za slučajni iz prejšnjega primera je tako √ spremenljivki √ + . . . . σ(X) = 3 = 1 732 in σ(Z) = 300 = 10 3 = 17 32. Standardni odklon slučajne spremenljivke, porazdeljene normalno N(µ, σ), je enak σ. Tako je uporaba znaka σ za drugi parameter pri normalni porazdelitvi in za standardni odklon konsistentna. Neobčutljivost variance za prištetje deterministične količine vodi v izpeljavo u-metode za varianco: 2 var(X) = E (X − u)2 − E(X − u) . Primer . Naj bo Z ∼ 3 4 5 . . . . Če izberemo u = 4, dobimo: 05 04 01 . . . E(Z − u) = (−1) · 0 5 + 1 · 0 1 = −0 4 . . . E (Z − u)2 = (−1)2 · 0 5 + 12 · 0 1 = 0 6 . . . var(Z) = 0 6 − 0 16 = 0 44 . Varianca je tudi aditivna, vendar ne v tolikšni splošnosti kot matematično upanje. Enakost: var(X + Y ) = var(X) + var(Y ) 90 M. RAIČ: STATISTIKA velja, če sta X in Y neodvisni, v splošnem pa ne. Tako recimo račun: var(2X) = var(X + X) = var(X) + var(X) = 2 var(X) ni pravilen, ker ne velja druga enakost: X in X namreč nista neodvisni, brž ko X ni skoraj gotovo konstantna. Pravilno je var(2X) = 4 var(X). Primer . Spet vzemimo slučajni spremenljivki X in Y z navzkrižno porazdelitvijo: X=1 X=2 Y =1 Y =2 Y =3 0 0.25 0.15 0.25 0.25 0.1 0.25 0.5 0.25 0.4 0.6 3 4 5 . . pri kateri pride X + Y ∼ . . . . Velja var(X) = 0 24, var(Y ) = 0 5 in var(X + 05 04 01 . Y ) = 0 44 6= var(X) + var(Y ). . . . . . E(X + Y ) = 3 · 0 5 + 4 · 0 4 + 5 · 0 1 = 3 6 = 1 6 + 2 . Če pa vzamemo neodvisni slučajni spremenljivki X ′ in Y ′ z enakima porazdelitvama kot X in Y , t. j.: X′ = 1 X′ = 2 Y′ =1 Y′ =2 Y′ =3 0.1 0.2 0.1 0.15 0.3 0.15 0.25 0.5 0.25 0.4 0.6 2 3 4 5 . ′ ′ ′ je seveda prav tako var(X ) = 0 24 in var(Y ) = 0.5 in iz X +Y ∼ . . . . 0 1 0 35 0 4 0 15 . dobimo var(X ′ + Y ′ ) = 0 74. Tega pa ne bi bilo treba računati, saj sta X ′ in Y ′ neodvisni, . . . zato je var(X ′ + Y ′ ) = 0 24 + 0 5 = 0 74. ′ Primer . Bernoullijevemu zaporedju slučajnih poskusov, pri katerih vsak uspe z verjetnostjo p, lahko priredimo zaporedje slučajnih spremenljivk X1 , X2 , . . . na naslednji način: 1 ; i-ti poskus uspe Xi = . 0 ; i-ti poskus ne uspe Tedaj so te slučajne spremenljivke neodvisne, vsota prvih n, S = X1 +X2 +· · ·+Xn , pa je natančno število uspelih med prvimi n poskusi, torej je S ∼ Bi(n, p). Ni težko izračunati, da je E(Xi ) = p in var(Xi ) = p(1 − p). Sledi E(S) = np in var(S) = np(1 − p). Sklep: za vsako slučajno spremenljivko S ∼ Bi(n, p) je E(S) = np in var(S) = np(1 − p). To je zato, ker sta matematično upanje in varianca odvisna le od porazdelitve sučajne spremenljivke, ne pa tudi od njene konstrukcije. 91 M. RAIČ: STATISTIKA Zdaj lahko Laplaceovo integralsko formulo pogledamo še drugače: če gre n proti neskončno, p pa ostane stran od 0 in 1, je binomska porazdelitev približno normalna z ustreznim matematičnim upanjem in varianco. Kovarianca slučajnih spremenljivk X in Y je definirana kot: h K (X, Y ) = E X − E(X) Y − E(Y ) . Tudi kovarianca je posplošitev kovariance spremenljivk na statistični množici. Velja tudi: K (X, Y ) = E(XY ) − E(X) E(Y ) in celo: K (X, Y ) = E (X − u)(Y − v) − E(X − u) E(Y − v) . Primer . Za slučajni spremenljivki X in Y z navzkrižno porazdelitvijo: X=1 X=2 Y =1 Y =2 Y =3 0 0.25 0.15 0.25 0.25 0.1 0.25 0.5 0.25 0.4 0.6 velja: . . . . . . E(XY ) = 1 · 1 · 0 + 1 · 2 · 0 25 + 1 · 3 · 0 15 + 2 · 1 · 0 25 + 2 · 2 · 0 25 + 2 · 3 · 0 1 = 3 05 , torej: . . . K (X, Y ) = 3 05 − 1 6 · 2 = −0 15 . Za slučajni spremenljivki s kovarianco nič pravimo, da sta nekorelirani. Slučajni spremenljivki X in Y sta torej nekorelirani natanko tedaj, ko je E(XY ) = E(X) E(Y ). Poljubni neodvisni slučajni spremenljivki sta nekorelirani, obratno pa ne velja nujno. Primer : pri navzkrižni porazdelitvi: X = −1 X=0 X=1 Y = −1 Y = 0 Y = 1 0.1 0 0.1 0 0.6 0 0.1 0 0.1 0.2 0.6 0.2 0.2 0.6 0.2 sta X in Y nekorelirani, saj je E(X) = E(Y ) = E(XY ) = 0. Nista pa neodvisni, saj je . . npr. P(X = −1, Y = 0) = 0, medtem ko je P(X = −1) P(Y = 0) = 0 12. 92 M. RAIČ: STATISTIKA A že če sta X in Y nekorelirani, velja var(X + Y ) = var(X) + var(Y ). V splošnem namreč velja formula: var(X + Y ) = var(X) + 2 K (X, Y ) + var(Y ) . Korelacijski koeficient med slučajnima spremenljivkama X in Y je tako kot za spremenljivke na statističnih množicah definiran s predpisom: r (X, Y ) = K (X, Y ) . σ(X) σ(Y ) Tudi pri slučajnih spremenljivkah velja −1 ≤ r (X, Y ) ≤ 1 in korelacijski koeficient lahko kvalitativno opredeljujemo na enak način kot pri statističnih spremenljivkah. Primer . Za slučajni spremenljivki X in Y z navzkrižno porazdelitvijo: X=1 X=2 Y =1 Y =2 Y =3 0 0.25 0.15 0.25 0.25 0.1 0.25 0.5 0.25 0.4 0.6 velja: . −0 15 . . r (X, Y ) = √ . √ . = −0 433 . 0 24 0 5 Gre torej za zmerno negativno korelacijo. 2.3.7 Centralni limitni izrek Pri binomski porazdelitvi Bi(n, p) smo videli, da je, ko je n velik, p pa dovolj stran od 0 ali 1 blizu normalni (Gaussovi) z ustreznim matematičnim upanjem in varianco. Videli smo tudi, da se da binomska porazdelitev zapisati kot vsota neodvisnih slučajnih spremenljivk. To velja tudi za splošnejše vsote. Centralni limitni izrek (ohlapna formulacija): slučajna spremenljivka S, ki je vsota veliko neodvisnih slučajnih spremenljivk z dovolj lepimi porazdelitvami, od katerih nobena posebej ne izstopa, je porazdeljena približno normalno N(µ, σ), kjer je µ = E(S) in σ 2 = var(S). Velja torej: b−µ a−µ P(a < S < b) ≈ P(a ≤ S ≤ b) ≈ Φ −Φ . σ σ Z drugimi besedami, porazdelitev količine, ki nastopi kot rezultat veliko majhnih neodvisnih slučajnih vplivov, ki se med seboj seštevajo, sledi Gaussovi krivulji. 93 M. RAIČ: STATISTIKA Primer . Loterija izda srečko, ki stane 1 evro. Srečka z verjetnostjo 5% zadene 10 evrov, z verjetnostjo 45% zadene 1 evro (v tem primeru torej kupec dobi povrnjen vložek), z verjetnostjo 50% pa ne zadene nič. Zanima nas dobiček loterije, če proda določeno število neodvisnih srečk (to vsaj približno velja, če igralec srečko napiše sam). Pri n prodanih srečkah lahko dobiček zapišemo kot vsoto S = X1 + X2 + · · · + Xn , kjer so X1 , . . . Xn neodvisne s porazdelitvijo: −9 0 1 . . . . 0 05 0 45 0 5 Če loterija proda 10 srečk, porazdelitev dobička S prikazuje naslednji histogram: −90 −80 −70 −60 −50 −40 −30 −20 −10 10 Če loterija proda 50 srečk, je histogram naslednji: −50 −40 −30 −20 −10 Pri 100 prodanih srečkah pa je naslednji: 10 20 30 40 50 94 M. RAIČ: STATISTIKA −70 −60 −50 −40 −30 −20 −10 10 20 30 40 50 Izračunajmo za ta primer približno verjetnost, da ima loterija izgubo! Velja: . . . . E(Xi ) = 0 05 , var(Xi ) = 4 5475 , σ(Xi ) = 2 1325 , torej: E(S) = 5 , . var(S) = 454 75 , od koder dobimo: . P(S < 0) = P(−∞ < S < −0 5) ≈ Φ . Točen rezultat: 0 376765. . . σ(S) = 21 325 , . −0 5 − 5 . 1 . . . − Φ(−∞) = − Φ(0 2579) = 0 3982 . . 21 325 2 Lahko pa se vprašamo tudi, najmanj koliko srečk mora loterija prodati, če naj bo . verjetnost, √ .da ima izgubo, največ 5%. Če loterija proda n srečk, je E(S) = 0 05 n in σ(S) = 4 5475 n, torej je: . . 1 −0 5 − 0 05 n √ . + . P(S < 0) ≈ Φ 2 4 5475 n Izraz v ulomku pa je za nadaljnjo obravnavo nekoliko zapleten, zato si privoščimo, da . zanemarimo tudi člen 0 5. Dobimo: r 1 n . P(S < 0) ≈ − Φ 0 05 . . 2 4 5475 Rešiti moramo torej neenačbo: oziroma: r n 1 . . ≤ 0 05 − Φ 0 05 . 2 4 5475 r n . Φ 0 05 ≥ 0 45 . . 4 5475 . . . Ker je Φ(1 645) = 0 45, je pogoj za število srečk približno: r n . . ≥ 1 645 , 0 05 . 4 5475 . kar velja za n ≥ 4923 (zaokrožili smo navzgor). Točna verjetnost izgube pri 4923 prodanih . srečkah pa je nekoliko večja, 0 05117. Pri 5000 prodanih srečkah pa je verjetnost izgube . 0 04987. Histogram: 95 M. RAIČ: STATISTIKA −200 −100 100 200 300 400 500 600 700 Prikažimo še grafe kumulativnih porazdelitvenih funkcij dobička prodanih srečk skupaj s pripadajočimi normalnimi slučajnimi spremenljivkami: 1 n = 10 0.8 0.6 0.4 0.2 −40 −30 −20 −10 1 10 20 30 n = 50 0.8 0.6 0.4 0.2 −50 −40 −30 −20 10 10 20 30 40 50 96 M. RAIČ: STATISTIKA 1 n = 100 0.8 0.6 0.4 0.2 −70 −60 −50 −40 −30 −20 10 1 10 20 30 40 50 60 n = 500 0.8 0.6 0.4 0.2 −140 −120 −100 −80 −60 −40 −20 1 20 40 60 80 100 120 140 n = 5000 0.8 0.6 0.4 0.2 −200 100 100 200 300 400 500 600 700 Veliko podatkov pa ne pomeni vedno (približno) normalne porazdelitve. Spodaj so prikazani rezultati 963 drugih kolokvijev iz predmeta Verjetnost in statistika za študente računalništva na Univerzi v Ljubljani v letih od 1997 do 2010: 97 M. RAIČ: STATISTIKA 25 20 15 10 5 10 20 30 40 50 60 70 80 90 100 . . . Relativne kumulativne frekvence skupaj z normalno aproksimacijo (µ = 58 02, σ = . 25 31): 1 0.8 0.6 0.4 0.2 10 20 30 40 50 60 70 80 90 100 98 M. RAIČ: STATISTIKA 3. Inferenčna statistika Pri opisni statistiki se osredotočimo le na podatke, ki jih imamo (na to, kar opazimo) in poskusimo narediti smiseln povzetek. Pri inferenčni statistiki pa gledamo podatke kot del nečesa večjega, česar ne poznamo v celoti. Tipičen primer je vzorec iz populacije: vrednosti statistične spremenljivke na vzorcu poznamo, na celotni populaciji pa ne. To pa ni edina možnost. Regresijska analiza se npr. ukvarja z napovedjo dogajanja v prihodnosti na podlagi podatkov iz preteklosti. V splošnem gre pri inferenčni statistiki za to, da opazimo X, želeli pa bi povedati kaj o Y (statistično sklepati ). Pri tem sta X in Y slučajni spremenljivki na istem verjetnostnem prostoru, ki pa nima nujno znane porazdelitve. Temu pravimo statistični model. Če je porazdelitev vendarle znana, modelu pravimo bayesovski. S takimi modeli se ukvarja bayesovska statistika. Tako jo imenujemo zato, ker temelji na Bayesovi formuli (glej podrazdelek 2.2.2). Omenili bomo tri vrste sklepanja: • Točkasto ocenjevanje, pri katerem sestavimo algoritem, ki nam za vsako opažanje X vrne oceno Y ≈ Yˆ . Pri tem mora biti količina Yˆ opazljiva (deterministično določena z opažanjem X), želeli pa bi narediti čim manjšo napako. Količini Yˆ pravimo cenilka za Y . • Intervalsko ocenjevanje, pri katerem poskusimo Y umestiti v opazljiv interval, npr. Ymin < Y < Ymax . Seveda morata biti meji intervala Ymin in Ymax opazljivi. Če o Y nimamo popolne informacije, izjava Ymin < Y < Ymax tipično ni vedno pravilna, da pa se kontrolirati verjetnost tega statističnega sklepa. Želimo doseči dvoje: – Širina intervala naj bo čim manjša. – Verjetnost, da je res Ymin < Y < Ymax (verjetnost pokritosti), naj bo v vsakem primeru vsaj β. . Parametru β pravimo stopnja zaupanja. Tipični stopnji zaupanja sta β = 0 95 in . β = 0 99. 99 100 M. RAIČ: STATISTIKA • Testi značilnosti, pri katerem o Y postavimo neko hipotezo (domnevo), npr. Y = y0 . Tej hipotezi navadno pravimo ničelna hipoteza in jo označimo s H0 . Nasprotje ničelne hipoteze je alternativna hipoteza in jo navadno označimo s H1 . Test za vsako opažanje pove, ali ničelno hipotezo zavrnemo in sprejmemo alternativno hipotezo ali pa ne naredimo ničesar. Želimo doseči dvoje: – H0 naj se zavrne v čimveč primerih, ko ne velja. – Verjetnost dogodka, da ničelno hipotezo zavrnemo, čeprav velja, naj bo v vsakem primeru največ α. Parametru α pravimo stopnja značilnosti. Če ničelno hipotezo zavrnemo pri stopnji . značilnosti α = 0 05, pravimo, da so odstopanja statistično značilna. če pa jo . zavrnemo pri α = 0 01, pa, da so statistično zelo značilna. Primer : Delova anketa pred predčasimi volitvami v Državni zbor jeseni 2011 samo s prikazom, kaj je kaj, brez računanja. 3.1 Verjetnost uspeha poskusa Dano je Bernoullijevo zaporedje n poskusov z verjetnostjo uspeha p. Opazimo, da uspe k poskusov. k Točkasta ocena za p (cenilka): pˆ = . n Konstrukcij intervala zaupanja je veliko, tu bomo uporabili Agresti–Coullovo konstrukcijo. Najprej izračunamo c := z(1+β)/2 , kjer je za kvantil standardne normalne porazdelitve za verjetnost a. Z drugimi besedami, Φ(za ) = a − 12 . Tabela nekaj kvantilov, pomembnih v statistiki: a za . . 0 95 1 64 . . 0 975 1 96 . . 0 99 2 33 . . 0 995 2 58 Nato izračunamo: 2 2 n ˜ =n+c , k + c2 p˜ = , n ˜ q˜ = 1 − p˜ . Interval zaupanja: p˜ − c r p˜q˜ < p < p˜ − c n ˜ r p˜q˜ n ˜ Opomba. Ta interval nam sicer ne zagotavlja v vsakem primeru verjetnosti pokritosti vsaj β, toda verjetnost pokritosti se pri vsakem p bliža β, ko se n veča. Bližanje je še hitrejše, če gledamo povprečno verjetnost pokritosti, ko p preteče določen interval. Le-ta je zelo blizu β že za majhne n (od 10 naprej). 101 M. RAIČ: STATISTIKA Opomba. Še vedno je v dokaj splošni uporabi Waldov interval zaupanja, ki je enake oblike kot zgornji, le z n, p in q = 1 − p namesto n ˜ , p˜ in q˜. Toda ta interval da zadovoljivo povprečno verjetnost pokritosti šele za razmeroma velike n. Testiranje hipoteze, da je p = p0 . Naj bo q0 := 1 − p0 . Če alternativna hipoteza trdi, da je p 6= p0 (dvostranski test), ničelno hipotezo zavrnemo, če je: pˆ − p0 √ |k − np0 | − 21 1 n − √ = √ ≥ z1−α/2 . √ np0 q0 p 0 q0 2 np0 q0 Če alternativna hipoteza trdi, da je p > p0 (enostranski test v desno), ničelno hipotezo zavrnemo, če je: 1 2 k − np0 − √ np0 q0 1 pˆ − p0 √ n− √ = √ ≥ z1−α/2 . p 0 q0 2 np0 q0 Če alternativna hipoteza trdi, da je p < p0 (enostranski test v levo), ničelno hipotezo zavrnemo, če je: k − np0 + √ np0 q0 1 2 1 pˆ − p0 √ n+ √ = √ ≤ −z1−α/2 . p 0 q0 2 np0 q0 Primeri: . • loterijska srečka, ki naj bi zadela z verjetnostjo 1/2: 2 dobitni od 8 pri α = 0 05, . . 4 dobitne od 16 pri α = 0 05, 4 dobitne od 16 pri α = 0 01. . • poštenost kovanca: 4 grbi od 16 pri α = 0 05. pˆ − p0 √ 1 k − np0 = √ . n in popravkom √ To je primer Z-testa za testno statistiko √ np0 q0 p 0 q0 2 np0 q0 Z-test za testno statistiko Z in popravkom c ima tri različice. • Pri dvostranski različici ničelno hipotezo zavrnemo, če je |Z| − c ≥ z1−α/2 . • Pri enostranski različici v desno ničelno hipotezo zavrnemo, če je Z − c ≥ z1−α . • Pri enostranski različici v levo ničelno hipotezo zavrnemo, če je Z + c ≤ −z1−α . 3.2 Frekvenčna porazdelitev a1 a2 · · · Točkasta ocena porazdelitve p1 p2 · · · ak : pˆi = fi◦ . pk Porazdelitev lahko testiramo s testom hi kvadrat s testno statistiko: 2 χ = k X (fi − npi )2 i=1 npi =n k X (ˆ pi − pi ) 2 i=1 pi 102 M. RAIČ: STATISTIKA s k−1 prostostimi stopnjami, in sicer z enostransko različico v desno. Enostranska različica testa hi hvadrat za testno statistiko χ2 z df prostostnimi stopnjami pri stopnji značilnosti α pomeni, da hipotezo zavrnemo, če je χ2 ≤ χ21−α (df ). Na desni je kvantil porazdelitve hi kvadrat z df prostostnimi stopnjami za verjetnost 1 − α. Le-te lahko odčitamo iz tabele. 3.3 Sredina pri znanem σ Izmerimo X1 , X2 , . . . Xn , ki so neodvisne in porazdeljene normalno N(µ, σ), kjer σ poznamo. Cenilka za µ: ¯ = X1 + X2 + · · · + Xn . µ ˆ = µvz = X n Interval zaupanja: σ σ ˆ + z(1+β)/2 √ . µ ˆ − z(1+β)/2 √ < µ < µ n n µ ˆ−µ√ n. Testiranje: z Z-testom za testno statistiko σ Interval zaupanja in testiranje sta robustna, kar pomeni, da sta za dovolj velike n vsaj približno legitimna, tudi če porazdelitev ni normalna – da le obstajata matematično upanje in varianca. 3.4 Sredina pri neznanem σ Izmerimo X1 , X2 , . . . Xn , ki so neodvisne in porazdeljene normalno N(µ, σ), σ pa zdaj ne poznamo. Cenilka za µ je enaka kot pri znanem σ. Tu je na mestu omeniti še cenilko za σ, ki pa je: r r n (X1 − µ ˆ)2 + (X2 − µ ˆ)2 + · · · (Xn − µ ˆ )2 = . σ ˆ = σvz n−1 n−1 Interval zaupanja: σ ˆ σ ˆ ˆ + t(1+β)/2 (n − 1) √ , µ ˆ − t(1+β)/2 (n − 1) √ < µ < µ n n kjer je tp (df ) kvantil Studentove porazdelitve z df prostostnimi stopnjami za verjetnost p. Le-te lahko odčitamo iz tabel. µ ˆ−µ√ µ testiramo s T -testom z n − 1 prostostnimi stopnjami za testno statistiko n. σ ˆ T -test z df prostostnimi stopnjami za testno statistiko Z ima spet tri različice. • Pri dvostranski različici ničelno hipotezo zavrnemo, če je |T | ≥ t1−α/2 (df ). M. RAIČ: STATISTIKA • Pri enostranski različici v desno ničelno hipotezo zavrnemo, če je T ≥ t1−α (df ). • Pri enostranski različici v levo ničelno hipotezo zavrnemo, če je T ≤ −t1−α (df ). 103 104 M. RAIČ: STATISTIKA Literatura [1] A. Ferligoj: Osnove statistike na prosojnicah. Ljubljana, 1997. [2] R. Jamnik: Matematična statistika. DZS, Ljubljana, 1980. [3] R. Jamnik: Verjetnostni račun. ZOTKS, Ljubljana, 1987. [4] R. Jamnik: Verjetnostni račun in statistika. DMFA, Ljubljana, 1995. [5] M. Hladnik: Verjetnost in statistika, zapiski s predavanj. FRI, Ljubljana, 2002. [6] J. A. Čibej: Matematika: kombinatorika, verjetnostni račun, statistika. DZS, Ljubljana, 1994. [7] J. Sagadin: Osnovne statistične metode za pedagoge. FF, Ljubljana, 1992. [8] M. Blejec: Uvod v statistiko. EF, Ljubljana, 1996. [9] L. Pfajfar: Statistika 1. EF, Ljubljana, 2005. [10] F. Arh, L. Pfajfar: Statistika 1 z zgledi. EF, Ljubljana, 2005. [11] A. Juriši´c: Verjetnostni račun in statistika. Dosegljivo na: http://lkrv.fri.uni-lj.si/~ajurisic/stat10/ [12] B. Petz: Osnovne statističke metode. Liber, Zagreb, 1985. [13] J. A. Rice: Mathematical Statistics and Data Analysis. Thomson/Brooks/Cole, Belmont, 2007. [14] A. Ferligoj: Naloge iz statističnih metod. Ljubljana, 1981. [15] F. Arh, L. Pfajfar: Statistika 1. Zbirka rešenih izpitnih nalog. EF, Ljubljana, 2002. [16] M. R. Spiegel: Schaum’s outline of theory and problems of statistics. New York, 1999. 105