STATISTIKA

Transcription

STATISTIKA

STATISTIKA
UP FAMNIT, Biopsihologija
Zapiski s predavanj
Martin Raič
NEPOPOLNA PUBLIKACIJA
Kazalo
1. Opisna statistika
7
1.1
Tipi statističnih spremenljivk . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Povzemanje ene statistične spremenljivke – univariatna analiza . . . . . . . 10
1.3
1.2.1
Imenske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.2
Urejenostne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3
Intervalske spremenljivke: interpolacija . . . . . . . . . . . . . . . . 16
1.2.4
Intervalske spremenljivke: mere centralne tendence . . . . . . . . . 18
1.2.5
Intervalske spremenljivke: mere razpršenosti . . . . . . . . . . . . . 20
1.2.6
Združevanje vrednosti v razrede . . . . . . . . . . . . . . . . . . . . 26
1.2.7
Primerjanje vrednosti razmernostnih spremenljivk . . . . . . . . . . 29
Mere povezanosti dveh statističnih spremenljivk – bivariatna analiza . . . . 31
1.3.1
Povezanost dveh imenskih spremenljivk . . . . . . . . . . . . . . . . 31
1.3.2
Povezanost dveh intervalskih spremenljivk . . . . . . . . . . . . . . 35
1.3.3
Povezanost intervalske in dihotomne spremenljivke . . . . . . . . . 42
1.3.4
Povezanost intervalske in imenske spremenljivke . . . . . . . . . . . 45
1.3.5
Povezanost dveh urejenostnih spremenljivk . . . . . . . . . . . . . . 47
1.3.6
Povezanost urejenostne in dihotomne spremenljivke . . . . . . . . . 50
1.3.7
Povezanost urejenostne in imenske spremenljivke
2. Teorija verjetnosti
2.1
8
. . . . . . . . . . 52
55
Verjetnostni prostori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.1
Osnovni pojmi verjetnosti . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.2
Diskretna verjetnost . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.1.3
Relacije in operacije na dogodkih . . . . . . . . . . . . . . . . . . . 61
2.1.4
Aksiomi Kolmogorova . . . . . . . . . . . . . . . . . . . . . . . . . 63
3
4
M. RAIČ: STATISTIKA
2.2
2.3
Pogojna verjetnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.2.1
Definicija pogojne verjetnosti . . . . . . . . . . . . . . . . . . . . . 66
2.2.2
Relejni poskusi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Slučajne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.3.1
Osnovni pojmi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.3.2
Navzkrižne porazdelitve . . . . . . . . . . . . . . . . . . . . . . . . 71
2.3.3
Bernoullijeva zaporedja poskusov . . . . . . . . . . . . . . . . . . . 76
2.3.4
Funkcije slučajnih spremenljivk . . . . . . . . . . . . . . . . . . . . 82
2.3.5
Porazdelitve urejenostnih slučajnih spremenljivk . . . . . . . . . . . 83
2.3.6
Porazdelitve intervalskih slučajnih spremenljivk . . . . . . . . . . . 86
2.3.7
Centralni limitni izrek . . . . . . . . . . . . . . . . . . . . . . . . . 92
3. Inferenčna statistika
99
3.1
Verjetnost uspeha poskusa . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.2
Frekvenčna porazdelitev . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.3
Sredina pri znanem σ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3.4
Sredina pri neznanem σ
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Uvod
Statistika je veda, ki preučuje bolj ali manj množične podatke (pojave) ali pa tudi pojme,
ki so motivirani z njimi. Med drugim zajema:
• Zbiranje podatkov, torej kako (pri določenih praktičnih, npr. finančnih omejitvah)
pravilno zbrati podatke, od katerih lahko pričakujemo čim natančnejšo informacijo
o zadevi, ki nas zanima. Pomemben del te veje je teorija vzorčenja (angl. sampling).
• Povzemanje podatkov – temu pravimo opisna statistika (angl. descriptive statistics).
Tudi povzetku podatkov (npr. povprečju) pravimo kar statistika.
• Vrednotenje podatkov – temu pravimo inferenčna statistika. Njeni najpomembnejši
veji sta statistično sklepanje (dajanje sklepov – izjav na podlagi dobljenih podatkov,
angl. statistical inference) in statistično odločanje (dajanje navodil, kako ravnati,
da bomo v povprečju imeli največjo možno korist, angl. decision theory).
Matematična podlaga za teorijo vzorčenja in inferenčno statistiko je verjetnostni račun.
5
6
1.
Opisna statistika
Podatki so v statistiki vrednosti ene ali več statističnih spremenljivk na statistični množici.
Statistično množico sestavljajo enote. Primeri statističnih množic:
• če delamo anketo, množica anketirancev;
• če gledamo vreme po različnih krajih, nabor vremenskih postaj;
• če gledamo spreminjanje cen različnih artiklov s časom, nabor časov (enote so tako
npr. 15. januar, 15. februar, 15. marec . . . );
Število enot imenujemo numerus in ga navadno označujemo z n, tudi N .
Statistična spremenljivka je predpis, ki vsaki enoti (potem ko jo pomerimo) priredi
določeno vrednost. Množico vrednosti posamezne spremenljivke imenujemo zaloga vrednosti. Statistične spremenljivke navadno označujemo z velikimi tiskanimi črkami s konca
abecede, npr. X, Y , Z, njihove vrednosti pa z malimi črkami. Vrednosti statistične spremenljivke X tako navadno označimo z x1 , x2 , . . . xn . Tako je xi vrednost spremenljivke X
na i-ti enoti statistične množice.
Primer : vreme po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri:
7
8
smer
vetra
hitrost
vetra
(km/h)
Postaja
oblačnost
padavine
temperatura
(◦ C)
Kredarica
v oblakih
posamezne
snežinke
−13
↓
4
pretežno
oblačno
–
2
↓
11
oblačno
–
1
ց
4
5
←
22
2
ր
4
Letališče
Edvarda Rusjana
Maribor
Letališče
Jožeta Pučnika
Ljubljana
Letališče Portorož
oblačno
Ljubljana
oblačno
rahlo
dežuje
rahlo
dežuje
Tukaj postaja predstavlja enoto, padavine, oblačnost, temperatura ter smer in hitrost
vetra pa so spremenljivke.
1.1
Tipi statističnih spremenljivk
Statistične spremenljivke delimo glede na njihove zaloge vrednosti oziroma glede na to,
katere operacije lahko izvajamo na zalogah vrednosti. Ločimo opisne (kvalitativne, atributivne) in številske (kvantitativne, numerične) spremenljivke. Opisne spremenljivke se
nadalje delijo na:
• Imenske (nominalne), pri katerih gledamo le gole vrednosti, na katerih ni definiranih nobenih operacij. Primeri: barva, politična stranka, rasa, pasma, skupina.
Včasih lahko povemo, katere vrednosti so si blizu oz. sosedne – to je pomembno pri
združevanju vrednosti v razrede.
• Urejenostne (ordinalne), pri katerih lahko povemo, katera vrednost je večja in katera
manjša. Primeri: kakovost razpoloženja, čin, stopnja izobrazbe, trdota minerala,
odtenek sivine (kadar ocenjujemo na oko).
Številske spremenljivke pa se delijo na:
• Intervalske, pri katerih lahko definiramo razlike med posameznima vrednostma in
jih seštevamo, odštevamo ali delimo, medtem ko seštevanje, množenje in deljenje
samih vrednosti a priori ni definirano oz. smiselno. Intervalske spremenljivke nimajo
vnaprej določenega izhodišča (ničle). Lahko torej recimo povemo, da je razlika med
vrednostma a in b dvakratnik razlike med b in c, ni pa recimo smiselno reči, da
je vrednost b dvakratnik vrednosti a. Primeri intervalskih spremenljivk: letnica,
nadmorska višina (v običajnih okoliščinah), temperatura (v običajnih okoliščinah,
9
ko jo je smiselno gledati v Celzijevih stopinjah, recimo ko je ne povezujemo z energijo
molekul).
• Razmernostne, pri katerih lahko vrednosti same seštevamo, odštevamo in delimo.
Le-te imajo naravno izhodišče (ničlo) in lahko recimo povemo, da je vrednost b
dvakratnik vredosti a. Primeri: moč motorja, dohodek, odtenek sivine (če jo merimo
z instrumentom ali določimo računalniško) in tudi temperatura, kadar jo je smiselno
gledati v kelvinih, recimo pri fiziki nizkih temperatur (blizu absolutne ničle), pri
kinetični teoriji plinov in pri preučevanju zvezd.
Vsako razmernostno spremenljivko lahko gledamo tudi kot intervalsko, vsako intervalsko
kot urejenostno in vsako urejenostno kot imensko.
Poseben primer statističnih spremenljivk so dihotomne ali tudi binarne, to so take,
ki lahko zavzemajo le dve vrednosti, recimo da/ne, za/proti, pravilno/nepravilno, kontrolna/eksperimentalna skupina. Tudi če je dihotomna spremenljivka opisna, jo lahko
včasih naravno obravnavamo kot številsko, navadno tako, da vrednostma priredimo števili 0 in 1.
Pri primeru z vremenom so padavine, oblačnost in smer vetra imenske spremenljivke,
pri katerih lahko povemo, katere vrednosti so si blizu. Temperatura je intervalska, hitrost
vetra pa je razmernostna spremenljivka.
Smer in hitrost vetra lahko združimo v razmernostno vektorsko spremenljivko. Tudi
te so pomembne, a se z njimi ne bomo ukvarjali.
Če bi pri oblačnosti gledali le, koliko neba ni vidnega (meglo bi torej izenačili z oblačnostjo) in tega ne bi kvantitativno merili (recimo v odstotkih), temveč bi le ločili npr. med
jasnim, delno oblačnim, pretežno oblačnim in oblačnim vremenom, bi bila oblačnost urejenostna spremenljivka. Delež neba v odstotkih, ki ga zakrivajo oblaki, pa bi bil razmernostna spremenljivka.
Iz padavin je malo težje narediti urejenostno spremenljivko, ki ne bi mogla biti tudi
razmernostna: težko je namreč primerjati dež in sneg. Najbolj objektivno bi bilo meriti,
koliko milimetrov padavin pade recimo na uro: to bi bila razmernostna spremenljivka.
Glavna razlika med urejenostnimi in intervalskimi spremenljivkami je ta, da ne moremo primerjati razkorakov med posameznimi vrednostmi. Zato tudi ne moremo računati
povprečij. Dostikrat sicer urejenostno spremenljivko ‘povišamo’ v intervalsko, tako da
vrednostim priredimo številske vrednosti. Rezultati nadaljnje obdelave pa so lahko zavajajoči. V nekem podjetju bi lahko imeli naslednjo strukturo izobrazbe:
Nedokončana osnovna šola 70
Osnovna šola
5
Poklicna srednja šola
2
Gimnazija
1
Fakulteta
22
10
in lahko bi izračunali, da je povprečna izobrazba osnovnošolska. Če pa bi šli fakultetno
izobrazbo podrobneje razčlenjevat, bi recimo dobili:
Nedokončana osnovna šola
70
Osnovna šola
5
Poklicna srednja šola
2
Gimnazija
1
Visoka strokovna izobrazba
2
Univerzitetna diploma bolonjske 1. stopnje
0
Univerzitetna diploma po starih programih 0
Univerzitetna diploma bolonjske 2. stopnje
0
Magisterij po starem programu
0
Doktorat
20
in izračunali, da je povprečna izobrazba poklicna srednja šola.
1.2
1.2.1
Povzemanje ene statistične spremenljivke – univariatna analiza
Imenske spremenljivke
Pri imenski (torej vsaki) statistični spremenljivki lahko povemo, kolikokrat se je pojavila
določena vrednost. Temu pravimo frekvenca. Relativna frekvenca je frekvenca, deljena
s številom enot. Zapis vseh vrednosti skupaj z (relativnimi) frekvencami imenujemo
frekvenčna porazdelitev, ki jo lahko predstavimo v obliki tabele:
vrednosti frekvence relativne frekvence
a1
f1
f1◦
a2
f2
f2◦
..
..
..
.
.
.
ak
fk
fk◦
Frekvenca fi je torej število enot, na katerih ima spremenljivka vrednost ai . Število enot
z določeno lastnostjo bomo označevali z znakom ♯. Tako lahko s formulo zapišemo:
fi = ♯(X = ai ) ;
Velja še:
i = 1, 2, . . . k .
fi
, f1◦ + f2◦ + · · · + fk◦ = 1 .
n
Frekvenčno porazdelitev imenskih spremenljivk grafično predstavimo s tortnim diagramom (angl. pie chart ali circle graph) ali s histogramom.
f1 + f2 + · · · + fk = n ,
fi◦ =
11
Za ročni izris tortnega diagrama potrebujemo kotomer. Kot, ki pripada i-ti vrednosti,
je enak fi◦ · 360◦ .
Modus je vrednost z najvišjo frekvenco. Označevali ga bomo z M , pogosta oznaka pa
je tudi Mo ali Mo. Modusov je lahko več.
Modus je ena od mer centralne tendence.
Če vemo, katere vrednosti so si blizu oz. sosedne, lahko definiramo tudi lokalne moduse.
Porazdelitev je bimodalna, če ima dva izrazita lokalna modusa, pri čemer enake frekvence
na sosednih vrednostih obravnavamo kot en lokalni modus. Porazdelitev je multimodalna,
če ima več kot dva izrazita lokalna modusa v prejšnjem smislu.
Včasih modusi, posebej lokalni, za prvotne vrednosti ne odražajo realne slike. To se
zgodi takrat, ko je vrednosti veliko, frekvence pa majhne. Če vemo, katere vrednosti so si
blizu oz. sosedne, jih lahko združimo v razrede√in na njih gledamo frekvenčno porazdelitev.
Grobo pravilo je, naj bo razredov približno n (korensko pravilo). Več o združevanju v
razrede kasneje.
1.2.2
Urejenostne spremenljivke
Vrednosti urejenostne spremenljivke lahko uredimo po velikosti – razvrstimo v ranžirno
vrsto:
x(1) ≤ x(2) ≤ · · · ≤ x(n) .
Ranžirna vrsta je natančno določena z zgornjim pogojem in s tem, da se njena frekvenčna
porazdelitev ujema s frekvenčno porazdelitvijo statistične spremenljivke. Elementu x(i)
pravimo i-ta vrstilna statistika (angl. order statistics).
Rang dane vrednosti je njen položaj v ranžirni vrsti: rang vrednosti x je enak i, če je
x = x(i) .
Če so vse vrednosti spremenljivke X različne in je vrednost x zavzeta, je njen rang
natančno določen. Označimo ga z R(x). V tem primeru velja:
R(x) = ♯(X ≤ x) = ♯(X < x) + 1 .
Primer : če izmerjene vrednosti:
4, 2, 75, 42, 15, 63
razvrstimo v ranžirno vrsto, dobimo:
2, 4, 15, 42, 63, 75
in velja:
R(2) = 1 ,
R(4) = 2 ,
R(15) = 3 ,
Rangi ostalih vrednosti (še) niso definirani.
R(42) = 4 ,
R(63) = 5 ,
R(75) = 6 .
12
Če vrednosti spremenljivke niso vse različne, govorimo o vezeh (angl. ties): vez je
skupek dveh ali več enot, na katerih ima spremenljivka enako vrednost. Če so prisotne
vezi, rang ni nujno natančno določen.
Primer : naj bo A < B < C < D < E in naj bo dana ranžirna vrsta podatkov:
A, B, B, B, B, C, D, D, D, E .
Očitno je R(A) = 1, R(C) = 6 in R(E) = 10. Rang vrednosti B je lahko 2, 3, 4 ali 5,
rang vrednosti D pa 7, 8 ali 9.
Vsem možnim rangom vrednosti x pravimo surovi rangi. Spodnji rang je najnižji,
zgornji rang pa najvišji možni surovi rang. Velja:
spodnji rang = ♯(X < x) + 1 ,
zgornji rang = ♯(X ≤ x) .
Spodnji in zgornji rang lahko definiramo za poljubno, ne le zavzeto vrednost. Vezani
rang je aritmetična sredina spodnjega in zgornjega ranga in oznaka R(x) bo zadevala to
število:
spodnji rang + zgornji rang
♯(X < x) + ♯(X ≤ x) + 1
R(x) =
=
.
2
2
.
Tako je v zgornjem primeru R(A) = 1, R(B) = 3 5, R(C) = 6, R(D) = 8 in R(E) = 10.
Če bi namesto A, . . . E imeli števila, npr.:
21, 27, 27, 27, 27, 28, 29, 29, 29, 32 ,
.
.
.
.
bi veljalo npr. R(27) = 3 5, R(30) = 9 5, R(20) = 0 5 in R(40) = 10 5.
Relativni ali tudi kvantilni rang je definiran po predpisu:
r(x) =
R(x) −
n
1
2
.
in ne glede na vezi velja:
♯(X < x) + ♯(X ≤ x)
.
2n
.
.
V prejšnjem primeru bi tako veljalo r(27) = 0 3, r(30) = 0 9, r(20) = 0 in r(40) = 1.
r(x) =
Relativni rang pove položaj posamezne vrednosti v skupini.
Primer : oglejmo si rezultate dveh kolokvijev:
Ambrož
Blaž
Cvetka
Darja
Emil
83
22
61
45
49
Florjan
Gal
Helena
Iva
Jana
Karmen
Lev
Mojca
84
86
71
67
67
88
89
64
13
in se vprašajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?
.
.
Cvetka ima rang 4 in relativni rang 3 5/5 = 0 7, Gal pa ima rang 6 in relativni rang
.
5 5/8 = 0.6875, kar je skoraj enako.
Pri zapisu frekvenčne porazdelitve urejenostne spremenljivke vrednosti uredimo po
velikosti:
a1 < a2 < · · · < ak
ter dodamo še kumulativne frekvence in relativne kumulativne frekvence:
relativne
vrednosti frekvence
frekvence
a1
a2
a3
..
.
f1
f2
f3
..
.
ak
fk
kumulativne
frekvence
F0 = 0
F 1 = f1
F 2 = F 1 + f2
F 3 = F 2 + f3
..
.
f1◦
f2◦
f3◦
..
.
fk◦
relativne
kumulativne
frekvence
F0◦ = 0
F1◦ = f1◦
◦
F2 = F1◦ + f2◦
F3◦ = F2◦ + f3◦
..
.
◦
Fk = Fk−1 + fk = n Fk◦ = Fk−1
+ fk◦ = 1
Seveda velja tudi:
Fi◦ =
Fi
.
n
Primer : ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem študiju
matematike na UL FMF v študijskem letu 2010/11:
ocena
neg.
6
7
8
9
10
fi
25
13
12
7
3
4
Fi
25
38
50
57
60
64
F◦
. i
0 391
.
0 594
.
0 781
.
0 891
.
0 938
1
Iz frekvenčne porazdelitve lahko odčitamo vrstilne statistike, in sicer velja:
x(i) = aj ,
če je 1 + Fj−1 ≤ i ≤ Fj .
Pri določanju i-te vrstilne statistike moramo torej pogledati prvo kumulativno frekvenco,
ki je enaka vsaj i.
Nekaj vrstilnih karakteristik iz prejšnjega primera: x(40) = 7, x(60) = 9, x(61) = 10.
Iz kumulativnih frekvenc lahko odčitamo tudi range: vrednost aj ima surove range od
1 + Fj−1 do Fj in vezani rang:
R(aj ) =
Fj−1 + Fj + 1
.
2
14
Seveda so vezani rangi definirani tudi za vrednosti, ki niso zavzete: če je a < a1 , je
R(a) = 1/2; če je a > ak , je R(a) = n + 1/2. Za aj−1 < a < aj pa je R(a) = Fj−1 + 1/2.
Rangi ocen pri prejšnjem primeru:
.
.
R(neg.) = 13 , R(6) = 32 , R(7) = 44 5 , R(8) = 54 , R(9) = 59 , R(10) = 62 5 .
Vrednost q je kvantil statistične spremenljivke X za delež p, če velja:
♯(X < q)
≤ p in
n
♯(X ≤ q)
≥ p.
n
Primer : dana je ranžirna vrsta:
10, 10, 20, 30, 50, 80, 130, 210, 340, 550 .
Kvantil q0.49 mora izpolnjevati pogoja:
.
♯(X < q0.49 ) ≤ 4 9 in
.
♯(X ≤ q0.49 ) ≥ 4 9 .
Prvi pogoj izpolnjujejo vrednosti do vključno 50, drugega pa vrednosti od vključno 50
.
naprej. Torej je 50 edini možni kvantil za delež 0 49.
♯(X < q0.5 ) ≤ 5 in
♯(X ≤ q0.5 ) ≥ 5 .
.
naprej. Torej je vsako število iz intervala [50, 80] lahko kvantil za delež 0 5. To je kvantilni
interval za ta delež.
♯(X < q0.1 ) ≤ 1 in
♯(X ≤ q0.1 ) ≥ 1 .
.
naprej. Torej je 10 edini možni kvantil za delež 0 1.
Lastnosti kvantilov:
• Za vsak p ∈ [0, 1] obstaja kvantil dane spremenljivke za delež p.
• Kvantili niso nujno enolično določeni.
• Če sta q ′ in q ′′ kvantila za isti delež p in velja q ′ ≤ q ≤ q ′′ , je tudi q kvantil za ta
delež.
Kvantil za delež p je vrednost s kvantilnim rangom približno p. Velja tudi, da je vrednost,
ki ima kvantilni rang p, kvantil za delež p. Sicer pa lahko kvantile (za deleže, ki niso
nujno kvantilni rangi) dobimo iz vrstilnih karakteristik, in sicer:
15
• Kvantil za delež 0 je katero koli število iz (−∞, x(1) ].
• Kvantil za delež 1 je katero koli število iz [x(n) , ∞).
• Če je 0 < p < 1 in je np celo število, je kvantil za delež p katero koli število iz
intervala [x(np) , x(np+1) ].
• Če je 0 < p < 1 in np ni celo število, je kvantil za delež p enolično določen, in sicer
je enak x(⌈np⌉) .
Kvantil za delež p navadno označimo s qp . Pomembni kvantili:
• Kvantilu za delež 1/2 pravimo mediana in jo bomo označevali z m. Pogosta oznaka
je tudi Me ali Me. Mediani pravimo tudi srednja vrednost in je mera centralne
tendence. Pri dihotomnih spremenljivkah je mediana enaka modusu.
• Kvantila za deleža 1/3 in 2/3 sta prvi in drugi tercil.
• Kvantili za deleže 1/4, 1/2 in 3/4 so kvartili. Drugi kvartil je torej mediana.
. .
.
• Kvantilom za deleže 0 1, 0 2, . . . 0 9 pravimo decili.
.
.
.
• Kvantilom za deleže 0 01, 0 02, . . . 0 99 pravimo centili ali tudi percentili. 1., 5., 95.
in 99. percentil so pomembni v inferenčni statistiki, ker na njih temeljijo dogovorjeni
pojmi. Pomembni so tudi q0.005 , q0.025 , q0.975 in q0.995 .
Primer : pri ranžirni vrsti:
10, 10, 20, 30, 50, 80, 130, 210, 340, 550
je mediana kar koli iz [x(5) , x(6) ] = [50, 80] (kar smo že ugotovili), tretji kvartil pa je
x(8) = 210.
.
.
Vrednost 20 ima kvantilni rang 0 25 in je zato tudi kvantil za delež 0 25; kvantil za
.
ta delež je enolično določen. Prav tako pa je enolično določen tudi kvantil za delež 0 26,
.
prav tako je enak 20, vendar 0 26 ni kvantilni rang vrednosti 20.
Pri sodem številu podatkov mediana tipično ni natančno določena:
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
pri lihem pa je:
b
b
16
Še en primer z rezultati 50 meritev, kjer je s sivo označen interval za 9. decil :
Primer : pri ocenah s kolokvijev so vsi kvartili natančno določeni. Prvi kvartil je sicer
res na intervalu [x(16) , x(17) ], mediana na [x(32) , x(33) ] in tretji kvartil [x(48) , x(49) ], toda
x(16) = x(17) = neg., x(32) = x(33) = 6 in x(48) = x(49) = 7, zato lahko zapišemo q1/4 = neg.,
m = 6 in q3/4 = 7.
Vrstilne karakteristike lahko grafično predstavimo s škatlo z brki (angl. box plot).
Navadno narišemo minimalno vrednost, kvartile in maksimalno vrednost, lahko pa tudi
kakšne druge karakteristike.
Primer : rezultati kolokvijev iz matematike na univerzitetnem študiju gozdarstva na
UL BTF v študijskem letu 2004/05:
72
54
36
18
0
1.2.3
Intervalske spremenljivke: interpolacija
Intervalske spremenljivke lahko vselej ‘degradiramo’ v urejenostne in na njih gledamo
npr. kvantile. Kot smo spoznali, le-ti niso vselej enolično določeni. Včasih pa se pokaže
potreba, da določimo eno samo vrednost. Pri intervalskih spremenljivkah imamo za to
dosti več manevrskega prostora. Eden od prijemov, ki so tukaj na voljo, je interpolacija.
Denimo, da opazujemo spreminjanje ene spremenljivke v odvisnosti od druge, npr. od
časa. Ob časih t1 < t2 < . . . tn naj ima spremenljivka x vrednosti x1 , x2 , . . . xn . Kakšno
vrednost pa bi imela ob času t, ki ni zajet v časih t1 , t2 , . . . tn (vozlih)?
17
Interpoliramo lahko za tk ≤ t ≤ tk+1 (kar je izven tega, je ekstrapolacija). Primeri
interpolacij:
a) interpolacija z vrednostjo v prejšnjem vozlu: xˆ = xk ;
b) interpolacija z vrednostjo v naslednjem vozlu: xˆ = xk+1 ;
c) interpolacija z minimalno vrednostjo: xˆ = min{xk , xk+1 };
d) interpolacija z maksimalno vrednostjo: xˆ = max{xk , xk+1 };
e) interpolacija z aritmetično sredino: xˆ = (xk + xk+1 )/2;
f) linearna interpolacija:
xˆ = xk +
Primer :
xk+1 − xk
(t − tk ) .
tk+1 − tk
t k xk
1
5
3
9
6
9
10 7
Interpolirane vrednosti za manjkajoče vmesne cele čase:
tk
1
2
3
4
5
6
7
8
9
10
xk a) b)
5 5 5
5 9
9 9 9
9 9
9 9
9 9 9
9 7
9 7
9 7
7 7 7
c)
5
5
9
9
9
9
7
7
7
7
d)
5
9
9
9
9
9
9
9
9
7
e)
5
7
9
9
9
9
8
8
8
7
f)
5
7
9
9
9
9
.
85
8
.
75
7
Interpolacije a)–e) so zelo grobe. Graf za linearno interpolacijo:
18
10
x
b
b
8
b
6
b
4
2
1
2
3
4
5
6
7
8
9
t
10
Tako lahko interpoliramo range. Črtnemu grafikonu (angl. line chart, line graph)
iz linearno interpoliranih relativnih rangov zavzetih vrednosti pravimo ogiva, tudi oživa
(angl., fr. ogive, v prvotnem pomenu gotski lok). Pri podatkih:
21, 27, 27, 27, 27, 28, 29, 29, 29, 32 ,
dobimo:
relativni rangi
r
ogiva
1
b
b
b
0.5
b
b
21
27
28
29
32
x
Interpoliramo tudi kvantile, in sicer na mnogo načinov. Interpolirani kvantili imajo
pomembno vlogo v inferenčni statistiki. Iz ogive dobimo interpolirane range in eno vrsto
interpoliranih kvantilov.
1.2.4
Intervalske spremenljivke: mere centralne tendence
Mera centralne tendence za dano statistično spremenljivko nam grobo povedani da vrednost, proti kateri se nagibajo vrednosti te spremenljivke na statistični množici.
Dve meri centralne tendence smo že spoznali: pri imenskih spremenljivkah je bil to
modus, pri urejenostnih pa mediana. Pri intervalskih lahko mediano še interpoliramo.
Pri intervalskih spremenljivkah pa kot mero centralne tendence najpogosteje gledamo
aritmetično sredino (angl. arithmetic mean):
µ=
x1 + x2 + · · · + xn
.
n
19
Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri (v Celzijevih
stopinjah):
−13, 2, 1, 5, 2 .
Aritmetična sredina:
−13 + 2 + 1 + 5 + 2
.
= −0 6
5
To seveda ni verodostojna ocena za povprečno temperaturo vseh naseljenih krajev v
Sloveniji, ker vzorec ni reprezentativen, a več o tem kasneje. Verodostojnejša ocena je
mediana: m = 2. Če bi temperaturo −13 stopinj, ki je bila izmerjena na Kredarici,
zamenjali npr. s temperaturo 0 stopinj, izmerjeno v kakšnem nižje ležečem kraju, bi za
povprečje dobili 2 stopinji, mediana pa se ne bi spremenila.
µ=
Včasih je aritmetično sredino lažje izračunati po u-metodi : za poljubno izhodišče u
velja:
(x1 − u) + (x2 − u) + · · · + (xn − u)
µ=u+
.
n
Razlikam xi − u pravimo tudi odkloni (angl. deviations).
Primer :
876, 879, 878, 878, 877 .
Če za izhodišče vzamemo u = 876, dobimo:
µ = 876 +
0+3+2+2+1
.
.
= 876 + 1 6 = 877 6 .
5
Če spremenljivko linearno transformiramo, se enako zgodi tudi z vsemi omenjenimi
merami centralne tendence:
Količina
Na stari spremenljivki Na novi spremenljivki
Vrednost na i-ti enoti
xi
axi + b
Modus
M
aM + b
Mediana
m
am + b
Aritmetična sredina
µ
aµ + b
Pravimo, da mere centralne tendence komutirajo z linearnimi transformacijami. To velja
tudi za vrstilne statistike in kvantile, če je a > 0:
Količina
xi
axi + b
i-ta vrstilna statistika
x(i)
ax(i) + b
Kvantil za delež p
qp
aqp + b
Pri a < 0 pa se vrstilne statistike in kvantili zamenjajo:
Količina
xi
axi + b
i-ta vrstilna statistika
x(i)
ax(n+1−i) + b
Kvantil za delež p
qp
aq1−p + b
20
Primer : če podatkom
876, 879, 878, 878, 877 ,
.
ki imajo aritmetično sredino 877 6, odštejemo 870, dobimo podatke:
6, 9, 8, 8, 7 ,
.
ki imajo aritmetično sredino 7 6. Če slednje pomnožimo z 10, dobimo podatke:
60, 90, 80, 80, 70 ,
ki imajo aritmetično sredino 76.
Primer : v anglosaksonskih državah uporabljajo Fahrenheitove stopinje. Zveza med obojimi je:
9x
5(y − 32)
⇐⇒ y =
+ 32
x◦ C = y ◦ F ⇐⇒ x =
9
5
.
.
(0◦ F = −17.78◦ C ustreza hudemu mrazu, 100◦ F = 37.78◦ C pa hudi vročini v zmerno
toplem podnebju). Temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri
lahko torej zapišemo takole:
Postaja
temperatura (◦ C) temperatura (◦ F)
.
Kredarica
−13
86
.
Letališče Edvarda Rusjana Maribor
2
35 6
.
Letališče Jožeta Pučnika Ljubljana
1
33 8
.
5
41 0
.
Ljubljana
2
35 6
Kot smo že izračunali, je povprečna temperatura v stopinjah Celzija:
−13 + 2 + 1 + 5 + 2
.
= −0 6 ,
5
v stopinjah Fahrenheita pa:
.
.
.
.
.
.
154 6
8 6 + 35 6 + 33 8 + 41 0 + 35 6
.
=
= 30 92
5
5
in to lahko dobimo tudi kot
1.2.5
9
5
· (−0.6) + 32.
Intervalske spremenljivke: mere razpršenosti
Mere razpršenosti povedo, za koliko se posamezne vrednosti med seboj razlikujejo. Ena od
preprostih mer razpršenosti je interkvartilni razmik (angl. interquartile range, midspread,
middle fifty):
IQR = q3/4 − q1/4 .
21
(če kvartila nista natančno določena, ju interpoliramo). Lahko gledamo tudi povprečni
absolutni odklon (average absolute deviation) od primerne mere centralne tendence. Če
le-to začasno označimo z u, dobimo količino:
|x1 − u| + |x2 − u| + · · · + |xn − u|
.
n
Ta količina je najmanjša, če za u vzamemo mediano. Zato je smiselno gledati povprečni
absolutni odmik od mediane:
AADu =
AADm =
|x1 − m| + |x2 − m| + · · · + |xn − m|
.
n
Čeprav mediana ni natančno določena, je zgornja količina vedno natančno določena. Dostikrat se gleda tudi povprečni absolutni odklon od aritmetične sredine:
AADµ =
|x1 − µ| + |x2 − µ| + · · · + |xn − µ|
.
n
Najlepše računske lastnosti pa imajo mere razpršenosti, ki temeljijo na varianci ali
disperziji :
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
var =
.
n
Varianca je torej povprečni kvadratni odklon od aritmetične sredine. Lahko jo izračunamo
tudi po u-metodi:
(x1 − u)2 + (x2 − u)2 + · · · + (xn − u)2
− (µ − u)2 .
n
Od tod se vidi tudi, da je povprečni kvadratni odklon od u najmanjši, če je u = µ.
var =
Primer :
8, 8, 9, 11, 11, 13, 14, 14, 14, 37 .
Prvi in tretji kvartil sta natančno določena: q1/4 = 9, q3/4 = 14, torej je IRQ = 5.
Mediana ni natančno določena – je namreč kar koli iz intervala [11, 13]. Toda kar koli
iz tega intervala vzamemo za izračun AADm , dobimo isto:
2 · |8 − 11| + |9 − 11| + 2 · |11 − 11| + |13 − 11| + 3 · |14 − 11| + |37 − 11|
.
=45
10
2 · |8 − 13| + |9 − 13| + 2 · |11 − 13| + |13 − 13| + 3 · |14 − 13| + |37 − 13|
.
= 4 5.
10
Nadalje velja:
2 · (−6) + (−5) + 2 · (−3) + (−1) + 23
.
= 13 9 ,
µ = 14 +
10
1
.
.
.
.
AADµ =
2 · |8 − 13 9| + |9 − 13 9| + 2 · |11 − 13 9| + |13 − 13 9| +
10
.
.
.
+ 3 · |14 − 13 9| + |37 − 13 9| = 4 68 .
22
Končno je še:
2 · (8 − 14)2 + (9 − 14)2 + 2 · (11 − 14)2 + (13 − 14)2 + (37 − 14)2
−
10
.
− (13 9 − 14)2 =
.
= 64 49 .
var =
Interkvartilni razmik in povprečni absolutni odklon sta neposredno primerljiva s podatki oz. njihovimi razlikami, varianca pa ne. Če podatke linearno transformiramo, se te
tri količine transformirajo takole:
Količina
xi
axi + b
Interkvartilni razmik
IQR
|a| · IQR
Povpr. abs. odklon od mediane
AADm
|a| · AADm
Povpr. abs. odklon od aritm. sredine
AADµ
|a| · AADµ
Varianca
var
a2 · var
Primer : zamislimo si, da so podatki iz prejšnjega primera dolžine v centimetrih. Če bi
jih podali v metrih:
.
.
.
.
.
.
.
.
.
.
0 08, 0 08, 0 09, 0 11, 0 11, 0 13, 0 14, 0 14, 0 14, 0 37 ,
bi dobili:
.
.
.
.
.
.
m ∈ [0 11, 0 13] , µ = 0 139 , AADm = 0 045 , AADµ = 0 0468 , var = 0 006449 .
To so zdaj vse dolžine, razen variance, ki je v resnici ploščina. Varianca ni neposredno
primerljiva s podatki.
Zato računamo standardni odklon (angl. standard deviation), ki je kvadratni koren
variance:
√
σ = var .
Varianco zato namesto z var navadno označimo kar s σ 2 . Standardni odklon je neposredno
primerljiv s podatki. Pri prejšnjih podatkih bi, če bi računali v centimetrih, dobili:
√ .
. .
σ = 64 49 = 8 03 ,
če bi računali v metrih, pa bi dobili:
√ .
. .
σ = 0 006449 = 0 0803 .
Če podatke linearno transformiramo, se standardni odklon transformira tako kot interkvartilni razmik ali povprečni absolutni odklon:
Količina
xi
axi + b
Standardni odklon
σ
|a|σ
23
Vse zgoraj omenjene količine preprosto dobimo iz frekvenčnih porazdelitev. Za zgled
omenimo izražavo aritmetične sredine:
1
µ=
f 1 a1 + f 2 a2 + · · · + f k ak =
n
= f1◦ a1 + f2◦ a2 + · · · + fk◦ ak =
1
= u + f1 (a1 − u) + f2 (a2 − u) + · · · + fk (ak − u) =
n
= u + f1◦ (a1 − u) + f2◦ (a2 − u) + · · · + fk◦ (ak − u)
in variance:
1
f1 (a1 − µ)2 + f2 (a2 − µ)2 + · · · + fk (ak − µ)2 =
n
= f1◦ (a1 − µ)2 + f2◦ (a2 − µ)2 + · · · + fk◦ (ak − µ)2 =
1
=
f1 (a1 − u)2 + f2 (a2 − u)2 + · · · + fk (ak − u)2 − (u − µ)2 =
n
= f1◦ (a1 − u)2 + f2◦ (a2 − u)2 + · · · + fk◦ (ak − u)2 − (µ − u)2 .
σ2 =
Pravimo, da je µ tehtana sredina vrednosti a1 , a2 , . . . ak z utežmi f1◦ , f2◦ , . . . fk◦ . V splošnem
je tehtana sredina vsak izraz zgornje oblike, pri katerem so uteži nenegativne, njihova
vsota pa je 1.
Primer : pozitivne ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem študiju matematike na UL FMF v študijskem letu 2010/11:
ocena fi
6
13
7
12
8
7
9
3
10
4
Velja:
13 · 6 + 12 · 7 + 7 · 8 + 3 · 9 + 4 · 10
285 . .
=
= 7 31 .
39
39
Lahko računamo tudi po u-metodi:
µ=
27 . .
13 · (−2) + 12 · (−1) + 7 · 0 + 3 · 1 + 4 · 2
=8−
= 7 31 .
39
39
Za izračun standardnega odklona je navadno potreben kalkulator. Lahko računamo tako,
da damo µ v spomin in vtipkamo:
µ=8+
13 · (6 − µ)2 + 12 · (7 − µ)2 + 7 · (8 − µ)2 + 3 · (9 − µ)2 + 4 · (10 − µ)2 .
= 1.649 ,
39
√
.
σ = var = 1.284 ,
var =
lahko računamo tudi po u-metodi:
var =
13 · (−2)2 + 12 · 12 + 7 · 02 + 3 · 12 + 422
. .
− (8 − µ)2 = 1 649 .
39
24
Večina kalkulatorjev ima vgrajene posebne funkcije za izračun povprečja, variance in
standardnega odklona, biti pa moramo previdni, saj obstaja tudi popravljena varianca,
ki je pomembna v inferenčni statistiki:
s2 =
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
.
n−1
Posebej preprosti so izračuni za dihotomne spremenljivke:
• Če spremenljivka zavzame le vrednosti 0 in 1, je aritmetična sredina enaka kar
relativni frekvenci vrednosti 1.
• Če spremenljivka zavzame vrednost a z relativno frekvenco q, vrednost b pa z relativno frekvenco p, velja:
AADm = min{p, q}|b − a| ,
AADµ = 2pq|b − a| ,
√
σ = |b − a| pq .
Standardizacija je postopek, pri katerem od vrednosti odštejemo aritmetične sredine
in jih delimo s standardnim odklonom. Dobimo standardizirane vrednosti:
zi =
xi − µ
.
σ
Standardizirane vrednosti nam omogočajo primerjavo različnih spremenljivk, recimo na
isti enoti. So invariantne za linearne transformacije s pozitivno strmino, t. j. le-te jih
ohranjajo. Natančneje:
Na stari
spremenljivki
Količina
Standardizirana vrednost
xi
zi
X
Primer :
µ
σ
Če podatkom odštejemo 22, dobimo:
83
22
61
45
49
52
20
Na novi
spremenljivki
(a > 0)
axi + b
zi
standardizirana
vrednost
.
1 55
.
−1 50
.
0 45
.
−0 35
.
−0 15
0
1
Na novi
spremenljivki
(a < 0)
axi + b
−zi
25
X
µ
σ
61
0
39
23
27
30
20
standardizirana
vrednost
.
1 55
.
−1 50
.
0 45
.
−0 35
.
−0 15
0
1
in če te vrednosti podvojimo, dobimo:
X
µ
σ
122
0
78
46
54
60
40
standardizirana
vrednost
.
1 55
.
−1 50
.
0 45
.
−0 35
.
−0 15
0
1
Standardizirane vrednosti so ostale enake.
Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri:
Postaja/karakteristika
Kredarica
Letališče Maribor
Letališče Ljubljana
Ljubljana
µ
var
σ
temperatura
(◦ C)
−13
2
1
5
2
.
−0 6
.
40 24
.
6 34
temperatura standardizirana
(◦ F)
vrednost
.
.
86
−1 95
.
.
35 6
0 41
.
.
33 8
0 25
.
.
41 0
0 88
.
.
35 6
0 41
.
30 92
0
.
130 38
1
.
11 42
1
Standardizirane vrednosti so enake, najsi jih računamo v Celzijevih ali Fahrenheitovih
stopinjah.
Standardizirana vrednost podobno kot relativni rang pove, kje v skupini je določen
podatek (pri dnu, v sredini, pri vrhu . . . )
Še en primer : spet si oglejmo rezultate dveh kolokvijev:
26
Ambrož
Blaž
Cvetka
Darja
Emil
83
22
61
45
49
Florjan
Gal
Helena
Iva
Jana
Karmen
Lev
Mojca
84
86
71
67
67
88
89
64
in se vprašajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?
Pri prvem kolokviju je µ = 52 in σ = 20, torej je Cvetkina standardizirana vrednost:
61 − 52
.
= 0 45 .
20
Pri drugem kolokviju pa je µ = 77 in σ = 10, torej je Galova standardizirana vrednost:
86 − 77
.
= 0 9.
10
1.2.6
Združevanje vrednosti v razrede
Kadar je vrednosti veliko, frekvence pa so majhne (če so vrednosti zelo natančno izmerjene,
se vsaka od njih tipično pojavi le enkrat), se splača vrednosti združevati v razrede. Pri
tem obstajajo določena pravila:
• Razredi se ne smejo prekrivati.
• Pri imenskih spremenljivkah, pri katerih vemo, katere vrednosti so bližnje, morajo
razredi obsegati bližnje vrednosti.
• Pri urejenostnih spremenljivkah mora vsak razred zajemati vrednosti iz določenega
intervala. Paziti moramo na enoten dogovor, katera krajišča intervalov (spodnja,
zgornja) razred vključuje in katerih ne.
• Pri intervalskih spremenljivkah lahko določamo širine razredov. Kadar to delamo,
se morajo sosedni intervali stikati: zgornja meja prejšnjega razreda se mora ujemati
s spodnjo mejo naslednjega. Izbiramo čimbolj realistične meje: če so podatki, ki
so na voljo, zaokroženi, poskusimo predvideti, iz katerih realnih vrednosti je lahko
bila dobljena posamezna zaokrožena vrednost. Ne gre vedno za najbližjo vrednost
– starost se zaokrožuje navzdol.
Ni enotnega pravila, koliko razredov narediti oziroma kako široki naj bodo.
• V splošnem se lahko držimo že omenjenega korenskega pravila,
√ ki ga lahko zdaj
interpretiramo
tudi tako, da je v posameznem razredu približno n enot (kar nanese
√
približno n razredov). Le-ti so lahko zelo različnih širin.
27
• Če želimo dobiti enako široke razrede, Freedman–Diaconisovo
pravilo pravi, naj bo
√
3
širina posameznega razreda približno 2 · IQR/ n.
Primer : razporeditev točk svetovnem pokalu v alpskem smučanju za ženske do
7. 3. 2012. V kombinaciji tekmuje 39 smučark. Točke:
180, 125, 120, 110, 79, 63, 62, 56, 55, 50,
47, 45, 40, 39, 36, 32, 31, 28, 24, 22,
21, 20, 18, 18, 17, 16, 14, 13, 13, 9,
8, 6, 5, 4, 3, 3, 2, 1, 1 .
Po korenskem pravilu bi moralo biti v posamezni skupini približno 6 smučark. Tako
bi bila morda smiselna naslednja razporeditev:
Točke
Frekvenca Gostota Rel. gostota
.
.
[0, 5)
6
1 200
0 03077
.
.
[5, 15)
7
0 700
0 01795
.
.
[15, 25)
8
0 800
0 02051 ,
.
.
[25, 40)
5
0 333
0 00855
.
.
[40, 60)
6
0 300
0 00769
.
.
[60, 180)
7
0 058
0 00150
Pri različno širokih razredih je smiselno narediti histogram iz gostot frekvenc (angl.
frequency densities). Če je fi frekvenca, di pa širina i-tega razreda, je gostota frekvence
njun kvocient, lahko pa definiramo tudi relativno gostoto:
gi =
fi
,
di
gi◦ =
fi◦
.
di
Delež enot, katerih vrednosti spremenljivke se nahajajo v določenih razredih, je tako enak
ploščini ustreznih pravokotnikov v histogramu iz relativnih gostot frekvenc.
Histogram za prejšnjo razdelitev smučark:
28
gi
1.2
1
0.8
0.6
0.4
0.2
20
40
60
80
100 120 140 160 180 x
Nazorneje pa bi bilo, če bi zadnjo (najvišjo) skupino razdelili še glede na 100 točk,
smučarko z najvišjim rezultatom pa sploh prikazali posebej. Na primer:
Točke
Frekvenca Gostota Rel. gostota
.
.
[0, 5)
6
1 200
0 03077
.
.
[5, 15)
7
0 700
0 01795
.
.
[15, 25)
8
0 800
0 02051
.
.
[25, 40)
5
0 333
0 00855 ,
.
.
[40, 60)
6
0 300
0 00769
.
.
[60, 100)
3
0 075
0 00192
.
.
[100, 150)
3
0 060
0 00154
180
1
Histogram:
gi
1.2
b
1
0.8
0.6
0.4
0.2
20
40
60
80
100 120 140 160 180 x
29
Po Freedman–Diaconisovem pravilu pa bi morala biti širina razreda približno:
2 · (50 − 9) .
.
√
= 24 18 ,
3
39
kar pomeni, da je smiselno, če je širina razredov 25. Dobili bi:
Točke
Frekvenca
[0, 25)
21
[25, 50)
8
[50, 75)
5
[75, 100)
1 .
[100, 125)
2
[125, 150)
1
[150, 175)
0
[175, 200)
1
Histogram:
fi
25
20
15
10
5
25
1.2.7
50
75
100
125
150
175
200 x
Primerjanje vrednosti razmernostnih spremenljivk
Razmernostne spremenljivke se odlikujejo po tem, da lahko poljubni dve vrednosti delimo.
Če npr. delimo dva različna decila, dobimo interdecilni količnik. Pogosto je v uporabi
razmerje q0.9 /q0.1 .
30
Primer : razporeditev točk svetovnem pokalu v alpskem smučanju za ženske do
7. 3. 2012. V kombinaciji tekmuje 39 smučark. Točke:
Iz q0.9 = 110 in q0.1
180, 125, 120, 110, 79, 63, 62, 56, 55, 50,
47, 45, 40, 39, 36, 32, 31, 28, 24, 22,
21, 20, 18, 18, 17, 16, 14, 13, 13, 9,
8, 6, 5, 4, 3, 3, 2, 1, 1 .
.
= 3 dobimo interdecilni količnik 36 7.
Koeficient dinamike je razmerje med vrednostma razmernostne spremenljivke na dveh
statističnih enotah:
xs
.
Ks/t =
xt
indeks pa je koeficient dinamike, pomnožen s 100:
xs
Is/t = 100Ks/t = 100 .
xt
Koeficiente dinamike in indekse navadno uporabljamo takrat, ko so enote časi.
Včasih določeno enoto, recimo t0 , vzamemo za izhodišče. Takrat koeficientom dinamike Kt/t0 oziroma indeksom It/t0 pravimo bazni koeficienti dinamike oz. indeksi ali pa
tudi koeficienti dinamike oz. indeksi s stalno osnovo. Vse koeficiente dinamike in indekse
lahko izpeljemo iz tistih s stalno osnovo:
Ks/t =
Ks/s0
,
Kt/t0
Is/t = 100
Is/s0
.
It/t0
Če so enote urejene po velikosti:
t0 < t1 < t2 < · · · < tn
(recimo če gre za čase), pa lahko gledamo verižne koeficiente dinamike:
Kt1 /t0 , Kt2 /t1 , Kt3 /t2 , . . . Ktn /tn−1
oz. indekse:
It1 /t0 , It2 /t1 , It3 /t2 , . . . Itn /tn−1
Velja:
Ktn /t0 = Kt1 /t0 Kt2 /t1 · · · Ktn /tn−1 .
Če so časi enakomerno razmaknjeni, ima smisel računati povprečni koeficient dinamike,
ki je geometrična sredina verižnih koeficientov dinamike:
p
K tn /t0 = n Kt1 /t0 Kt2 /t1 · · · Ktn /tn−1 .
Njegov pomen je, da, če bi vse verižne koeficiente dinamike zamenjali s povprečnim, se
bazni koeficient dinamike Ktn /t0 ne bi spremenil. Podobno velja tudi za povprečni verižni
indeks:
p
I tn /t0 = n It1 /t0 It2 /t1 · · · Itn /tn−1 .
31
Primer :
xi Kti /t0 Iti /t0 Kti /ti−1 Iti /ti−1
20
1
100
–
–
.
.
25 1 25 125
1 25
125
.
.
30 1 5
150
12
120
.
.
27 1 35 135
09
90
√
. .
.
Povprečni koeficient dinamike: 3 1 35 = 1 105
.
Povprečni verižni indeks: 110 5.
1.3
Mere povezanosti dveh statističnih spremenljivk
– bivariatna analiza
Gre za to, da želimo za dve statistični spremenljivki, definirani na isti statistični množici,
izmeriti, koliko sta odvisni druga od druge.
POZOR! Povezanost dveh statističnih spremenljivk še ne pomeni, da ena od njiju
neposredno vpliva na drugo – povezanost ne implicira vzročnosti. Navadno povezanost
nastane zaradi tega, ker na obe spremenljivki vpliva neka tretja spremenljivka (lahko zelo
posredno), le-to pa je dostikrat težko določiti.
Kvantitativno (številsko) opredeljevanje odvisnosti je odvisno od tipa spremenljivk.
1.3.1
Povezanost dveh imenskih spremenljivk
Porazdelitev dveh imenskih spremenljivk predstavimo s kontingenčno tabelo:
a1
a2
..
.
ak
b1 b2
f11 f12
f21 f22
..
..
.
.
fk1 fk2
f·1 f·2
· · · bl
· · · f1l
· · · f2l
. . . ..
.
· · · fkl
· · · f·l
f1·
f2·
..
.
fk·
n
Pri tem so:
• a1 , a2 , . . . ak vrednosti prve spremenljivke, npr. X;
• b1 , b2 , . . . bl vrednosti druge spremenljivke, npr. Y ;
• fij navzkrižne frekvence (angl. joint frequencies, cross-frequencies): navzkrižna frekvenca fij pove, na koliko enotah je X = ai in hkrati Y = bj ali s formulo:
fij = ♯(X = ai , Y = bj ) ;
32
• fi· in f·j robne frekvence (angl. marginal frequencies): robne frekvence:
fi· = fi1 + fi2 + · · · + fil = ♯(X = ai )
tvorijo frekvenčno porazdelitev spremenljivke X, robne frekvence:
f·j = f1j + f2j + · · · + flj = ♯(Y = bj )
pa tvorijo frekvenčno porazdelitev spremenljivke Y . Seveda velja:
n = f1· + f2· + · · · + fk· = f·1 + f·2 + · · · + f·l .
Definiramo lahko tudi relativne navzkrižne frekvence in relativne robne frekvence:
fij◦
fij
,
=
n
l
fi·◦
fi· X
=
=
fij ,
n
j=1
l
f·j◦
f·j X
=
=
fij .
n
i=k
Primer : barva oči in barva las
Absolutne frekvence:
oči\lasje
modre
zelene
rjave
Skupaj
blond rdeči rjavi, črni Skupaj
7
2
2
11
4
0
2
6
0
0
9
9
11
2
13
26
oči\lasje
modre
zelene
rjave
Skupaj
blond
0.269
0.154
0.000
0.423
Relativne frekvence:
rdeči
0.077
0.000
0.000
0.077
rjavi, črni Skupaj
0.077
0.423
0.077
0.231
0.346
0.346
0.500
1.000
Obstaja veliko številskih mer (pokazateljev) povezanosti. Eden najboljših je Cramérjev koeficient asociiranosti, osnova za njegov izračun pa so teoretične relativne navzkrižne
frekvence:
f˜ij◦ = fi·◦ f·j◦ ,
Teoretične relativne frekvence v našem primeru:
oči\lasje
modre
zelene
rjave
Skupaj
blond
0.179
0.098
0.146
0.423
rdeči
0.033
0.018
0.027
0.077
rjavi, črni Skupaj
0.212
0.423
0.115
0.231
0.173
0.346
0.500
1.000
33
Cramérjev koeficient asociiranosti pa je definiran s formulo:
v
u
k X
l
◦
˜◦ 2
X
u
−
f
f
1
ij
ij
.
V := t
min{k, l} − 1 i=1 j=1
f˜ij◦
Pri našem primeru izračunamo:
.
.
.
.
.
.
(0 269 − 0 179)2 (0 077 − 0 033)2 (0 077 − 0 212)2
V =
+
+
+
.
.
.
0 179
0 033
0 212
.
.
.
.
.
.
(0 154 − 0 098)2 (0 000 − 0 018)2 (0 077 − 0 115)2
+
+
+
+
.
.
.
0 098
0 018
0 115
1/2
.
.
.
.
.
.
(0 000 − 0 146)2 (0 000 − 0 027)2 (0 346 − 0 173)2
.
+
+
+
=
.
.
.
0 146
0 027
0 173
. .
= 0 55 .
Cramérjev koeficient asociiranosti lahko izračunamo tudi iz (absolutnih) frekvenc. Za ta
namen najprej izračunamo teoretične (absolutne) frekvence:
fi· f·j
f˜ij = nf˜ij◦ =
n
in velja:
V =
s
χ2
,
n min{k, l} − 1
kjer je χ2 Pearsonova statistika hi kvadrat (angl. chi-squared ):
k X
l
k X
l
◦
˜◦ 2 X
X
f
−
f
(fij − f˜ij )2
ij
ij
2
χ =n
=
f˜◦
f˜ij
i=1 j=1
ij
i=1 j=1
Teoretične absolutne frekvence pri prejšnji tabeli barv oči in las so:
oči\lasje
modre
zelene
rjave
Skupaj
blond rdeči rjavi, črni Skupaj
4.65 0.84
5.50
11
2.54 0.46
3.00
6
3.81 0.69
4.50
9
11
2
13
26
.
.
Velja χ2 = 15 62.
Lastnosti Cramérjevega koeficienta asociiranosti:
• Velja 0 ≤ V ≤ 1.
• Če sta X in Y neodvisni in je dovolj podatkov, je V blizu 0: več kot je podatkov, bolj
natančno to velja. Kasneje pri inferenčni statistiki se bomo naučili, kako postaviti
mejo.
34
• Koeficient V je maksimalen (enak 1) natanko tedaj, ko spremenljivki natančno
določata druga drugo (sta popolnoma povezani ).
Kvalitativno opredeljevanje koeficienta asociiranosti je precej subjektivne narave. Tu se
bomo držali naslednjih dogovorov:
.
• do 0 2: neznatna povezanost;
.
.
• od 0 2 do 0 4: nizka povezanost;
.
.
• od 0 4 do 0 7: zmerna povezanost;
.
.
• od 0 7 do 0 9: visoka povezanost;
.
• od 0 9 do 1: zelo visoka povezanost.
Pri primeru z barvo oči in las sta torej spremenljivki zmerno povezani.
Če sta obe spremenljivki dihotomni (lahko zavzameta le dve vrednosti) in je njuna
porazdelitev podana s kontingenčno tabelo:
a1
a2
b1 b2
A B ,
C D
je izražava Cramérjevega koeficienta asociiranosti preprostejša:
|AD − BC|
V =p
.
(A + B)(C + D)(A + C)(B + D)
Več informacije pa nam da predznačena vrednost:
AD − BC
.
φ= p
(A + B)(C + D)(A + C)(B + D)
• Če je φ > 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvo
vrednost, nagibajo k temu, da tudi druga spremenljivka zavzame prvo vrednost;
nasprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajo
k temu, da tudi druga spremenljivka zavzame drugo vrednost.
• Če je φ < 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvo
vrednost, nagibajo k temu, da druga spremenljivka zavzame drugo vrednost; nasprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajo
k temu, da tudi druga spremenljivka zavzame prvo vrednost.
Primer : rezultati ankete z dvema vprašanjema:
1. Ali verjamete v horoskop?
2. Ali verjamete v NLP-je?
35
so zbrani v naslednji tabeli:
Horoskop\NLP
vsaj malo
ne
Skupaj
vsaj malo ne
5
7
6
9
11
16
Skupaj
12
15
27
5·9−7·6
. .
= 0 017.
12 · 15 · 11 · 16
Gre torej za neznatno pozitivno povezanost.
Velja φ = √
1.3.2
Povezanost dveh intervalskih spremenljivk
Povezanost dveh intervalskih spremenljivk lahko merimo s Pearsonovim korelacijskim
koeficientom. Če vrednosti prve označimo z x1 , . . . xn , vrednosti druge pa z y1 , . . . yn ,
najprej izračunamo kovarianco:
K = K x,y :=
(x1 − µx )(y1 − µy ) + (x2 − µx )(y2 − µy ) + · · · + (xn − µx )(yn − µy )
,
n
kjer sta µx in µy aritmetični sredini naših spremenljivk:
µx =
x1 + x2 + · · · + xn
,
n
µy =
y1 + y2 + · · · + yn
.
n
Če je kovarianca pozitivna, pravimo, da sta spremenljivki pozitivno korelirani. Če je
negativna, sta negativno korelirani. Če je enaka nič, sta nekorelirani.
Kovarianco lahko računamo tudi po u-metodi: za poljubna u in v velja:
K x,y =
(x1 − u)(y1 − v) + (x2 − u)(y2 − v) + · · · + (xn − u)(yn − v)
− (µx − u)(µy − v) .
n
Lahko jo računamo tudi iz kontingenčne tabele:
k
K x,y =
=
l
1 XX
fij (ai − µx )(bj − µy ) =
n i=1 j=1
k X
l
X
i=1 j=1
k
fij◦ (ai − µx )(bj − µy ) =
l
1 XX
=
fij (ai − u)(bj − v) − (µx − u)(µy − v) =
n i=1 j=1
=
k X
l
X
i=1 j=1
fij◦ (ai − µx )(bj − µy ) − (µx − u)(µy − v)
36
Varianca statistične spremenljivke je njena kovarianca same s seboj.
Če preučujemo več spremenljivk hkrati (multivariatna analiza), je pomembna kovariančna matrika:


K11 K12 . . . K1n
 K21 K22 . . . K2n 


K =  ..
..
.. 
.
.
 .
.
.
. 
Kn1 Kn2 . . . Knn
S Kij smo tu označili kovarianco i-te in j-te spremenljivke. V multivariatni analizi je
analiza matrik (ki temelji na linearni algebri) ključnega pomena.
Pearsonov korelacijski koeficient je definiran s formulo:
r = rx,y =
K x,y
,
σx σy
kjer sta σx in σy standardna odklona naših spremenljivk:
r
(x1 − µx )2 + (x2 − µx )2 + · · · + (xn − µx )2
,
σx =
n
r
(y1 − µy )2 + (y2 − µy )2 + · · · + (yn − µy )2
σy =
.
n
Lastnosti Pearsonovega korelacijskega koeficienta:
• Definiran je, če nobena od spremenljivk ni konstantna.
• Velja −1 ≤ r ≤ 1.
• Če sta X in Y neodvisni in je dovolj podatkov, je r blizu 0 (kasneje pri inferenčni
statistiki se bomo naučili, kako postaviti mejo).
• Pearsonov korelacijski koeficient je maksimalen (enak 1), če je katera koli od spremenljivk naraščajoča linearna funkcija druge.
• Pearsonov korelacijski koeficient je minimalen (enak −1), če je katera koli od spremenljivk padajoča linearna funkcija druge.
Pearsonov korelacijski koeficient meri stopnjo linearne povezanosti med statističnima spremenljivkama.
Absolutna vrednost Pearsonovega korelacijskega koeficienta (|r|) je v grobem primerljiva s Cramérjevim koeficientom asociiranosti. Še več, za par dihotomnih spremenljivk
se to dvoje celo ujema, ne glede na to, kateri dve (različni) števili priredimo vrednostma
posamezne spremenljivke (ki nista nujno številski – lahko sta le imenski). Če gledamo
par urejenostnih dihotomnih spremenljivk in če številske vrednosti priredimo v skladu z
urejenostjo, velja r = φ.
37
Zato je smiselno, če tudi Pearsonov korelacijski koeficient enako kvalitativno opredeljujemo kot pri Cramérjev koeficient, s tem da lahko sedaj povemo tudi smer povezanosti:
.
vrednost r = −0 6 torej pomeni zmerno negativno koreliranost.
Kvadratu korelacijskega koeficienta (r2 ) pravimo determinacijski koeficient. Njegovo
kvalitativno opredeljevanje je torej naslednje:
.
• do 0 04: neznatna povezanost;
.
.
• od 0 04 do 0 16: nizka povezanost;
.
.
• od 0 16 do 0 49: zmerna povezanost;
.
.
• od 0 49 do 0 81: visoka povezanost;
.
• od 0 81 do 1: zelo visoka povezanost.
Primer : vremenska napoved temperatur za naslednjih nekaj dni
dan
petek
sobota
nedelja
ponedeljek
torek
jutranja dnevna
14
19
12
20
10
21
11
22
12
21
Grafično lahko to ponazorimo z diagramom razpršenosti (tudi razsevni diagram, angl.
scatter plot, scattergraph):
dnevna
22
21
b
b
b
20
b
19
b
10
11
12
13
14
jutranja
Izračun Pearsonovega korelacijskega koeficienta:
xi
14
12
10
11
12
Vsota
Povprečje
yi xi − 10 yi − 20 (xi − 10)2 (yi − 20)2 (xi − 10)(yi − 20)
19
4
−1
16
1
−4
20
2
0
4
0
2
21
0
1
0
1
0
22
1
2
1
4
0
21
2
1
4
1
2
9
3
25
7
2
.
.
.
.
18
06
5
14
04
38
.
.
.
.
Kovarianca: K = 0 − 1 8 · 0√6 = −1 08.
√ .
. 2 . .
. . .
Standardna odklona: σx = 5 − 1 8 = 1 327,
σ
1 4 − 0 62 = 1 020
y =
.
−1 08
.
.
.
= −0 80.
Pearsonov korelacijski koeficient: r = .
.
1 327 · 1 020
.
Determinacijski koeficient: 0 64.
Jutranja in dnevna temperatura sta torej visoko negativno povezani: pri višji jutranji
temperaturi lahko pričakujemo nižjo dnevno.
Pri takšni napovedi, kot je ta (za nekaj zaporednih dni) ima pri korelaciji verjetno
nejvečjo težo vpliv oblačnosti, ki viša jutranjo, a niža dnevno temperaturo. Pri napovedi
za daljše obdobje bi bila korelacija bistveno drugačna.
Še en primer : med 20 študenti izvedemo anketo z dvema vprašanjema:
1. Koliko ur na dan preživiš na računalniku?
2. Koliko ur na dan preživiš zunaj s prijatelji?
Rezultati ankete so zbrani v naslednji kontingenčni tabeli (vrstice so ure na računalniku,
stolpci pa ure s prijatelji):
X \Y
1
2
3
4
5
f·j
1
1
2
3
0
1
7
2
1
2
1
1
1
6
3
0
2
1
1
0
4
4
0
0
0
1
0
1
5
1
1
0
0
0
2
fi·
3
7
5
3
2
20
Gre za intervalski spremenljivki, zato je smiselno gledati Pearsonov korelacijski koeficient.
Najprej izračunamo povprečja:
1·3+2·7+3·5+4·3+5·2
.
µx =
= 2 7,
20
1·7+2·6+3·4+4·1+5·2
.
µy =
= 2 25 .
20
.
Anketiranci so, kot trdijo, torej v povprečju na dan preživeli 2 7 ure za računalnikom in
.
2 25 ure s prijatelji.
Kot naslednji korak bomo izračunali standardna odklona. Če gremo računat po umetodi in vzamemo u = 3 (za x) in v = 2 (za y), dobimo:
1h
(1 − 3)2 · 3 + (2 − 3)2 · 7 + (3 − 3)2 · 5 + (4 − 3)2 · 3 + (5 − 3)2 · 2 −
σx2 =
20
.
.
− (2 7 − 3)2 = 1 41 ,
1h
2
σy =
(1 − 2)2 · 7 + (2 − 2)2 · 6 + (3 − 2)2 · 4 + (4 − 2)2 · 1 + (5 − 2)2 · 2 −
20
.
.
− (2 25 − 2)2 = 1 5875 ,
39
. .
. .
od koder dobimo σx = 1 1874 in σy = 1 2600.
Kovarianca:
1
(−2) · (−1) · 1 + (−2) · 0 · 1 + (−2) · 1 · 0 + (−2) · 2 · 0 + (−2) · 3 · 1 +
K x,y =
20
+ (−1) · (−1) · 2 + (−1) · 0 · 2 + (−1) · 1 · 2 + (−1) · 2 · 0 + (−1) · 3 · 1 +
+ 0 · (−1) · 3 + 0 · 0 · 1 + 0 · 1 · 1 + 0 · 2 · 0 + 0 · 2 · 0 +
+ 1 · (−1) · 0 + 1 · 0 · 1 + 1 · 1 · 1 + 1 · 2 · 1 + 1 · 2 · 0 +
+ 2 · (−1) · 1 + 2 · 0 · 1 + 2 · 1 · 0 + 2 · 2 · 0 + 2 · 2 · 0 −
.
.
− (2 7 − 3) · (2 25 − 2) =
.
= −0 225 .
.
−0 225
.
.
.
= −0 15. Gre torej za neznatno
Pearsonov korelacijski koeficient: r = .
.
1 1874 · 1 2600
negativno povezanost.
Še nekaj primerov diagramov razpršenosti z različnimi korelacijskimi koeficienti :
To so rezultati tistih 52 študentov, ki so v študijskem letu 2010/11 na biopsihologiji
pisali oba kolokvija iz statistike:
y
b
b
b
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
r = 0.58
b
b
b
bb
b
b
bb
bb
b
b
b
b
b
b
b
b
b
b
x
To so naključno generirani podatki, a naključnost je nastavljena tako, da so nekorelirani.
40
y
b
b
b
b
b
r=0
b
b b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b
bb
b
b b
b b b
b
b
b
b
b
b
bbb
b
b
bb
b
b
b
b
b b
b
b
b bb
b
b
b
b
b bb b b
b
b
b b
b b
b
b
b
b bb
b
b
b
b
b
b
b
b
b
b
x
Ti podatki so visoko pozitivno korelirani.
y
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b b b
b
b
b b
b b bb
b
b
b
b
b
bb
b
b
b
b
b
b
r = 0.9
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
bb
b b
b
b
b
b
b
b
b
b
b
b
b b
bb
b
b b
b b b
b
b
b
b
x
Skrajni primer je korelacija 1, ko gre za linearno odvisnost.
bb
y
b b
bb
b
bb b
bb b
b b
b b
b
bb
bbb
bb
b b
r=1
x
Korelacija je lahko tudi negativna:
y
r = −0.5
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
bb
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b
b
bb
b b
b
b
b b
b
b
b
b
b
b b b
b b
b
b
b
b
b bb
b bb
b b
b b
b
b
b
b
b
b
b
bb
b
b
b
b b
b
b
b
b
b
b
b
x
41
Tukaj je korelacija enaka −1:
y
r = −1
b
b
bb
b
b
bbb b b b
b b b b
b b b bb
b
b b
b b
b
x
Še en primer nekoreliranih podatkov:
b
b
y
b
b
b
b
r=0
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
bb
b bb b
b
b
b b
b b
b
b
b b
b b
b
b
b b
b
b b
b
b
b
b b
b
b
b b bb b
b
b
b
b
b
b b b bb
b b bb b
b
b
b
b
b
bb
bb
b
b
b
b
x
Tukaj se y deterministično izraža z x, podatki pa so nekorelirani.
b
y
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b b b b b b b b
b b
b b
b b
b
b
b
b
b
b
b
b
r=0
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b b
b b
b b b b b b b b b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
x
42
1.3.3
Povezanost intervalske in dihotomne spremenljivke
Podatke, kjer sta na isti statistični množici definirani intervalska spremenljivka (recimo
U ) in dihotomna spremenljivka (recimo S), lahko predstavimo bodisi kot:
u1 , u2 , . . . u N
s1 , s2 , . . . sN
bodisi podatke razdelimo glede na vrednost dihotomne spremenljivke. Če le-ta zavzame
vrednosti a in b, lahko podatke, na katerih druga spremenljivka zavzame vrednost a,
predstavimo z:
x1 , x2 , . . . xm ,
podatke, na katerih druga spremenljivka zavzame vrednost b, pa z:
y1 , y2 , . . . yn .
Še drugače, gledati dve spremenljivki, od katerih je druga dihotomna, na eni statistični
množici, je ekvivalentno gledanju prve spremenljivke na dveh različnih statističnih množicah (dihotomna spremenljivka nam statistično množico razdeli na dve skupini).
Primer : pri nekem izpitu gledamo rezultat in spol:
Ime
Rezultat (ui ) Spol (si )
Jan
22
M
Karmen
39
Ž
Barbara
73
Ž
Kristina
34
Ž
Domen
52
M
Katja
34
Ž
Aljaž
39
M
Rok
52
M
Sabina
38
Ž
Diana
53
Ž
Jerica
59
Ž
Tilen
43
M
Rezultate lahko ločimo po spolih:
Ženske: x1 = 39 , x2 = 73 , x3 = 34 , x4 = 34 , x5 = 38 , x6 = 53 , x7 = 59 .
Moški: y1 = 22 , y2 = 52 , y3 = 39 , y4 = 52 , y5 = 43 .
Prikaz s pikami:
b
Ženske:
Moški:
b
b
b b
b
b
b
b
b
b
b
43
Če sta a in b numerični vrednosti, lahko izračunamo Pearsonov korelacijski koeficient.
Brž ko je a > b, je le-ta enak:
√
µx − µy mn
,
rpb =
σ
m+n
ne glede na to, koliko sta vrednosti a in b dejansko enaki. Zato ni nujno, da je dihotomna
spremenljivka numerična, lahko je le imenska. Koeficient za ta primer imenujemo točkovni
biserialni korelacijski koeficient (angl. point biserial correlation coefficient).
Oznaka σ se tu nanaša na celostni standardni odklon, t. j. standardni odklon spremenljivke U :
r
(u1 − µ)2 + (u2 − µ)2 + · · · + (uN − µ)2
σ=
=
N
r
(x1 − µ)2 + (x2 − µ)2 + · · · + (xm − µ)2 + (y1 − µ)2 + (y2 − µ)2 + · · · + (yn − µ)2
=
,
N
µ pa je aritmetična sredina vseh podatkov:
µ=
u1 + u 2 + · · · + uN
,
N
Pri našem primeru je:
.
.
.
.
.
.
.
.
.
µx = 47 14 , µy = 41 6 , µ = 44 83 , σ 2 = 169 8 , σ = 13 03 ,
torej je:
rpb
.
. √
. 47 14 − 41 6 7 · 5 . .
=
= 0 2097 .
.
13 03
7+5
Kvalitativno opredeljevanje točkovnega biserialnega koeficienta je enako kot pri Pearsonovem: gre torej za nizko povezanost v korist žensk. Ali drugače, ženske so pisale malo
boljše kot moški.
Aritmetična sredina vseh podatkov je enaka tehtani sredini aritmetičnih sredin posameznih skupin:
n
m
µx +
µy .
µ=
m+n
m+n
z utežema, ki sta sorazmerni z velikostma skupin, ki ju predstavljata.
Kvadrat celostnega standardnega odklona, torej celostno (celotno, totalno) varianco,
pa lahko zapišemo kot vsoto:
2
σ 2 = σW
+ σB2 ,
kjer je:
n
m
σx2 +
σ2
m+n
m+n y
varianca znotraj skupin (angl. within groups) ali tudi nepojasnjena varianca (angl. unexplained variance, pooled variance) in:
mn
σB2 =
(µx − µy )2
(m + n)2
2
σW
=
44
varianca med skupinama (angl. between groups ali tudi pojasnjena varianca (angl. explained variance). To je tisti del variance, ki jo pojasnjuje skupina, v kateri je podatek.
Na zgornji in splošnejših razčlenitvah variance temelji analiza variance (angl. analysis
of variance, ANOVA), ki je pomemben del inferenčne statistike. Malo kasneje bomo
omenili posplošitev na več skupin.
Kvadrat točkovnega biserialnega korelacijskega koeficienta (točkovni biserialni determinacijski koeficient) predstavlja delež pojasnjene variance ali tudi moč učinka (angl.
strength of effect, effect size), saj velja:
2
rpb
=
σB2
σB2
.
=
2
σ2
σW
+ σB2
Njegovo kvalitativno opredeljevanje je torej enako kot pri determinacijskem koeficientu.
Pri našem primeru je recimo:
5
.
. 7
.
.
.
µ = 44 83 =
· 47 14 +
· 41 6 .
12
12
Varianca med skupinama (varianca, pojasnjena s spolom), je enaka:
σB2 =
Nadalje je:
7·5
. .
.
.
(47 14 − 41 6)2 = 7 5 .
(7 + 5)2
.
.
.
.
σx2 = 191 3 , σx = 13 83 ,
.
.
.
.
σy2 = 121 8 , σy = 11 04 .
in varianca znotraj skupin (nepojasnjena varianca) je enaka:
5
.
. .
.
2 . 7
σW
=
· 191 3 +
· 121 8 = 162 3 .
12
12
.
.
.
. .
2
Opazimo, da je res σ 2 = 169 8 = 7 5 + 121 8 = σB2 + σW
. Delež pojasnjene variance je
enak:
.
75 . .
. .
2
. = 0 04398 = 0 2097 .
169 8
Če sta obe spremenljivki dihotomni, velja rpb = φ.
Kot mero za povezanost intervalske in dihotomne spremenljivke lahko gledamo tudi
standardizirano razliko povprečij (angl. standardized mean difference) ali tudi Cohenov
koeficient:
µx − µy
d=
σW
Točkovni biserialni in Cohenov koeficient nam dajeta isto informacijo, saj se izražata drug
z drugim:
d
r
m+n
√
.
rpb = q
,
d= √
mn 1 − r2
(m+n)2
2
d +
mn
45
Nudita pa dva različna pogleda: točkovni biserialni korelacijski koeficient je osredotočen
bolj na povezanost, Cohenov koeficient pa bolj na razliko.
V našem primeru je:
1.3.4
.
.
. 47 14 − 41 6 . .
d= √ .
= 0 435 .
162 3
Povezanost intervalske in imenske spremenljivke
Podatke, kjer sta na isti statistični množici definirani intervalska spremenljivka (recimo
X) in imenska spremenljivka (recimo S), lahko spet predstavimo bodisi kot:
x1 , x2 , . . . xn
s1 , s2 , . . . sn
bodisi podatke razdelimo glede na vrednost imenske spremenljivke. Če le-ta zavzame
vrednosti a1 , a2 , . . . ak , podatke preindeksiramo v:
x11 , x12 , . . . x1n1 : vrednosti spremenljivke X, kjer je S = a1
x21 , x22 , . . . x2n2 : vrednosti spremenljivke X, kjer je S = a2
..
.
xk1 , xk2 , . . . xkn2 : vrednosti spremenljivke X, kjer je S = ak
Seveda velja n1 + n2 + · · · + nk = n.
Še drugače, na eni statistični množici gledati dve spremenljivki, od katerih je druga
imenska, ki zavzame k vrednosti, je ekvivalentno gledanju prve spremenljivke na k različnih statističnih množicah (imenska spremenljivka nam statistično množico razdeli na k
skupin).
Merjenje povezanosti med intervalsko in imensko spremenljivko temelji na analizi variance (natančneje, v našem kontekstu je to analiza variance z enojno klasifikacijo). Spet
označimo z µ aritmetično sredino na celotni statistični množici:
µ=
x1 + x2 + · · · + xn
,
n
z µ1 , µ2 , . . . µk pa aritmetične sredine na posameznih skupinah:
µi =
xi1 + xi2 + · · · + xini
,
ni
Tedaj je µ tehtana sredina aritmetičnih sredin µi :
µ=
n2
nk
n1
µ1 +
µ2 + · · · +
µk .
n
n
n
Celostna varianca:
σ2 =
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
n
46
spet razpade na nepojasnjeno in pojasnjeno varianco:
2
σ 2 = σW
+ σB2 ,
kjer je nepojasnjena varianca ali varianca znotraj skupin tehtana sredina posameznih
varianc v skupinah:
(xi1 − µi )2 + (xi2 − µi )2 + · · · + (xini − µi )2
,
ni
nk 2
n1 2 n2 2
σ1 +
σ2 + · · · +
σ ,
=
n
n
n k
σi2 =
2
σW
pojasnjena varianca ali varianca med skupinami pa je tehtana sredina kvadratov odklonov
aritmetičnih sredin posameznih skupin od celostne aritmetične sredine:
σB2 =
n2
nk
n1
(µ1 − µ)2 +
(µ2 − µ)2 + · · · +
(µk − µ)2 .
n
n
n
Lahko jo izračunamo tudi po u-metodi:
σB2 =
n1
n2
nk
(µ1 − u)2 +
(µ2 − u)2 + · · · +
(µk − u)2 − (µ − u)2 .
n
n
n
Zgoraj definirane variance so posplošitve varianc, ki smo jih gledali pri povezanosti intervalske in dihotomne spremenljivke. Tako povezanost intervalske in imenske spremenljivke
spet merimo z deležem pojasnjene variance oz. močjo učinka:
η2 =
σB2
,
σ2
Delež pojasnjene variance kvalitativno opredeljujemo enako kot determinacijski koeficient:
.
če je pojasnjenih 25% variance (η 2 = 0 25), to pomeni zmerno povezanost.
Če je intervalska spremenljivka dihotomna, se delež pojasnjene variance ujema s kvadratom Cramérjevega koeficienta asociiranosti: η 2 = V 2 . Če sta torej obe spremenljivki
dihotomni, velja η 2 = φ2 .
Primer : želimo izmeriti povezavo med pogostnostjo zahajanja v kino in najbolj priljubljeno zvrstjo filma. Za ta namen izvedemo anketo z dvema vprašanjema:
1. Kolikokrat na mesec greš v kino?
2. Katera zvrst filma ti je najbolj všeč?
(a) Komedija.
(b) Akcija.
(c) Romantični film.
(d) Drama.
(e) Grozljivka.
47
Pogostnost zahajanja v kino je intervalska, zvrst filma pa imenska spremenljivka. Rezultati ankete so naslednji:
zvrst filma\št. obiskov kina
komedija
akcija
romantični
drama
grozljivka
Skupaj
0
4
0
0
4
0
8
1
2
1
3
1
0
7
2
2
0
1
2
0
5
Skupaj Povprečje
.
8
0 75
1
1
.
4
1 25
.
7
0 7143
0
–
.
20
0 85
Celostna varianca:
.
.
.
8 · (0 − 0 85)2 + 7 · (1 − 0 85)2 + 5 · (2 − 0 85)2
.
= 0 6275 .
σ =
20
2
Varianca med skupinami (pojasnjena varianca):
σB2
.
.
.
.
.
.
.
8 · (0 75 − 0 85)2 + 1 · (1 − 0 85)2 + 4 · (1 25 − 0 85)2 + 7 · (0 7143 − 0 85)2 .
=
=
20
. .
= 0 0436 .
Delež pojasnjene variance:
.
. 0 0436 . .
η = .
= 0 069 .
0 6275
.
Različnost najljubših zvrsti filma torej pojasni 6 9% variance števila obiskov kina. To
pomeni nizko povezanost.
2
1.3.5
Povezanost dveh urejenostnih spremenljivk
Povezanost dveh urejenostnih spremenljivk merimo s Spearmanovim ali Kendallovim korelacijskim koeficientom. Računanje slednjega je nekoliko bolj zapleteno, zato se bomo
posvetili le prvemu.
Splošni pristop pri urejenostnih spremenljivkah je, da uporabimo metode za intervalske
spremenljivke na rangih. Spearmanov korelacijski koeficient je definiran natanko v tem
(x)
(x)
(x)
duhu: to je Pearsonov koeficient, izračunan za vezane range. Če z R1 , R2 , . . . Rn ozna(y)
(y)
(y)
čimo vezane range spremenljivke X, z R1 , R2 , . . . Rn pa vezane range spremenljivke Y
po enotah, se kovarianca rangov izraža s formulo:
(x)
¯ R1(y) − R
¯ + R2(x) − R
¯ R2(y) − R
¯ + · · · + Rn(x) − R
¯ Rn(y) − R
¯
R1 − R
KR(x) ,R(y) =
n
kjer je:
¯ = n+1
R
2
48
povprečni rang (ker je le-ta celo število ali pa celo število in pol, u-metoda tu ni toliko
smiselna). Nato izračunamo še standardna odklona rangov:
s
(x)
¯ 2 + R2(x) − R
¯ 2 + · · · + Rn(x) − R
¯ 2
R1 − R
σR(x) =
,
n
s
(y)
¯ 2 + R2(y) − R
¯ 2 + · · · + Rn(y) − R
¯ 2
R1 − R
,
σR(y) =
n
Če ni vezi, velja kar:
r
n2 − 1
.
12
Spearmanov korelacijski koeficient torej definiramo po formuli:
σR(x) = σR(y) =
ρ = ρx,y :=
K R(x) ,R(y)
σR(x) σR(y)
Seveda lahko zgornje količine izračunamo tudi iz kontingenčne tabele. Če z R(x) (a) označimo vezani rang vrednosti a glede na spremenljivko X, z R(y) (b) označimo vezani rang
vrednosti b glede na spremenljivko Y , velja:
K R(x) ,R(y)
σR(x)
σR(y)
k
l
1 XX
¯ R(y) (bj ) − R
¯ ,
=
fij R(x) (ai ) − R
n i=1 j=1
v
u k
u1 X
¯ 2,
fi· R(x) (ai ) − R
=t
n i=1
v
u
l
u1 X
¯ 2.
f·j R(y) (bj ) − R
=t
n j=1
Spearmanov korelacijski koeficient je primerljiv s Pearsonovim in ga tudi enako kvalitativno opredeljujemo. Če sta obe spremenljivki dihotomni, se Spearmanov in Pearsonov
koeficient ujemata. Nasploh ima Spearmanov korelacijski koeficient podobne lastnosti kot
Pearsonov:
• Definiran je, če nobena od spremenljivk ni konstantna.
• Velja −1 ≤ ρ ≤ 1.
• Če sta X in Y neodvisni in je dovolj podatkov, je ρ blizu 0 (kasneje pri inferenčni
statistiki se bomo naučili, kako postaviti mejo).
• Spearmanov korelacijski koeficient je maksimalen (enak 1), če je katera koli od
spremenljivk strogo naraščajoča (a ne nujno linearna) funkcija druge.
49
• Spearmanov korelacijski koeficient je minimalen (enak −1), če je katera koli od
spremenljivk strogo padajoča (a ne nujno linearna) funkcija druge.
Spearmanov korelacijski koeficient torej meri stopnjo monotone povezanosti.
Tudi Kendallov korelacijski koeficient (τ ) je primerljiv s Spearmanovim.
Primer : želimo izmeriti povezavo med zadovoljstvom s telesno težo in subjektivnim vplivom medijev. Za ta namen izvedemo anketo z dvema vprašanjema, pri katerih imamo
naslednje izbire:
1. Ali ste zadovoljni s svojo težo?
(a) Da.
(b) Srednje.
(c) Ne.
2. V kolikšni meri mediji vplivajo na vašo samopodobo?
(a) Sploh ne vplivajo.
(b) Srednje vplivajo, z njimi se primerjam.
(c) Močno vplivajo, sam(a) sebi se zdim grd(a).
Obe spremenljivki (zadovoljstvo s telesno težo in vpliv medijev) sta tako urejenostni.
Rezultati ankete so predstavljeni v naslednji kontingenčni tabeli:
Zad. s težo\Vpliv medijev
da
srednje
ne
Skupaj
ga ni
8
2
2
12
srednji
1
1
4
6
močan
0
0
2
2
Skupaj
9
3
8
20
¯ = 10.5.
Povprečni rang: R
Rangi posameznih odgovorov in njihovi odmiki od povprečnega:
ai
R(x) (ai )
da
5
srednje
11
.
ne
16 5
¯
R(x) (ai ) − R
.
-5 5
.
05
6
Standardna odklona rangov:
r
σR(x)
σR(y)
bj
da
srednje
ne
R(y) (bj )
.
65
.
15 5
.
19 5
¯
R(y) (bj ) − R
-4
5
9
1
. 2
. 2
.
2
=
9 · (−5 5) + 3 · 0 5 + 8 · 6 = 5 296 ,
20
r 1
.
12 · (−4)2 + 6 · 52 + 2 · 92 = 5 020 .
=
20
50
Kovarianca rangov:
K R(x) ,R(y)
1
.
.
.
=
8 · (−5 5) · (−4) + 1 · (−5 5) · 5 + 0 · (−5 5) · 9 +
20
.
.
.
+ 2 · 0 5 · (−4) + 1 · 0 5 · 5 + 0 · 0 5 · 9 +
+ 2 · 6 · (−4) + 4 · 6 · 5 + 2 · 6 · 9 =
.
= 16 35 .
Spearmanov korelacijski koeficient:
.
16 35
. .
.
= 0 615 .
ρ= .
.
5 296 · 5 020
Gre torej za zmerno povezanost.
1.3.6
Povezanost urejenostne in dihotomne spremenljivke
Povezanost urejenostne in dihotomne spremenljivke se da meriti s Spearmanovim korelacijskim koeficientom (izbrani vrstni red vrednosti dihotomne spremenljivke vpliva le na
predznak). Vendar pa je navadno boljša mera povezanosti Herrnstein–Vargha–Delaneyjev
koeficient.
Za izračun tega koeficienta potrebujemo ranžirno vrsto vseh vrednosti prve (urejenostne) spremenljivke. Označimo z R(a) vezani rang vrednosti a glede na to ranžirno vrsto.
Nato podatke razdelimo glede na vrednosti druge (dihotomne spremenljivke), nastaneta
dve skupini. Če so:
x1 , x2 , . . . xm
vrednosti prve spremenljivke v prvi skupini,
y1 , y2 , . . . yn
pa vrednosti prve spremenljivke v drugi skupini, je Herrnstein–Vargha–Delaneyjev koeficient definiran s predpisom:
R(x1 ) + R(x2 ) + · · · + R(xm ) − m(m+1)
2
=
mn
R(y1 ) + R(y2 ) + · · · + R(yn ) − n(n+1)
2
.
=1−
mn
A :=
(navadno računamo po tisti različici, kjer je treba sešteti manj rangov).
Lastnosti Herrnstein–Vargha–Delaneyjevega korelacijskega koeficienta:
• Definiran je vedno.
• Velja 0 ≤ A ≤ 1.
51
• Če sta vrednost urejenostne spremenljivke in skupina neodvisni ter je dovolj podatkov, je A blizu 1/2 (kasneje pri inferenčni statistiki se bomo naučili, kako postaviti
mejo).
• Koeficient A je minimalen (enak 0), če so vse vrednosti iz prve skupine
(x1 , . . . xm ) strogo manjše od vseh vrednosti iz druge skupine (y1 , . . . yn ).
• Koeficient A je maksimalen (enak 1), če so vse vrednosti iz prve skupine
(x1 , . . . xm ) strogo večje od vseh vrednosti iz druge skupine (y1 , . . . yn ).
Herrnstein–Vargha–Delaneyjev koeficient A ni neposredno primerljiv s Spearmanovim
koeficientom ρ (t. j. Spearmanovim koeficientom urejenostne spremenljivke in skupine,
če prvo skupino postavimo na prvo, drugo pa na drugo mesto), pač pa je ρ v grobem
primerljiv z 2A − 1, A pa je v grobem primerljiv z (ρ + 1)/2. Zato je smiselno naslednje
kvalitativno opredeljevanje:
.
• od 0 do 0 05: vrednosti iz prve skupine so skoraj vse manjše od vrednosti iz druge
skupine;
.
.
• od 0 05 do 0 15: vrednosti iz prve skupine so precej manjše od vrednosti iz druge
skupine;
.
.
• od 0 15 do 0 3: vrednosti iz prve skupine so zmerno manjše od vrednosti iz druge
skupine;
.
.
• od 0 3 do 0 4: vrednosti iz prve skupine so malo manjše od vrednosti iz druge
skupine;
.
.
• od 0 4 do 0 5: vrednosti iz prve skupine so neznatno manjše od vrednosti iz druge
skupine;
.
.
• od 0 5 do 0 6: vrednosti iz prve skupine so neznatno večje od vrednosti iz druge
skupine;
.
.
• od 0 6 do 0 7: vrednosti iz prve skupine so malo večje od vrednosti iz druge skupine;
.
.
• od 0 7 do 0 85: vrednosti iz prve skupine so zmerno večje od vrednosti iz druge
skupine;
.
.
• od 0 85 do 0 95: vrednosti iz prve skupine so precej večje od vrednosti iz druge
skupine;
.
• od 0 95 do 1: vrednosti iz prve skupine so skoraj vse večje od vrednosti iz druge
skupine.
Koeficienta A in ρ ne nudita iste informacije:
• Koeficient A opisuje, v kolikšni meri skupina določa nabor surovih rangov znotraj
nje: skrajni vrednosti pomenita, da so vrednosti v eni skupini vse na eni strani, v
drugi skupini pa vse na drugi strani ranžirne vrste, medtem ko so vrednosti znotraj
posamezne skupine lahko različne.
• Koeficient ρ pa opisuje, v kolikšni meri skupina določa vezane range znotraj nje:
skrajni vrednosti pomenita, da so vse vrednosti znotraj posamezne skupine enake
(vendar v obeh skupinah različne, sicer ni definiran).
52
Primer : gledamo povezavo med končnim uspehom v 4. letniku srednje šole in spolom.
Rezultati so naslednji:
uspeh\spol
nezadosten
zadosten
dober
prav dober
odličen
Skupaj
moški ženski
0
0
2
1
4
2
4
4
2
1
12
8
Skupaj Kumulativno Vezani rang
0
0
–
3
3
2
.
6
9
65
.
8
17
13 5
3
20
19
20
.
Povprečni rang: 10 5.
Če A vzamemo v korist moških, dobimo:
.
.
2 · 2 + 4 · 6 5 + 4 · 13 5 + 2 · 19 − 12·13
2
=
12 · 8
.
.
1 · 2 + 2 · 6 5 + 4 · 13 5 + 1 · 19 − 8·9
2
=1−
=
12 · 8
. .
= 0 458 .
A=
Moški so bili torej neznatno slabši od žensk.
1.3.7
Povezanost urejenostne in imenske spremenljivke
Povezanost urejenostne in imenske spremenljivke merimo s Kruskal–Wallisovim deležem
pojasnjene variance. V skladu s splošno filozofijo obravnave urejenostnih spremenljivk je
to delež pojasnjene variance za vezane range. Gre torej za vrsto analize variance.
Če torej imenska spremenljivka S zavzame vrednosti a1 , a2 , . . . ak , lahko range urejenostne spremenljivke indeksiramo takole:
R11 , R12 , . . . R1n1 : rangi na enotah, kjer je S = a1
R21 , R22 , . . . R2n2 : rangi na enotah, kjer je S = a2
..
.
Rk1 , Rk2 , . . . Rkn2 : rangi na enotah, kjer je S = ak
Seveda velja n1 + n2 + · · · + nk = n.
¯ = n + 1 , celostna varianca pa je enaka:
Spet je povprečni rang vedno enak R
2
k
n
i
1 XX
¯ 2
σ =
(Rij − R)
n i=1 j=1
2
53
in če ni vezi, je σ 2 =
posameznih skupinah:
n2 − 1
¯1, R
¯2, . . . R
¯ k označimo povprečne range na
. Če zdaj z R
12
¯ i = Ri1 + Ri2 + · · · + Rini ,
R
ni
je pojasnjena varianca rangov enaka:
σB2 =
n1 ¯
¯ 2 + n2 ( R
¯ 2 − R)
¯ 2 + · · · + nk ( R
¯ k − R)
¯ 2.
(R1 − R)
n
n
n
Kruskal–Wallisov delež pojasnjene variance (moč učinka) pa je enak:
2
ηKW
σB2
= 2,
σ
Primer : želimo izmeriti povezavo med počutjem in barvo zgornjega dela oblačila. Za ta
namen vzamemo 20 anketirancev in:
• Jih povprašamo, kako se počutijo, pri čemer jim damo na voljo 5-stopenjsko lestvico.
To je urejenostna spremenljivka.
• Si ogledamo barvo njihovega zgornjega oblačila. Barve razdelimo v štiri kategorije:
temne (črna, rjava, siva, temno modra, vijoličasta), bela, svetle (rumena, rdeča,
roza, oranžna, zelena, svetlo modra), pisane. To je imenska spremenljivka.
Rezultati ankete:
počutje\barva
zelo slabo
slabo
nevtralno
kar dobro
odlično
Skupaj
Povprečje
temna
0
2
4
4
1
11
.
11 27
bela
0
0
1
1
0
2
.
12 5
svetla
0
1
1
0
0
2
.
5 25
Celostni povprečni rang:
pisana
0
0
4
1
0
5
.
10 1
Skupaj Kum. Rang
0
0
–
3
3
2
.
10
13
85
.
6
19
16 5
1
20
20
20
20 + 1
.
= 10 5.
2
Povprečni rangi po skupinah v zadnji vrstici tabele so dobljeni na naslednji način:
h
i
.
.
¯ 1 = 1 2 · 2 + 4 · 8.5 + 4 · 16.5 + 1 · 20 =
R
11 27 ,
11
h
i
.
.
¯ 2 = 1 1 · 8.5 + 1 · 16.5 =
R
12 5 ,
2
h
i
. .
¯ 3 = 1 1 · 2 + 1 · 8. 5 =
5 25 ,
R
2
h
i
.
.
¯ 4 = 1 4 · 8.5 + 1 · 16.5 =
R
10 1 .
5
54
Celostna varianca:
i
1h
. 2
.
. 2
.
. 2
. 2
.
2
3 · (2 − 10 5) + 10 · (8 5 − 10 5) + 6 · (16 5 − 10 5) + 1 · (20 − 10 5) = 28 15 .
σ =
20
Varianca znotraj skupin (pojasnjena varianca):
h
i
. .
. 1
.
.
.
.
.
.
.
.
11·(11 27−10 5)2 +2·(12 5−10 5)2 +2·(5 25−10 5)2 +5·(10 1−10 5)2 = 3 525 .
σB2 =
20
Kruskal–Wallisov delež pojasnjene variance:
.
. 3 525 . .
2
ηKW
= . = 0 125 .
28 15
Gre torej za nizko povezanost.
2.
Teorija verjetnosti
2.1
2.1.1
Verjetnostni prostori
Osnovni pojmi verjetnosti
Pojem verjetnost (angl. probability) v praksi navadno interpretiramo kot predvideni (ocenjeni, pričakovani) delež poskusov, pri katerih se zgodi določen dogodek.
Primer : stavek:
‘Verjetnost, da boste pri statistiki dobili oceno 10, je 9%’
si navadno razlagamo kot:
‘Ocenjujemo, da bo 9% takih, kot ste vi, pri statistiki dobilo oceno 10.’
Take ocene dostikrat temeljijo na podatkih iz preteklosti, včasih pa tudi na simetriji
ali fizikalnih dejstvih.
Primer : če je kovanec simetričen, domnevamo, da je pošten, kar pomeni, da cifra in grb
padeta z enako verjetnostjo, t. j. 1/2. Niso pa vsi kovanci vedno pošteni, še zlasti ne, če
kovanec zavrtimo in čakamo, da se prevrne. Bolje je, če kovanec vržemo v zrak, tako da
se velikokrat zavrti.
Zapišimo zdaj to malo splošneje. Poskus je realizacija natančno določenih pogojev,
pri katerih opazujemo enega ali več dogodkov. Po realizaciji poskusa mora biti za vsak
dogodek jasno, ali se je zgodil ali ne. To ponazorimo z diagramom:
dogodek
poskus
55
56
pri čemer pikčasta puščica pomeni, da je to, na kar kaže, znano šele po realizaciji poskusa.
Pri prejšnjih dveh primerih je bil poskus opravljen izpit (v tiste, ki odnehajo, se tu ne
bomo spuščali) in met kovanca. Pri kovancu je smiselno obravnavati dogodka ‘pade grb’
in ‘pade cifra’, pri izpitu pa je dogodkov, ki jih je smiselno obravnavati, več, npr. ‘dobimo
10’, ‘dobimo 6’, ‘dobimo več kot 7’ itd.
Ali se je dani dogodek zgodil ali ne, izvemo šele po realizaciji poskusa. Navadno pa
želimo kaj izračunati, še preden izvedemo poskuse. Zato je smiselno vzpostaviti pojem, na
podlagi katerega lahko a priori (že pred izvedbo poskusa) opredelimo, ali se je posamezen
dogodek zgodil ali ne. To vlogo igra pojem izida: če poznamo izid, moramo za vsak
dogodek vedeti, ali se je zgodil ali ne. Po realizaciji poskusa pa moramo vedeti tudi,
kateri izid se je zgodil (kako se je izšel poskus). To prikažemo z diagramom:
poskus
dogodek
izid
pri čemer pikčasta puščica spet pomeni, da je to, na kar kaže, znano šele po realizaciji
poskusa, neprekinjena puščica pa, da je znano a priori, že vnaprej.
Teorija verjetnosti se gradi od izidov naprej: vsi možni izidi sestavljajo množico, dogodki pa so njene podmnožice. Množico izidov bomo označevali z Ω.
Primer : pri metu kovanca je množica izidov Ω = {c, g}, možni dogodki pa so štirje:
∅ = {}, {c}, {g} in {c, g} = Ω. Prvi dogodek je nemogoč, drugi pa gotov.
Primer : pri metu standardne kocke je smiselno postaviti:
Ω={
b
,
b
b
,
b
b
b
,
b
b
b
b
,
b
,
b
b
b
b
b
}.
b
b
b
b
b
Možnih dogodkov je 26 = 64 (za vsak izid imamo dve možnosti – ali je v izbranem dogodku
ali pa ga ni notri). Oglejmo si naslednjih šest:
A = {pade
B = {pade
C = {pade
D = {pade
E = {pade
D = {pade
natanko šest pik } = { } ,
najmanj pet pik} = { , } ,
liho število pik} = { , , } ,
manj kot šest pik} = { , , , , } ,
največ šest pik} = { , , , , , } = Ω
več kot šest pik} = {} = ∅ .
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
(2.1.1)
b
b
b
b
b
b
b
b
b
Dogodek F je nemogoč, dogodek E pa je gotov.
Pripomnimo naj, da za dogodke ne moremo vedno proglasiti vseh podmnožic prostora
izidov, temveč le določeno družino podmnožic, ki mora imeti posebne lastnosti. Več o
tem v nadaljevanju.
V teoriji je verjetnost preslikava, ki vsakemu dogodku A priredi število P(A) iz intervala [0, 1], njegovo verjetnost. Omenili smo, da verjetnost navadno interpretiramo kot
57
oceno za delež poskusov. V teoriji zahtevamo, da ima verjetnost določene lastnosti, ki
jih ima tudi delež. To so tako imenovani aksiomi Kolmogorova, ki jih bomo predstavili v
nadaljevanju.
Primer : pri poštenem kovancu so verjetnosti vseh možnih dogodkov enake:
P(∅) = 0 ,
1
,
2
P({c}) =
P({g}) =
1
,
2
P({c, g}) = 1 .
Primer verjetnosti pri nepoštenem (pristranskem) kovancu:
P(∅) = 0 ,
2.1.2
.
P({c}) = 0 7 ,
.
P({g}) = 0 3 ,
P({c, g}) = 1 .
Diskretna verjetnost
Omenili smo že, da je v teoriji verjetnost nekaj, kar se obnaša podobno kot delež. No, če
verjetnost izida (dogodka) kar definiramo kot delež poskusov, ki se izidejo na predpisani
način (pri katerih se zgodi dani dogodek), velja:
• Verjetnost vsakega izida je število iz intervala [0, 1].
• Verjetnost vsakega dogodka je vsota verjetnosti izidov, ki jih dani dogodek zajema.
• Vsota verjetnosti vseh izidov je enaka 1.
Če torej v tem primeru poznamo verjetnosti posameznih izidov, poznamo tudi verjetnosti
dogodkov. To nam da navdih za naslednjo splošnejšo, bolj teoretično definicijo verjetnosti.
Verjetnostna funkcija (angl. probability mass function, pmf ) na danem prostoru izidov
Ω je predpis, ki vsakemu izidu ω ∈ Ω priredi število iz intervala [0, 1], ki ga bomo navadno
označevali s p(ω) in mu rekli verjetnost izida. Vsota verjetnosti vseh izidov mora biti 1:
X
p(ω) = 1 .
ω∈Ω
Če je Ω = {ω1 , ω2 , . . . ωn }, kjer so vsi izidi ω1 , . . . ωn različni, zgornji zapis pomeni:
p(ω1 ) + p(ω2 ) + · · · + p(ωn ) = 1 .
Primer : pri poštenem kovancu je p(c) = p(g) = 21 , pri prejšnjem primeru pristranskega
.
.
kovanca pa je p(c) = 0 7 in p(g) = 0 3.
Verjetnostno funkcijo lahko zapišemo z verjetnostno shemo, ki je zapis oblike:
ω1 ω2 · · · ωn
,
p1 p2 · · · pn
58
kjer so ω1 , ω2 , . . . ωn vsi možni izidi, t. j. Ω = {ω1 , ω2 , . . . ωn }. Verjetnostna shema je v
kanonični obliki, če so vse vrednosti ω1 , ω2 , . . . ωn različne. Tako zapisana verjetnostna
shema definira verjetnostno funkcijo po predpisu:
p(ω1 ) = p1 , p(ω2 ) = p2 , . . . p(ωn ) = pn .
Verjetnostna shema poštenega kovanca:
c
g
.
1/2 1/2
Primer verjetnostne sheme pristranskega kovanca:
c
g
.
. .
07 03
c
g
c
g
c
g
niso verjetnostne sheme: pri prvi je
in
Primer :
.
.
.
.
.
. ,
1 2 −0 2
08 03
05 03
vsota verjetnosti manjša od 1, pri drugi večja od 1, pri tretji pa je sicer enaka 1, a
verjetnosti niso iz intervala [0, 1].
Včasih ima smisel, da se vrednosti v verjetnostni shemi ponavljajo. V tem primeru
vrednost verjetnostne funkcije dobimo s seštevanjem:
X
p(ω) =
pi .
i;ωi =ω
in tako lahko vsako verjetnostno shemo zapišemo v kanonični obliki.
Primer : verjetnostna shema:
a
b
a
c
b
.
.
.
.
.
01 02 03 01 03
je ekvivalentna verjetnostni shemi v kanonični
a
b
.
.
04 05
obliki:
c
.
.
01
Diskretni verjetnostni prostor je množica izidov Ω skupaj z verjetnostno funkcijo.
Verjetnost dogodka A z verjetnostno funkcijo definiramo kot:
X
P(A) :=
p(ω) .
ω∈A
Za enostavne dogodke (t. j. tiste, ki vsebujejo en sam izid) velja:
P({ω}) = p(ω) .
Če je verjetnostna funkcija podana z verjetnostno shemo (v kanonični ali nekanonični
obliki), velja:
X
P(A) =
pi .
i;ωi ∈A
59
Torej za vsako verjetnostno shemo velja p1 + p2 + · · · + pn = 1. Velja tudi, da vsaka shema
zgornje oblike, v kateri je 0 ≤ pi ≤ 1 za vse i in še p1 + p2 + · · · + pn = 1, predstavlja
verjetnostno shemo neke verjetnostne funkcije.
Primer : poštena kocka ima verjetnostno shemo:
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
1/6 1/6 1/6 1/6 1/6 1/6
.
in verjetnosti dogodkov iz (2.1.1) so enake:
P(A) =
1
,
6
P(B) =
2
1
= ,
6
3
3
1
= ,
6
2
P(C) =
5
,
6
P(D) =
P(E) = 1 ,
P(F ) = 0 .
Pri pošteni kocki so vsi izidi enako verjetni. V splošnem, če verjetnostni prostor
vsebuje n enako verjetnih izidov, je p(ω) = 1/n za vse ω. Verjetnosti dogodkov se potem
izražajo kot razmerja:
♯(A)
♯(A)
P(A) =
=
.
n
♯(Ω)
Pri pošteni kocki lahko rečemo tudi, da je število pik izbrano na slepo iz množice
{1, 2, 3, 4, 5, 6}. Splošno, slepa izbira (angl. by chance, uniformly at random) pomeni, da
so vse možnosti, ki jih lahko izberemo, enako verjetne.
Pri slepi izbiri je torej verjetnost dogodka kar delež izidov, ki so zajeti v tem dogodku.
To spomninja na motivacijo za verjetnost iz podrazdelka 2.1.1, kjer je verjetnost ocena za
delež poskusov, pri katerih se zgodi dani dogodek. No, če verjetnost dejansko definiramo
kar kot delež poskusov, to pomeni, da smo privzeli, da je poskus izbran na slepo.
Seveda pa ni nujno, da so vsi izidi enako verjetni.
Primer : pri nepošteni kocki z verjetnostno shemo:
.
.
.
.
.
.
0 05 0 15 0 15 0 15 0 15 0 35
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
(2.1.2)
so verjetnosti prej omenjenih dogodkov enake:
.
.
P(A) = p( ) = 0 35 ,
P(B) = p( ) + p( ) = 0 5 ,
.
P(C) = p( ) + p( ) + p( ) = 0 35 ,
.
P(D) = p( ) + p( ) + p( ) + p( ) + p( ) = 0 65 ,
P(E) = 1 ,
P(F ) = 0 .
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
Posvetimo se zdaj še malo slepi izbiri. Pomembna primera sta slepo vlečenje z vračanjem in brez vračanja. Slepo vlečenje r elementov z vračanjem iz dane množice pomeni,
da so vse urejene r-terice (a1 , a2 , . . . ar ) izvlečenih elementov enako verjetne (ločimo torej različne vrstne rede vlečenja). Slepo vlečenje brez vračanja pa pomeni, da so enako
verjetne vse tiste r-terice, ki imajo vse elemente različne.
60
Primer : Iz množice kart {as, kralj, dama, fant} na slepo izvlečemo dve karti. Kolikšna je
verjetnost, da bo med njima vsaj ena dama?
Odgovor je odvisen od tega, ali vlečemo z vračanjem ali brez. Če vlečemo z vračanjem,
verjetnostni prostor sestavlja naslednjih 16 enako verjetnih izidov:
AA AK AQ AJ
KA KK KQ KJ
QA QK QQ QJ
JA JK JQ JJ
kjer prva črka pomeni prvo, druga pa drugi izvlečeno karto, in kjer se držimo standardnih
kratic A za asa, K za kralja, Q za damo in J za fanta. Vsaj eno damo izvlečemo pri
.
natanko pri natanko 7 izidih. Verjetnost tega dogodka je torej 7/16 = 0 4375.
Če pa vlečemo brez vračanja, verjetnostni prostor sestavlja le naslednjih 12 enako
verjetnih izidov:
AK AQ
KA
KQ
QA QK
JA JK JQ
AJ
KJ
QJ
in vsaj eno damo izvlečemo pri natanko 6 izidih (in v tem primeru je to isto kot reči, da
.
izvlečemo natanko eno damo). Verjetnost tega dogodka je zdaj torej 6/12 = 1/2 = 0 5.
Slepo vlečenje je pomembno v statistiki, kjer mu pravimo enostavno slučajno vzorčenje
s ponavljanjem ali brez, naboru izvlečenih elementov pa vzorec. Na statistični množici
velikosti n obstaja nr možnih vzorcev s ponavljanjem in:
n(n − 1)(n − 2) · · · (n − r + 1)
vzorcev brez ponavljanja.
Pri statističnem sklepanju vrstni red vlečenja navadno ni pomemben (podobno kot tudi
ni bil pomemben pri dogodku, da je vsaj ena izvlečena karta dama). Če pri vzorčenju brez
ponavljanja zanemarimo vrstni red, se ohrani, da so vsi vzorci enako verjetni (kar pa ni
res pri vzorčenju s ponavljanjem). Vzorcev brez ponavljanja brez informacije o vrstnem
redu pa je:
n(n − 1)(n − 2) · · · (n − r + 1)
n
=
.
r!
r
Izrazu na desni pravimo binomski simbol. Le-ta v verjetnosti igra zelo pomembno vlogo.
10 · 9 · 8
10
= 120.
Primer izračuna binomskega koeficienta:
=
1·2·3
3
10
Velja pa tudi
= 120.
7
61
n
n
Nasploh velja
=
. Čisto vseeno je namreč, ali povemo, katerih r elemenr
n−r
tov smo vzeli v vzorec ali pa katerih n − r nismo vzeli.
2.1.3
Relacije in operacije na dogodkih
• Pravimo, da je A način dogodka B, če vsi izidi, ki so v dogodku A, pripadajo tudi
dogodku B. Pišemo A ⊆ B ali tudi B ⊇ A. Posebej velja, da je vsak dogodek tudi
način samega sebe: A ⊆ A.
• Unija (tudi vsota) dogodkov A in B je dogodek, ki ga sestavljajo tisti izidi, ki so v
A ali v B. Unijo označujemo z A ∪ B, v starejši literaturi tudi z A + B.
• Presek (tudi produkt) dogodkov A in B je dogodek, ki ga sestavljajo tisti izidi, ki
so v A in hkrati v B. Presek označujemo z A ∩ B, v starejši literaturi tudi z AB.
• Razlika dogodkov A in B je dogodek, ki ga sestavljajo tisti izidi, ki so v A, ne pa
tudi v B. Razliko bomo označevali z A \ B, možna pa je tudi oznaka A − B.
• Dogodka A in B sta nezdružljiva, če je A ∩ B = ∅.
• Dogodka A in B sta si nasprotna, če sta nezdružljiva in je A ∪ B = Ω. Pravimo
tudi, da je dogodek A nasproten dogodku B oziroma B nasproten dogodku A.
• Dogodek, ki je (v danem prostoru izidov) nasproten danemu dogodku A, je en sam
¯ možna pa je
in mu pravimo tudi komplement dogodka A. Označevali ga bomo z A,
c
tudi oznaka A .
Primer : Če spet vzamemo standardno kocko in dogodke (2.1.1), velja:
• A je način dogodka B in C je način dogodka D: A ⊆ B, C ⊆ D.
• B∪C ={
• B∩C ={
• B\C ={
• C \B ={
,
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
,
b
b
b
b
b
,
b
b
b
b
b
b
}.
}.
} = A.
,
b
b
b
}.
• Dogodka A in C sta nezdružljiva, prav tako dogodka A in D.
¯ A = D.
¯
• Dogodka A in D sta si nasprotna: D = A,
62
Nasploh veljajo naslednje zveze:
A¯ = Ω \ A
A¯ = A
¯
A\B =A∩B
¯
A ∪ B = A¯ ∩ B
¯.
A ∩ B = A¯ ∪ B
Zadnjima dvema zvezama pravimo de Morganova zakona.
Verjetnost, definirana s pomočjo verjetnostne funkcije, ima naslednje lastnosti:
• Za vsak dogodek A je 0 ≤ P(A) ≤ 1.
• P(∅) = 0, P(Ω) = 1.
• Če je A način dogodka B, je P(A) ≤ P(B). Primer: pri dogodkih (2.1.1) na nepo.
.
šteni kocki (2.1.2) je A ⊆ B in P(A) = 0 35 ≤ 0 5 = P(B).
¯ = 1 − P(A). Primer: pri dogodkih (2.1.1) na nepošteni kocki (2.1.2) je P(D) =
• P(A)
¯ = 0.65 = 1 − P(A).
P(A)
• Če sta dogodka A in B nezdružljiva, velja P(A ∪ B) = P(A) + P(B). Primer: pri
.
.
dogodkih (2.1.1) na nepošteni kocki je P(A) = 0 35, P(C) = 0 35 in P(A ∪ C) =
.
0 7 = P(A) + P(C).
Nasploh pa verjetnost unije ni vsota verjetnosti.
Primer : pri dogodkih (2.1.1) na nepošteni kocki (2.1.2) velja:
.
.
.
P(B) = 0 15 + 0 35 = 0 5 ,
.
.
.
.
P(C) = 0 05 + 0 15 + 0 15 = 0 35 ,
.
.
.
.
.
P(B ∪ C) = 0 05 + 0 15 + 0 15 + 0 35 = 0 7 ,
medtem ko je P(B) + P(C) = 0.85. Ko namreč seštejemo P(B) + P(C), verjetnost izida
, ki tvori presek B ∩ C, štejemo dvakrat. Če želimo dobiti P(B ∪ C), ga moramo nazaj
odšteti.
b
b
b
b
b
Tako dobimo formulo za verjetnost unije v splošnem:
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) .
63
2.1.4
Aksiomi Kolmogorova
Včasih želimo gledati tudi verjetnost, ki se je ne da opisati z verjetnostno funkcijo ali
pa bi bilo to nenaravno. V tem primeru definiramo verjetnost neposredno na dogodkih.
Žal pa se izkaže, da tega ne moremo vedno storiti na vseh podmnožicah prostora izidov
Ω, temveč le na določeni družini podmnožic. Pojem dogodka bomo omejili na izbrano
družino, za katero bomo zahtevali, da je σ-algebra.
Družina podmnožic F dane množice Ω je σ-algebra, če velja:
• ∅ ∈ F.
• Če je A ∈ F , je tudi A¯ ∈ F .
• Za poljubno zaporedje dogodkov A1 , A2 , A3 , . . . mora biti tudi A1 ∪ A2 ∪ A3 ∪
· · · ∈ F . Slednji dogodek sestavljajo vsi izidi, ki so v vsaj enem izmed dogodkov
A1 , A2 , A3 , . . ..
Če je F σ-algebra, mora veljati tudi:
¯
• Ω ∈ F , saj je Ω = ∅.
• Za poljubna A, B ∈ F mora biti A ∪ B ∈ F , saj je A ∪ B = A ∪ B ∪ ∅ ∪ ∅ ∪ · · · .
¯
• Za poljubna A, B ∈ F mora biti A ∩ B ∈ F , saj je A ∩ B = A¯ ∪ B.
Verjetnost (ali verjetnostna mera) na σ-algebri F , ki jo sestavljajo določene podmnožice množice izidov Ω (dogodki), je predpis, ki vsakemu dogodku A priredi število, ki
ga označimo s P(A) in mu pravimo verjetnost dogodka A. Pri tem mora veljati:
• 0 ≤ P(A) ≤ 1 za vsak dogodek A.
• P(∅) = 0, P(Ω) = 1.
• Če sta dogodka A in B nezdružljiva, mora biti P(A ∪ B) = P(A) + P(B).
• Za poljubno zaporedje dogodkov A1 ⊆ A2 ⊆ A3 ⊆ · · · mora veljati:
P(A1 ∪ A2 ∪ A3 ∪ · · · ) = lim P(An ) .
n→∞
Zgornjim pravilom pravimo aksiomi Kolmogorova. Prvim trem pravilom bomo rekli
osnovni aksiomi verjetnosti.
Množico izidov skupaj z verjetnostno mero imenujemo verjetnostni prostor.
Vsaka verjetnost, definirana s pomočjo verjetnostne funkcije, izpolnjuje aksiome Kolmogorova, pri čemer so lahko dogodki kar vse podmnožice prostora izidov Ω. Diskretni
verjetnostni prostori so torej poseben primer verjetnostnih prostorov, definiranih z aksiomi
Kolmogorova. Zato je na mestu naslednja definicija.
64
Verjetnostna mera je diskretna, če izvira iz verjetnostne funkcije. Natančneje, to je
tedaj, ko so dogodki kar vse podmnožice prostora izidov Ω in ko obstaja taka funkcija
p : Ω → [0, 1], da za vsak dogodek A velja:
X
P(A) =
p(ω) .
ω∈A
Verjetnostna funkcija p je natančno določena, saj velja p(ω) = P({ω}). Zato lahko
ekvivalentno definiramo, da je verjetnostna mera diskretna, če so dogodki kar vse podmnožice prostora izidov Ω in če za vsak dogodek A velja:
X
P(A) =
P({ω}) .
ω∈A
Diskretne verjetnostne mere so torej tiste, pri katerih je verjetnost določena že na enostavnih dogodkih. Velja tudi, da je verjetnostnaPmera P iskkretna natenko tedaj, ko je
p(ω) := P({ω}) verjetnostna funkcija, t. j. ko je ω∈Ω p(ω) = 1.
Verjetnost, definirana s pomočjo aksiomov Kolmogorova, ima vse lastnosti, ki smo jih
nanizali za diskretne verjetnostne mere:
¯ = 1 − P(A): to velja zato, ker sta dogodka A in A¯ nezdružljiva, njuna unija
• P(A)
pa je gotov dogodek Ω, ki ima verjetnost 1.
• Če je A ⊆ B, je P(A) ≤ P(B): to velja zato, ker je v tem primeru B = A∪(B \A) in
kar sta dogodka A in B\A nezdružljiva, mora veljati P(B) = P(A)+P(B\A) ≥ P(A).
• P(A ∪ B) = P(A) + P(B) − P(A ∩ B): to velja zato, ker je A ∪ B unija nezdružljivih
dogodkov A in B \ A, B pa je unija nezdružljivih dogodkov B \ A in A ∩ B. Sledi:
P(A ∩ B) = P(A) + P(B \ A)
P(B) = P(B \ A) + P(A ∩ B)
Če enačbi odštejemo in uredimo, dobimo prej omenjeno zvezo.
• Če so A1 , A2 , . . . An paroma nezdružljivi (t. j. poljubna dva z različnima indeksoma
sta nezdružljiva), velja:
P(A1 ∪ A2 ∪ · · · ∪ An ) = P(A1 ) + P(A2 ) + · · · + P(An ) .
Trditev velja tudi za neskončno zaporedje paroma nezdružljivih dogodkov:
P(A1 ∪ A2 ∪ · · · ) = P(A1 ) + P(A2 ) + · · · ,
kjer je vrednost izraza na desni, ki mu pravimo vrsta, definirana kot limita delnih vsot. Zgornja formula je (ob privzetju ostalih) ekvivalentna zadnjima dvema
aksiomoma Kolmogorova.
65
Iz zadnje lastnosti sledi, da je vsaka verjetnostna mera na končnem ali števno neskončnem verjetnostnem prostoru diskretna.
Primer nediskretne verjetnostne mere. Avtobus vozi na 10 minut. Pridemo na slepo na
postajo. Kolikšna je verjetnost, da bomo čakali več kot 7 minut?
Za prostor izidov tu postavimo interval (0, 10]. Posamezen izid naj recimo predstavlja
čas, ki je minil od odhoda zadnjega avtobusa, na katerega nismo mogli priti (izid 10
pomeni, da je ob istem času kot mi prišel avtobus in nas je voznik ravno še spustil noter).
Dogodek, da čakamo več kot 7 minut, ustreza intervalu (0, 3]. Torej je verjetnost tega
dogodka enaka 30%.
Kako smo dobili zadnji rezultat? Tako, da smo dolžino intervala (0, 3] delili z dolžino
celotnega intervala (0, 10]. Če je torej dogodek I ⊆ (0, 10] interval, je njegova verjetnost
enaka:
dolžina(I)
P(I) =
.
10
Interval je lahko odprt, zaprt ali polodprt. Lahko je tudi izrojen, torej ena sama točka.
To ustreza vprašanju, kolikšna je verjetnost, da bomo čakali natanko 7 minut (niti delčka
sekunde več niti delčka sekunde manj). Ker je dolžina ena same točke enaka nič, je
tudi verjetnost dogodka, da bomo čakali natanko 7 minut, enaka nič (takim dogodkom
pravimo skoraj nemogoči ). Od tod sledi tudi, da ta verjetnostna mera ni diskretna, saj
je pripadajoča funkcija p povsod enaka nič in zato ne more biti verjetnostna funkcija.
Prejšnji primer je primer slepe izbire, definirane splošnejše. Za slepo izbiro iz končne
množice smo že definirali, da je to takrat, ko so vse možnosti enako verjetne. Z drugimi
besedami, če Ω končna množica, je izid izbran na slepo, če za vsak dogodek A velja
♯(A)
.
P(A) =
♯(Ω)
Slepa izbira iz intervala na realni osi, ravninskega lika ali prostorskega telesa pa pomeni, da je:
mera(A)
P(A) =
,
mera(Ω)
kjer je mera dolžina (za intervale na realni osi), ploščina (za ravninske like) oziroma
prostornina (za prostorska telesa).
Primer : na slepo izberemo točko iz trikotnika v ravnini z vodoravno osnovnico:
in zanima nas verjetnost, da je izbrana točka na več kot polovici višine trikotnika.
Dogodek A je prikazan kot osenčeno območje:
66
Dogodek A je trikotnik s polovično osnovnico in polovično višino trikotnika, ki ponazarja cel verjetnostni prostor Ω, torej je njegova ploščina četrtina ploščine trikotnika Ω.
Sledi P(A) = 1/4.
2.2
2.2.1
Pogojna verjetnost
Definicija pogojne verjetnosti
Pogojna verjetnost dogodka A glede na dogodek B, P(A | B), je verjetnost, če vemo,
da se je zgodil B. Privzemimo za hip, da je verjetnost dogodka definirana kar kot delež
poskusov, pri katerih se zgodi dani dogodek, torej: t. j.
P(A) =
število poskusov, pri katerih se zgodi A
,
število vseh poskusov
je smiselno definirati:
P(A | B) =
število poskusov, pri katerih se zgodi A, med tistimi, pri katerih se zgodi B
število poskusov, pri katerih se zgodi B
Velja:
število poskusov, pri katerih se zgodita A in B
=
število poskusov, pri katerih se zgodita A in B
=
P(A ∩ B)
=
.
P(B)
P(A | B) =
=
Slednje vzamemo za definicijo pogojne verjetnosti v splošnem, ko verjetnost ni nujno delež
poskusov:
P(A ∩ B)
P(A | B) :=
.
P(B)
Omenili smo že, da definicija verjetnosti z deležem poskusov pomeni slepo izbiro poskusa. No, če gre za slepo izbiro, t. j. če so vsi izidi enako verjetni, to pomeni:
P(A | B) =
♯(A ∩ B)
.
♯(B)
67
Primer : Vzemimo pošteno kocko in dogodka iz (2.1.1):
B = {pade najmanj pet pik} = { , } ,
D = {pade manj kot šest pik} = { , ,
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
,
b
b
b
b
,
.
Tedaj velja P(B | D) = 1/5 = 0 2.
b
b
b
b
b
},
Če pa kocka ni poštena, temveč sledi porazdelitveni shemi (2.1.2):
,
.
.
.
.
.
.
0 05 0 15 0 15 0 15 0 15 0 35
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
.
.
0 15
0 15 . .
velja P(B | D) = .
=
.
.
.
.
. = 0 231.
0 05 + 0 15 + 0 15 + 0 15 + 0 15
0 65
Pri neodvisnih dogodkih se pogojna verjetnost ujema z brezpogojno: če sta A in B
neodvisna, velja:
P(A) P(B)
P(A ∩ B)
=
= P(A) .
P(A | B) =
P(B)
P(B)
2.2.2
Relejni poskusi
Dostikrat poznamo določene pogojne verjetnosti, želeli pa bi izračunati brezpogojno verjetnost. To se dogaja pri relejnih poskusih, ki potekajo v več fazah. Recimo, da se v
prvi fazi lahko zgodi dogodek A, v drugi pa dogodek B. Tedaj navadno po naravi stvari
poznamo P(A) in P(B | A), brezpogojno verjetnost P(A ∩ B) pa izračunamo po formuli:
P(A ∩ B) = P(A) P(B | A) .
Primer : Žena pošlje moža na trg po glavo solate, ki jo prodajata dve branjevki, Francka
in Micka. Verjetnost, da mož kupi solato pri Francki, je 40%, da kupi pri Micki, pa 60%.
Francka ima 10%, Micka pa 20% nagnitih glav solate. Privzamemo, da Francka in Micka
izbirata solato na slepo.
Tukaj gre za dvofazni relejni poskus: v prvi fazi mož izbira branjevko, v drugi pa
branjevka izbira solato.
Žena si zastavlja naslednja vprašanja:
1. Najprej jo zanima verjetnost, da bo mož prinesel domov nagnito glavo solate.
2. Nato gre z mislimi še malo dlje in se vpraša po verjetnosti, da bo šel k Micki in tam
kupil nagnito glavo solate.
3. Končno se mož vrne domov – z nagnito glavo solate. Sedaj se žena vpraša po pogojni
verjetnosti, da je solato kupil pri Micki.
68
Zaenkrat znamo dogovoriti na drugo vprašanje: če je G dogodek, da mož prinese
domov nagnito gnilo solate, M pa dogodek, da kupi solato pri Micki, vemo:
.
P(M ) = 0 6 ,
.
P(G | M ) = 0 2 .
Odgovor na iskano vprašanje je:
.
.
.
P(M ∩ G) = P(M ) P(G | M ) = 0 6 · 0 2 = 0 12 .
Za odgovor na prvo in tretje vprašanje pa potrebujemo še malo teorije.
Dogodki H1 , H2 , . . . Hn tvorijo popoln sistem dogodkov ali tudi razčlenitev (angl. partition) prostora izidov, če so paroma nezdružljivi, njihova unija pa je gotov dogodek. Z
drugimi besedami, vsak izid pripada natanko enemu izmed dogodkov H1 , H2 , · · · Hn .
Če je H1 , H2 , . . . Hn popoln sistem dogodkov in A poljuben dogodek, so tudi dogodki
H1 ∩ A, H2 ∩ A, . . . Hn ∩ A paroma nezdružljivi, njihova unija pa je dogodek A. Sledi:
P(A) = P(H1 ∩ A) + P(H2 ∩ A) + · · · + P(Hn ∩ A)
oziroma:
P(A) = P(H1 ) P(A | H1 ) + P(H2 ) P(A | H2 ) + · · · + P(Hn ) P(A | Hn ) .
Zgornji formuli pravimo izrek o polni verjetnosti (angl. law of total probability). Uporaben
je pri dvofaznih relejnih poskusih. Dogodki H1 , H2 , . . . Hn predstavljajo vse možnosti za
prvo fazo poskusa, zato jim pravimo tudi hipoteze, dogodek A pa se nanaša na drugo fazo
poskusa.
Sedaj lahko odgovorimo na prvo ženino vprašanje. Če z F označimo še dogodek, da
mož kupi solato pri Francki, dogodka F in M sestavljata popoln sistem dogodkov. Velja:
.
P(F ) = 0 4 ,
.
P(G | M ) = 0 1 .
Po izreku o polni verjetnosti velja:
.
.
.
.
.
P(G) = P(F ) P(G | F ) + P(M ) P(G | M ) = 0 4 · 0 1 + 0 6 · 0 2 = 0 16 .
Preostane še tretje vprašanje. Tu skušamo iz druge faze poskusa, ki je opazljiva (angl.
observable) – žena opazi nagnito glavo solate, rekonstruirati prvo fazo, ki ni opazljiva
– žena ne ve, pri kateri branjevki je mož kupil solato. V splošnem kontekstu nas torej
zanimajo pogojne verjetnosti neopazljivih hipotez glede na opaženo drugo fazo poskusa,
t. j. P(Hi | A). Po definiciji pogojne verjetnosti je:
P(Hi | A) =
P(Hi ∩ H)
P(Hi ) P(A | Hi )
=
.
P(A)
P(A)
Če v imenovalec vstavimo izrek o polni verjetnosti, dobimo Bayesovo formulo:
P(Hi | A) =
P(Hi ) P(A | Hi )
.
P(H1 ) P(A | H1 ) + P(H2 ) P(A | H2 ) + · · · + P(Hn ) P(A | Hn )
69
Bayesova formula torej potrebuje brezpogojne verjetnosti dogodkov Hi , ki jim pravimo
tudi apriorne verjetnosti (apriorne so zato, ker se nanašajo na čas pred realizacijo druge
faze poskusa), da pa nam pogojne verjetnosti, ki jim pravimo tudi aposteriorne verjetnosti
(ker se nanašajo na čas po realizaciji druge faze poskusa).
Odgovor na tretje vprašanje pri našem primeru je torej:
.
.
P(M ) P(G | M )
06·02
.
P(M | G) =
= .
.
.
. = 0 75 .
P(F ) P(F | M ) + P(M ) P(G | M )
04·01+06·02
.
Dogodek, da mož kupi solato pri Micki, ima torej apriorno verjetnost 0 6, njegova apo.
steriorna verjetnost glede na dano opažanje pa je 0 75.
Na Bayesovi formuli temelji cela veja statistike, ki ji pravimo Bayesova statistika. Ta
se razlikuje od klasične inferenčne statistike po tem, da potrebuje apriorne verjetnosti za
tisto, kar nas zanima. Klasična statistika ne privzema nikakršnih apriornih verjetnosti,
zato pa so tudi njeni rezultati šibkejše narave.
2.3
2.3.1
Slučajne spremenljivke
Osnovni pojmi
Ideja slučajne spremenljivke je, da je to število ali kakšna druga vrednost, ki ni natančno določena, je pa v zvezi z njo smiselno gledati verjetnost. Pač pa postane natančno
določena, ko enkrat realiziramo poskus. Z drugimi besedami, če poznamo izid poskusa,
poznamo vrednosti vseh slučajnih spremenljivk. Tako je smiselno postaviti naslednjo
definicijo:
Slučajna spremenljivka z vrednostmi v množici M je predpis, ki vsakemu izidu priredi
določeno vrednost v M , torej preslikava iz Ω v M .
Slučajne spremenljivke označujemo tako kot statistične, torej navadno z velikimi tiskanimi črkami. Statistična spremenljivka postane slučajna spremenljivka, če slučajno
(npr. na slepo) izberemo en element iz statistične množice.
Tako kot statistične tudi slučajne spremenljivke ločimo po tipu (torej po strukturi, ki
je definirana na množici M ) na imenske, urejenostne, intervalske in razmernostne, poleg
tega pa imamo še dihotomne slučajne spremenljivke.
Tudi veliko drugih pojmov iz opisne statistike, torej definirane za statistične spremenljivke, je možno definirati tudi za slučajne spremenljivke. Osnovno vodilo pri tem je, naj
pojma sovpadata, če je slučajna spremenljivka dobljena iz statistične s slepo izbiro enote.
Primer . Briškula se igra s 40 kartami, ki jih tvorijo vse možne kombinacije 4 barv (špada
– meč, kopa – pokal, bašton – palica in denar) in 10 moči (2, 4, 5, 6, 7, fant – F, kaval –
C, kralj – R, trojka – 3 in as – A). Moč določa, katera karta pobere, če gre za isto barvo.
Poleg tega ima vsaka karta glede na moč tudi svojo vrednost in vrednosti se na koncu
seštejejo.
70
Komplet kart je tako statistična množica, prejšnji pojmi pa statistične spremenljivke
na njej:
• Barva je imenska spremenljivka (vsaj dokler ni znan adut – briškula).
• Moč je urejenostna spremenljivka: 2 < 4 < 5 < 6 < 7 < F < C < R < 3 < A).
• Vrednost je razmernostna spremenljivka. Enaka je 0 za liše (moči 2, 4, 5, 6, 7), 2
za fante, 3 za kavale, 4 za kralje, 10 za trojke in 11 za ase.
Lahko pa s kupa slučajno izberemo eno karto (ali pa gledamo aduta spodaj). V tem
primeru postane množica kart verjetnostni prostor, barva, moč in vrednost pa slučajne
spremenljivke.
Če barvo označimo z B, moč z M in vrednost z V ter gledamo izid–karto ω, ki naj bo
špadni fant (fant pri mečih), velja:
B(ω) = špada ,
M (ω) = fant ,
V (ω) = 2 .
Porazdelitev slučajne spremenljivke pove, katere vrednosti zavzame s kolikšnimi verjetnosti. V splošnem porazdelitev opišemo tako, da za vse množice A iz določene σ-algebre
povemo P(X ∈ A), t. j. verjetnost, da X pripada množici A. Toda če je X definirana na
diskretnem verjetnostnem prostoru, je dovolj povedati točkaste verjetnosti P(X ∈ x) za
vse možne vrednosti x, saj velja:
X
P(X ∈ A) =
P(X = x) .
x∈A
Za slučajno spremenljivko, za katero velja zgornja formula (in torej lahko njeno porazdelitev opišemo s točkastimi verjetnostmi), pravimo, da je diskretna oz. diskretno porazdeljena. Pravimo tudi, da je njena porazdelitev diskretna.
Porazdelitev diskretne slučajne spremenljivke lahko opišemo s porazdelitveno shemo,
ki odgovarja verjetnostni shemi. Če X lahko zavzame vrednosti a1 , a2 , . . . ak , ki so vse
različne, in če je P(X = a1 ) = p1 , P(X = a2 ) = p2 , . . . P(X = ak ) = pk , pišemo:
a1 a2 · · · ak
X∼
.
p1 p2 · · · pk
Seveda velja p1 + p2 + · · · pk = 1.
Če vrednosti
P a1 , . . . ak niso vse različne, moramo seštevati. V vsakem primeru velja
P(X ∈ A) = i;ai ∈A pi .
Primer : Če na slepo izberemo karto pri briškuli, so porazdelitve njene barve, moči in
71
vrednosti podane s shemami:
špada bašton kopa denar
špada bašton kopa denar
=
,
B∼
10
10
10
1
1
1
1
10
40
40
40
40
4
4
4
4
2 4 5 6 7 fant kaval kralj trojka as
M∼ 1 1 1 1 1
,
1
1
1
1
1
10
10
10
10
10
10
10
10
10
10
0 2 3 4 10 11
0 0 0 0 0 2 3 4 10 11
V ∼ 1 1 1 1 1 1 1 1 1 1 = 1 1 1 1 1 1
10
10
10
10
10
10
10
10
10
10
2
10
10
10
10
10
Verjetnost dogodka, da bo vrednost karte manjša of 4, je enaka:
P(V < 4) = P(V = 0) + P(V = 2) + P(V = 3) =
1
1
7
1
+
+
=
.
2 10 10
10
Verjetnost dogodka, da bo vrednost karte strogo med 3 in 7, pa je enaka:
P(3 < V < 7) = P(V = 4) =
1
.
10
Diskretna porazdelitev je enakomerna na množici {a1 , a2 , . . . ak }, če so vse vrednosti
a1 , a2 , . . . ak enako verjetne, druge vrednosti pa niso zavzete. To pa lahko povemo tudi
drugače: slepa izbira stvari, ki je definirana kot vrednost slučajne spremenljivke, iz dane
množice pomeni, da je porazdelitev te slučajne spremenljivke enakomerna na tej množici.
Pri prej omenjenih slučajnih spremenljivkah pri briškuli sta tako barva B in moč M
porazdeljeni enakomerno, vrednost V pa ne. Slepa izbira karte pri briškuli torej pomeni
slepo izbiro barve iz množice {špada, bašton, kopa, denar}, in slepo izbiro moči iz množice
{2, 4, 5, 6, 7, fant, kaval, kralj, trojka, as}, ne pomeni pa slepe izbire vrednosti.
Modus diskretne slučajne spremenljivke je tista njena vrednost, kjer je njena verjetnostna funkcija največja. Modusov je lahko tudi več.
Primer : porazdelitev s shemo:
0
2
3
4
10 11
1
2
1
10
1
10
1
10
1
10
1
10
ima modus 0. Porazdelitev s shemo:
0
1
2
3
.
.
.
.
0 125 0 375 0 375 0 125
ima dva modusa (1 in 2). Pri enakomerni porazdelitvi pa so kar vse vrednosti modusi.
2.3.2
Navzkrižne porazdelitve
Podobno kot smo pri opisni statistiki gledali povezanost med dvema statističnima spremenljivkama, moramo tudi v verjetnosti dostikrat hkrati gledati dve ali več slučajnih
72
spremenljivk. Če sta na istem verjetnostnem prostoru definirani dve slučajni spremenljivki X in Y , je njuna navzkrižna ali skupna porazdelitev (angl. joint distribution) opišemo
z navzkrižnimi verjetnostmi P(X ∈ A, Y ∈ B), pri diskretnih slučajnih spremenljivkah
pa je dovolj povedati navzkrižne točkaste verjetnosti P(X = a, Y = b).
Primer : iz dobro premešanega kupa 10 kart za briškulo ene same barve na slepo vzamemo
dve karti. Označimo z V1 vrednost prve, z V2 pa druge izvlečene karte. Če jemljemo z
vračanjem, je možnih 100 enako verjetnih izidov in navzkrižno porazdelitev slučajnih
spremenljivk V1 in V2 lahko predstavimo s tabelo:
V2 = 0 V2 = 2 V2 = 3 V2 = 4 V2 = 10 V2 = 11
1
4
1
20
1
20
1
20
1
20
1
20
V1 = 0
V1 = 2
V1 = 3
V1 = 4
V1 = 10
V1 = 11
1
20
1
100
1
100
1
100
1
100
1
100
1
20
1
100
1
100
1
100
1
100
1
100
1
20
1
100
1
100
1
100
1
100
1
100
1
20
1
100
1
100
1
100
1
100
1
100
1
20
1
100
1
100
1
100
1
100
1
100
Izračunajmo še verjetnost dogodka, da je skupna vrednost obeh kart manjša od 4. Velja:
P(V1 + V2 < 4) = P(V1 = 0, V2 = 0) + P(V1 = 0, V1 = 2) + P(V1 = 0, V2 = 3) +
+ P(V1 = 2, V2 = 0) + P(V1 = 3, V2 = 0) =
9
. .
= 0 45
=
20
Če pa jemljemo brez vračanja, imamo 90 enako verjetnih izidov in navzkrižno porazdelitev predstavlja tabela:
V2 = 0 V2 = 2 V2 = 3 V2 = 4 V2 = 10 V2 = 11
V1 = 0
V1 = 2
V1 = 3
V1 = 4
V1 = 10
V1 = 11
in velja P(V1 + V2 < 4) =
2
9
1
18
1
18
1
18
1
18
1
18
1
18
0
1
90
1
90
1
90
1
90
1
18
1
90
0
1
90
1
90
1
90
1
18
1
90
1
90
0
1
90
1
90
1
18
1
90
1
90
1
90
0
1
90
1
18
1
90
1
90
1
90
1
90
0
4 . .
= 0 444.
9
Če imamo podano navzkrižno porazdelitev slučajnih spremenljivk X in Y , poznamo
tudi porazdelitvi posamičnih slučajnih spremenljivk. Pravimo jima robni porazdelitvi, to
pa zato, ker ju v diskretnem primeru dobimo s seštevanjem navzkrižnih verjetnosti, te
73
pa navadno zapišemo na rob tabele. Če lahko Y zavzame vrednosti b1 , b2 , . . . bm (vse
različne), velja:
P(X = ai ) = P(X = ai , Y = b1 ) + P(X = ai , Y = b2 ) + · · · + P(X = ai , Y = bn ) .
Z navzkrižnimi porazdelitvami je povezana še ena različica slepe izbire. Če izbiramo
dve stvari, ki sta definirani kot vrednosti dveh slučajnih spremenljivk X in Y , pri čemer
lahko X zavzame vrednosti {a1 , . . . am } (vse različne), Y pa vrednosti {b1 , . . . bn } (prav
tako vse različne), pravimo, da X in Y izberemo na slepo in neodvisno, če so vsi dogodki:
{X = a1 , Y = b1 },
{X = a2 , Y = b1 },
..
.
{X = a1 , Y = b2 }, · · · {X = a1 , Y = bn },
{X = a2 , Y = b2 }, · · · {X = a2 , Y = bn },
..
..
...
.
.
{X = am , Y = b1 }, {X = am , Y = b2 }, · · · {X = am , Y = bn },
1
.
mn
Podobno definiramo tudi slepo in neodvisno izbiro treh ali več stvari.
enako verjetni, torej če ima vsak izmed njih verjetnost
Poseben primer slepe in neodvisne izbire je vlečenje s ponavljanjem: če izvlečemo dva
elementa, slučajna spremenljivka X predstavlja prvi, slučajna spremenljivka Y pa drugi
izvlečeni element. Tedaj imata X in Y isto zalogo vrednosti. Ni pa to nujno.
Primer : neodvisno vržemo pošten kovanec in pošteno standardno kocko, kar pomeni,
da na slepo in neodvisno izberemo grb oz. cifro na kovancu in eno izmed šestih strani
kocke. Če X predstavlja stran kovanca, Y pa stran kocke, dobimo naslednjo navzkrižno
porazdelitev:
Y =
X = cifra
X = grb
1
12
1
12
b
Y =
Y =
b
b
1
12
1
12
1
12
1
12
b
b
b
Y =
b
b
b
b
Y =
1
12
1
12
1
12
1
12
b
b
b
b
b
Y =
b
b
b
b
b
b
1
12
1
12
Recimo zdaj, da dobimo za cifro na kovancu dva evra in za vsako piko na kocki en evro.
Dogodek, da skupaj dobimo vsaj 6 evrov, lahko tedaj zapišemo v obliki:
} ∪ {X = cifra, Y =
4
1
in njegova verjetnost je enaka
= .
12
3
{X = cifra, Y =
b
b
b
b
b
b
b
b
b
} ∪ {X = cifra, Y =
b
b
b
b
b
b
} ∪ {X = grb, Y =
b
b
b
b
b
b
}
Primer : če na slepo izvlečemo karto iz kupa pri briškuli, to pomeni tudi, da na slepo in
neodvisno izberemo njeno moč in barvo. Naj bo A dogodek, da izvlečemo figuro (kralja,
kavala ali fanta) B pa dogodek, da izvlečemo denar ali kopo. Tedaj velja:
12
3
.
P(A) =
=
=03
40
10
2
1
20
.
= = =05
P(B) =
40
4
2
6
3
.
P(A ∩ B) =
=
= 0 15 .
40
20
74
Opazimo, da je P(A ∩ B) = P(A) P(B).
Opažanja iz zgornjega primera lahko posplošimo na naslednji dve pomembni ugotovitvi:
• Če dve ali več slučajnih spremenljivk izbiramo na slepo in neodvisno, je tudi posamezna slučajna spremenljivka izbrana na slepo (z drugimi besedami, ima enakomerno
porazdelitev).
• Če sta X in Y izbrani na slepo in neodvisno ter je A dogodek, ki je enolično določen
z X (pišemo tudi A ∈ σ(X)), B pa je dogodek, ki je enolično določen z Y (pišemo
tudi B ∈ σ(Y )), velja P(A ∩ B) = P(A) P(B).
Slednje opažanje pa vodi v pojem neodvisnosti dogodkov. To je posplošitev primera,
ko dogodka izhajata iz slepe in neodvisne izbire tako kot zgoraj.
Dogodka A in B sta neodvisna, če velja P(A ∩ B) = P(A) P(B).
Neodvisnost je navadno nekaj, iz česar izhajamo, kar privzamemo a priori. Včasih pa
dobimo neodvisnost tudi kar tako.
Primer : pri pošteni kocki sta naslednja dogodka iz (2.1.1):
B = {pade najmanj pet pik} = { , } ,
C = {pade liho število pik} = { , , } ,
b
b
b
neodvisna. Velja namreč B ∩ C = {
P(B) =
1
,
3
b
b
b
P(C) =
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
} in:
1
,
2
P(B ∩ C) =
1
= P(B) P(C) .
6
Neodvisnost lahko izrazimo s pomočjo pogojne verjetnosti: če je P(B) > 0, sta A in
B neodvisna natanko tedaj, ko je P(A | B) = P(A). To lahko interpretiramo kot ‘A je
neodvisen od B’.
Pri neodvisnosti je pomembno naslednje dejstvo: če sta dogodka A in B neodvisna,
¯ To lahko tudi dokažemo:
to velja tudi za dogodka A in B.
¯ = A \ B nezdružljiva z unijo A, velja
• Ker sta A ∩ B in A ∩ B
¯
P(A) = P(A ∩ B) + P(A ∩ B).
¯ = P(A) − P(A ∩ B) = P(A) − P(A) P(B) = P(A) 1 − P(B) =
• P(A ∩ B)
¯
= P(A) P(B).
To pomeni, da je neodvisnost dogodkov A in B ekvivalentna neodvisnosti katerih koli
˜ kjer je A˜ = A ali A˜ = A¯ in B
˜ = B ali B
˜ = B.
¯
dogodkov A˜ in B,
Neodvisnost dogodkov motivira neodvisnost slučajnih spremenljivk.
75
Slučajni spremenljivki X in Y sta neodvisni, če sta kateri koli dogodek, ki je natančno
določen z X, in kateri koli dogodek, ki je natančno določen z Y , neodvisna.
Za diskretni slučajni spremenljivki X in Y se da dokazati, da sta neodvisni natanko
tedaj, ko za poljubna relevantna a in b velja P(X = a, Y = b) = P(X = a) P(Y = b).
Za enakomerno porazdeljene slučajne spremenljivke (slepo izbiro) pa se da dokazati
naslednje: X in Y sta izbrani na slepo in neodvisno natanko tedaj, ko sta X in Y vsaka
zase izbrani na slepo in ko sta neodvisni. Tako formulacija ‘na slepo in neodvisno’ dobi
smisel.
Primer : pri slepem vlečenju s ponavljanjem sta prvi in drugi izvlečeni element neodvisna.
To pa ne velja za vlečenje brez ponavljanja.
Primer : če na slepo izvlečemo karto iz kupa pri briškuli, sta tudi njena vrednost in barva
neodvisni, čeprav vrednost ni porazdeljena enakomerno.
1
2
3
1
2
sta neodvisni
in Y ∼
Primer : slučajni spremenljivki X ∼
.
.
.
.
.
02 05 02
04 06
natanko tedaj, ko je njuna navzkrižna porazdelitev podana s tabelo:
X=1
X=2
Y =1 Y =2 Y =3
.
.
.
0 12
02
0 08
.
.
.
0 18
03
0 12
.
.
.
03
05
02
.
04
.
06
1
Pojem neodvisnosti lahko posplošimo tudi na več dogodkov in slučajnih spremenljivk,
a pri dogodkih moramo biti nekoliko previdni. Izkaže se, da ima smisel definirati, da so
dogodki A1 , A2 , . . . An neodvisni, če veljajo vse zveze oblike:
P(A˜1 ∩ A˜2 ∩ · · · Añ ) = P(A˜1 ) P(A˜2 ) · · · P(Añ ) ,
kjer za vsak i lahko postavimo bodisi A˜i = Ai bodisi A˜i = A¯i . V tem primeru se namreč
neodvisnost ohrani, če določene dogodke izločimo. Če so recimo A, B in C neodvisni, sta
tudi A in B neodvisna.
Primer : vržemo dva poštena in neodvisna kovanca in si oglejmo naslednje dogodke:
A := {prvič pade cifra}
B := {drugič pade cifra}
C := {prvič in drugič pade enako}
Za verjetnostni prostor lahko tedaj postavimo Ω = {cc, cg, gc, gg} in vsi štirje izidi so
enako verjetni. Velja:
A = {cc, cg} , B = {cc, gc} , C = {cc, gg} ,
A ∩ B = A ∩ C = B ∩ C = A ∩ B ∩ C = {cc}
76
in še:
P(A) = P(B) = P(C) =
1
,
2
P(A ∩ B) = P(A ∩ C) = P(B ∩ C) = P(A ∩ B ∩ C) =
1
,
4
od koder dobimo, da sta dogodka A in B neodvisna, prav tako tudi A in C ter B in C.
Dogodki A, B in C pa so odvisni.
Primer : na slepo izberemo en element iz množice {A, K, Q, J, 10, 9, 8, 7}, ki naj bo kar
verjetnostni prostor. Definirajmo naslednje dogodke:
F := {A, K, Q, J} ,
G := {A, 9, 8, 7} ,
H := {A, K, Q, 10} .
Dogodki F , G in H niso neodvisni, čeprav velja P(F ∩ G ∩ H) = P(F ) P(G) P(H).
Pri slučajnih spremenljivkah pa je posplošitev bolj premočrtna: slučajne spremenljivke X1 , X2 , . . . Xn so neodvisne, če za vse možne nabore dogodkov A1 , A2 , . . . An , kjer
je dogodek Ai enolično določen z Xi , velja:
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 ) P(A2 ) · · · P(An ) .
Pri diskretnih slučajnih spremenljivkah pa je dovolj, da se množijo točkaste verjetnosti:
P(X1 = a1 , X2 = a2 , . . . Xn = an ) = P(X1 = a1 ) P(X2 = a2 ) · · · P(Xn = an ) .
2.3.3
Bernoullijeva zaporedja poskusov
Bernoullijevo zaporedje poskusov je zaporedje slučajnih poskusov, pri čemer pri vsakem
gledamo, ali uspe ali ne uspe. Pri tem morajo biti poskusi neodvisni (t. j. dogodki,
da posamezen poskus uspe, morajo biti neodvisni) in vsak poskus mora uspeti z enako
verjetnostjo, ki jo bomo označevali s p.
Primer . mečemo pošteno kocko, meti so neodvisni. Če je poskus met kocke, uspešen
poskus pa je met, pri katerem pade šestica, dobimo Bernoullijevo zaporedje poskusov.
Recimo, da pod temi pogoji petkrat vržemo pošteno kocko.
• Verjetnost, da šestica pade v prvem metu, je
1 . .
= 0 167.
6
• Verjetnost, da šestica pade v petem metu, je
1 . .
= 0 167.
6
• Verjetnost, da šestica pade v prvem in petem metu, je
1 . .
1 1
· =
= 0 0278.
6 6
36
77
5
• Verjetnost, da šestica pade vsaj enkrat v petih metih, ni . Verjetnosti dogodkov,
6
da v posameznem metu pade šestica, namreč ne smemo kar sešteti, ker ti dogodki
niso paroma nezdružljivi. Pač pa si lahko pomagamo z nasprotnim dogodkom,
ki je
5
5
. .
dogodek, da šestica ne pade v nobenem metu. Njegova verjetnost je
= 0 402.
6
5
5
.
=
Verjetnost dogodka, da šestica pade vsaj enkrat, pa je potemtakem 1 −
6
.
0 598.
4
5
1
.
=
• Verjetnost dogodka, da šestica pade v prvem in samo v prvem metu, je ·
6
6
.
0 0804.
• Verjetnost dogodka, da šestica pade natanko enkrat, je vsota verjetnosti dogodkov,
da pade v posameznem metu, sicer pa ne. Te verjetnosti lahko seštevamo,
4 so
ker
1 5
.
dogodki paroma nezdružljivi. Torej je verjetnost danega dogodka enaka 5· ·
=
6 6
.
0 402.
• Verjetnost dogodka, da šestica pade natanko dvakrat, je vsota verjetnosti, da pade
natanko v i-tem in j-tem metu, po vseh možnih neurejenih parih {i, j}, kjer sta i
in j različna, t. j.:
{1, 2} , {1, 3} , {1, 4} , {1, 5} , {2, 3} , {2, 4} , {2, 5} , {3, 4} , {3, 5} , {4, 5} .
Teh neurejenih
parov je toliko, kot je vseh možnih izbir dveh elementov izmed
5
= 10. Za vsak par {i, j} je verjetnost, da pade šestica natanko v
petih, torej
2
2 3
5
1
. .
= 0 0161. Iskana verjetnost je torej enaka
i-tem in j-tem metu, enaka
6
6
2 3
1
5
. .
10 ·
= 0 161.
·
6
6
• Verjetnost dogodka, da šestica pade manj kot trikrat, je:
2 3
4
5
1
1
5
5
5
. .
= 0 965 .
+5· ·
+ 10 ·
·
6
6
6
6
6
Primer : če kocko vržemo 10-krat in želimo izračunati verjetnost dogodka, da šestica pade
natankotrikrat,
moramo prešteti vse možne izbire treh metov, v katerih pade šestica. Teh
10
izbir je
= 120, iskana verjetnost pa je enaka:
3
3 7
10
1
5
. .
·
= 0 155 .
·
3
6
6
78
V splošnem lahko vsakemu Bernoullijevemu zaporedju n poskusov priredimo slučajno
spremenljivko S, ki pove število uspelih poskusov. Za k = 0, 1, . . . n velja:
n k
P(S = k) =
p (1 − p)n−k ,
k
kjer je p verjetnost, da posamezen poskus uspe. Zgornji obrazec imenujemo Bernoullijeva
formula, porazdelitvi tako definirane slučajne spremenljivke S pa pravimo binomska porazdelitev. Pišemo S ∼ Bi(n, p). Ta zapis je po definiciji ekvivalenten veljavnosti zgornje
formule za vse k = 0, 1, . . . n.
. .
. .
Če je torej S ∼ Bi(5, 1/6), je npr. P(S = 2) = 0 161, P(S < 3) = 0 965,
P(S = 5/2) = 0 in P(S < 6) = 1.
Če pa bi 5-krat neodvisno vrgli pošten kovanec in gledali število grbov, bi imelo le-to
porazdelitev Bi(5, 1/2). Nekaj histogramov:
0.3
Bi(5, 1/2)
0.06
0.2
0.04
0.1
0.02
0
0.4
1
2
3
4
5
Bi(5, 1/6)
50
0.08
0.3
0.06
0.2
0.04
0.1
0.02
0
1
2
3
4
5
Bi(180, 1/2)
100
150
200
100
150
200
Bi(180, 1/6)
50
Za velike n je verjetnosti pri binomski porazdelitvi Bi(n, p) brez sodobnih pripomočkov
težko računati. Zato so že zgodaj iznašli približne obrazce. Najširše uporabni sta Laplaceovi približni formuli.
Naj bo S ∼ Bi(n, p). Laplaceova lokalna formula pravi:
1
2
2
P(S = k) ≈ √ e−(k−np) /(2σ ) ,
σ 2π
p
kjer je σ = np(1 − p). Produkt np je pričakovana vrednost, σ pa je standardni odklon
binomske porazdelitve. Natančnejšo definicijo bomo navedli v podrazdelku 2.3.6, v grobem pa lahko rečemo, da pri slučajni spremenljivki S lahko pričakujemo vrednosti blizu
79
np, in sicer z odmiki reda velikosti σ. Slednja vrednost je tudi glavno merilo za natančnost
obrazca: večji kot je σ, natančnejši je obrazec. Razumno natančnost dosežemo pri σ ≥ 5.
Toda to velja za napako glede na največjo točkasto verjetnost. Če pa natančnost merimo
z relativno napako, mora biti še absolutna razlika |k − np| majhna v primerjavi s σ 4/3
(razumno natančnost dosežemo pri |k − np| ≤ σ 4/3 ).
Primer : 180-krat vržemo pošteno kocko, r
meti so
1
180 ·
šestic, je S ∼ Bi(180, 1/6). Velja σ =
6
izračunov:
neodvisni. Če z S označimo število
5
· = 5. Nekaj primerov približnih
6
1
. .
.
• P(S = 30) ≈ √ e0 = 0 07979. Točen rezultat: 0 07956.
5 2π
1
. .
.
• P(S = 35) ≈ √ e−1/2 = 0 04839. Točen rezultat: 0 04640.
5 2π
1
. .
.
5 2π
1
. .
.
• P(S = 20) ≈ √ e−2 = 0 01080. Točen rezultat: 0 01079.
5 2π
1
. .
.
5 2π
Pri zadnjem primeru je absolutna napaka še vedno majhna v primerjavi z maksimalno
verjetnostjo P(S = 30), relativna napaka pa je velika: velja |k − np| = 15, medtem ko je
. .
σ 4/3 = 8 55.
Laplaceova integralska formula pa pravi:
P(a < S < b) ≈ P(a ≤ S ≤ b) ≈ Φ
b − np
σ
−Φ
a − np
σ
,
kjer je Φ Gaussov verjetnostni integral :
1
Φ(x) = √
2π
Z
x
e−t
2 /2
dt .
0
To je specialna funkcija: je pomembna, ne da pa se izraziti z elementarnimi funkcijami.
Njene vrednosti lahko odčitavamo iz tabel. Graf:
80
Φ(x)
1/2
−3
−2
−1
1
2
3
x
−1/2
Na grafu so razvidne naslednje lastnosti funkcije Φ:
• Φ(0) = 0;
1
• lim Φ(x) = ;
x→∞
2
1
• lim Φ(x) = − ;
x→−∞
2
• Φ(−x) = −Φ(x) (lihost).
Pripomnimo naj, da definicije funkcije Φ v literaturi zelo variirajo, zato se mora bralec
vselej prepričati, kako je ta funkcija v posameznem viru definirana.
Tudi za natančnost Laplaceove integralske formule je merilo standardni odklon σ: večji
kot je, natančnejša je. Razumno natančnost spet dosežemo pri σ ≥ 5. Pomembno pa je
tudi, da večjo natančnost dosežemo, če sta a in b na polovici med dvema zaporednima
celima številoma. To je skupaj s pogojem, da je vsaj ena od absolutnih razlik |a − np| in
|b − np| majhna v primerjavi s σ 4/3 , tudi jamstvo za majhno relativno napako (razumno
natančnost spet dosežemo pri |a − np| ≤ σ 4/3 ali |b − np| ≤ σ 4/3 ).
Primer : če je spet S ∼ Bi(180, 1/6), gremo lahko računat:
. .
P(25 ≤ S ≤ 35) ≈ Φ(1) − Φ(−1) = 2Φ(1) = 0 6827 .
Ker je {25 ≤ S ≤ 35} = {24 < S < 36}, lahko isto verjetnost približno računamo tudi
kot:
.
.
. . .
P(24 ≤ S ≤ 36) ≈ Φ(1 2) − Φ(−1 2) = 2Φ(1 2) = 0 7699 .
Najnatančnejša aproksimacija pa pride, če jo računamo kot:
.
.
.
.
. . .
P(24 5 < S < 35 5) ≈ Φ(1 1) − Φ(−1 1) = 2Φ(1 1) = 0 7287 .
.
Točen rezultat: 0 7292.
Še en primer izračuna:
1
.
.
. . .
P(S < 20) = P(−∞ < S < 19 5) ≈ Φ(−2 1) − Φ(−∞) = − Φ(2 1) = 0 0179 .
2
81
.
Za spodnjo mejo smo tukaj postavili −∞. To je najenostavneje, čeprav bi se bralcu
morda zdela naravnejša spodnja meja 0. Toda razlika je zanemarljiva, saj bi se Φ(∞) =
. .
.
0 5 zamenjal s Φ(6) = 0 499999999013.
Laplaceova integralska formula pove, da je binomska porazdelitev za vslike σ približno
normalna. Normalna ali tudi Gaussova porazdelitev s sredino µ in standardnim odklonom
σ, kjer je µ ∈ R in σ > 0, je določena z lastnostjo, da slučajna spremenljivka X, ki ima
to porazdelitev, zadošča:
b−µ
a−µ
P(a < X < b) = P(a ≤ X ≤ b) = Φ
−Φ
.
σ
σ
Pišemo X ∼ N(µ, σ). Tako lahko Laplaceovo integralsko formulo zapišemo kot približno
ujemanje porazdelitev:
p
Bi(n, p) ≈ N np, np(1 − p) .
Za σ = 0 dobimo degenerirano normalno porazdelitev: če je X ∼ N(µ, 0), to pomeni, da
je X = µ z verjetnostjo 1.
Standardna normalna porazdelitev pa je porazdelitev N(0, 1). Za X ∼ N(0, 1) torej
velja P(a < X < b) = P(a ≤ X ≤ b) = Φ(b) − Φ(a).
Primer : če je X ∼ N(50, 20), je:
• P(35 < X < 80) = P(35 ≤ X < 80) = P(25 < X ≤ 80) = P(35 ≤ X ≤ 80) =
. .
.
.
Φ(1 5) + Φ(0 75) = 0 7066;
. . .
• P(X < 0) = 12 − Φ(2 5) = 0 0062.
Histogram porazdelitve celoštevilske slučajne spremenljivke, katere porazdelitev je približno normalna, ima obliko Gaussove krivulje:
σ
σ
µ
Slučajna spremenljivka, porazdeljena normalno N(µ, σ), se:
• z verjetnostjo približno 68% nahaja med µ − σ do µ + σ;
• z verjetnostjo približno 95% nahaja med µ − 2σ do µ + 2σ;
.
• z verjetnostjo približno 99 7% nahaja med µ − 3σ do µ + 3σ.
82
2.3.4
Funkcije slučajnih spremenljivk
Iz slučajne spremenljivke X in funkcije f dobimo novo slučajno spremenljivko f (X), ki
izidu ω priredi vrednost f (X(ω)). Če ima X diskretno porazdelitev, podano s shemo:
a1 a 2 · · · ak
,
p1 p2 · · · pk
je tudi f (X) diskretna, njeno porazdelitev pa določa shema:
f (a1 ) f (a2 ) · · · f (ak )
.
p1
p2
···
pk
Toda tudi če so vrednosti a1 , . . . ak vse različne, vrednosti f (a1 ), . . . f (ak ) niso nujno različne. Če hočemo torej dobiti točkaste verjetnosti (verjetnostno funkcijo), moramo v
splošnem seštevati.
Primer . Naj bo:
X∼
1
2
3
4
5
6
.
.
.
.
.
.
0 05 0 15 0 15 0 15 0 15 0 35
in Y = (X − 2)2 . Tedaj sicer lahko pišemo:
4
1
0
1
4
9
,
X∼
.
.
.
.
.
.
0 05 0 15 0 15 0 15 0 15 0 35
.
.
.
.
.
toda verjetnost P(Y = 4) ni enaka niti 0 05 niti 0 15, temveč 0 05 + 0 15 = 0 2. Porazdelitvena shema, iz katere lahko točkaste verjetnosti neposredno razberemo, je:
0
1
4
9
.
X∼
.
.
.
.
0 05 0 3 0 2 0 35
Lahko gledamo tudi funkcije več slučajnih spremenljivk.
Primer . Slučajni spremenljivki X in Y naj imata navzkrižno porazdelitev:
X=1
X=2
Y =1 Y =2 Y =3
0
0.25
0.15
0.25
0.25
0.1
0.25
0.5
0.25
0.4
0.6
Tedaj je njuna vsota X + Y funkcija obeh slučajnih spremenljivk in velja:
3
4
5
.
X +Y ∼
.
.
.
05 04 01
Če pa vzamemo neodvisni slučajni spremenljivki X ′ in Y ′ z enakima porazdelitvama kot
X in Y , t. j.:
83
X′ = 1
X′ = 2
′
′
je X + Y ∼
Y′ =1 Y′ =2 Y′ =3
0.1
0.2
0.1
0.15
0.3
0.15
0.25
0.5
0.25
0.4
0.6
2
3
4
5
, čeprav sta robni porazdelitvi v obeh primerih enaki.
.
.
.
.
0 1 0 35 0 4 0 15
Nauk : za izračun porazdelitve funkcije dveh ali več slučajnih spremenljivk potrebujemo navzkrižno porazdelitev.
2.3.5
Porazdelitve urejenostnih slučajnih spremenljivk
Eden temeljnih pojmov pri urejenostnih slučajnih spremenljivkah je kumulativna porazdelitvena funkcija:
F X (x) = P(X ≤ x) .
Primer : za X ∼
1
2
3
4
5
6
.
.
.
.
.
.
0 05 0 15 0 15 0 15 0 15 0 35
je npr.:
.
F X (2) = P(X = 1) + P(X = 2) = 0 2 ,
.
.
F X (1 9) = P(X = 1) = 0 05 ,
F X (0) = 0 ,
F X (6) = 1 ,
F X (1000) = 1 .
Graf:
1
F X (x)
0.8
0.6
0.4
0.2
1
2
3
4
5
6
x
84
Če urejenostna slučajna spremenljivka X zavzame vrednosti v množici, ki se da urejenostno vložiti v realna števila, je s kumulativno porazdelitveno funkcijo njena porazdelitev
natančno določena. Velja namreč:
P(X < x) = F X (x− ) = lim F X (y)
y↑x
ter za a ≤ b še:
P(a ≤ X
P(a < X
P(a ≤ X
P(a < X
≤ b) = P(X
≤ b) = P(X
< b) = P(X
< b) = P(X
≤ b) − P(X
≤ b) − P(X
< b) − P(X
< b) − P(X
< a) = F X (b) − F X (a− ) ,
≤ a) = F X (b) − F X (a) ,
< a) = F X (b− ) − F X (a− ) ,
≤ a) = F X (b− ) − F X (a) .
Velja tudi:
P(X = x) = P(X ≤ x) − P(X < x) = F X (x) − F (x− ) .
Točkasta verjetnost je torej enaka skoku kumulativne porazdelitvene funkcije v dani točki.
Kumulativna porazdelitvena funkcija F ima naslednje lastnosti:
• Je naraščajoča, a ne nujno strogo: če je a ≤ b, je F (a) ≤ F (b).
• limx→−∞ F (x) = 0 in limx→∞ F (x) = 1.
• Je z desne zvezna: limy↓x F (y) = F (x+ ) = F (x).
Velja tudi, da je vsaka funkcija z zgornjimi lastnostmi kumulativna porazdelitvena funkcija
neke slučajne spremenljivke.
Kumulativna porazdelitvena funkcija slučajne spremenljivke, ki zavzame kvečjemu
končno mnogo vrednosti, je stopničasta. To pa ni res za vsako kumulativno porazdelitveno
funkcijo. Kumulativna porazdelitvena funkcija standardne normalne porazdelitve je tako
F (x) = 12 + Φ(x). Graf:
F (x)
1/2
−3
−2
−1
1
1
2
3
x
85
Kvantil slučajne spremenljivke za verjetnost p je vrednost q, za katero velja:
P(X < q) ≤ p in
P(X ≤ q) ≥ p .
To je posplošitev kvantila spremenljivke na statistični množici: slednji je kvantil porazdelitve slučajne spremenljivke, ki jo dobimo tako, da enoto na populaciji izberemo na
slepo.
Kvantile lahko grafično določimo iz grafa kumulativne porazdelitvene funkcije: v skokih graf dopolnimo z ustreznimi navpičnimi daljicami in kvantil za verjetnost p je vsaka
abscisa točke na dobljeni črti, ki ima ordinato enako p. Gledamo torej presečišča dopolnjenega grafa z ustrezno vodoravnico.
1
2
3
4
5
6
, je kvantil slučajne spremenPrimer . Če je X ∼
.
.
.
.
.
.
0 05 0 15 0 15 0 15 0 15 0 35
.
ljivke X za verjetnost 0 3 natančno določen, in sicer je enak 3:
.
.
.
.
• Velja P(X < 3) = 0 2 ≤ 0 3 in P(X ≤ 3) = 0 35 ≥ 0 3.
.
.
• Brž ko je x < 3, je P(X ≤ x) ≤ 0 2 < 0 3, zato x ni ustrezni kvantil.
.
.
• Brž ko je x > 3, je P(X < x) ≥ 0 35 > 0 3, zato x ni ustrezni kvantil.
Podobno je tudi prvi kvartil lahko enak le 3. Mediana pa ni natančno določena, lahko je
kar koli iz intervala [4, 5].
Primer : kumulativna porazdelitvena funkcija števila šestic pri 5 metih poštene kocke
skupaj s kumulativno porazdelitveno funkcijo ustrezne aproksimativne normalne porazdelitve:
1
F X (x)
0.8
0.6
0.4
0.2
1
2
3
4
5
6
x
Primer : kumulativna porazdelitvena funkcija števila šestic pri 180 metih poštene kocke
skupaj s kumulativno porazdelitveno funkcijo ustrezne aproksimativne normalne porazdelitve:
86
F X (x)
1
0.8
0.6
0.4
0.2
10
2.3.6
20
30
40
x
Porazdelitve intervalskih slučajnih spremenljivk
Eden temeljnih pojmov pri intervalskih slučajnih spremenljivkah je matematično upanje
ali tudi pričakovana vrednost. Le-to sicer ni vselej definirano, lahko pa ga izračunamo
za vsako slučajno spremenljivko, ki zavzame le končno mnogo vrednosti. Matematično
upanje slučajne spremenljivke:
a1 a2 · · · ak
X∼
p1 p2 · · · pk
je definirano kot:
E(X) := a1 p1 + a2 p2 + · · · + ak pk .
Pri tem ni nujno, da so vse vrednosti a1 , a2 , . . . ak različne. Izkaže se, da je matematično
upanje neodvisno od sheme, s katero podamo porazdelitev.
Matematično upanje je posplošitev aritmetične sredine: aritmetična sredina spremenljivke, definirane na določeni statistični množici, je matematično slučajne spremenljivke,
ki nastane, če enoto iz množice izberemo na slepo.
Matematično upanje je mera centralne tendence: v grobem lahko rečemo, da lahko pri
realizacijah slučajne spremenljivke X pričakujemo vrednosti blizu E(X).
Primer : za X ∼
1
2
3
4
5
6
.
.
.
.
.
.
0 1 0 15 0 15 0 15 0 15 0 3
je:
.
.
.
.
.
.
E(X) = 1 · 0 1 + 2 · 0 15 + 3 · 0 15 + 4 · 0 15 + 5 · 0 15 + 6 · 0 3 = 4 .
Neposredno iz porazdelitvene sheme se da izračunati tudi matematično upanje poljubne funkcije slučajne spremenljivke. Velja namreč:
E f (X) = f (a1 )p1 + f (a2 )p2 + · · · + f (ak )pk .
87
1
2
3
4
5
6
in Y = (X − 4)2 . Tedaj
Primer . Naj bo spet X ∼
.
.
.
.
.
.
0 1 0 15 0 15 0 15 0 15 0 3
lahkoE(Y ) izračunamo nadva načina. Lahko upoštevamo, da je
0
1
4
9
in zato:
Y ∼
.
.
.
.
0 15 0 3 0 45 0 1
.
.
.
.
E(Y ) = 0 · 0 15 + 1 · 0 3 + 4 · 0 45 + 9 · 0 1 = 3
ali pa:
.
.
.
.
E(Y ) = (1 − 4)2 · 0 1 + (2 − 4)2 · 0 15 + (3 − 4)2 · 0 15 + (4 − 4)2 · 0 15 +
.
.
+ (5 − 4)2 · 0 15 + (6 − 4)2 · 0 3 =
= 3.
Matematično upanje lahko izmenjamo z linearno funkcijo. Velja namreč:
E(kX + n) = k E(X) + n .
To pa ne velja kar za vsako funkcijo: v splošnem je E f (X) 6= f E(X) .
1
Primer . Naj bo spet X ∼
.
01
lahkoE(Z) spet izračunamo na
1010 1020 1030 1040
Z∼
.
.
.
.
0 1 0 15 0 15 0 15
2
3
4
5
6
in Z = 10X + 1000. Tedaj
.
.
.
.
.
0 15 0 15 0 15 0 15 0 3
dva načina. Lahko upoštevamo, da je
1050 1060
in zato:
.
.
0 15 0 3
.
.
.
.
.
.
E(Z) = 1010 · 0 1 + 1020 · 0 15 + 1030 · 0 15 + 1040 · 0 15 + 1050 · 0 15 + 1060 · 0 3 = 1040
ali pa preprosto izračunamo E(Z) = 10 · 4 + 1000 = 1040.
Če pa postavimo Y = (X − 4)2 , smo v prejšnjem primeru izračunali, da je E(Y ) = 3,
medtem ko je (4 − 4)2 = 0.
Izmenljivost matematičnega upanja je temelj za u-metodo, ki jo poznamo že iz računanja aritmetične sredine: za poljuben u ∈ R velja:
E(X) = u + E(X − u) .
Primer : za X ∼
490 500 520
.
.
.
01 03 06
lahko izračunamo:
.
.
E(X) = 500 + (−10) · 0 1 + 20 · 0 6 = 511 .
Matematično upanje je tudi aditivno: za slučajni spremenljivki velja:
E(X + Y ) = E(X) + E(Y ) .
Matematično upanje vsote je torej določeno že z robnima porazdelitvama, čeprav to ne
velja za samo porazdelitev vsote.
88
Primer . Slučajni spremenljivki X in Y naj imata navzkrižno porazdelitev:
X=1
X=2
Y =1 Y =2 Y =3
0
0.25
0.15
0.25
0.25
0.1
0.25
0.5
0.25
0.4
0.6
Iz robnih porazdelitev dobimo:
.
.
.
E(X) = 1 · 0 4 + 2 · 0 6 = 1 6 ,
.
.
.
E(Y ) = 1 · 0 25 + 2 · 0 5 + 3 · 0 25 = 2 .
3
4
5
in posledično:
Nadalje je X + Y ∼
.
.
.
05 04 01
.
.
.
.
.
E(X + Y ) = 3 · 0 5 + 4 · 0 4 + 5 · 0 1 = 3 6 = 1 6 + 2 .
X in Y , t. j.:
X′ = 1
X′ = 2
Y′ =1 Y′ =2 Y′ =3
0.1
0.2
0.1
0.15
0.3
0.15
0.25
0.5
0.25
0.4
0.6
.
′
je seveda prav
6 in E(Y ′ ) = 2. Vsota je sicer drugače porazdeljena:
tako E(X ) = 1 2
3
4
5
, toda spet je:
X′ + Y ′ ∼
.
.
.
.
0 1 0 35 0 4 0 15
.
.
.
.
.
.
E(X ′ + Y ′ ) = 2 · 0 1 + 3 · 0 35 + 4 · 0 4 + 5 · 0 15 = 3 6 = 1 6 + 2 .
Zaenkrat smo matematično upanje definirali le za slučajne spremenljivke, ki zavzamejo
končno mnogo vrednosti. Da se ga smiselno posplošiti na veliko slučajnih spremenljivk,
ne pa na vse. Omenimo naj, da za X ∼ N(µ, σ) velja E(X) = µ.
Za intervalske spremenljivke na statističnih množicah smo definirali tudi varianco.
Varianca slučajne spremenljivke je definirana kot:
h
2 i
var(X) = E X − E(X) .
Izkaže pa se, da velja tudi:
var(X) = E(X 2 ) − E(X)
2
,
kar često pride prav pri računanju peš. Uporaba te formule za računalnik pa je lahko
nevarna, ker je formula lahko numerično nestabilna: majhne napake pri računanju vodijo
v velike napake pri končnem rezultatu. To je zato, ker se lahko zgodi, da se dve veliki
količini odštejeta v majhno količino.
89
1
Primer . Varianco slučajne spremenljivke X ∼
.
01
izračunamo
na vsaj dva načina. Prvič, ker vemo, da
2
4) = 3. Drugič, lahko izračunamo:
2
3
4
5
6
lahko
.
.
.
.
.
0 15 0 15 0 15 0 15 0 3 je E(X) = 4, je var(X) = E (X −
.
.
.
.
.
.
E(X 2 ) = 1 · 0 1 + 4 · 0 15 + 9 · 0 15 + 16 · 0 15 + 25 · 0 15 + 36 · 0 3 = 19
in posledično var(X) = 19 − 16 = 3.
Varianca je mera razpršenosti: v grobem pove, za koliko se realizirane vrednosti
slučajne spremenljivke X lahko razlikujejo. Natančneje, je mera za kvadrate teh razlik.
Za varianco velja:
var(aX + b) = a2 var(X) + b .
1
2
3
4
5
6
in Z = 10X + 1000 velja var(Z) =
Primer : za X ∼
.
.
.
.
.
.
0 1 0 15 0 15 0 15 0 15 0 3
2
100 var(X) = 300. Opazimo še, da bi se, če bi šli računat var(Z) = E(Z 2 ) − E(Z) ,
odšteli dve količini z vrednostjo približno milijon.
Ker varianca ni neposredno primerljiva z vrednostmi slučajne spremenljivke, je spet
ugodno uvesti standardni odklon:
p
σ(X) = var(X) .
Velja σ(aX
b) = |a|σ(X). √
Za slučajni
iz prejšnjega primera je tako
√ spremenljivki
√ +
. .
.
.
σ(X) = 3 = 1 732 in σ(Z) = 300 = 10 3 = 17 32.
Standardni odklon slučajne spremenljivke, porazdeljene normalno N(µ, σ), je enak σ.
Tako je uporaba znaka σ za drugi parameter pri normalni porazdelitvi in za standardni
odklon konsistentna.
Neobčutljivost variance za prištetje deterministične količine vodi v izpeljavo u-metode
za varianco:
2
var(X) = E (X − u)2 − E(X − u) .
Primer . Naj bo Z ∼
3
4
5
.
.
. . Če izberemo u = 4, dobimo:
05 04 01
.
.
.
E(Z − u) = (−1) · 0 5 + 1 · 0 1 = −0 4
.
.
.
E (Z − u)2 = (−1)2 · 0 5 + 12 · 0 1 = 0 6
.
.
.
var(Z) = 0 6 − 0 16 = 0 44 .
Varianca je tudi aditivna, vendar ne v tolikšni splošnosti kot matematično upanje.
Enakost:
var(X + Y ) = var(X) + var(Y )
90
velja, če sta X in Y neodvisni, v splošnem pa ne. Tako recimo račun:
var(2X) = var(X + X) = var(X) + var(X) = 2 var(X)
ni pravilen, ker ne velja druga enakost: X in X namreč nista neodvisni, brž ko X ni
skoraj gotovo konstantna. Pravilno je var(2X) = 4 var(X).
Primer . Spet vzemimo slučajni spremenljivki X in Y z navzkrižno porazdelitvijo:
X=1
X=2
Y =1 Y =2 Y =3
0
0.25
0.15
0.25
0.25
0.1
0.25
0.5
0.25
0.4
0.6
3
4
5
.
.
pri kateri pride X + Y ∼
.
.
. . Velja var(X) = 0 24, var(Y ) = 0 5 in var(X +
05 04 01
.
Y ) = 0 44 6= var(X) + var(Y ).
.
.
.
.
.
E(X + Y ) = 3 · 0 5 + 4 · 0 4 + 5 · 0 1 = 3 6 = 1 6 + 2 .
X in Y , t. j.:
X′ = 1
X′ = 2
Y′ =1 Y′ =2 Y′ =3
0.1
0.2
0.1
0.15
0.3
0.15
0.25
0.5
0.25
0.4
0.6
2
3
4
5
.
′
′
′
je seveda prav tako var(X ) = 0 24 in var(Y ) = 0.5 in iz X +Y ∼
.
.
.
.
0 1 0 35 0 4 0 15
.
dobimo var(X ′ + Y ′ ) = 0 74. Tega pa ne bi bilo treba računati, saj sta X ′ in Y ′ neodvisni,
.
.
.
zato je var(X ′ + Y ′ ) = 0 24 + 0 5 = 0 74.
′
Primer . Bernoullijevemu zaporedju slučajnih poskusov, pri katerih vsak uspe z verjetnostjo p, lahko priredimo zaporedje slučajnih spremenljivk X1 , X2 , . . . na naslednji način:
1 ; i-ti poskus uspe
Xi =
.
0 ; i-ti poskus ne uspe
Tedaj so te slučajne spremenljivke neodvisne, vsota prvih n, S = X1 +X2 +· · ·+Xn , pa je
natančno število uspelih med prvimi n poskusi, torej je S ∼ Bi(n, p). Ni težko izračunati,
da je E(Xi ) = p in var(Xi ) = p(1 − p). Sledi E(S) = np in var(S) = np(1 − p).
Sklep: za vsako slučajno spremenljivko S ∼ Bi(n, p) je E(S) = np in var(S) = np(1 −
p). To je zato, ker sta matematično upanje in varianca odvisna le od porazdelitve sučajne
spremenljivke, ne pa tudi od njene konstrukcije.
91
Zdaj lahko Laplaceovo integralsko formulo pogledamo še drugače: če gre n proti neskončno, p pa ostane stran od 0 in 1, je binomska porazdelitev približno normalna z
ustreznim matematičnim upanjem in varianco.
Kovarianca slučajnih spremenljivk X in Y je definirana kot:
h
K (X, Y ) = E X − E(X) Y − E(Y ) .
Tudi kovarianca je posplošitev kovariance spremenljivk na statistični množici. Velja tudi:
K (X, Y ) = E(XY ) − E(X) E(Y )
in celo:
K (X, Y ) = E (X − u)(Y − v) − E(X − u) E(Y − v) .
Primer . Za slučajni spremenljivki X in Y z navzkrižno porazdelitvijo:
X=1
X=2
Y =1 Y =2 Y =3
0
0.25
0.15
0.25
0.25
0.1
0.25
0.5
0.25
0.4
0.6
velja:
.
.
.
.
.
.
E(XY ) = 1 · 1 · 0 + 1 · 2 · 0 25 + 1 · 3 · 0 15 + 2 · 1 · 0 25 + 2 · 2 · 0 25 + 2 · 3 · 0 1 = 3 05 ,
torej:
.
.
.
K (X, Y ) = 3 05 − 1 6 · 2 = −0 15 .
Za slučajni spremenljivki s kovarianco nič pravimo, da sta nekorelirani. Slučajni spremenljivki X in Y sta torej nekorelirani natanko tedaj, ko je E(XY ) = E(X) E(Y ). Poljubni neodvisni slučajni spremenljivki sta nekorelirani, obratno pa ne velja nujno.
Primer : pri navzkrižni porazdelitvi:
X = −1
X=0
X=1
Y = −1 Y = 0 Y = 1
0.1
0
0.1
0
0.6
0
0.1
0
0.1
0.2
0.6
0.2
0.2
0.6
0.2
sta X in Y nekorelirani, saj je E(X) = E(Y ) = E(XY ) = 0. Nista pa neodvisni, saj je
. .
npr. P(X = −1, Y = 0) = 0, medtem ko je P(X = −1) P(Y = 0) = 0 12.
92
A že če sta X in Y nekorelirani, velja var(X + Y ) = var(X) + var(Y ). V splošnem
namreč velja formula:
var(X + Y ) = var(X) + 2 K (X, Y ) + var(Y ) .
Korelacijski koeficient med slučajnima spremenljivkama X in Y je tako kot za spremenljivke na statističnih množicah definiran s predpisom:
r (X, Y ) =
K (X, Y )
.
σ(X) σ(Y )
Tudi pri slučajnih spremenljivkah velja −1 ≤ r (X, Y ) ≤ 1 in korelacijski koeficient lahko
kvalitativno opredeljujemo na enak način kot pri statističnih spremenljivkah.
Primer . Za slučajni spremenljivki X in Y z navzkrižno porazdelitvijo:
X=1
X=2
Y =1 Y =2 Y =3
0
0.25
0.15
0.25
0.25
0.1
0.25
0.5
0.25
0.4
0.6
velja:
.
−0 15
.
.
r (X, Y ) = √ . √ . = −0 433 .
0 24 0 5
Gre torej za zmerno negativno korelacijo.
2.3.7
Centralni limitni izrek
Pri binomski porazdelitvi Bi(n, p) smo videli, da je, ko je n velik, p pa dovolj stran od 0 ali
1 blizu normalni (Gaussovi) z ustreznim matematičnim upanjem in varianco. Videli smo
tudi, da se da binomska porazdelitev zapisati kot vsota neodvisnih slučajnih spremenljivk.
To velja tudi za splošnejše vsote.
Centralni limitni izrek (ohlapna formulacija): slučajna spremenljivka S, ki je vsota
veliko neodvisnih slučajnih spremenljivk z dovolj lepimi porazdelitvami, od katerih nobena
posebej ne izstopa, je porazdeljena približno normalno N(µ, σ), kjer je µ = E(S) in σ 2 =
var(S). Velja torej:
b−µ
a−µ
P(a < S < b) ≈ P(a ≤ S ≤ b) ≈ Φ
−Φ
.
σ
σ
Z drugimi besedami, porazdelitev količine, ki nastopi kot rezultat veliko majhnih neodvisnih slučajnih vplivov, ki se med seboj seštevajo, sledi Gaussovi krivulji.
93
Primer . Loterija izda srečko, ki stane 1 evro. Srečka z verjetnostjo 5% zadene 10 evrov,
z verjetnostjo 45% zadene 1 evro (v tem primeru torej kupec dobi povrnjen vložek), z
verjetnostjo 50% pa ne zadene nič. Zanima nas dobiček loterije, če proda določeno število
neodvisnih srečk (to vsaj približno velja, če igralec srečko napiše sam).
Pri n prodanih srečkah lahko dobiček zapišemo kot vsoto S = X1 + X2 + · · · + Xn ,
kjer so X1 , . . . Xn neodvisne s porazdelitvijo:
−9
0
1
.
.
.
.
0 05 0 45 0 5
Če loterija proda 10 srečk, porazdelitev dobička S prikazuje naslednji histogram:
−90 −80 −70 −60 −50 −40 −30 −20 −10
10
Če loterija proda 50 srečk, je histogram naslednji:
−50 −40 −30 −20 −10
Pri 100 prodanih srečkah pa je naslednji:
10
20
30
40
50
94
−70 −60 −50 −40 −30 −20 −10
10
20
30
40
50
Izračunajmo za ta primer približno verjetnost, da ima loterija izgubo! Velja:
. .
.
.
E(Xi ) = 0 05 , var(Xi ) = 4 5475 , σ(Xi ) = 2 1325 ,
torej:
E(S) = 5 ,
.
var(S) = 454 75 ,
od koder dobimo:
.
P(S < 0) = P(−∞ < S < −0 5) ≈ Φ
.
.
.
σ(S) = 21 325 ,
.
−0 5 − 5
. 1
. .
.
− Φ(−∞) = − Φ(0 2579) = 0 3982 .
.
21 325
2
Lahko pa se vprašamo tudi, najmanj koliko srečk mora loterija prodati, če naj bo
.
verjetnost,
√ .da ima izgubo, največ 5%. Če loterija proda n srečk, je E(S) = 0 05 n in
σ(S) = 4 5475 n, torej je:
.
.
1
−0 5 − 0 05 n
√ .
+ .
P(S < 0) ≈ Φ
2
4 5475 n
Izraz v ulomku pa je za nadaljnjo obravnavo nekoliko zapleten, zato si privoščimo, da
.
zanemarimo tudi člen 0 5. Dobimo:
r
1
n
.
P(S < 0) ≈ − Φ 0 05
.
.
2
4 5475
Rešiti moramo torej neenačbo:
oziroma:
r
n
1
.
.
≤ 0 05
− Φ 0 05
.
2
4 5475
r
n
.
Φ 0 05
≥ 0 45 .
.
4 5475
. .
.
Ker je Φ(1 645) = 0 45, je pogoj za število srečk približno:
r
n
.
.
≥ 1 645 ,
0 05
.
4 5475
.
kar velja za n ≥ 4923 (zaokrožili smo navzgor). Točna verjetnost izgube pri 4923 prodanih
.
srečkah pa je nekoliko večja, 0 05117. Pri 5000 prodanih srečkah pa je verjetnost izgube
.
0 04987. Histogram:
95
−200 −100
100 200 300 400 500 600 700
Prikažimo še grafe kumulativnih porazdelitvenih funkcij dobička prodanih srečk skupaj s
pripadajočimi normalnimi slučajnimi spremenljivkami:
1
n = 10
0.8
0.6
0.4
0.2
−40
−30
−20
−10
1
10
20
30
n = 50
0.8
0.6
0.4
0.2
−50 −40 −30 −20
10
10
20
30
40
50
96
1
n = 100
0.8
0.6
0.4
0.2
−70 −60 −50 −40 −30 −20
10
1
10
20
30
40
50
60
n = 500
0.8
0.6
0.4
0.2
−140 −120 −100 −80 −60 −40 −20
1
20
40
60
80
100 120 140
n = 5000
0.8
0.6
0.4
0.2
−200
100
100
200
300
400
500
600
700
Veliko podatkov pa ne pomeni vedno (približno) normalne porazdelitve. Spodaj so
prikazani rezultati 963 drugih kolokvijev iz predmeta Verjetnost in statistika za študente
računalništva na Univerzi v Ljubljani v letih od 1997 do 2010:
97
25
20
15
10
5
10
20
30
40
50
60
70
80
90
100
.
.
.
Relativne kumulativne frekvence skupaj z normalno aproksimacijo (µ = 58 02, σ =
.
25 31):
1
0.8
0.6
0.4
0.2
10
20
30
40
50
60
70
80
90
100
98
3.
Inferenčna statistika
Pri opisni statistiki se osredotočimo le na podatke, ki jih imamo (na to, kar opazimo)
in poskusimo narediti smiseln povzetek. Pri inferenčni statistiki pa gledamo podatke
kot del nečesa večjega, česar ne poznamo v celoti. Tipičen primer je vzorec iz populacije:
vrednosti statistične spremenljivke na vzorcu poznamo, na celotni populaciji pa ne. To pa
ni edina možnost. Regresijska analiza se npr. ukvarja z napovedjo dogajanja v prihodnosti
na podlagi podatkov iz preteklosti.
V splošnem gre pri inferenčni statistiki za to, da opazimo X, želeli pa bi povedati kaj o
Y (statistično sklepati ). Pri tem sta X in Y slučajni spremenljivki na istem verjetnostnem
prostoru, ki pa nima nujno znane porazdelitve. Temu pravimo statistični model. Če je
porazdelitev vendarle znana, modelu pravimo bayesovski. S takimi modeli se ukvarja
bayesovska statistika. Tako jo imenujemo zato, ker temelji na Bayesovi formuli (glej
podrazdelek 2.2.2).
Omenili bomo tri vrste sklepanja:
• Točkasto ocenjevanje, pri katerem sestavimo algoritem, ki nam za vsako opažanje X
vrne oceno Y ≈ Yˆ . Pri tem mora biti količina Yˆ opazljiva (deterministično določena
z opažanjem X), želeli pa bi narediti čim manjšo napako. Količini Yˆ pravimo cenilka
za Y .
• Intervalsko ocenjevanje, pri katerem poskusimo Y umestiti v opazljiv interval, npr.
Ymin < Y < Ymax . Seveda morata biti meji intervala Ymin in Ymax opazljivi. Če o Y
nimamo popolne informacije, izjava Ymin < Y < Ymax tipično ni vedno pravilna, da
pa se kontrolirati verjetnost tega statističnega sklepa. Želimo doseči dvoje:
– Širina intervala naj bo čim manjša.
– Verjetnost, da je res Ymin < Y < Ymax (verjetnost pokritosti), naj bo v vsakem
primeru vsaj β.
.
Parametru β pravimo stopnja zaupanja. Tipični stopnji zaupanja sta β = 0 95 in
.
β = 0 99.
99
100
• Testi značilnosti, pri katerem o Y postavimo neko hipotezo (domnevo), npr. Y = y0 .
Tej hipotezi navadno pravimo ničelna hipoteza in jo označimo s H0 . Nasprotje
ničelne hipoteze je alternativna hipoteza in jo navadno označimo s H1 . Test za vsako
opažanje pove, ali ničelno hipotezo zavrnemo in sprejmemo alternativno hipotezo
ali pa ne naredimo ničesar. Želimo doseči dvoje:
– H0 naj se zavrne v čimveč primerih, ko ne velja.
– Verjetnost dogodka, da ničelno hipotezo zavrnemo, čeprav velja, naj bo v vsakem primeru največ α.
Parametru α pravimo stopnja značilnosti. Če ničelno hipotezo zavrnemo pri stopnji
.
značilnosti α = 0 05, pravimo, da so odstopanja statistično značilna. če pa jo
.
zavrnemo pri α = 0 01, pa, da so statistično zelo značilna.
Primer : Delova anketa pred predčasimi volitvami v Državni zbor jeseni 2011 samo s
prikazom, kaj je kaj, brez računanja.
3.1
Verjetnost uspeha poskusa
Dano je Bernoullijevo zaporedje n poskusov z verjetnostjo uspeha p. Opazimo, da uspe
k poskusov.
k
Točkasta ocena za p (cenilka): pˆ = .
n
Konstrukcij intervala zaupanja je veliko, tu bomo uporabili Agresti–Coullovo konstrukcijo. Najprej izračunamo c := z(1+β)/2 , kjer je za kvantil standardne normalne porazdelitve
za verjetnost a. Z drugimi besedami, Φ(za ) = a − 12 . Tabela nekaj kvantilov, pomembnih
v statistiki:
a
za
.
.
0 95 1 64
.
.
0 975 1 96
.
.
0 99 2 33
.
.
0 995 2 58
Nato izračunamo:
2
2
n
˜ =n+c ,
k + c2
p˜ =
,
n
˜
q˜ = 1 − p˜ .
Interval zaupanja:
p˜ − c
r
p˜q˜
< p < p˜ − c
n
˜
r
p˜q˜
n
˜
Opomba. Ta interval nam sicer ne zagotavlja v vsakem primeru verjetnosti pokritosti
vsaj β, toda verjetnost pokritosti se pri vsakem p bliža β, ko se n veča. Bližanje je še
hitrejše, če gledamo povprečno verjetnost pokritosti, ko p preteče določen interval. Le-ta
je zelo blizu β že za majhne n (od 10 naprej).
101
Opomba. Še vedno je v dokaj splošni uporabi Waldov interval zaupanja, ki je enake
oblike kot zgornji, le z n, p in q = 1 − p namesto n
˜ , p˜ in q˜. Toda ta interval da zadovoljivo
povprečno verjetnost pokritosti šele za razmeroma velike n.
Testiranje hipoteze, da je p = p0 . Naj bo q0 := 1 − p0 .
Če alternativna hipoteza trdi, da je p 6= p0 (dvostranski test), ničelno hipotezo zavrnemo, če je:
pˆ − p0 √ |k − np0 | − 21
1
n − √
= √
≥ z1−α/2 .
√
np0 q0
p 0 q0
2 np0 q0
Če alternativna hipoteza trdi, da je p > p0 (enostranski test v desno), ničelno hipotezo
zavrnemo, če je:
1
2
k − np0 −
√
np0 q0
1
pˆ − p0 √
n− √
= √
≥ z1−α/2 .
p 0 q0
2 np0 q0
Če alternativna hipoteza trdi, da je p < p0 (enostranski test v levo), ničelno hipotezo
zavrnemo, če je:
k − np0 +
√
np0 q0
1
2
1
pˆ − p0 √
n+ √
= √
≤ −z1−α/2 .
p 0 q0
2 np0 q0
Primeri:
.
• loterijska srečka, ki naj bi zadela z verjetnostjo 1/2: 2 dobitni od 8 pri α = 0 05,
.
.
4 dobitne od 16 pri α = 0 05, 4 dobitne od 16 pri α = 0 01.
.
• poštenost kovanca: 4 grbi od 16 pri α = 0 05.
pˆ − p0 √
1
k − np0
= √
.
n in popravkom √
To je primer Z-testa za testno statistiko √
np0 q0
p 0 q0
2 np0 q0
Z-test za testno statistiko Z in popravkom c ima tri različice.
• Pri dvostranski različici ničelno hipotezo zavrnemo, če je |Z| − c ≥ z1−α/2 .
• Pri enostranski različici v desno ničelno hipotezo zavrnemo, če je Z − c ≥ z1−α .
• Pri enostranski različici v levo ničelno hipotezo zavrnemo, če je Z + c ≤ −z1−α .
3.2
Frekvenčna porazdelitev
a1 a2 · · ·
Točkasta ocena porazdelitve
p1 p2 · · ·
ak
: pî = fi◦ .
pk
Porazdelitev lahko testiramo s testom hi kvadrat s testno statistiko:
2
χ =
k
X
(fi − npi )2
i=1
npi
=n
k
X
(ˆ
pi − pi ) 2
i=1
pi
102
s k−1 prostostimi stopnjami, in sicer z enostransko različico v desno. Enostranska različica
testa hi hvadrat za testno statistiko χ2 z df prostostnimi stopnjami pri stopnji značilnosti
α pomeni, da hipotezo zavrnemo, če je χ2 ≤ χ21−α (df ). Na desni je kvantil porazdelitve hi
kvadrat z df prostostnimi stopnjami za verjetnost 1 − α. Le-te lahko odčitamo iz tabele.
3.3
Sredina pri znanem σ
Izmerimo X1 , X2 , . . . Xn , ki so neodvisne in porazdeljene normalno N(µ, σ), kjer σ poznamo.
Cenilka za µ:
¯ = X1 + X2 + · · · + Xn .
µ
ˆ = µvz = X
n
Interval zaupanja:
σ
σ
ˆ + z(1+β)/2 √ .
µ
ˆ − z(1+β)/2 √ < µ < µ
n
n
µ
ˆ−µ√
n.
Testiranje: z Z-testom za testno statistiko
σ
Interval zaupanja in testiranje sta robustna, kar pomeni, da sta za dovolj velike n
vsaj približno legitimna, tudi če porazdelitev ni normalna – da le obstajata matematično
upanje in varianca.
3.4
Sredina pri neznanem σ
Izmerimo X1 , X2 , . . . Xn , ki so neodvisne in porazdeljene normalno N(µ, σ), σ pa zdaj ne
poznamo. Cenilka za µ je enaka kot pri znanem σ. Tu je na mestu omeniti še cenilko za
σ, ki pa je:
r
r
n
(X1 − µ
ˆ)2 + (X2 − µ
ˆ)2 + · · · (Xn − µ
ˆ )2
=
.
σ
ˆ = σvz
n−1
n−1
Interval zaupanja:
σ
ˆ
σ
ˆ
ˆ + t(1+β)/2 (n − 1) √ ,
µ
ˆ − t(1+β)/2 (n − 1) √ < µ < µ
n
n
kjer je tp (df ) kvantil Studentove porazdelitve z df prostostnimi stopnjami za verjetnost
p. Le-te lahko odčitamo iz tabel.
µ
ˆ−µ√
µ testiramo s T -testom z n − 1 prostostnimi stopnjami za testno statistiko
n.
σ
ˆ
T -test z df prostostnimi stopnjami za testno statistiko Z ima spet tri različice.
• Pri dvostranski različici ničelno hipotezo zavrnemo, če je |T | ≥ t1−α/2 (df ).
• Pri enostranski različici v desno ničelno hipotezo zavrnemo, če je T ≥ t1−α (df ).
• Pri enostranski različici v levo ničelno hipotezo zavrnemo, če je T ≤ −t1−α (df ).
103
104
Literatura
[1] A. Ferligoj: Osnove statistike na prosojnicah. Ljubljana, 1997.
[2] R. Jamnik: Matematična statistika. DZS, Ljubljana, 1980.
[3] R. Jamnik: Verjetnostni račun. ZOTKS, Ljubljana, 1987.
[4] R. Jamnik: Verjetnostni račun in statistika. DMFA, Ljubljana, 1995.
[5] M. Hladnik: Verjetnost in statistika, zapiski s predavanj. FRI, Ljubljana, 2002.
[6] J. A. Čibej: Matematika: kombinatorika, verjetnostni račun, statistika. DZS, Ljubljana, 1994.
[7] J. Sagadin: Osnovne statistične metode za pedagoge. FF, Ljubljana, 1992.
[8] M. Blejec: Uvod v statistiko. EF, Ljubljana, 1996.
[9] L. Pfajfar: Statistika 1. EF, Ljubljana, 2005.
[10] F. Arh, L. Pfajfar: Statistika 1 z zgledi. EF, Ljubljana, 2005.
[11] A. Jurišić: Verjetnostni račun in statistika. Dosegljivo na:
http://lkrv.fri.uni-lj.si/~ajurisic/stat10/
[12] B. Petz: Osnovne statističke metode. Liber, Zagreb, 1985.
[13] J. A. Rice: Mathematical Statistics and Data Analysis. Thomson/Brooks/Cole, Belmont, 2007.
[14] A. Ferligoj: Naloge iz statističnih metod. Ljubljana, 1981.
[15] F. Arh, L. Pfajfar: Statistika 1. Zbirka rešenih izpitnih nalog. EF, Ljubljana, 2002.
[16] M. R. Spiegel: Schaum’s outline of theory and problems of statistics. New York,
1999.
105

STATISTIKA

Transcription

Similar documents

Načrt vsebin in študentskih obveznosti - Andrej Blejec

OSNOVE TEORIJE VERJETNOSTI

Linearna regresija

DR_Faktorska analiza

Osnove verjetnosti in statistike

Univerza v Ljubljani, Zdravstvena fakulteta Inštitut za biostatistiko in

Programski vzorci

predstavitvenem zborniku študija.

Vaje v celoti

VAJE IZ SLUČAJNIH PROCESOV 1

Sodobni izzivi godalne pedagogike