TMA4240 Statistikk

Transcription

TMA4240 Statistikk

STATISTIKK :D
INNHOLD
Et par ting som kan bli nyttige .................................................... 2
To utvalg: estimat av 𝜎𝑋2/𝜎𝑌2 ..................................... 13
2. Sannsynlighetsregning ............................................................ 2
Sannsynlighetsmaksimeringsestimatorer ............................ 13
3. Stokastiske variable og sannsynlighetsfordelinger. ................. 2
Likelihoodfunksjonen ..................................................... 13
4. Forventning og varians ............................................................ 3
5. Diskrete fordelinger ................................................................ 4
Diskret uniform fordeling ...................................................... 4
Invariansegenskapen til
sannsynlighetsmaksimeringsestimatoren ...................... 14
Binomisk fordeling ................................................................ 4
Forventning og varians til
sannsynlighetsmaksimeringsestimatoren ...................... 14
Multinomisk fordeling ........................................................... 4
10. Hypotesetesting .................................................................. 14
Hypergeometrisk fordeling ................................................... 4
Negativ binomisk fordeling ................................................... 5
Poissonfordeling ................................................................... 5
6. Kontinuerlige sannsynlighetsfordelinger................................. 5
Uniform kontinuerlig fordeling ............................................. 5
Normalfordeling .................................................................... 5
Gammafordelingen ............................................................... 6
Lognormalfordelingen........................................................... 7
Ensidig og tosidig test.......................................................... 15
Noen vanlige tester av forventninger .................................. 15
Forventning til gjennomsnitt ved kjent varians .............. 15
Forventning til gjennomsnitt ved ukjent varians ............ 16
Differanse mellom forventninger til gjennomsnitt av to
forskjellige utvalg med kjente varianser ......................... 16
forskjellige utvalg med ukjente, men like, varianser ...... 16
Weibullfordeling ................................................................... 7
forskjellige utvalg med ukjente og ulike varianser ......... 16
7. Funksjoner av stokastiske variable .......................................... 7
Parret T-test ........................................................................ 17
Transformasjon av variable ................................................... 7
Parrede observasjoner ................................................... 17
Momentgenererende funksjon ............................................. 8
Parret t-test .................................................................... 17
Lineærkombinasjoner av normalfordelte variable ................ 8
Når bør man bruke en parret t-test? .............................. 17
Summer av uavhengige normalfordelte variable ............. 8
Teststyrke ............................................................................ 17
Summer av uavhengige kjikvadratfordelte variable ......... 8
Test for p med binomiske data ............................................ 18
Kvadratsummer av uavhengige variable ............................... 8
Ettutvalgs test for p med binomiske data....................... 18
Ordningsvariable ................................................................... 8
Toutvalgs test for forskjell i p med binomiske data ........ 18
8 + 9. Estimering ......................................................................... 8
Test for varians.................................................................... 18
Noen viktige estimatorer ...................................................... 9
11. Enkel lineær regresjon ........................................................ 19
Sentralgrenseteoremet ......................................................... 9
Regresjonsmodellen ............................................................ 19
t-fordelingen ......................................................................... 9
Metoder for å finne estimatorene ...................................... 19
Intervallestimering .............................................................. 10
Minste kvadraters metode ............................................. 19
Konfidensintervall .......................................................... 10
Sannsynlighetsmaksimeringsestimatormetoden ........... 20
Prediksjonsintervall ........................................................ 10
Egenskapene til estimatorene ............................................. 21
Toutvalgs estimering: estimering av forskjellen mellom to
middelverdier ................................................................. 11
Konfidensintervall og hypotesetester for 𝛼, 𝛽 og 𝜎2 .......... 21
Estimat av p i binomialfordelingen...................................... 12
Ett utvalg: estimat av 𝑝 .................................................. 12
To utvalg: estimat av 𝑝𝑋 − 𝑝𝑌 ....................................... 12
Ett utvalg: estimat av 𝜎 .................................................. 13
Prediksjon med regresjonsmodellen ................................... 21
Prediksjon av én verdi .................................................... 21
Prediksjon av gjennomsnittsrespons .............................. 22
Korrelasjon .......................................................................... 22
ET PAR TING SOM KAN BLI NYTTIGE
𝑛
𝑒 𝑎𝑥 (𝑎𝑥 − 1)
∫ 𝑥𝑒 𝑑𝑥 =
𝑎2
𝑛
∑ 𝑥𝑖 (𝑥𝑖 − 𝑥̅ ) = ∑(𝑥𝑖 − 𝑥̅ )2
𝑎𝑥
𝑖=1
∫ 𝑥 2 𝑒 𝑎𝑥 𝑑𝑥
𝑒 𝑎𝑥 (𝑎2 𝑥 2 − 2𝑎𝑥 + 2)
=
𝑎3
𝑖=1
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑦𝑖
𝑏= 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
∑𝑖=1(𝑦𝑖 − 𝑦̅)𝑥𝑖
= 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )𝑥𝑖
1
∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖 − (∑𝑛𝑖=1 𝑦𝑖 )(∑𝑛𝑖=1 𝑥𝑖 )
𝑛
=
1
∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 )2
𝑛
𝑑
𝑓 ′ (𝑥)
ln(𝑓(𝑥)) =
𝑑𝑥
𝑓(𝑥)
𝑧0.025 = 1.96
𝑛
𝑍=
∑(𝑥𝑖 − 𝑥̅ ) = 0
𝑇=
𝑖=1
𝑇=
𝑉=
𝑍
√𝑉/𝑛
𝑋̅ − 𝜇
𝑠/√𝑛
(𝑛 − 1)𝑆 2
𝜎2
𝑋̅ − 𝜇
𝜎/√𝑛
2. SANNSYNLIGHETSREGNING
Utfallsrommet S er mengden av alle mulige utfall for et eksperiment. En hendelse H er en delmengde av S.
Komplementet til H er mengden av alle elementer i S som ikke er i H. Snittet av to hendelser A og B er
mengden av alle elementer i A som også er i B. To hendelser er disjunkte hvis snittet av dem er den tomme
mengden. Unionen av to hendelser er de medlemmene av S som er medlemmer av enten A, B, eller begge.
nPr er som nCr, men innbyrdes rekkefølge i utvalget har noe å si. Så nPr = r!nCr. Permutasjoner er ordnede
utvalg, kombinasjoner er uordnede utvalg.
Du kan arrangere n objekter i linje på 𝑛! måter, og i sirkel på (𝑛 − 1)! måter.
En partisjon av et utfallsrom er en mengde 𝐴1 , 𝐴2 , … , 𝐴𝑛 slik at 𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 = 𝑆
For å finne sannsynligheten for unionen av flere hendelser: trekk fra likeordens snitt og legg til odde ordens
snitt. Så for tre hendelser er 𝑃(𝐴 ∪ 𝐵 ∪ 𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴 ∩ 𝐵) − 𝑃(𝐴 ∩ 𝐶) − 𝑃(𝐵 ∩ 𝐶) +
𝑃(𝐴 ∩ 𝐵 ∩ 𝐶).
To hendelser A og B er uavhengige hvis og bare hvis 𝑃(𝐴|𝐵) = 𝑃(𝐴) og 𝑃(𝐵|𝐴) = 𝑃(𝐵), altså hvis A ikke gir
noe ny informasjon om B og vice versa.
Vi har regelen om at 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴|𝐵)𝑃(𝐵). Så vi kan også si at A og B er uavhengige hvis og bare hvis
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴)𝑃(𝐵). Mer generelt har vi at
𝑃(𝐴1 ∩ … ∩ 𝐴𝑘 ) = 𝑃(𝐴1 )𝑃(𝐴2 |𝐴1 ) … 𝑃(𝐴𝑘 |𝐴1 ∩ … ∩ 𝐴𝑘−1 )
Bayes teorem er 𝑃(𝐵|𝐴) =
Oddsen for en hendelse er
𝑃(𝐴|𝐵 )𝑃(𝐵)
𝑃(𝐴)
𝑃(𝐴)
𝑃(𝐴′ )
=
𝑃(𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )
= ∑𝑘
𝑖=1 𝑃(
, den siste brukes når B-ene er en partisjon av S.
𝐴|𝐵𝑖 )𝑃(𝐵𝑖 )
𝑃(𝐴)
1−𝑃(𝐴)
3. STOKASTISKE VARIABLE OG SANNSYNLIGHETSFORDELINGER.
En stokastisk variabel er en funksjon 𝑋 = 𝑋(𝑠) som knytter reelle tall til hvert enkelttilfelle 𝑠 i 𝑆. 𝑋 er diskret
hvis utfallsrommet har et endelig antall elementer eller like mange elementer som det finnes heltall, og
kontinuerlig hvis utfallsrommet har like mange elementer som det finnes reelle tall.
𝑏
Sannsynligheten 𝑃(𝑎 ≤ 𝑋 ≤ 𝐵) for at 𝑋 ligger i intervallet (𝑎, 𝑏) er ∫𝑎 𝑓(𝑥)𝑑𝑥 = 𝐹(𝑏) − 𝐹(𝑎) i det
kontinuerlige tilfellet. Sannsynlighetsfunksjonen 𝑓(𝑥) er altså den deriverte av den kumulative
sannsynlighetsfunksjonen 𝐹(𝑥). I det diskrete tilfellet er sannsynligheten 𝑃(𝑋 = 𝑥) for at 𝑋 har verdien 𝑥 lik
𝑓(𝑥). For å være en sannsynlighetsfordeling må 𝑓(𝑥) alltid være større enn 0 og summere opp til 1 (enten ved
å summere over hele definisjonsmengden eller integrere over hele tallinja).
Den simultanfordelte sannsynlighetsfordelingen skrives 𝑓(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑌) i det diskrete tilfellet. I det
kontinuerlige tilfellet får man sannsynligheten for at 𝑋, 𝑌 ligger innenfor et område i 𝑅2 ved å integrere
funskjonen over området. Marginalfordelingen til kun 𝑋 er 𝑓𝑋 (𝑥) er det vi får ved å summere funksjonen over
∞
alle mulige 𝑦 slik at 𝑓𝑋 (𝑥) = ∑𝐷𝑌 𝑓(𝑥, 𝑦) = ∫−∞ 𝑓(𝑥, 𝑦)𝑑𝑦 i henholdsvis det diskrete og kontinuerlige tilfellet,
og vice versa for marginalfordelingen til kun 𝑌. Videre har vi at 𝑓𝑋𝑌 (𝑥, 𝑦) = 𝑓𝑌 (𝑦|𝑥)𝑓𝑋 (𝑥). Hvis og bare hvis 𝑌
og 𝑋 er uavhengige har vi dermed at 𝑓𝑋𝑌 (𝑥, 𝑦) = 𝑓𝑌 (𝑦)𝑓𝑋 (𝑥). Dette kan utvides på naturlig vis til simultane
sannsynlighetsfordelinger og marginalfordelinger til et vilkårlig antall stokastiske variable.
4. FORVENTNING OG VARIANS
∞
Forventningsverdien til en variabel er 𝜇 = 𝐸(𝑋) = ∑𝐷 𝑥𝑓(𝑥) = ∫−∞ 𝑥𝑓(𝑥)𝑑𝑥 i henholdsvis det diskrete og det
kontinuerlige tilfellet. 𝐷 er definisjonsmengden til 𝑋.
∞
Forventningsverdien til en variabel 𝑔(𝑋) er 𝜇𝑔 (𝑋) = 𝐸[𝑔(𝑋)] = ∑𝐷 𝑔(𝑥)𝑓(𝑥) = ∫−∞ 𝑔(𝑥)𝑓(𝑥)𝑑𝑥
Forventningsverdien til en variabel 𝑔(𝑋, 𝑌) er 𝜇𝑔 (𝑋, 𝑌) = 𝐸[𝑔(𝑋, 𝑌)] = ∑𝐷𝑋 ∑𝐷𝑌 𝑔(𝑥, 𝑦)𝑓(𝑥, 𝑦) =
∞
∞
∫−∞ ∫−∞ 𝑔(𝑥, 𝑦)𝑓(𝑥, 𝑦)𝑑𝑦 𝑑𝑥
Hvis to variable er uavhengige er 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌).
Forventningsverdien til en lineærkombinasjon er den tilsvarende lineærkombinasjonen av forventningsverdier.
Variansen til en variabel er
∞
𝑉𝑎𝑟(𝑋) = 𝜎 2 = 𝐸[(𝑋 − 𝜇)2 ] = ∑(𝑥 − 𝜇)2 𝑓(𝑥) = ∫ (𝑥 − 𝜇)2 𝑓(𝑥)𝑑𝑥 = 𝐸(𝑋 2 ) − 𝐸(𝑋)2
−∞
𝐷
Det blir helt tilsvarende når man skal finne variansen til en funksjon av en variabel.
2
Variansen til 𝑎𝑋 + 𝑏 er 𝜎𝑎𝑋+𝑏
= 𝑎2 𝜎𝑋2 = 𝑎2 𝜎 2.
Kovariansen til to variabler X og Y er
𝐶𝑜𝑣(𝑋, 𝑌) = 𝜎𝑋𝑌 = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )]
∞
= ∑ ∑(𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑦 )𝑓(𝑥, 𝑦) = ∫ (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑦 )𝑓(𝑥, 𝑦) 𝑑𝑥
−∞
𝐷𝑋 𝐷𝑌
= 𝐸(𝑋𝑌) − 𝐸(𝑋)𝐸(𝑌)
Og er et mål på assosiasjonen mellom de to.
Hvis to variable ikke er korrelerte, vil kovariansen deres være 0. Men to variable kan fint være korrellerte selv
om kovariansen er 0.
Variansen til en variabel er 𝑉𝑎𝑟(𝑋) = 𝐶𝑜𝑣(𝑋, 𝑋).
2
Variansen til en sum av to variable er 𝜎𝑎𝑋+𝑏𝑌
= 𝑎2 𝜎𝑋2 + 𝑏 2 𝜎𝑌2 + 2𝑎𝑏𝜎𝑋𝑌 . Hvis de to er uavhengige, blir
variansen til summen summen av variansene.
Standardavviket til en variabel er kvadratroten av variansen.
5. DISKRETE FORDELINGER
DISKRET UNIFORM FORDELING
Bruk: Når det er like stor sannsynlighet for hvert utfall i utfallsrommet.
1
Fordelingsfunksjon: 𝑓(𝑥) = der k er antall mulige utfall.
𝑘
1
Forventning: 𝜇 = ∑𝑘𝑖=1 𝑥𝑖 , men denne forekommer ikke noe oftere enn noen av de andre verdiene.
Varians: 𝜎 2 =
𝑘
1 𝑘
∑𝑖=1(𝑥𝑖
𝑘
2
− 𝜇)
BINOMISK FORDELING
Bruk: Når vi har en Bernoulli-prosess med n forsøk. Kjennetegnes av 3 krav:
-
Vi gjør 𝑛 uavhengige forsøk
I hvert forsøk registrerer vi om hendelsen A inntreffer eller ikke
Sannsynligheten for A er den samme i alle forsøkene, og 𝑃(𝐴) = 𝑝.
𝑛
Fordelingsfunksjon: 𝑓(𝑥) = ( ) 𝑝 𝑥 (1 − 𝑝)𝑛−𝑥 = alle rekkefølgene dette kan inntreffe i ganger sannsynligheten
𝑥
for at det inntreffer x ganger ganger sannsynligheten for at det ikke inntreffer n-x ganger.
Kumulativ fordeling: Side 12 til 17 i heftet.
Forventning: 𝐸(𝑋) = 𝑛𝑝
Varians: 𝑉𝑎𝑟(𝑋) = 𝑛𝑝(1 − 𝑝)
Disse utledes fra at hvert forsøk representeres av en Bernoullifordelt variabel (som har verdi 0 med
sannsynlighet (1-p) og verdi 1 med sannsynlighet p), slik at den binomisk fordelte variabelen blir en sum av
Bernoullifordelte variable.
MULTINOMISK FORDELIN G
Bruk: Når vi bytter ut andre krav i binomisk fordeling med at vi har k mulige utfall, hver med sannsynlighet
𝑝1 , … , 𝑝𝑘 .
Fordelingsfunksjon: 𝑓(𝑥1 , … , 𝑥𝑘 ; 𝑝1 , … , 𝑝𝑘 ; 𝑛) =
𝑛!
𝑥
𝑝 1
𝑥1 !…𝑥𝑘 ! 1
𝑥
… 𝑝𝑘 𝑘
Forventning: 𝐸(𝑋𝑖 ) = 𝑛𝑝𝑖
Varians: 𝑉𝑎𝑟(𝑋𝑖 ) = 𝑛𝑝𝑖 (1 − 𝑝𝑖 )s
Sammenheng med andre fordelinger: Når k=2 er 𝑋1 binomisk fordelt.
HYPERGEOMETRISK FORD ELING
Bruk: Vi trekker n lodd fra en urne med N lodd, hvorav k er vinnerlodd. Antall vinnerlodd er hypergeometrisk
fordelt.
Fordelingsfunksjon: 𝑓(𝑥) =
𝑘 𝑁−𝑘
( )(
)
𝑥 𝑛−𝑥
,
𝑁
( )
𝑛
der x går fra 0 til den minste av n og k.
Kumulativ fordeling: Side 21-22 i heftet.
Forventning: 𝐸(𝑋) =
𝑛𝑘
𝑁
𝑘
Varians: 𝑉𝑎𝑟(𝑋) =
(𝑁−𝑛)𝑛𝑘(1− )
𝑁
(𝑁−1)𝑁
Sammenheng med andre fordelinger: Binomisk fordeling er når vi trekker lodd med tilbakelegging,
hypergeometrisk er når vi trekker lodd uten tilbakelegging. Når 𝑁 ≫ 𝑛 kan vi approksimere en
𝑘
hypergeometrisk fordeling med en binomisk fordeling der 𝑝 = , fordi 𝑁 ≈ 𝑁 − 𝑛.
𝑁
NEGATIV BINOMISK FORDELING
Bruk: Vi har en Bernoulliprosess, men nå spør vi om sannsynligheten for at hendelse A inntreffer for k’te gang
på vårt x’te forsøk.
𝑥−1 𝑘
Fordelingsfunksjon: 𝑓(𝑥) = (
) 𝑝 (1 − 𝑝) 𝑥−𝑘 , der x går fra k og oppover.
𝑘−1
Kumulativ fordeling: Står ikke i heftet.
En negativ binomisk fordeling med k = 1 kalles en geometrisk fordeling.
POISSONFORDELING
Bruk: Vi har en Poissonprosess med følgende karakteristikk:
-
Prosessen har intet minne: antall hendelser i et interall er uavhengig av antallet hendelser som
forekommer i ethvert annet disjunkt intervall.
Sannsynligheten for at et enkelt utfall forekommer i løpet av et veldig kort intervall er proporsjonalt
med lengden av intervallet og avhenger ikke av antallet utfall utenfor dette intervallet.
Sannsynligheten for at mer enn ett utfall forekommer i løpet av et slikt kort intervall er neglisjerbar.
Da er antallet hendelser i løpet av et eksperiment en Poissonvariabel og er Poissonfordelt.
Fordelingsfunksjon: 𝑓(𝑥) =
𝑒 −𝜆𝑡 (𝜆𝑡)𝑥
𝑥!
=
𝑒 −𝜇 𝜇 𝑥
𝑥!
fordi 𝐸(𝑋) = 𝑉𝑎𝑟(𝑋) = 𝜆𝑡
Sammenheng med andre fordelinger: Vi kan tilnærme binomialfordelingen til en Poissonfordeling når n blir
stor, da er 𝜇 = 𝑛𝑝.
6. KONTINUERLIGE SANNSYNLIGHETSFORDELINGER
UNIFORM KONTINUERLIG FORDELING
1
𝑓(𝑥) = {𝐵−𝐴
𝑛å𝑟 𝐴 ≤ 𝑥 ≤ 𝐵
0 𝑒𝑙𝑙𝑒𝑟𝑠
,𝜇 =
𝐴+𝐵
2
og 𝜎 2 =
(𝐵−𝐴)2
12
. Vi bruker ikke denne så mye.
NORMALFORDELING
Dette er den viktigste sannsynlighetsfordelingen som finnes og brukes til nesten alt på grunn av
sentralgrenseteoremet.
Fordelingsfunksjon
𝑓(𝑥) =
1
√2𝜋𝜎
exp (−
1 (𝑥 − 𝜇)2
) , −∞ < 𝑥 < ∞
2 𝜎2
Egenskaper
-
Kurven er symmetrisk om 𝑥 = 𝜇
Fordelingen har sitt typetall ved forventningsverdien
Kurvens vendepunkter er ved 𝑥 = 𝜇 ± 𝜎
Normalfordelte variable kan transformeres til den standard normalfordelte variablen 𝑍 med 𝜇 = 0, 𝜎 2 = 1 ved
å la 𝑍 =
𝑋−𝜇
𝜎
⇔ 𝑋 = 𝜎𝑍 + 𝜇. Verdiene til 𝑍 står på s. 1 og 2, og kvantilene står på s. 3.
Vi skriver 𝑃(𝑍 ≤ 𝑧) som Φ(𝑧). Phi-funksjonen har egenskapen Φ(−𝑥) = 1 − Φ(𝑥).
En lineærkombinasjon normalfordelte variable er en ny normalfordelt variabel. Dette er et resultat brukes
ekstremt ofte.
Approksimasjon av binomialfunksjonen
Når 𝑋 er en binomisk fordelt variabel med 𝜇 = 𝑛𝑝 og 𝜎 = 𝑛𝑝(1 − 𝑝), vil 𝑛 → ∞ gjøre at fordelingen av
𝑋 − 𝑛𝑝
𝑍=
√𝑛𝑝(1 − 𝑝)
går mot standardnormalfordelingen. Dette fungerer veldig bra når n er stor og p ikke er veldig nærme 1 eller 0,
men også ganske bra når n er liten og p ligger rundt ½.
GAMMAFORDELINGEN
Gammafunksjonen er definert som
∞
Γ(𝛼) = ∫ 𝑥 𝛼−1 𝑒 −𝑥 𝑑𝑥 , 𝛼 > 0
0
1
For heltallige n er Γ(𝑛) = (𝑛 − 1)! Forøvrig er Γ ( ) = √𝜋.
2
Gammafordelingen er gitt ved
𝑓(𝑥) =
𝑥
1
𝛼−1 −𝛽
𝑥
𝑒
𝛽 𝑎 Γ(𝑎)
og har 𝐸(𝑋) = 𝛼𝛽 og 𝑉𝑎𝑟(𝑋) = 𝛼𝛽 2 .
Når 𝛼 = 1 får vi eksponensialfordelingen:
𝑓(𝑥) =
1 −𝑥
𝑒 𝛽 = 𝜆𝑒 −𝜆𝑥
𝛽
1
der 𝜆 = . Denne har 𝐸(𝑋) = 𝛽 og 𝑉𝑎𝑟(𝑋) = 𝛽 2 .
𝛽
Eksponensialfordelingen her beslektet med Poissonfordelingen på omtrent samme måte som den geometriske
fodelingen er beslektet med den binomiske fordelingen. For en Poissonfordelt variabel har vi at 𝑓(0; 𝜆𝑥) =
𝑒 −𝜆𝑥 . La 𝑋 være tiden det tar før den første Poissonhendelsen. Sannsynligheten for at X er større enn x er den
samme som sannsynligheten for at ingen Poissonhendelser skjer innen x, så 𝑃(𝑋 > 𝑥) = 𝑒 −𝜆𝑥 . Da er den
kumulative fordelingsfunksjonen for 𝑋 gitt ved 𝑃(0 ≤ 𝑋 ≤ 𝑥) = 1 − 𝑒 −𝜆𝑥 . Vi deriverer med hensyn på x og får
at fordelingsfunksjonen til x er eksponensialfunksjonen, 𝑓(𝑥) = 𝜆𝑒 −𝜆𝑥 . Her er også 𝛽 den gjennomsnittlige
tiden mellom hendelser.
Når 𝛼 er et annet heltall beskriver gammafunksjonen forventet tid før 𝛼’te hendelse i en Poissonprosess, så på
denne måten er gammafordelingen beslektet med Poissonfordelingen på omtrent samme måte som den
negative binomiske fordelingen er beslektet med den binomiske fordelingen.
Når 𝛼 = ν/2 og 𝛽 = 2 får vi kjikvadratfordelingen:
𝑓(𝑥) =
1
𝑥 𝜈/2−1 𝑒 −𝑥/2
2𝜈/2 Γ(𝜈/2)
Denne har 𝐸(𝑋) = 𝜈 og 𝑉𝑎𝑟(𝑋) = 2𝜈. 𝜈 er antall frihetsgrader.
LOGNORMALFORDELINGEN
En variabel er lognormaltfordelt hvis variabelen 𝑌 = ln(𝑥) er normalfordelt. Dette gir fordelingen
𝑓(𝑥) =
1
√2𝜋𝜎𝑥
exp (−
1
[ln(𝑥) − 𝜇]2 )
2𝜎 2
for x > 0.
1 2
2
2
Fordelingen har 𝐸(𝑋) = e𝜇+2𝜎 og 𝑉𝑎𝑟(𝑋) = e2μ+σ (𝑒 𝜎 − 1)
WEIBULLFORDELING
Weibullfordelingen brukes gjerne for levetiden til komponenter når man tar hensyn til slitasje og eventuelt
herding (i motsetning til den «hukommelsesløse» eksponensialfordelingen). Fordelingen for 𝑥, 𝛼, 𝛽 > 0, er
𝑓(𝑥; 𝛼, 𝛽) = 𝛼𝛽𝑥 𝛽−1 𝑒 𝛼𝑥
𝐹(𝑥; 𝛼, 𝛽) = 1 − 𝑒 −𝛼𝑥
𝛽
𝛽
Når 𝛽 = 1 får vi eksponensialfordelingen.
For komponenter med Weibullfordelt levetid kan man utlede en sviktrate. Hvis 𝑅𝑇 (𝑡) = 𝑃(𝑇 > 𝑡) er
∞
sannsynligheten for at en komponent ikke svikter i løpet av tiden 𝑡, er 𝑅𝑇 (𝑡) = ∫𝑡 𝑓(𝑡)𝑑𝑡 = 1 − 𝐹(𝑡).
Sannsynligheten for at en komponent svikter i intervallet (𝑡, 𝑡 + Δ𝑡) gitt at den overlevde til 𝑡 er
𝐹(𝑡+Δ𝑡)−𝐹(𝑡)
𝑅𝑇 (𝑡)
.
Hvis vi deler på endringen i tid og lar den gå mot 0, får vi sviktraten
𝐹(𝑡 + Δ𝑡) − 𝐹(𝑡)
𝑓(𝑡)
𝑓(𝑡)
=
=
= 𝛼𝛽𝑡 𝛽−1
Δ𝑡→0
Δ𝑡𝑅𝑇 (𝑡)
𝑅𝑇 (𝑡) 1 − 𝐹(𝑡)
𝑍(𝑡) = lim
Hvis 𝛽 = 1 får vi eksponensialfordelingen med en konstant sviktrate. Hvis 𝛽 > 1 er 𝑍(𝑡) en økende funksjon
som indikerer på at komponenten slites over tid, og hvis 𝛽 < 1 er 𝑍(𝑡) en minkende funksjon som indikerer at
komponenten herdes over tid.
Fordelingen har 𝐸(𝑋) = 𝛼
1
𝛽
−
1
Γ (1 + ) og 𝑉𝑎𝑟(𝑋) = 𝛼
𝛽
2
𝛽
−
2
2
1
𝛽
𝛽
(Γ (1 + ) − (Γ (1 + )) ).
7. FUNKSJONER AV STOKASTISKE VARIABLE
TRANSFORMASJON AV VA RIABLE
La 𝑌 = 𝑢(𝑋) være en en-til-en-transformasjon av en diskret X, og 𝑋 = 𝑤(𝑌) = 𝑢−1 (𝑌) = 𝑢−1 𝑢(𝑋).
Sannsynlighetstettheten til Y blir da 𝑔(𝑦) = 𝑓(𝑤(𝑦)). Når X er kontinuerlig blir 𝑔(𝑦) = 𝑓(𝑤(𝑦))𝑤′(𝑦), eller
𝑔(𝑦) = 𝑓(𝑤(𝑦))|𝐽|, der 𝐽 er Jacobideterminanten, når vi har funksjoner av flere variable.
Det finnes også en annen metode for å regne seg frem til 𝑔(𝑦): løs 𝑢(𝑋) < 𝑌, finn 𝐺(𝑌) = 𝑃(𝑌 ≤ 𝑦) ved å
integrere over de x som løser ulikheten og la 𝑔(𝑦) = 𝐺 ′ (𝑌). På grunn av produktregelen for derivasjon ender vi
opp med det samme uttrykket som før.
Når 𝑢(𝑋) ikke er en-til-en lager man seg et sett en-til-en-funksjoner og summerer opp løsningene. For
eksempel, når 𝑢(𝑋) = 𝑋 2 summerer vi opp løsningene for 𝑋 = √𝑌 og 𝑋 = −√𝑌.
MOMENTGENERERENDE FUNKSJON
∞
Den momentgenererende funksjonen til X er 𝐸(𝑒 𝑡𝑋 ) = ∑𝑥 𝑒 𝑡𝑥 𝑓(𝑥) = ∫−∞ 𝑒 𝑡𝑥 𝑓(𝑥)𝑑𝑥 .
(𝑘)
Vi har at 𝐸[𝑋 𝑘 ] = 𝑀𝑋 (0), altså at forventningsverdien til 𝑋 𝑘 er den k’te deriverte av den
(𝑘)
momentgenererende funksjonen til 𝑋 evaluert i x = 0. 𝑀𝑋 (0) kalles 𝑋 sitt k’te moment. Det første momentet
er forventningsverdien og det andre momentet opptrer i uttrykket for varians, 𝑉𝑎𝑟(𝑋) = 𝑀𝑋′ (0) − 𝑀𝑋 (0)2 .
Det tredje momentet er et mål på hvor skjev fordelingen er og det fjerde momentet er et mål på hvor tykk eller
tynn fordelingen er – det er ikke pensum, men det er jo artig da
Den momentgenererende funksjonen er unik, det vil si at 𝑀𝑋 (𝑡) = 𝑀𝑌 (𝑡) ⇔ 𝑓𝑋 (𝑥) = 𝑓𝑌 (𝑦), så vi kan bruke
den momentgenererende funksjonen til å finne fordelingen til stokastiske variable. Hvis vi finner den
momentgenererende funksjonen til en stokastisk variabel, og finner at den er den samme som den
momentgenererende funksjonen til en stokastisk variabel med kjent fordeling, har de to variablene den samme
fordelingen. Veldig mange teoremer i pensum utledes med momentgenererende funksjoner.
Videre har vi at
-
𝑀𝑋+𝑎 (𝑡) = 𝑒 𝑎𝑡 𝑀𝑋 (𝑡)
𝑀𝑎𝑋 (𝑡) = 𝑀𝑋 (𝑎𝑡)
𝑀𝑋1+⋯+𝑋𝑛 (𝑡) = 𝑀𝑋1 (𝑡) … 𝑀𝑋𝑛 (𝑡)
-
når 𝑥 < 0 ⇒ 𝑓(𝑥) = 0 er 𝑀𝑋 (−𝑡) Laplacetransformen til 𝑓(𝑥).
LINEÆRKOMBINASJONER AV N ORMALFORDELTE VARIABLE
SUMMER AV UAVHENGIGE NORMALFORDELTE VARIAB LE
Når 𝑋1 , … , 𝑋𝑛 er uavhengige normalfordelte variable med forventningsverdier 𝜇1 , … , 𝜇𝑛 og varianser 𝜎12 , … , 𝜎𝑛2
vil 𝑌 = ∑𝑛𝑘=1 𝑎𝑘 𝑋𝑘 ha en normalfordeling med 𝜇𝑌 = ∑𝑛𝑘=1 𝑎𝑘 𝜇𝑘 og 𝜎𝑌2 = ∑𝑛𝑘=1 𝑎𝑘2 𝜎𝑘2 , som kan vises med
momentgenererende funksjoner.
SUMMER AV UAVHENGIGE KJIKVADRATFORDELTE VARIABLE
Når 𝑋1 , … , 𝑋𝑛 er uavhengige kjikvadratfordelte variable med forventningsverdier 𝜈1 , … , 𝜈𝑛 frihetsgrader vil 𝑌 =
∑𝑛𝑘=1 𝑎𝑘 𝑋𝑘 ha en kjikvadratfordeling med ∑𝑛𝑘=1 𝑣𝑘 frihetsgrader.
KVADRATSUMMER AV UAVHENGIGE VARIABLE
Når 𝑋1 , … , 𝑋𝑛 er uavhengige normalfordelte variable med forventningsverdier 𝜇1 , … , 𝜇𝑛 og varianser 𝜎12 , … , 𝜎𝑛2
vil 𝑌 = ∑𝑛𝑘=1 (
𝑋𝑘 −𝜇𝑘 2
𝜎𝑘
) være kjikvadratfordelt med 𝜈 = 𝑛 frihetsgrader. Hvis de har samme forventningsverdi 𝜇
og samme varians 𝜎 2 , forenkles dette til at 𝑌 = ∑𝑛𝑘=1 (
𝑋𝑘 −𝜇 2
𝜎
) er kjikvadratfordelt med 𝜈 = 𝑛 frihetsgrader.
ORDNINGSVARIABLE
Se eget notat om ordningsvariable her.
8 + 9. ESTIMERING
En populasjon inneholder alle observasjoner det er mulig å gjøre om en mengde. Et utvalg er en delmengde av
disse observasjonene. Hvis 𝑋1 , … , 𝑋𝑛 er 𝑛 uavhengige stokastiske variable som alle har den samme
fordelingsfunksjonen 𝑓(𝑥) kan vi definere 𝑋1 , … , 𝑋𝑛 som et tilfeldig utvalg med størrelse 𝑛 fra populasjonen
𝑓(𝑥), og den simultane sannsynlighetsfordelingen til det tilfeldige utvalget er 𝑓(𝒙) = 𝑓(𝑥1 , … , 𝑥𝑛 ) =
𝑓(𝑥1 ) … 𝑓(𝑥𝑛 ).
𝑓(𝑥) vil også være bestemt av visse parametere som vi enten må kjenne på teoretisk grunnlag eller estimere
basert på utvalget. En observator, på engelsk a statistic, er en funksjon av det tilfeldige utvalget, og en
observator som gir et estimat for en bestemt parameter kalles en estimator. Verdiene til estimatorene våre blir
estimatene. En god estimator er forventningsrett og effektiv. En observator 𝜃̂ er en forventningsrett estimator
for 𝜃 når 𝐸(𝜃̂) = 𝜃. Den mest effektive estimatoren for 𝜃 er den som har minst varians.
NOEN VIKTIGE ESTIMAT ORER
2
1
𝜎
Det empiriske snittet 𝑋̅ = ∑𝑛𝑘=1 𝑥𝑖 er en forventningsrett estimator for 𝜇. Den har varians . Den empiriske
𝑛
variansen 𝑆 2 =
1
𝑛−1
𝑛
∑𝑛𝑘=1(𝑋𝑖 − 𝑋̅)2 er en forventningsrett estimator for 𝜎. Den empiriske variansen har et
annet uttrykk som kan være nyttig, nemlig 𝑆 2 =
1
𝑛(𝑛−1)
[𝑛 ∑𝑛𝑘=1 𝑋𝑖2 − (∑𝑛𝑘=1 𝑋𝑖 )2 ], som vi finner ved å gange ut
kvadratuttrykket. Det empiriske standardavviket 𝑆 er kvadratroten av den empiriske variansen.
𝑋̅ og 𝑆 2 er uavhengige (det kan vises at 𝐶𝑜𝑣(𝑋̅, 𝑆 2 ) = 0).
Observatoren 𝑍 =
𝑋̅ −𝜇
er standard normalfordelt. Hvis hver 𝑋𝑖 ikke er normalfordelt, vil 𝑍 fortsatt være
𝜎/√𝑛
standardnormalfordelt dersom n er stor nok (typisk ca. 30) på grunn av sengralgrenseteoremet.
Observatoren 𝑉 =
𝑛−1
𝜎2
𝑆 2 er kjikvadratfordelt med 𝜈 = 𝑛 − 1 frihetsgrader. Vi kan tenke oss at vi mister en
frihetsgrad ved å ha estimert 𝜇 med 𝑋̅ i estimatoren av 𝜎 2 .
SENTRALGRENSETEOREME T
Hvis 𝑋̅ er det empiriske snittet til et tilfeldig utvalg med størrelse 𝑛 tatt fra en populasjon med
forventningsverdi 𝜇 og varians 𝜎 2 vil lim
𝑋̅−𝜇
𝑛→∞ 𝜎/√𝑛
være standard normalfordeling.
T-FORDELINGEN
Når 𝜎 er ukjent, og 𝑛 ikke er spesielt stor (typ lavere enn 30), må vi bruke t-fordelingen. For å utlede
fordelingen til 𝑇 =
𝑋̅−𝜇
𝑆/√𝑛
skriver vi
𝑇=
𝑋̅ − 𝜇
𝜎\√𝑛
√𝑆 2/𝜎 2
=
𝑍
2
√(𝑛 − 1)𝑆 /𝜎
𝑛−1
2
=
𝑍
√ 𝑉
𝑛−1
Fordelingsfunksjonen til en slik variabel er en t-fordeling med n-1 frihetsgrader og står som tabell på side 4.
Den eksakte fordelingsfunksjonen er
𝜈+1
ν+1
2 − 2
)
𝑡
2
(1 + )
𝜈
Γ(𝜈/2)√𝜋𝜈
Γ(
Så når vi har uavhengige variabler 𝑋1 , … , 𝑋𝑛 som alle er normalfordelte med snitt 𝜇 og standardavvik 𝜎, og
1
lar 𝑋̅ = ∑𝑛𝑖=1 𝑋𝑖 , 𝑆 2 =
𝑛
1
𝑛−1
∑2𝑖=1(𝑋𝑖 − 𝑋̅)2 , vil 𝑇 =
𝑋̅−𝜇
𝑆/√𝑛
være t-fordelt med 𝜈 = 𝑛 − 1 frihetsgrader. Når 𝑣 →
∞ går t-fordelingen mot en normalfordeling. Lavere 𝜈 vil gi en kurve med tykkere haler, altså større varians.
INTERVALLESTIMERING
KONFIDENSINTERVALL
Et (𝟏 − 𝜶)-konfidensintervall er et intervall (𝜃̂𝐿 , 𝜃̂𝑈 ) der 𝜃̂𝐿 , 𝜃̂𝑈 er funksjoner av 𝑋1 , … , 𝑋𝑛 slik at
𝑃(𝜃̂𝐿 < 𝜃 < 𝜃̂𝑈 ) = 1 − 𝛼. Den grafiske tolkningen av slike konfidensintervaller blir at arealet under grafen til
sannsynlighetsfordelingsfunksjonen i intervallet vårt er 1 − 𝛼. 𝛼 kalles intervallets signifikansnivå.
Vi konstruerer disse funksjonene ved å begynne med en observator som knytter parameteren vi skal estimere
til en sannsynlighetsfordeling. Disse observatorene er typisk 𝑍, 𝑉 eller 𝑇, og vi kaller disse pivotale størrelser
fordi fordelingen deres ikke avhenger av ukjente parametre. Så sette vi opp en av disse dobbeltulikhetene med
fordelingens kvantiler, som står i tabellverket. Man begynner med å sette inn de kjente uttrykkene for hver
variabel, og så regne om til ulikheten sentreres om parameteren man lurer på.
For normalfordelingen gjelder
𝑃(−𝑧𝛼/2 < 𝑍 < 𝑧𝛼/2 ) = 1 − 𝛼
Kvantilene står på s. 3. Denne kan vi bruke når vi kjenner variansen og skal estimere 𝜇 med 𝑥̅ , eller hvis vi skal
finne minste 𝑛 slik at sannsynligheten for at estimatfeilen med sannsynlighet 1 − 𝛼 ikke overskrider en viss
feilstørrelse 𝜖. Omregning gir oss at |𝜖| < 𝑧𝛼/2 𝜎/√𝑛 med sannsynlighet 1 − 𝛼 og at vi krever en 𝑛 ≥
(
𝑧𝛼/2 𝜎 2
𝜖
) for at feilen med sannsynnlighet 1 − 𝛼 ikke overskrider 𝜖. Vi runder opp til nærmeste heltall for å være
sikre.
Siden normalfordelingen er symmetrisk er det relativt enkelt å lage et ensidig konfidensinterall, som er
nyttigere når vi trenger et estimate for det verdien «i verste tilfelle» kan være:
𝑃(𝑍 < 𝑧𝛼 ) = 1 − 𝛼
For t-fordelingen gjelder
𝑃(−𝑡𝛼/2,𝜈 < 𝑇 < 𝑡𝛼/2,𝜈 ) = 1 − 𝛼
Kvantilene står på s. 4. Denne bruker vi når vi vil utlede konfidensintervaller der vi ikke kjenner 𝜎. Ensidig
intervall kan gjøres på akkurat samme måte som for normalfordelingen.
For 𝜒 2 -fordelingen gjelder
2
𝑃(𝜒1−𝛼/2,𝜈
< 𝑉 < 𝜒 2𝛼/2,𝜈 ) = 1 − 𝛼
Kvantilene står på s. 5. Denne brukes når vi skal estimere 𝜎. Legg merke til at kvantilene i kjikvadratfordelingen
er forskjellig fra kvantilene i t-fordelingen og normalfordelingen fordi den ikke er symmetrisk.
PREDIKSJONSINTERVALL
Når vi ønsker å forutse verdien til en ny fremtidig måling 𝑥0 av den stokastiske variabelen 𝑋, lager vi et
prediksjonsintervall som tar hensyn til både variansen i målingen 𝑥0 og variansen til forventningsverdien til 𝑥0 ,
siden denne forventningsverdien må estimeres med 𝑥̅ . 𝑥0 vil falle innenfor intervallets grenser med
sannsynlighet 1 − 𝛼. For å konstruere intervallet tar vi utgangspunkt i egenskapene til observatoren 𝑋 − 𝑋̅ :
𝐸(𝑋 − 𝑋̅) = 𝐸(𝑋) − 𝐸(𝑋̅) = 𝜇 − 𝜇 = 0
𝑉𝑎𝑟(𝑋 − 𝑋̅) = 𝑉𝑎𝑟(𝑋) + 𝑉𝑎𝑟(𝑋̅) = 𝜎 2 +
𝜎2
1
= 𝜎 2 (1 + )
𝑛
𝑛
Siden 𝑋 og 𝑋̅ er normalfordelte vil også 𝑋 − 𝑋̅ være normalfordelte. Ut i fra dette får vi den standard
normalfordelte observatoren
𝑍=
𝑋 − 𝑋̅
𝜎√1 +
1
𝑛
hvor vi har satt inn oppdaterte verdier i det vanlige uttrykket for 𝑍. Når vi ikke kjenner 𝜎 bytter vi ut denne med
𝑠 og får en helt tilsvarende 𝑇-observator. Disse observatorene brukes til å lage prediksjonsintervall på samme
måte som man lagde konfidensintervall.
Resultatene av en vitenskapelig undersøkelse er gjerne svært sensitiv for «dårlig» data med verdier som ligger
langt unna snittet. En outlier («vill observasjon» på norsk, ikke uteligger) er en observasjon som faller utenfor
prediksjonsintervallet man regner ut ved å bruke alle andre verdier enn observasjonen det er snakk om.
TOUTVALGS ESTIMERING : ESTIMERING AV FORS KJELLEN MELLOM TO MIDDELVERDIER
KJENTE VARIANSER
Vi har to populasjoner 𝑋1 , … , 𝑋𝑛 og 𝑌1 , … , 𝑌𝑚 med størrelser 𝑛 og 𝑚, middelverdier 𝜇𝑋 og 𝜇𝑌 og varianser 𝜎𝑋2 og
𝜎𝑌2 . Et punktestimat for forskjellen 𝜇𝑋 − 𝜇𝑌 mellom middelverdiene til to forskjellige populasjoner er 𝑋̅ − 𝑌̅,
som er normalfordelt med forventningsverdi 𝜇𝑋 − 𝜇𝑌 og varians
𝑍=
2
𝜎𝑋
𝑛
+
𝜎𝑌2
𝑚
. Vi har derfor at
(𝑋̅ − 𝑌̅) − (𝜇𝑋 − 𝜇𝑌 )
2
2
√𝜎𝑋 + 𝜎𝑌
𝑛
𝑚
Fra dette uttrykket utledes konfidensintervall for 𝜇𝑋 − 𝜇𝑌 .
UKJENTE VARIANSER
Hvis vi ikke kjenner til 𝜎𝑋2 og 𝜎𝑌2 , men antar at 𝜎𝑋2 = 𝜎𝑌2 = 𝜎 2 (som vi ofte gjør i virkelige eksperimenter hvor vi
for eksempel tester en populasjon mot en kontrollpopulasjon), kan vi fortsatt lage konfidensintervaller med litt
arbeid.
-
2
(𝑛−1)𝑆𝑋
𝜎2
og
(𝑚−1)𝑆𝑌2
𝜎2
er kjikvadratfordelte med henholdsvis 𝑛 − 1 og 𝑚 − 1 frihetsgrader
summen av to kjikvadratfordelte variabler er kjikvadratfordelt med summen av frihetsgradene, så 𝑉 =
2
(𝑛−1)𝑆𝑋
+(𝑚−1)𝑆𝑌2
𝜎
er kjikvadratfordelt med 𝜈 = 𝑛 + 𝑚 − 2 frihetsgrader
(𝑋̅ −𝑌̅ )−(𝜇𝑋 −𝜇𝑌 )
𝑇=
-
Hvis vi lar 𝑆𝑃2 «S pooled» være en estimator for 𝜎, der 𝑆𝑝2 =
til 𝑇 =
1 1
𝜎2[ + ]
𝑛 𝑚
/√
2 +(𝑚−1)𝑆 2
(𝑛−1)𝑆𝑋
𝑌
-
𝜎 2 (𝑛+𝑚−2)
er t-fordelt med 𝜈 = 𝑛 + 𝑚 − 2 frihetsgrader
2
(𝑛−1)𝑆𝑋
+(𝑚−1)𝑆𝑌2
𝑛+𝑚−2
, forenkles uttrykket for 𝑇
(𝑋̅ −𝑌̅ )−(𝜇𝑋 −𝜇𝑌 )
1 1
𝑛 𝑚
.
𝑆𝑝 √ +
-
Fra dette utledes et konfidensintervall for 𝜇𝑋 − 𝜇𝑌 .
Det viktigste å ta med seg fra dette er uttrykket for 𝑆𝑃2 , som er et vektet gjennomsnitt av 𝑆𝑋 og 𝑆𝑌 , og det
endelige uttrykket for 𝑇.
Når 𝜎𝑋2 ≠ 𝜎𝑌2 trenger vi en t-fordeling med 𝜈 =
2
(𝑆𝑋
/𝑛+𝑆𝑌2 /𝑚)
2
2
2
2
2
(𝑆 /𝑛)
(𝑆 /𝑚)
[ 𝑋
]+[ 𝑌
]
𝑛−1
frihetsgrader. Uttrykket for 𝜈 er et
𝑚−1
2
spesialtilfelle av Welch-Satterthwaites formel,
2
(∑𝑁
𝑖=1 𝑆𝑖 /𝑛𝑖 )
2
(𝑆2
𝑖 /𝑛𝑖 )
∑𝑁
𝑖=1 𝑛 −1
𝑖
, her med 𝑁 = 2. 𝜈 er sjelden et heltall, så det rundes
ned til nærmeste heltall. Siden 𝜈 nå er estimert, får vi her et estimert konfidensintervall, så vi må bytte ut =
med ≈ i uttrykket for konfidensintervallet.
Som regel, men ikke alltid, får vi et kortere (mer presist) konfidensintervall ved færre antagelser (f.eks å ikke
anta at 𝜎𝑋2 = 𝜎𝑌2 ).
ESTIMAT AV P I BINOMIALFORDELINGE N
ETT UTVALG: ESTIMAT AV 𝑝
𝑋
Hvis 𝑋 er antall suksesser i en binomisk forsøksrekke vil 𝑃̂ = være en naturlig estimator av 𝑝. Vi finner
𝑛
verdien 𝑥 til 𝑋 og bruker 𝑝̂ = 𝑥/𝑛 til å estimere 𝑝. Når 𝑝 forventes å ikke være ekstremt nær 0 eller 1 kan vi via
sentralteoremet bruke at, for tilstrekkelig store 𝑛, er 𝑃̂ tilnærmet normalfordelt med
𝑋
𝑛𝑝
𝜇𝑃̂ = 𝐸(𝑃̂ ) = 𝐸 ( ) =
=𝑝
𝑛
𝑛
𝜎𝑃2̂ = 𝜎𝑋2 =
𝑛
𝜎𝑋2 𝑛𝑝(1 − 𝑝) 𝑝(1 − 𝑝)
=
=
𝑛2
𝑛2
𝑛
Dette gir oss en ny standardfordelt observator og et nytt konfidensintervall (for enten 𝑝 eller minste akseptable
verdi til 𝑛) der
𝑍=
𝑃̂ − 𝑝
√𝑝(1 − 𝑝)
𝑛
Det er vanskelig (men mulig) å finne et eksakt uttrykk for 𝑝, så hvis 𝑛 er stor nok bytter man ut 𝑝 med 𝑝̂ = 𝑥/𝑛 i
rotuttrykket. For å være sikker, kreves det at både 𝑛𝑝̂ > 5 og 𝑛(1 − 𝑝̂ ) > 5, ellers kan man ikke stole på denne
metoden.
Metoden kan også brukes når en binomisk fordeling brukes til å approksimere en hypergeometrisk fordeling,
dvs. når 𝑁 ≫ 𝑛.
TO UTVALG: ESTIMAT AV 𝑝𝑋 − 𝑝𝑌
Vi ser på to utvalg med størrelse 𝑛 og 𝑚, middelverdier 𝑛𝑝𝑋 og 𝑚𝑝𝑌 og varianser 𝑛𝑝𝑋 (1 − 𝑝𝑋 ) og
𝑚𝑝𝑌 (1 − 𝑝𝑌 ). Vi finner antall suksesser i hvert tilfelle, altså 𝑥 og 𝑦, og lager estimatorene 𝑝̂𝑋 = 𝑥/𝑛 og 𝑝̂𝑌 =
𝑦/𝑚 for 𝑝𝑋 og 𝑝𝑌 . Fra dette får vi en estimator 𝑃̂𝑋 − 𝑃̂𝑌 for 𝑝𝑋 − 𝑝𝑌 . Et standard resonnement gir oss
𝑍=
(𝑃̂𝑋 − 𝑃̂𝑌 ) − (𝑝𝑋 − 𝑝𝑌 )
√𝑝𝑋 (1 − 𝑝𝑋 ) + 𝑝𝑌 (1 − 𝑝𝑌 )
𝑛
𝑚
Hvis 𝑛𝑝̂ > 5, 𝑛(1 − 𝑝̂ ) > 5, 𝑚𝑝̂ > 5 og 𝑚(1 − 𝑝̂ ) > 5 gjør vi som før og bytter ut 𝑝𝑋 med 𝑝̂𝑋 , og 𝑝𝑌 med 𝑝̂𝑌 .
ETT UTVALG: ESTIMAT AV 𝜎
Vi ser på et utvalg med størrelse 𝑛 fra en normalfordelt populasjon med varians 𝜎 2 og regner ut
utvalgsvariansen 𝑠 2 , som er verdien til estimatoren 𝑆 2 av 𝜎 2 . For å lage et konfidensintervall bruker vi at 𝑉 =
(𝑛−1)𝑆 2
𝜎2
2
er 𝜒 2 -fordelt med 𝜈 = 𝑛 − 1 frihetsgrader og bruker vanlig metode for å utlede konfidensintervallene
til 𝜒 -fordelte variable.
TO UTVALG: ESTIMAT AV 𝜎𝑋2 /𝜎𝑌2
Dette er ganske slitsomt, og ikke pensum.
SANNSYNLIGHETSMAKSIMERIN GSESTIMATORER
I situasjoner der det ikke er intuitivt hva slags estimator vi bør velge, gir
sannsynlighetsmaksimeringsestimeringsprinsippet en systematisk metode for å finne estimatorer. Denne går
ut på å finne parameterverdien som maksimerer sannsynligheten for å observere det vi har observert.
Metoden tar litt tid å forstå, men er veldig enkel å bruke. En estimator for 𝜃 som utledes med denne metoden
kalles sannsynlighetsmaksimeringsestimatoren til 𝜃.
På engelsk kalles metoden maximum likelihood estimation, som gjør det tydelig at man ikke kan bruke
likelihood og probability om hverandre uten å være forsiktig – på norsk kunne man kanskje brukt «rimelighet».
Når en student 𝑆 er lei av å snakke om lengden av ordene som brukes i dette temaet, kalles 𝑆 en
sannsynlighetsmaksimeringsestimeringsprinsippfagbegrepnavngivningstilbakemeldinggivningslei student.
LIKELIHOODFUNKSJONEN
Hvis 𝑿 = 𝑋1 , … , 𝑋𝑛 er et tilfeldig utvalg som vi vil bruke til å estimere en parameter 𝜃, kan vi definere
likelihoodfunksjonen 𝐿(𝒙; 𝜃) = 𝑃(𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 |𝜃) = 𝑓𝑋1,…,𝑋𝑛 (𝒙; 𝜃) for henholdsvis det diskrete og det
kontinuerlige tilfellet. Siden vi som regel gjør 𝑛 uavhengige observasjoner forenkles uttrykket til det mer
brukbare
𝑛
𝑛
𝐿(𝒙; 𝜃) = 𝑃(𝑋1 = 𝑥1 ) … 𝑃(𝑋𝑛 = 𝑥𝑛 ) = ∏ 𝑃(𝑋𝑘 = 𝑥𝑘 ) = 𝑓(𝑥1 ; 𝜃) … 𝑓(𝑥𝑛 ; 𝜃) = ∏ 𝑓(𝑥𝑘 ; 𝜃)
𝑘=1
𝑘=1
𝑃-notasjonen kan naturligvis bare brukes i det diskrete tilfellet siden man i det kontinuerlige tilfellet har at
𝑥
𝑃(𝑋 = 𝑥) = 𝑃(𝑥 ≤ 𝑋 ≤ 𝑥) = ∫𝑥 𝑓(𝑥)𝑑𝑥 = 0.
Vi ønsker å finne verdien 𝜃̂ for 𝜃 som maksimerer 𝐿(𝒙; 𝜃), eller mer formelt 𝜃̂: ∀𝜃 (𝐿(𝒙; 𝜃̂) ≥ 𝐿(𝒙; 𝜃)), eller
mindre formelt toppunktet til 𝐿. Noen ganger er det åpenbart hva 𝜃̂ må være, andre ganger kan vi bruke den
vanlige metoden for å finne toppunkter, altså å finne 𝜃̂ slik at
at
𝜕2
𝜕𝜃2
𝜕
𝜕𝜃
̂ ) = 0. Det kan hende vi også må sjekke
𝐿(𝒙; 𝜃
𝐿(𝒙; 𝜃) < 0 siden vi sjelden er interessert i å finne sannsynlighetsminimeringsestimatoren til 𝜃.
Det er praktisk talt alltid lettere å finne maksimum til ln(𝐿) fordi vi da opererer med en sum i stedet for et
produkt:
𝑛
𝑛
ln(𝐿(𝒙; 𝜃)) = ln (∏ 𝑓(𝑥𝑘 |𝜃)) = ∑ ln(𝑓(𝑥𝑘 |𝜃))
𝑘=1
𝑘=1
Siden ln() er en strengt voksende funksjon vil ln(𝐿) og 𝐿 ha samme maksimum.
INVARIANSEGENSKAPEN TIL SANNSYNLIGHETSMA KSIMERINGSESTIMATORE N
Hvis 𝜃̂ er en sannsynlighetsmaksimeringsestimator til 𝜃 er 𝜏̂ = 𝑔(𝜃̂ ) en sannsynlighetsmaksimeringsestimator
til 𝜏 = 𝑔(𝜃). Derfor kan ofte man bruke kjente sannsynlighetsmaksimeringsestimatorer til å regne ut nye
sannsynlighetsmaksimeringsestimatorer.
FORVENTNING OG VARIANS TIL SANNSYNLIGHETSMAKSIMERINGSESTIMATOREN
Sannsynlighetsmaksimeringsestimatoren er ikke nødvendigvis forventningsrett, og den er heller ikke
nødvendigvis den mest effektive estimatoren. For eksempel er sannsynlighetsmaksimeringsestimatoren til 𝜎
1
gitt ved 𝜎̂ = ∑𝑛𝑘=1(𝑋 − 𝑋̅)2 , som ikke er forventningsrett. Den går riktignok mot å være forventningsrett og
𝑛
blir tilstrekkelig effektiv når 𝑛 går mot ∞. Dessuten kan det hende at det er lett å finne en forventningsrett
estimator når man har funnet sannsynlighetsmaksimeringsestimatoren. I tilfellet med 𝜎 kan vi for eksempel
𝑛−1
𝑛
1
∑𝑛𝑘=1(𝑋 − 𝑋̅)2 slik at
bruke at 𝐸(𝜎̂) =
𝜎 til å lage den forventningsrette estimatoren 𝑆 =
𝜎̂ =
𝐸(𝑆) =
𝑛
𝑛−1
𝜎̂ =
𝑛
𝑛 𝑛−1
𝑛−1 𝑛
𝑛−1
𝑛−1
𝜎 = 𝜎.
10. HYPOTESETESTING
En statistisk hypotese er en påstand om en eller flere populasjoner. Når vi tester en hypotese, undersøker vi
om påstanden er tilstrekkelig sannsynlig. For å teste en hypotese, finner man først nullhypotesen 𝐻0 , som er
hypotesen vi ønsker å utfordre, gjerne hypotesen man på forhånd antar – «status quo». Så setter man opp den
alternative hypotesen 𝐻1 slik at å forkaste 𝐻0 er ekvivalent med å akseptere 𝐻1 . Konklusjonen av en
hypotesetest er nødvendigvis en av de to følgende:
-
Vi forkaster 𝐻0 til fordel for 𝐻1 fordi det finnes tilstrekkelig grunnlag for dette i observasjonene våre
Vi mislykkes i å forkaste 𝐻0 fordi det ikke finnes tilstrekkelig grunnlag i observasjonene våre
Testen gjøres ved å velge et signifikansnivå 𝛼, definere en testobservator 𝑉 = 𝑉(𝒙) (der 𝒙 er datasettet vårt),
og dele opp verdiområdet til 𝑉 i et forkastningsområde 𝐶 og et akseptområde 𝐴 slik at testresultatet med
sannsynlighet 1 − 𝛼 havner i 𝐴 dersom 𝐻0 er riktig. Hvis testresultatet havner i 𝐶 forkaster vi 𝐻0 til fordel for
𝐻1 .
Hvis testresultatet havner i 𝐶 selv om 𝐻0 er sann vil vi feilaktig forkaste 𝐻0 . Dette er en type I-feil.
Sannsynligheten for å begå type I-feil er 𝛼. Hvis testresultatet havner i 𝐴 selv om 𝐻0 er usann vil vi feilaktig
mislykkes i å forkaste 𝐻0 . Dette er en type II-feil. Sannsynligheten for å type II-feil kalles 𝛽, som varierer med
hvor langt 𝐻0 er unna virkeligheten og først kan regnes ut når man har en spesifikk alternativ hypotese. 𝛼 og 𝛽
er negativt korrelerte, så når den ene er stor er den andre liten og omvendt. Vi kan gjøre sannsynligheten for å
begå type I feil så liten vi vil ved å velge en liten nok 𝛼, men sannsynligheten for å begå type II-feil øker med 𝛼.
Derfor må man gjøre en subjektiv vurdering og bestemme seg for hvilken type feil man helst vil unngå når man
velger 𝛼. Sannsynligheten for å begå både type I-feil og type II-feil synker med økende utvalgsstørrelse.
En p-verdi er det laveste signifikansnivået vi kan velge hvor den observerte verdien til testobservatoren gjør at
vi må forkaste 𝐻0 . Resultater oppgis gjerne som en ulikhet der p-verdien inngår, f.eks at 𝑝 > 0.05. Det er ofte
interessant å finne p-verdien fordi det gir et mer nyansert beslutningsgrunnlag enn ja/nei-svaret fra
hypotesetesten. For eksempel vil en p-verdi på 6% gjøre at vi ikke forkaster nullhypotesen dersom vi har en
hypotesetest med signifikansnivå på 5%, men det kan godt hende vi likevel gjør en beslutning basert på at
nullhypotesen ikke forkastes.
Styrken til en test er sannsynligheten for å forkaste 𝐻0 dersom en spesifikk alternativ hypotese er sann, og har
verdien 𝛾 = 1 − 𝛽.
ENSIDIG OG TOSIDIG TEST
En test der 𝐶 er ett sammenhengende område kalles en ensidig test, og er på formen
𝐻0 : 𝜃 = 𝜃0
𝐻1 : 𝜃 > 𝜃0
der forkastningsområdet ligger i den høyre halen til fordelingsfunksjonen til 𝜃, eller
𝐻0 : 𝜃 = 𝜃0
𝐻1 : 𝜃 < 𝜃0
der forkastningsområdet ligger i den venstre halen til fordelingsfunksjonen til 𝜃.
En test der C deles opp i to områder kalles en tosidig test, og er på formen
𝐻0 : 𝜃 = 𝜃0
𝐻1 : 𝜃 ≠ 𝜃0
der forkastningsområdet gjerne har like stor sannsynlighetsmasse plassert i hver hale av fordelingsfunksjonen
til 𝜃.
Man velger gjerne 𝐻0 ved å velge den som kan uttrykkes med et likhetstegn, men når man gjør det i en ensidig
test kan man ikke bruke testen til å forkaste påstanden man får ved å snu ulikheten som 𝐻1 uttrykker. Men det
er gjerne påstanden som uttrykkes ved 𝐻1 vi er mest interessert i. De første eksemplene i boka gjør at dette blir
ganske klart.
NOEN VANLIGE TESTER AV FORVENTNINGER
FORVENTNING TIL GJENN OMSNITT VED KJENT VARIANS
Vi tar utgangspunkt i et utvalg 𝑋1 , … , 𝑋𝑛 fra en fordeling med ukjent middelverdi 𝜇 og kjent varians 𝜎 2 . Det
oppgis en 𝜇0 , og vi vil teste 𝐻0 mot 𝐻1 der
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0
Denne tosidige testen baseres på testobservatoren 𝑋̅, som for tilstrekkelig store 𝑛 er tilnærmet normalfordelt
med 𝜇𝑋̅ = 𝜇 og 𝜎𝑋2̅ =
𝜎2
𝑛
ved sentralgrenseteoremet. Så setter vi opp et konfidensintervall for å bestemme
forkastningsområdet basert på den observerte verdien 𝑥̅ til 𝑋̅ ved å bruke den standardnormalfordelte
variabelen
𝑍=
Under 𝐻0 , altså hvis 𝜇 = 𝜇0, får vi at
𝑋̅ − 𝜇
𝜎/√𝑛
𝑃 (−𝑧𝛼/2 <
𝑋̅ − 𝜇0
𝜎/√𝑛
< 𝑧𝛼/2 ) = 1 − 𝛼
Så forkastningsområdet er (−∞, −𝑧𝛼/2 ) ∪ (𝑧𝛼/2 , ∞). Vi forkaster 𝐻0 dersom 𝑥̅ ligger i dette området. Med litt
regning finner vi ut at vi kan forkaste 𝐻0 dersom 𝑥̅ < 𝜇0 − 𝑧𝛼/2
|𝑥̅ − 𝜇0 | > 𝑧𝛼/2
𝜎
√𝑛
𝜎
√𝑛
eller hvis 𝑥̅ > 𝜇0 + 𝑧𝛼/2
𝜎
√𝑛
, altså hvis
.
Vi kan også skrive ulikheten med tanke på 𝜇0 , da får vi at 𝐻0 ikke forkastes når 𝑥̅ − 𝑧𝛼/2
𝜎
√𝑛
≤ 𝜇0 ≤ 𝑥̅ + 𝑧𝛼/2
𝜎
√𝑛
.
Denne tosidige hypotesetesten er altså ekvivalent med å konstruere et (1 − 𝛼)-konfidensintervall for 𝜇0 og
forkaste 𝐻0 dersom 𝑥̅ er utenfor konfidensintervallet.
Hvis vi vil gjøre en ensidig test, er hele sannsynlighetsmassen til forkastningsområdet plassert i en hale av
fordelingen. Derfor vil vi bruke 𝛼-kvantilen i stedet for 𝛼/2-kvantilen. Ellers har vi akkurat samme prosedyre
som i den tosidige testen.
FORVENTNING TIL GJENNOMSNITT VED UKJENT VARIANS
Hvis vi har samme betingelser som i forrige test bortsett fra at 𝜎 2 også er ukjent, vil vi ved signifikansnivå 𝛼
forkaste 𝐻0 hvis den t-fordelte testobservatoren 𝑡 =
𝑥̅ −𝜇0
𝑠/√𝑛
havner utenfor akseptområdet (−𝑡𝛼/2,𝑛−1 , 𝑡𝛼/2,𝑛−1 )
dersom vi har en tosidig test. Hvis vi har en ensidig test gjør vi tilsvarende det vi gjorde i forrige test.
DIFFERANSE MELLOM FORVENTNINGER TIL GJENNOMSNITT AV TO FORSKJELLIGE U TVALG MED
KJENTE VARIANSER
Her har vi to utvalg som er tilstrekkelig store til at sentralgrenseteoremet gjelder, og ønsker å teste om det er
grunnlag for å si at det er en bestemt differanse mellom de to verdiene. Med samme notasjon som før: vi
ønsker å teste
𝐻0 : 𝜇𝑋 − 𝜇𝑌 = 𝑑0
𝐻1 : 𝜇𝑋 − 𝜇𝑌 ≠ 𝑑0
Vi bruker
𝑍=
(𝑋̅ − 𝑌̅) − (𝜇𝑋 − 𝜇𝑌 )
2
2
√𝜎𝑋 + 𝜎𝑌
𝑛
𝑚
og gjennomfører testen på samme måte som vi gjorde tidligere.
DIFFERANSE MELLOM FO RVENTNINGER TIL GJENNOMSNITT AV TO FORSKJELLIGE UTVALG MED
UKJENTE, MEN LIKE, V ARIANSER
Når 𝜎𝑋2 og 𝜎𝑌2 er ukjente, men vi har god grunn til å anta at 𝜎𝑋2 = 𝜎𝑌2 = 𝜎 2 , gjør vi som i testen av forventning til
gjennomsnitt ved ukjent varians, men bruker 𝑡 =
(𝑥̅ −𝑦̅)−𝑑0
1 1
𝑛 𝑚
𝑠𝑝 /( + )
der 𝑠𝑝2 =
2 (𝑛+1)+𝑠 2 (𝑚+1)
𝑠𝑋
𝑌
𝑛+𝑚−2
og forkaster 𝐻0 hvis
observatoren havner utenfor akseptområdet (−𝑡𝛼/2,𝑛+𝑚−2 , 𝑡𝛼/2,𝑛+𝑚−2 ).
DIFFERANSE MELLOM FO RVENTNINGER TIL GJENNOMSNITT AV TO FORSKJELLIGE UTVALG MED
UKJENTE OG ULIKE VARIANSER
Se på kapittelet om estimering av forskjellen mellom to middelverdier med ukjente og ulike varianser og forstå
hva som bør gjøres.
PARRET T-TEST
PARREDE OBSERVASJONE R
Parrede observasjoner sammenligner to utvalg i tilfeller der hver verdi i ett utvalg har en naturlig partner i den
andre. Et typisk eksempel på dette er om vi vil sjekke vekten til en person før og etter en diett, da vil vekten til
et individ før dietten ha en naturlig partner i vekten til det samme individet etter dietten. Her vil det være mulig
å redusere et toutvalgsproblem til et ettutvalgsproblem.
Differansene 𝑑1 , … , 𝑑𝑛 i hvert par av observasjoner vil være verdiene til det tilfeldige utvalget 𝐷1 , … , 𝐷𝑛 fra en
populasjon av differanser. For tilstrekkelig store 𝑛 antar vi at populasjonen er normalfordelt med 𝜇𝐷 = 𝜇1 − 𝜇2
̅ som punktestimat for 𝜇𝐷 .
og en varians 𝜎𝐷2 som vi estimerer med den empiriske variansen 𝑠𝐷2 . Vi brukes 𝐷
Siden hvert par av observasjoner {𝑋𝑖 , 𝑌𝑖 } ikke vil være uavhengige av hverandre har vi at 𝜎𝐷2𝑖 = 𝜎𝑋2𝑖 + 𝜎𝑌2𝑖 −
2𝜎𝑋𝑖𝑌𝑖 .
PARRET T-TEST
Konfidensintervallet for 𝜇1 − 𝜇2 baseres på variabelen 𝑇 =
̅ −𝜇𝐷
𝐷
𝑆𝐷 /√𝑛
og regnes ut med testobservatoren 𝑡 =
(𝑑̅ −𝑑0 )
𝑠𝐷 /√𝑛
, og forkastningsområdet konstrueres med en 𝑡-fordeling med 𝑛 − 1 frihetsgrader. Hypotesen vår blir
𝐻0 : 𝜇𝐷 = 𝑑0
𝐻1 : 𝜇𝐷 ≠ 𝑑0
Ofte er 𝑑0 = 0, som når vi vil teste om en medisin eller prosedyre har noen effekt.
NÅR BØR MAN BRUKE EN PARRET T-TEST?
Hvis 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑖 ) > 0 vil en parret t-test som oftest ha større teststyrke.
Hvis 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑖 ) = 0 bør man bruke en toutvalgs t-test, som vil ha litt større styrke enn en parret t-test.
Hvis 𝐶𝑜𝑣(𝑋𝑖 , 𝑌𝑖 ) < 0 vil man feilaktig forkaste 𝐻0 for ofte ved en uparret t-test, og feilaktig mislykkes i å
forkaste 𝐻0 for ofte ved en parret t-test.
TESTSTYRKE
Styrkefunksjonen for en ensidig test er
𝛾 = 1 − 𝛽 = 1 − 𝑃(𝑇𝑦𝑝𝑒 𝐼𝐼 − 𝑓𝑒𝑖𝑙|𝐻1 ) = 𝑃(𝑓𝑜𝑟𝑘𝑎𝑠𝑡 𝐻0 |𝐻1 )
Når vi har en spesifikk alternativ hypotese gir styrkefunksjonen en sammenheng mellom teststyrken 𝛾;
signifikansnivået 𝛼; avviket 𝜇 − 𝜇0 mellom den sanne verdien 𝜇 og parameterverdien 𝜇̂ under 𝐻0 ; variansen 𝜎 2
til observasjonene; og utvalgsstørrelsen 𝑛. Styrkefunksjonen kan derfor gi oss den siste av disse verdiene om vi
vet resten. Se boka for eksempler.
TEST FOR P MED BINOMISKE DATA
ETTUTVALGS TEST FOR P MED BINOMISKE DATA
Vi ønsker å teste om andelen suksesser 𝑝 i et binomisk forsøk er lik en forhåndsantatt verdi 𝑝0 .
Alternativhypotesen vil være 𝑝 < 𝑝0 , 𝑝 > 𝑝0 eller 𝑝 ≠ 𝑝0 . Signifikansnivået vårt er 𝛼, og testobservatoren er en
binomisk variabel 𝑋 med 𝑝𝑋 = 𝑝0 . Fra datasettet vårt finner vi antall suksesser 𝑥.
Når 𝑛 er stor kan vi bruke en normaltilnærming på testobservatoren og sette 𝑍 =
𝑃̂−𝑃0
√𝑝0 (1−𝑝0 )/𝑛
𝑋
, der 𝑃̂ = . Her
𝑛
kan det hende at vi må bruke de samme tilnærmingene som vi brukte da vi estimerte 𝑝 i kapittel 9. Ellers
gjennomføres testen på akkurat samme måte som før. Vi kan også finne ut ting som hvor stor 𝑛 må være hvis vi
ønsker en gitt teststyrke.
Siden den binomiske fordelingen er diskret, er det sannsynligvis ikke mulig å lage et forkastningsområde som er
nøyaktig så stort at sannsynlighetsmassen til området er 𝛼. Det kan derfor være nyttig å heller bruke 𝑃-verdier
dersom 𝑛 er liten. Hvis vi har en ensidig test regner vi ut enten 𝑃 = 𝑃(𝑋 ≤ 𝑥|𝑝 = 𝑝0 ) eller 𝑃 = 𝑃(𝑋 ≥ 𝑥|𝑝 =
𝑝0 ). Hvis vi har en tosidig test regner vi ut 𝑃 = 2𝑃(𝑋 ≤ 𝑥|𝑝 = 𝑝0 ) hvis 𝑥 < 𝑛𝑝0 og 𝑃 = 2𝑃(𝑋 ≥ 𝑥|𝑝 = 𝑝0 ) hvis
𝑥 > 𝑛𝑝0 . Vi forkaster 𝐻0 dersom 𝑃 < 𝛼.
TOUTVALGS TEST FOR FORSKJELL I P MED BINOMISKE DATA
Vi ønsker å teste om to andeler suksesser er like (for eksempel kan vi ønske å teste om andelen røykere med
lungekreft er større enn andelen ikkerøykere med lungekreft). Her tester vi nullhypotesen 𝐻0 : 𝑝𝑋 = 𝑝𝑌 = 𝑝
𝑋
𝑌
mot alternativhypotesen 𝐻1 : 𝑝𝑋 ≠ 𝑝𝑌 , og bruker observatorene 𝑃̂𝑋 = , 𝑃̂𝑌 = . Under 𝐻0 er 𝐸(𝑃̂𝑋 − 𝑃̂𝑌 ) =
𝑛
𝑚
𝑝(1−𝑝)
𝑝(1−𝑝)
1
1
𝑝𝑋 − 𝑝𝑌 = 𝑝 − 𝑝 = 0 og 𝑉𝑎𝑟(𝑃̂𝑋 − 𝑃̂𝑌 ) = 𝑉𝑎𝑟(𝑃̂𝑋 ) + 𝑉𝑎𝑟(𝑃̂𝑌 ) =
+
= 𝑝(1 − 𝑝) ( + ).
𝑛
Normaltilmæring gir oss testobservatoren 𝑍 =
𝑃̂𝑋 −𝑃̂𝑌
1 1
𝑛 𝑚
𝑚
𝑛
𝑚
, men vi kjenner ikke 𝑝. Derfor tilnærmer vi med
√𝑝(1−𝑝)( + )
𝑍≈
𝑃̂𝑋 −𝑃̂𝑌
1 1
𝑛 𝑚
√𝑝̂(1−𝑝̂)( + )
, der 𝑝̂ er en «pooled estimator» (litt som 𝑆𝑝2 da vi skulle beregne forkjellen mellom
middelverdiene til to populasjoner med ukjente varianser) med verdien 𝑝̂ =
𝑛𝑃̂𝑋 +𝑚𝑃̂𝑌
𝑛+𝑚
=
𝑋+𝑌
𝑛+𝑚
. Under 𝐻0
tilsvarer dette en binomisk forsøksrekke med 𝑛 + 𝑚 forsøk der sannsynligheten for suksess i hvert tilfelle er 𝑝̂ .
Vi forkaster 𝐻0 hvis observatoren havner i forkastningsområdet.
TEST FOR VARIANS
Når vi skal utføre en hypotesetest der nullhypotesen er at variansen 𝜎 2 til en populasjon har en gitt verdi 𝜎02
mot en av de vanlige alternativhypotesene, bruker vi den samme kjikvadratfordelte observatoren som vi brukte
for å konstruere et konfidensintervall i kapittel 9. Testobservatoren vår blir derfor 𝜒 2 =
(𝑛−1)𝑠 2
𝜎02
. For en tosidet
2
2
test vil forkastningsområdet være at 𝜒 2 ligger utenfor intervallet (𝜒1−𝛼/2
, 𝜒𝛼/2
), og for en ensidet test med
2
alternativhypotese 𝜎 2 < 𝜎02 eller 𝜎 2 > 𝜎02 vil forkastningsområdet være henholdsvis 𝜒 2 < 𝜒1−𝛼
eller 𝜒 2 > 𝜒𝛼2 .
Legg merke til hvordan kvantilene til kjikvadratfordelingen skiller seg fra normalfordelingen og t-fordelingen.
11. ENKEL LINEÆR REGRESJON
I dette kapittelet får man stor nytte av følgende identiteter:
𝑛
𝑛
∑(𝑥𝑖 − 𝑥̅ ) = ∑ 𝑥𝑖 − 𝑛𝑥̅ = 𝑛𝑥̅ − 𝑛𝑥̅ = 0
𝑖=1
𝑛
𝑖=1
𝑛
𝑛
𝑛
𝑛
𝑛
∑ 𝑥𝑖 (𝑥𝑖 − 𝑥̅ ) = ∑ 𝑥𝑖 (𝑥𝑖 − 𝑥̅ ) + 0𝑥̅ = ∑ 𝑥𝑖 (𝑥𝑖 − 𝑥̅ ) − 𝑥̅ ∑(𝑥𝑖 − 𝑥̅ ) = ∑(𝑥𝑖 − 𝑥̅ ) (𝑥𝑖 − 𝑥̅ ) = ∑(𝑥𝑖 − 𝑥̅ )2
𝑖=1
𝑖=1
𝑖=1
𝑖=1
𝑖=1
𝑖=1
som brukes til å beregne tre viktige estimatorer og deres forventningsverdi og varians.
REGRESJONSMODELLEN
Enkel lineær regresjon går ut på at vi utfører et forsøk der vi kontrollerer regresjonsvariabelen (eller
regressoren) 𝑥1 og måler responsvariabelen 𝑌. Videre antar vi at forholdet mellom 𝑥 og 𝑌 kan approksimeres
godt med en lineær statistisk modell der vi antar at 𝑌 avhenger lineært av 𝑥 og at det er en tilfeldig
komponent involvert. Modellen skrives slik:
𝑌 = 𝛼 + 𝛽𝑥 + 𝜖
𝛼 og 𝛽 er som vanlig henholdsvis konstantledd og stigningstall. 𝜖 representerer den tilfeldige feilen og antas å
være normalfordelt med middelverdi 0 (altså at 𝑦-verdiene er normalfordelt rundt en sanne regresjonslinjen
𝑦 = 𝛼 + 𝛽𝑥) og en varians 𝜎 2 som vi kan kalle feilvariansen. Vi antar også at hver 𝜖𝑖 er uavhengig av andre 𝜖𝑗
og at de alle har samme varians.
Vi kan aldri finne den sanne regresjonslinjen, men estimerer den med en tilpasset regresjonslinje 𝑦̂ = 𝑎 + 𝑏𝑥
der 𝑎 og 𝑏 er estimater av henholdsvis 𝛼 og 𝛽. Estimater for 𝛼 og 𝛽 kan man finne med to metoder (som er
ekvivalente i den forstand at vi får de samme estimatorene).
METODER FOR Å FINNE ESTIMATORENE
MINSTE KVADRATE RS METODE
Her tar vi utgangspunkt i residualene 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 , som er feilen mellom den målte verdien og den estimerte
verdien. Jo mindre disse residualene er, jo bedre er modellen vår. Merk at residualene ikke er det samme som
den tilfeldige komponenten 𝜖, som er en konseptuell greie som vi egentlig aldri observerer. Residualene kan vi
finne. Se boka for en grei figur som vise forskjellen mellom de to. Minste kvadraters metode går ut på å finne
estimater som minimerer residualenes kvadratsum 𝑆𝑆𝐸, der verdien til 𝑆𝑆𝐸 er gitt ved
𝑛
𝑆𝑆𝐸 =
∑ 𝑒𝑖2
𝑖=1
1
𝑛
= ∑(𝑦𝑖 − 𝑦̂𝑖
𝑖=1
𝑛
)2
= ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2
𝑖=1
I multippel regresjon kontrollerer vi et sett uavhengige regresjonsvariable 𝒙 = 𝑥1 , … , 𝑥𝑛 , men vi måler fortsatt
bare én responsvariabel.
Siden vi vil minimere 𝑆𝑆𝐸 er det naturlig å finne 𝑎 og 𝑏 slik at den deriverte blir 0. Derivering med hensyn på 𝑎
gir oss:
𝑛
𝜕
𝑆𝑆𝐸 = −2 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) = 0
𝜕𝑎
𝑖=1
fra dette følger
𝑛
𝑛
𝑖=1
𝑖=1
1
𝑏
𝑎 = ∑ 𝑦𝑖 − ∑ 𝑥𝑖 = 𝑦̅ − 𝑏𝑥̅
𝑛
𝑛
Derivering med hensyn på 𝛽 gir oss
𝑛
𝜕
𝑆𝑆𝐸 = −2 ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 ) 𝑥𝑖 = 0
𝜕𝑏
𝑖=1
hvor vi kan sette inn uttrykket for 𝑎:
𝑛
𝑛
𝑛
𝑛
∑(𝑦𝑖 − 𝑦̅ + 𝑏𝑥̅ − 𝑏𝑥𝑖 ) 𝑥𝑖 = ∑((𝑦𝑖 − 𝑦̅)𝑥𝑖 − 𝑏(𝑥𝑖 − 𝑥̅ )𝑥𝑖 ) = ∑(𝑦𝑖 − 𝑦̅)𝑥𝑖 − 𝑏 ∑(𝑥𝑖 − 𝑥̅ )𝑥𝑖
𝑖=1
𝑖=1
𝑖=1
𝑏=
𝑖=1
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)𝑥𝑖
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑥𝑖
og bruker at ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) = 0 samt svart magi til å se at dette er det samme som
𝑏=
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑦𝑖
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
Vi kan bruke dette uttrykket for 𝑏 i uttrykket for 𝑎 for å finne tallverdiene til estimatene. Det kan vises at både
𝑎 og 𝑏 er forventningsrette.
SANNSYNLIGHETSMAKSIMERINGSESTIMATORMETODEN
Praktisk nok er estimatorene vi fant med minste kvadraters metode også
sannsynlighetsmaksimeringsestimatorene til 𝛼 og 𝛽.
𝑌 er normalfordelt med 𝜇𝑌 = 𝛼 + 𝛽𝑥𝑖 og 𝜎𝑌2 = 𝜎 2 , så likelihoodfunksjonen er
𝑛
𝐿(𝑦1 , … , 𝑦𝑛 ; 𝛼, 𝛽, 𝜎
2)
=
𝑛
= 𝑓(𝑦1 , … , 𝑦𝑛 ) = ∏ 𝑓𝑖(𝑦𝑖 ) = ∏
𝑖=1
𝑖=1
𝑛
𝑛 (− 1 ) ∑𝑛 (𝑦 −𝛼−𝛽𝑥 )2
−
−
𝑖
𝑖
2
2
𝑖=1
(2𝜋) 2 (𝜎 ) 2 𝑒 2𝜎
1
√2𝜋𝜎 2
𝑒
−(
1
)(𝑦𝑖 −𝑎−𝑏𝑥𝑖 )2
2𝜎 2
𝑛
𝑛
1
ln(𝐿) = − ln(2𝜋𝜎 2 ) − 2 ∑(𝑦𝑖 − 𝛼 − 𝑏𝑥𝑖 )
2
𝜎
𝑖=1
Hvis vi deriverer ln(𝐿) med hensyn på både 𝑎 og 𝑏 og setter de deriverte lik 0 får vi de samme ligningene som
vi fikk med forrige metode. Det er også rett frem å finne en estimator for 𝜎 2 :
𝑛
𝜕
𝑛 1
1
ln(𝐿) = − ( 2 ) +
∑(𝑦𝑖 − 𝛼 − 𝛽𝑥𝑖 ) = 0
𝜕𝜎 2
2 𝜎
2(𝜎 2 )2
𝑖=1
som gir oss sannsynlighetsmaksimeringsestimatoren
𝑛
1
𝜎̂ = ∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2
𝑛
2
𝑖=1
Det kan vises at denne ikke er forventningsrett. Hvis vi regner på forventningsverdien til 𝜎̂ 2 ser vi at en
forventningsrett estimator 𝑠 2 for regresjonsmodellen blir
𝑛
𝑛
𝑖=1
𝑖=1
1
1
𝑠 =
∑(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 =
∑(𝑦𝑖 − 𝑦̂)2
𝑛−2
𝑛−2
2
EGENSKAPENE TIL ESTIMATORENE
I tillegg til at 𝑎, 𝑏, 𝑠 2 er forventningsrette estimatorer har vi at
𝑉𝑎𝑟(𝑏) =
𝑉𝑎𝑟(𝑎) =
𝜎2
− 𝑥̅ )2
∑𝑛𝑖=1(𝑥𝑖
𝜎 2 ∑𝑛𝑖=1 𝑥𝑖2
1
𝑥̅ 2
2
=
𝜎
(
+
(
))
𝑛
𝑛
∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
For å utlede 𝑉𝑎𝑟(𝑎) vil vi være nødt til å regne ut 𝐶𝑜𝑣(𝑌̅ , 𝑏) siden 𝑌̅ og 𝑏 ikke er uavhengige.
𝑉=
(𝑛−2)𝑆 2
𝜎2
=
1
𝜎2
∑𝑛𝑖=1(𝑌𝑖 − 𝐴 − 𝐵𝑥𝑖 )2 er kjikvadratfordelt med 𝜈 = 𝑛 − 2 frihetsgrader. Vi kan tolke det at vi
deler på 𝑛 − 2 i uttrykket for 𝑠 2 som at vi får noe større varians fordi vi må estimere to variable i stedet for én.
KONFIDENSINTERVALL OG HYPOTESETESTER FOR 𝛼, 𝛽 OG 𝜎 2
Vi kan lage konfidensintervall og teste hypoteser om 𝛼 og 𝛽 på akkurat samme måte som tidligere, men der vi
før ville brukt t- og 𝜒 2 -fordelinger med 𝑛 − 1 frihetsgrader må vi nå bruke fordelinger med 𝜈 = 𝑛 − 2
frihetsgrader. Testobservatorene våre vil være
𝑇=
𝐵−𝛽
𝑆/√∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )
for stigningstallet og
𝑇=
𝐴−𝛼
∑𝑛 𝑥 2
𝑆√ 𝑛 𝑖=1 𝑖
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
for konstantleddet.
PREDIKSJON MED REGRE SJONSMODELLEN
PREDIKSJON AV ÉN VER DI
Vi kan bruke regresjonsmodellen til å forutsi verdien 𝑦0 til 𝑌0 i punktet 𝑥 = 𝑥0 der 𝑥0 ikke nødvendigvis er en
verdi vi på forhånd har målt responsen til. Vi gjør dette ved å se på observatoren 𝑌0 − 𝑌̂0 , som er normalfordelt
med
𝐸(𝑌0 − 𝑌̂0 ) = 𝐸(𝑌0 ) − 𝐸(𝑌̂0 ) = 𝐸(𝐴 + 𝐵𝑥0 ) − 𝐸(𝑌0 ) = 𝛼 + 𝛽𝑥0 − 𝛼 − 𝛽𝑥0 = 0
𝑉𝑎𝑟(𝑌0 − 𝑌̂0 ) = 𝑉𝑎𝑟(𝑌0 ) + 𝑉𝑎𝑟(𝑌̂0 )𝑉𝑎𝑟(𝑌0 ) + 𝑉𝑎𝑟(𝐴 + 𝐵𝑥0 ) = 𝜎 2 + 𝑉𝑎𝑟(𝐴 + 𝐵𝑥0 − 𝐵𝑥̅ + 𝐵𝑥̅ )
= 𝜎 2 + 𝑉𝑎𝑟((𝐴 + 𝐵𝑥̅ ) + 𝐵𝑥0 − 𝐵𝑥̅ ) = 𝜎 2 + 𝑉𝑎𝑟(𝑌̅) + 𝑉𝑎𝑟(𝐵(𝑥0 − 𝑥̅ ))
= 𝜎 2 + 𝑉𝑎𝑟(𝑌̅) + (𝑥0 − 𝑥̅ )2 𝑉𝑎𝑟(𝐵) = 𝜎 2 +
= 𝜎 2 (1 +
𝜎2
𝜎 2 (𝑥0 − 𝑥̅ )2
+ 𝑛
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
(𝑥0 − 𝑥̅ )2
1
+ 𝑛
)
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
Vi lager prediksjonsintervallet vårt ved å bruke observatoren
𝑌0 − 𝑌̂0
𝑇=
𝑆√1 +
1 (𝑥𝑜 − 𝑥̅ )2
+
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
som er t-fordelt med 𝜈 = 𝑛 − 2 frihetsgrader.
PREDIKSJON AV GJENNO MSNITTSRESPONS
Vi kan også finne gjennomsnittsresponsen 𝜇𝑌|𝑥0 til 𝑌 i 𝑥 = 𝑥0 , altså hvilket gjennomsnitt vi vil få dersom vi
måler verdien til 𝑌 mange ganger i punktet 𝑥 = 𝑥0 . Her vil vi få lavere varians, siden vi forutsier et gjennomsnitt
i stedet for en enkelt verdi. Da ser vi på 𝑌̂0 som er normalfordelt med en middelverdi og varians som vi fant i
utledningen av middelverdien og variansen til 𝑌0 − 𝑌̂0 :
𝜇𝑌|𝑥0 = 𝐸(𝑌̂0 ) = 𝛼 + 𝛽𝑥0
(𝑥0 − 𝑥̅ )2
1
𝜎𝑌̂20 = 𝜎 2 ( + 𝑛
)
𝑛 ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2
Vi lager prediksjonsintervallet vårt ved å bruke observatoren
𝑇=
𝑌̂0 − 𝜇𝑌|𝑥0
1 (𝑥 − 𝑥̅ )2
𝑆√ + 𝑜
𝑛 ∑(𝑥𝑖 − 𝑥̅ )2
som er t-fordelt med 𝜈 = 𝑛 − 2 frihetsgrader.
KORRELASJON
Nå gir vi slipp på antagelsen om at 𝑥1 , … , 𝑥𝑛 er verdier vi kan kontrollere eller måle med neglisjerbar feil. I bruk
av regresjon er det gjerne slik at både 𝑋 og 𝑌 begge er tilfeldige variable, og at målingene våre
(𝑥1 , 𝑦1 ), … , (𝑥𝑛 , 𝑦𝑛 ) er observasjoner fra en populasjon med simultan sannsynlighetstetthet 𝑓(𝑥, 𝑦).
Korrelasjonsanalyse beregner i hvilken grad 𝑋 henger sammen med 𝑌 gjennom en korrelasjonskoeffisient.
2
Vi antar at marginaltettheten 𝑓(𝑦|𝑥) til 𝑌 er normalfordelt med middelverdi 𝜇𝑌|𝑥 = 𝛼 + 𝛽𝑥 og varians 𝜎𝑌|𝑥
=
𝜎 2 for en gitt verdi 𝑥 av 𝑋, og at 𝑋 er normalfordelt med middelverdi 𝜇 og varians 𝜎𝑋2 . Dette gir den simultane
tetthetsfunksjonen
1 𝑦−𝛼−𝛽𝑥
− ((
)
1
𝜎
𝑓𝑋,𝑌 (𝑥, 𝑦) = 𝑓𝑌|𝑋 (𝑦|𝑥)𝑓𝑋 (𝑥) =
𝑒 2
2𝜋𝜎𝑋 𝜎
over området −∞ < 𝑥 < ∞, −∞ < 𝑦 < ∞.
2
+(
𝑥−𝜇𝑋 2
) )
𝜎𝑋
Vi kan skrive 𝑌 på formen 𝑌 = 𝛼 + 𝛽𝑋 + 𝜖 der 𝑋 er en stokastisk variabel som er uavhengig av den tilfeldige
feilen 𝜖. Dette gir oss 𝜇𝑌 = 𝛼 + 𝛽𝜇𝑋 og 𝜎𝑌2 = 𝛽 2 𝜎𝑋2 + 𝜎 2. Uttrykkene vi får for 𝛼 og 𝜎 kan vi putte inn i den
simultane tetthetsfunksjonen for å få en bivariat normalfordeling med det deilige uttrykket
𝑓𝑋,𝑌 (𝑥, 𝑦) =
1
2𝜋𝜎𝑋 𝜎𝑌 √1 − 𝜌2
𝑒
1
𝑥−𝜇𝑋 2
𝑥−𝜇𝑋 𝑦−𝜇𝑌
𝑦−𝜇𝑌 2
−
((
) −2𝜌(
)(
)+(
) )
𝜎𝑋
𝜎𝑋
𝜎𝑌
𝜎𝑌
2(1−𝜌2 )
der
𝜌2 = 1 −
𝜎2
𝜎2
2 𝑋
=
𝛽
𝜎𝑌2
𝜎𝑌2
kalles populasjonskorrelasjonskoeffisienten.
Verdien til 𝜌 er 0 når 𝛽 = 0: når regresjonslinja er flat er det ingen korrelasjon mellom 𝑋 og 𝑌 i populasjonen.
Siden 𝜎𝑌2 > 𝜎 2 må 𝜌2 ≤ 1 slik at −1 ≤ 𝜌 ≤ 1. Hvis 𝜌 = ±1 har vi et perfekt lineært forhold mellom 𝑋 og 𝑌 der
𝜎 2 = 0. Derfor vil en 𝜌 som ligger nær 1 i absoluttverdi tyde på god korrelasjon eller lineær assosiasjon mellom
𝑋 og 𝑌, mens verdier nærmere 0 tyder på liten eller ingen korrelasjon.
Vi kan få et estimat av 𝜌 ved å bruke identiteten
𝑛
𝑛
2
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̅) − 𝑏 ∑(𝑥𝑖 − 𝑥̅ )2
𝑖=1
2
𝑖=1
som gir oss
𝑏2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑆𝑆𝐸
=1− 𝑛
𝑛
2
∑𝑖=1(𝑦𝑖 − 𝑦̅)
∑𝑖=1(𝑦𝑖 − 𝑦̅)2
∑𝑛 (𝑥 −𝑥̅ )2
Kvadratroten av denne, 𝑟 = 𝑏√∑𝑛𝑖=1(𝑦𝑖
𝑖=1
̅)
𝑖 −𝑦
2
, brukes som estimat for 𝜌 og kalles
utvalgskorrelasjonskoeffisienten.
𝑟 2 kalles utvalgsdeterminasjonskoeffisienten. Denne forteller oss hvor stor andel av variasjonen i verdiene til
𝑌 som kan gjøres rede for av et lineært forhold til verdiene til 𝑋. En korrelasjon 𝑟0 betyr at (100%)𝑟02 av den
totale variasjonen i verdiene til 𝑌 som kan gjøres rede for av et lineært forhold til verdiene til 𝑋.

TMA4240 Statistikk

Transcription

Similar documents

Ekstraoppgaver i STK1100 Våren 2015 Oppgave 1. La Z 1 og Z2

Regler i statistikk

Markedstilpasning hjelpeark

TMA4245 Statistikk V˚ar 2015 - Institutt for matematiske fag

5.1 Oppgave – Kostnadsfordeling

Driftsbudsjett for Polarfisk AS

SMET130 Statistikk for økonomer H2014 - konte

Notater i ST2304

NYHETSBREV