Modelkontrol og prædiktion
Transcription
Modelkontrol og prædiktion
Program Faculty of Life Sciences • Test af hypotese i ensidet variansanalyse • F -tests og F -fordelingen. Modelkontrol og prædiktion • Multiple sammenligninger. Bonferroni-korrektion Claus Ekstrøm • Opsummering af statistiske modeller/eksempler E-mail: [email protected] • Modelkontrol • Prædiktion Slide 2— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Multiple sammenligninger Opgave 5.2: fosforkoncentration Risikoen afhænger af signifikansniveauet — ofte 5%. Ved et test: risiko for fejl: 5% 0.8 Uge Forfor Probability 0.4 0.6 Hver gang vil laver et test er der risiko for at lave en fejl af type I. 1.0 Lineær regression 1 0.51 2 0.48 3 0.44 4 0.44 5 0.39 6 0.35 7 0.28 8 0.24 Statistisk model: Ved m tests: 0.2 fosfori = α + β · ugei + ei , 0.0 1 − 0.95m 0 Slide 3— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion 10 20 30 40 No. of tests (m) 50 e1 , . . . , en ∼ N(0, σ 2 ) uafhængige R: model1 <- lm(fosfor ~uge) Slide 4— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion 9 0.19 Opgave 6.7: vægttilvækst hos kyllinger Opgave 6.1: drægtighed for heste Ensidet ANOVA En enkelt stikprøve Feed type 1 2 3 4 55 61 42 169 Weight gain 49 42 21 112 30 89 97 81 95 137 169 85 Drægtighedstider for 13 heste: 52 63 92 154 339 339 339 340 341 340 343 348 341 346 342 339 337 Statistisk model: gesti ∼ N(µ, σ 2 ) uafhængige Statistisk model: Modellen kan ogs˚ a skrives: gaini = αfeed(i) + ei , e1 , . . . , en ∼ N(0, σ 2 ) uafhængige gesti = µ + ei , R: model2 <- lm(gain~factor(feed)) Bemærk factor(feed)! Slide 5— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion R: model3 <- lm(gest~1) Slide 6— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Alle modeller Resum´e 1: statistiske modeller og inferens fosfori = α + β · ugei +ei , gaini = αfeed(i) +ei , gesti = µ+ei , e1 , . . . , en ∼ N(0, σ 2 ) uafhængige e1 , . . . , en ∼ N(0, σ 2 ) uafhængige e1 , . . . , en ∼ N(0, σ 2 ) uafhængige e1 , . . . , en ∼ N(0, σ 2 ) uafhængige Variabeltyper: • Responsvariabel, y : fosfor, gain, gest • Forklarende variabel: age (kvantitativ), feed (faktor/kategorisk) Antagelser: • Alle ei (eller yi ) er normalfordelte • Middelværdien af yi afhænger evt. af en forklarende variabel Modellerne for lineær regression, ensidet variansanalyse og en enkelt stikprøve er i virkeligheden meget ens! Det er derfor den statistiske inferens ogs˚ a er den samme i de tre slags modeller (p er antallet af middelværdiparametre): • middelværdiparametre estimeres med LS • spredningen σ estimeres p˚ a “samme m˚ ade” • Konfidensintervaller: estimat ± t0.975,n−p · SE(estimat) • Hypotesetest udføres som t-test eller F -test Modellerne kan udvides til at omfatte flere forklarende variable — kvantitative variable og/eller faktorer. Lineære normale modeller: yi = middelværdii + ei e1 , . . . , en ∼ N(0, σ 2 ) uafhængige • Alle ei (eller yi ) har samme spredning • e1 , . . . , en (eller y1 , . . . , yn ) uafhængige Slide 7— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Slide 8— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Residualer Residualer i R Forventet værdi eller fittet værdi eller prædikteret værdi, yˆi : \i = α • yˆi = fosfor ˆ + βˆ · xi [i = α • yˆi = gain ˆg (i) di = µ • yˆi = gest ˆ > > > > model1 <- lm(fosfor~uge) fit1 <- fitted(model1) res1 <- residuals(model1) stdres1 <- rstandard(model1) ## ## ## ## > > > > model2 <- lm(gain~factor(feed)) fit2 <- fitted(model2) res2 <- residuals(model2) stdres2 <- rstandard(model2) Lineær regression Fittede værdier R˚ a residualer Standard. residualer Residualer: ri = yi − yˆi = observeret − fittet Residualerne er vores bedste gæt p˚ a e’erne! S˚ a q 1 n • σ ˆ = s = n−p ∑i=1 ri2 hvor p er antal middelværdiparametre (2, k, 1) • residualerne kan bruges til modelkontrol! Og hvis du har isdals installeret > residualplot(model1) Residualerne kan standardiseres s˚ a de har spredning 1: ˜ri = ri /SE(ri ). Slide 9— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Modelkontrol: hvorfor? Slide 10— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Modelkontrol: hvordan? Antagelser: Modelkontrol best˚ ar i at kontrollere om modelantagelserne er rimelige for vores data. 1. ei er normalfordelt Hvorfor skal vi lave modelkontrol? 3. ei har samme spredning — uanset de forklarende variable • Hvis antagelserne er ok, s˚ a indeholder 95%-CI populationsværdien med 95% sandsynlighed, og p-værdierne er korrekte. Vi kan stole p˚ a vores resultater! • Hvis antagelserne ikke er ok, s˚ a ved vi ikke om vi kan stole p˚ a vores resultater! Antagelserne om e1 , . . . , en kontrolleres vha. de standardiserede residualer ˜r1 , . . . ,˜rn . 2. ei har middelværdi 0 — uanset de forklarende variable 4. e1 , . . . , en uafhængige Hvordan? • Uafhængighed er snarere et spørgsm˚ al om eksperimentielt design • Kontrollerer de tre første antagelser om e1 , . . . , en vha. de standardiserede residualer ˜r1 , . . . ,˜rn Thorvald Nicolai Thiele, 1838–1910 Man skal tegne før man kan regne Slide 11— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Slide 12— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Plantevækst og fosfor: antagelse 2 og 3 Normal Q−Q Plot ● ● Sample Quantiles −1.0 −0.5 0.0 0.5 1.0 Standardized residuals −1.0 −0.5 0.0 0.5 1.0 1.5 ● Antagelse 1. ei er normalfordelt: • QQ-plot over ˜ r1 , . . . ,˜rn • Sammenlign med ret linie, ● ● ● ● med skæring 0 og hældning 1 Antagelse 2. og 3. ei har middelværdi 0 og samme spredning • Residualplot, ˜ ri mod yˆi ● 1.5 Plantevækst og fosfor: antagelse 1 ● ● • Ingen systematik i den lodrette variation ● ● ● • Er det outliers, dvs. ● ekstreme observationer? (˜r1 , . . . ,˜rn har spredning 1) ● ● ● 0.20 ● −1.5 −1.0 −0.5 0.0 0.5 1.0 Theoretical Quantiles 0.30 0.40 Fitted values 1.5 0.50 Hvis man har installeret isdals kan man bruge residualplot(model) Slide 14— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Slide 13— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Residualplot for to andre datasæt Pillbugs/bænkebidere (case 2) ● 2 ● QQ-plot Residualplot ● ● ● ● ● ● ● ● ● 1 2 ● 1 Andemad (eks. 2.4 og 6.2) Residualanalyse for kyllingedata ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1000 −2 −1 ● ● 1000 3000 Predicted values 5000 Slide 15— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 50 100 fitted(model2) 150 ● ● ● −2 ● −2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● stdres2 0 ● ● ● ● ● ● −1 ● ● Sample Quantiles −1 0 ● rstandard(model2) −1 0 1 ● 0 Std. residuals 1 ● ● −2 ● −1 0 1 Theoretical Quantiles 2 Slide 16— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion 40 60 80 100 fit2 120 140 Antagelse 4: uafhængighed Kan som regel ikke testes vha. data (residualer), men er snarere et spørgsm˚ al om eksperimentets design. Observationerne m˚ a ikke “dele information”. Hvis en observation ligger højere end forventet, ændrer det s˚ a vores viden om hvorvidt de nogle af de øvrige observationer ligger højere/lavere end forventet? Eksempler p˚ a afhængige data: • Data fra samme marker, samme personer, samme planter, etc. • Data fra søskende, kuld, ... Sommetider vil vi gerne have afhængighed — men s˚ a skal der tages højde for det i modellen. Slide 17— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Resum´e 2: modelkontrol Det er ekstremt vigtigt at at lave modelkontrol, for ellers ved vi ikke om vi kan stole p˚ a konfidensintervaller, p-værdier osv. Modelkontrol udføres først og fremmest grafisk, vha. residualplot og QQ-plot for standardiserede residualer. Især residualplottet er vigtigt! • I residualplottet skal den lodrette variation være tilfældig. M˚ a ikke være systematisk forskellige “fra venstre til højre”. • Meget store standardiserede residualer svarer til ekstreme observationer eller outliers. Bør undersøges nærmere. • I QQ-plottet skal punkterne som sædvanlig være spredt tilfældigt om en ret linie, her linien med skæring 0 og hældning 1. • Er det rimeligt at antage uafhængighed? Slide 18— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Plantevækst og fosfor: prædiktion Plantevækst og fosfor: prædiktion Plante bliver fulgt i 7 uger. Forventet forforkoncentration er α + β · 7 der estimeres til Konfidensintervallet udtaler sig om den forventede værdi — ikke en ny observation. ˆ + βˆ · 7 = 0.56972 − 0.04017 · 7 = 0.28853 yˆ = α med estimeret spredning (side 110) s √ 1 (7 − x¯)2 SE(ˆ y0 ) = s + = 0.02031 · 0.4216 = 0.00856 n SSx 95%-konfidensinterval: 0.28853 ± 2.306 · 0.00856 = (0.2688; 0.3083) En plante p˚ a 7 uger f˚ ar m˚ alt forfoskoncentrationen til 0.25. Hvorfor kan vi ikke bruge konfidensintervallet til at afgøre om det er usædvanligt? Slide 19— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Konfidensintervallet tager kun hensyn til estimationfejlen — ikke observationsfejlen. 95%-prædiktionsinterval: s yˆ ± t0.975,n−2 · s · 1+ 1 (x0 − x¯)2 + n SSx Plante p˚ a 7 uger: √ yˆ ± 2.306 · 0.02031 · 1 + 0.4216 = (0.2377, 0.3394) Er en fosforkoncentration p˚ a 0.25 usædvanlig for en plante p˚ a7 uger? Slide 20— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Konfidensinterval vs. prædiktionsinterval Resum´e 3: prædiktion 50 Prædiktion handler om at “forudsige” nye observationer. CI vs. PI: 40 ● ● ● ● Fatpct 30 ● ● • Fortolkning: forventet værdi • 95%-prædiktionsintervallet indeholder med sandsynlighed 95% eller ny observation en ny observation for en given værdi af de(n) forklarende variabel. • PI altid bredere end CI • Et prædiktionsintervaller er altid bredere end det tilsvarende 20 ● • CI kan gøres vilk˚ aligt smalt ● ● 10 ved at øge n, PI kan ikke konfidensinterval fordi det og˚ a tager hensyn til “observationsfejlen” 0 • Kan ikke gøres vilk˚ arligt smalle ved at øge n. 20 30 40 Age 50 60 Prædiktion i ensidet ANOVA og en enkelt stikprøve: se afsnit 7.2.3! Slide 21— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Resum´e 1–3 Slide 22— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Dagens hovedpunkter Modellerne for lineær regression, ensidet ANOVA og en enkelt stikprøve er “samme suppe”. • Samme antagelser — p˚ a nær specifikationen af middelværdien • To typer forklarende variable: kvantitative og faktorer • Statistisk inferens “ens”: LS-estimation, konfidensintervaller, test, prædiktion, modelkontrol • Flere forklarende variable kan kobles p˚ a — stadig samme • Multiple sammenligninger — hvorfor er det et problem, og hvad kan vi gøre ved det? • Modelkontrol • Analyse af standardiserede residualer — hvad skal vi se efter? • Prædiktion. Forskel p˚ a konfidens- og prædiktionsintervaller. Udregning. modeltype og samme m˚ ade at lave statistisk inferens Modellerne er baseret p˚ a normalfordelingen — pga. den centrale grænseværdisætning! Slide 23— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Slide 24— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Ordliste Engelsk explanatory variable independence response variable standardized residual outlier Slide 25— Statistisk Dataanalyse 1 (Uge 4-2) — Modelkontrol og prædiktion Dansk forklarende variabel uafhængighed responsvariabel standardiseret residual ekstrem observation