Gemischte Modelle - Institut für Statistik
Transcription
Gemischte Modelle - Institut für Statistik
Gemischte Modelle Fabian Scheipl, Sonja Greven Institut für Statistik Ludwig-Maximilians-Universität München SoSe 2011 Inhalt Wdh: GLM, LMM Wdh: Generalisiertes Lineares Modell Wdh: Lineares Gemischtes Modell Einführung: GLMM GLMM = GLM + LMM GLMM für Longitudinal-/Clusterdaten Bsp: Madras-Daten GLMM: Marginale und konditionale Verteilung GLMM in allgemeiner Form Bsp: Verpickelung Wdh: GLM, LMM Wdh: Generalisiertes Lineares Modell Generalisiertes Lineares Modell (GLM): Strukturannahme I Strukturannahme: Verknüpfung von Erwartungswert und linearem Prädiktor η = X β durch Linkfunktion g (): E (yi |x i ) = g −1 (ηi ) ⇔ g (E (yi |x i )) = ηi I I Binäre Daten: z.B. Logitmodell: E(yi |x i ) = P(yi = 1|x i ) = Zähldaten: z.B. log-lineares Modell: E(yi |x i ) = exp(x i β) exp(x 0i β) 1+exp(x 0i β) Wdh: GLM, LMM Wdh: Generalisiertes Lineares Modell Generalisiertes Lineares Modell (GLM): Verteilungsannahme I Verteilungsannahme: Gegeben ηi sind die yi unabhängig verteilt und ihre Dichte f (yi ) gehört zu einer Exponentialfamilie: yi θi − b(θi ) ⇒ f (yi |θi ) = exp − c(yi , φi ) φi mit E(yi |x i ) = b0 (θi ) = g −1 (x 0i β); Var(yi |x i ) = φb00 (θi ); I I θ: natürlicher/kanonischer Parameter φi : Skalenparameter (φi = 1 für Binär-/Poisson-Daten) Wdh: GLM, LMM Wdh: Generalisiertes Lineares Modell GLM I Strukturannahme: E (yi |x i ) = g −1 (x 0i β) I Verteilungsannahme: f (yi |θi ) = exp yi θi − b(θi ) − c(yi , φi ) φi ⇒ Verknüpfung von Erwartungswertstruktur und Varianzstruktur I I E(yi |x i ) = g −1 (x 0i β) = b 0 (θi ) Var(yi |x i ) = φi b 00 (θi ) Wdh: GLM, LMM Wdh: Generalisiertes Lineares Modell GLM f (yi |θi ) = exp yi θi −b(θi ) φi − c(yi , φi ) I E(yi |x i ) = g −1 (x 0i β) = b0 (θi ) I Var(yi |x i ) = φi b00 (θi ) Also: η θ g −1 b0 φb 00 & . & E (y |θ bzw. η) Var(y |θ) Wdh: GLM, LMM Wdh: Generalisiertes Lineares Modell GLM f (yi |θi ) = exp yi θi −b(θi ) φ − c(yi , φ) I E(yi |x i ) = g −1 (x 0i β) = b0 (θi ) I Var(yi |x i ) = φb00 (θi ) I kanonische Linkfunktion: g −1 () = b0 () Also: η kanonische Linkfkt. = θ g −1 b0 φb 00 & . & E (y |θ bzw. η) Var(y |θ) Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM I Was ist anders/neu im gemischten Modell? I Wozu gemischte Modelle? I Was macht gemischte Modelle so super? Wdh: GLM, LMM LM ⇒ LMM: formal Was ist anders/neu im LMM? Wdh: Lineares Gemischtes Modell Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: formal Was ist anders/neu im LMM? I Erweiterung des linearen Prädiktors um zufällige/penalisierte Effekte b: η = X β + Ub Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: formal Was ist anders/neu im LMM? I Erweiterung des linearen Prädiktors um zufällige/penalisierte Effekte b: η = X β + Ub I Verteilungsannahme über b: b ∼ P(ϑ) üblich: b ∼ N(0, G (ϑ)) Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: formal Was ist anders/neu im LMM? I Erweiterung des linearen Prädiktors um zufällige/penalisierte Effekte b: η = X β + Ub I Verteilungsannahme über b: b ∼ P(ϑ) üblich: b ∼ N(0, G (ϑ)) I Inferenz über penalisierte (Log-)Likelihood: lpen (y |β, b, σε2 , ϑ) = l (y |β, b, σε2 ) + l (b|ϑ) Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: formal Was ist anders/neu im LMM? I Erweiterung des linearen Prädiktors um zufällige/penalisierte Effekte b: η = X β + Ub I Verteilungsannahme über b: b ∼ P(ϑ) üblich: b ∼ N(0, G (ϑ)) I Inferenz über penalisierte (Log-)Likelihood: lpen (y |β, b, σε2 , ϑ) = l (y |β, b, σε2 ) + l (b|ϑ) I konditionales Modell / marginales Modell: U und G (ϑ) bestimmen marginale Kovarianzstruktur von y . y |b ∼ N(X β + Ub, σε2 R); b ∼ N(0, G (ϑ)) ⇒ y ∼ N(X β, UG (ϑ)U 0 + σε2 R) Wdh: GLM, LMM LM ⇒ LMM: inhaltlich Wozu LMM? Wdh: Lineares Gemischtes Modell Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: inhaltlich Wozu LMM? 11 ●● 11 1 20 −10 6 6 5 6 565 4 65 1 1 1 6 4 2 24 4 2 2 4 451 54 4 4 4 42 4 4 2 2 4 2 3 4 11 2 2 3 2 2 22 3 3 33 2 3 3 3 3 33 3 3 3 0 I 1 2 4 t 6 10 y y 10 0 1 6 66 56 5 1 61 6 5 565 5 61 5 6 5 5 1 1 ● 20 0 −10 1 ● 1 ● 6 ● 1 ● 5 6● 56 ● 6● ● 16 ● ● 5 5 ● ● 6● ● 61 ● ● 55 ● 6 ● 6● ● 1● 5● 5 ● 5 6 6 ● ● 5 ● 5 6● ● 56● 1 1● ● 4 ● 65 ● ● 1 ● 6 ● 4 ● ● 4 2● ● 2● 2 51 ● 42 ● 4● ● 4 ● 2● ● 4 4 ● 5● ● 2 ● 4 4 ● ● 4 ● 4 ● 2● 4 ● 4● 2 3 ● 4 11 ● ● 2 ● 2 ● 3● ● 2● 2● 2 ● 2● 3● 3 3● 3 ● 2 ● 3 ● 3 3 ● 3 ● ● 3● ● 3 3 ● 3 3● ● 0 2 4 t 6 Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: inhaltlich Wozu LMM? I konditional betrachtet: (zeitliche/räumliche/hierarchische) Struktur der Daten legt bestimmte Struktur der Abweichungen der Beobachtungen y von X β nahe 11 ●● 11 1 20 −10 6 6 5 6 565 4 65 1 1 1 6 4 2 24 4 2 2 4 451 54 4 4 4 42 4 4 2 2 4 2 3 4 11 2 2 3 2 2 22 3 3 33 2 3 3 3 3 33 3 3 3 0 I 1 2 4 t 6 10 y y 10 0 1 6 66 56 5 1 61 6 5 565 5 61 5 6 5 5 1 1 ● 20 0 −10 1 ● 1 ● 6 ● 1 ● 5 6● 56 ● 6● ● 16 ● ● 5 5 ● ● 6● ● 61 ● ● 55 ● 6 ● 6● ● 1● 5● 5 ● 5 6 6 ● ● 5 ● 5 6● ● 56● 1 1● ● 4 ● 65 ● ● 1 ● 6 ● 4 ● ● 4 2● ● 2● 2 51 ● 42 ● 4● ● 4 ● 2● ● 4 4 ● 5● ● 2 ● 4 4 ● ● 4 ● 4 ● 2● 4 ● 4● 2 3 ● 4 11 ● ● 2 ● 2 ● 3● ● 2● 2● 2 ● 2● 3● 3 3● 3 ● 2 ● 3 ● 3 3 ● 3 ● ● 3● ● 3 3 ● 3 3● ● 0 2 4 t 6 Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: inhaltlich konditional betrachtet: (zeitliche/räumliche/hierarchische) Struktur der Daten legt bestimmte Struktur der Abweichungen der Beobachtungen y von X β nahe: 0 4 11 6 1 66 56 5 1 61 6 5 565 5 61 5 6 5 5 10 −10 6 6 5 6 565 4 65 1 1 1 6 4 2 24 4 2 2 4 451 54 4 4 4 42 4 4 2 2 4 2 3 4 11 2 2 3 2 2 22 3 3 33 2 3 3 3 3 33 3 3 3 0 I 4 6 5 6 2 4 t ● ● ● ● ● ●● ● ● ● ●●● ● ●●● ● ●● ●● ● ●● ● ● ● ●● ●● ●● ●● ● ● ●●●● ● ●● 1 6 10 0 −10 resid 1 0 2 1 20 y I 1 2 3 ●● ● ● ●● ●● ● 10 0 ●●● ● ●● ●● ● ● ● ● ● ●● ● ●●● ● ● ●● ●● ● ● ● ● −10 ● ● ● ●● ●● 0 2 4 6 0 t 2 4 6 Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: inhaltlich marginal betrachtet: (zeitliche/räumliche/hierarchische) Struktur der Daten legt bestimmte Kovarianzstruktur der Beobachtungen nahe: 11 6 1 66 56 5 1 61 6 5 565 5 61 5 6 5 5 10 −10 6 6 5 6 565 4 65 1 1 1 6 4 2 24 4 2 2 4 451 54 4 4 4 42 4 4 2 2 4 2 3 4 11 2 2 3 2 2 22 3 3 33 2 3 3 3 3 33 3 3 3 0 I 10 1 2 4 t 6 resid 1 0 1 ● 1 20 y I 0 1● ● 1 1 1● ● 1 ● ● 1 61 ● 6 ● ● 6 6● ● 6 ● ● 6● ● 56 ● ● 1 5 55 6● ● 5 ● 5● 6● ● 5 5● 6 ● ● 6 ● 6 ● 5 6 ● 5 56 ● ● 6● ● 5 ● ● 5 1● 1● ● 1 5● ● 4● 51 4 ● 1● ● 4 33 4 ● ● 1● 2● ● 4 2 ● ● 4● 4 ● 42 2● ● 2● 2 ● ● 2 ● ● 4 4● 2 ● 3 ● 2● 4 ● 3 4● ● 2 ● 2● 4 3● ● 2 ● 2 ● 3 3 ● 4 ● 2 4● 2 ● ● 3 ● −10 3 ● ● 3 3● ● 3 3 ● 3● ● 3 0 2 4 t 6 Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: pragmatisch betrachtet Was macht gemischte Modelle so super? complete pooling kein pooling 11 ●● 0 −10 1 ● 1 ● 6 ● 1 ● 5 6● 56 ● 6● ● 16 ● ● 5 ● 6● ● ● 61 ● ● 5 55 ● 6 6● ● 1 5● 5 ●● 5 ● 6 6 ● ● 5 ● 5 ● 6● ● 56●● 1 1 4 ● 65 ● ● 1 6● ● 4 ● ● 4 2● ● 2● 2 51 ● 42 ● 4● ● 4 ● 2● ● 4 4 5● ● 2 ● 4 ● 4 ● 4 ● ● 4● 2● 4 ● 4● 2 3 ● 4 11 ● ● 2 ● 2 ● 3● ● 2● 2● 2 ● 2● 3 3● ● 3 3 2 ● ● 3 ● 3 3 ● 3 ● ● 3● ● 3 3 ● 3 3● ● 0 I 2 4 t 6 1 ● 20 10 y y 10 11 ●● 1 ● 20 0 −10 1 ● 1 ● 6 ● 1 ● 5 6● 56 ● 6● ● 16 ● ● 5 ● 6● ● ● 61 ● ● 5 55 ● 6 6● ● 1 5● 5 ●● 5 ● 6 6 ● ● 5 ● 5 ● 6● ● 56●● 1 1 4 ● 65 ● ● 1 6● ● 4 ● ● 4 2● ● 2● 2 51 ● 42 ● 4● ● 4 ● 2● ● 4 4 5● ● 2 ● 4 ● 4 ● 4 ● ● 4● 2● 4 ● 4● 2 3 ● 4 11 ● ● 2 ● 2 ● 3● ● 2● 2● 2 ● 2● 3 3● ● 3 3 2 ● ● 3 ● 3 3 ● 3 ● ● 3● ● 3 3 ● 3 3● ● 0 2 4 t 6 Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: pragmatisch betrachtet Was macht gemischte Modelle so super? I LMM bilden Kompromiss zwischen komplettem pooling und keinem pooling I I komplettes pooling : gewöhnliches LM ohne Einbezug der Gruppierungsstruktur kein pooling : separates LM für jede Ausprägung der Gruppierung complete pooling kein pooling 11 ●● 0 −10 1 ● 1 ● 6 ● 1 ● 5 6● 56 ● 6● ● 16 ● ● 5 ● 6● ● ● 61 ● ● 5 55 ● 6 6● ● 1 5● 5 ●● 5 ● 6 6 ● ● 5 ● 5 ● 6● ● 56●● 1 1 4 ● 65 ● ● 1 6● ● 4 ● ● 4 2● ● 2● 2 51 ● 42 ● 4● ● 4 ● 2● ● 4 4 5● ● 2 ● 4 ● 4 ● 4 ● ● 4● 2● 4 ● 4● 2 3 ● 4 11 ● ● 2 ● 2 ● 3● ● 2● 2● 2 ● 2● 3 3● ● 3 3 2 ● ● 3 ● 3 3 ● 3 ● ● 3● ● 3 3 ● 3 3● ● 0 I 2 4 t 6 1 ● 20 10 y y 10 11 ●● 1 ● 20 0 −10 1 ● 1 ● 6 ● 1 ● 5 6● 56 ● 6● ● 16 ● ● 5 ● 6● ● ● 61 ● ● 5 55 ● 6 6● ● 1 5● 5 ●● 5 ● 6 6 ● ● 5 ● 5 ● 6● ● 56●● 1 1 4 ● 65 ● ● 1 6● ● 4 ● ● 4 2● ● 2● 2 51 ● 42 ● 4● ● 4 ● 2● ● 4 4 5● ● 2 ● 4 ● 4 ● 4 ● ● 4● 2● 4 ● 4● 2 3 ● 4 11 ● ● 2 ● 2 ● 3● ● 2● 2● 2 ● 2● 3 3● ● 3 3 2 ● ● 3 ● 3 3 ● 3 ● ● 3● ● 3 3 ● 3 3● ● 0 2 4 t 6 Wdh: GLM, LMM Wdh: Lineares Gemischtes Modell LM ⇒ LMM: pragmatisch betrachtet I LMM für hierarchische Daten bilden Kompromiss zwischen komplettem pooling und keinem pooling : Schätzung der Varianzparameter ϑ erfasst Heterogenität zwischen Gruppen auf Basis des gesamten Datensatzes → Shrinkage der einzelnen Koeffizienten zum Populationsmittel entsprechend stärker oder schwächer. I penalisiertes Likelihoodkriterium stabilisiert Parameterschätzung (aber: Bias-Varianz-Tradeoff!) I bayesianisch: priori-Annahmen über b bilden Vorwissen über Struktur der Daten ab. Einführung dieser zusätzlichen Information erlaubt stabile Schätzung von Modellen mit sehr vielen Parametern. I sehr vielseitiges Konzept: Modelle für zeitliche, räumliche, hierarchische und gruppierte Datenstrukturen als auch nichtlineare Einflüsse lassen sich als (G)LMM auffassen. Einführung: GLMM GLMM = GLM + LMM LMM ⇒ GLMM: Flexibilisierung der Verteilungsannahme I LMM: nur normalverteilter Response: y |η ∼ Nn (η, Σ) I GLMM: Response aus beliebiger Exponentialfamilie: E(y |η) = g −1 (X β + Ub) y |η ∼ Expo.fam. Einführung: GLMM GLMM = GLM + LMM GLMM = GLM + LMM I 1. Stufe: yi bedingt auf den erweiterten linearen Prädiktor X β + Ub unabhängig verteilt nach Exponentialfamilie (analog GLM) I 2. Stufe: Verteilungsannahme über b ⇒ regularisierte Schätzung (analog LMM) Interpretation der Verteilungsannahme als Penalty oder Eigenschaft der Grundgesamtheit (freq.) oder Priori-Annahme (bayes.) Einführung: GLMM GLMM für Longitudinal-/Clusterdaten GLMM für Longitudinal-/Clusterdaten I yij ; i = 1, . . . , m; m = 1, . . . , ni mit je ni Messwiederholungen an m Subjekten (z.B Binär-/Zähldaten) I Bedingte Verteilung von yij |b i ist aus Exponentialfamilie (z.B. Bernoulli/Poisson) I Bedingter Erwartungswert µij = E(yij |b) = g −1 (x 0ij β + u 0ij b i ) Allg. GLMM Einführung: GLMM Bsp: Madras-Daten Bsp: Madras-Daten rel. Häufigkeit der Anfälle über die Zeit 1.0 I I 69 stationäre SchizophreniePatienten 1 Jahr lang nach Ersteinlieferung beobachtet 12 Beobachtungen pro Patient 0.8 0.6 gender Male y I Female 0.4 0.2 0.0 0 2 4 month 6 8 10 Einführung: GLMM Bsp: Madras-Daten Bsp: Madras-Daten: Logit-Modell mit zufälligem Intercept I I Response: yit ∈ 0, 1: Patient/in i hat Schub im Monat t Kovariablen: I I I month: Zeit in Monaten nach Einlieferung (0-11) gender: Geschlecht id: Patient I Modell: logit(P(yit = 1|bi )) = β0 + bi + βM montht + βG genderi I R: R> load("madras.Rdata") ... (Daten aufhübschen) ... R> library(lme4) R> m1 <- lmer(y ~ month + gender + (1|id), family=binomial(), data=madrasC) Einführung: GLMM Bsp: Madras-Daten Bsp: Madras-Daten: Ergebnis R> summary(m1) Generalized linear mixed model fit by the Laplace approximation Formula: y ~ month + gender + (1 | id) Data: madrasC AIC BIC logLik deviance 646 665 -319 638 Random effects: Groups Name Variance Std.Dev. id (Intercept) 4.91 2.22 Number of obs: 828, groups: id, 69 Fixed effects: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.933 0.437 4.42 9.8e-06 *** month -0.573 0.045 -12.72 < 2e-16 *** genderFemale -1.574 0.595 -2.65 0.0081 ** ... Einführung: GLMM Bsp: Madras-Daten Bsp: Madras-Daten: Interpretation beta exp(beta) CI_95(beta)_lo CI_95(beta)_hi month -0.573 0.564 0.5161 0.616 genderFemale -1.574 0.207 0.0646 0.665 R> quantile(exp(ranef(m1)$id$’(Intercept)’), + p=c(.2,.4,.6,.8)) 20% 40% 60% 80% 0.138 0.634 2.167 5.828 Einführung: GLMM Bsp: Madras-Daten Bsp: Madras-Daten: Interpretation beta exp(beta) CI_95(beta)_lo CI_95(beta)_hi month -0.573 0.564 0.5161 0.616 genderFemale -1.574 0.207 0.0646 0.665 R> quantile(exp(ranef(m1)$id$’(Intercept)’), + p=c(.2,.4,.6,.8)) 20% 40% 60% 80% 0.138 0.634 2.167 5.828 ⇒ relativ starke individuelle Heterogenität Einführung: GLMM Bsp: Madras-Daten Bsp: Madras-Daten ^ Modell 1: yit & p it 1.0 0.8 0.6 gender y Male Female 0.4 0.2 0.0 0 2 4 month 6 8 10 Einführung: GLMM GLMM: Marginale und konditionale Verteilung Bsp: Madras-Daten: Interpretation Wie sind die Parameter in diesem Logit-Modell mit Random Intercept zu interpretieren? beta month −0.573 exp(beta) 0.564 Einführung: GLMM 0.6 0.4 0.2 0.0 logit−1(xβ β) 0.8 1.0 Graphisch: x GLMM: Marginale und konditionale Verteilung Einführung: GLMM Graphisch: 0.6 0.4 0.2 0.0 logit−1(xβ β + b) 0.8 1.0 P(y=1|x, β, b) x GLMM: Marginale und konditionale Verteilung Einführung: GLMM Graphisch: GLMM: Marginale und konditionale Verteilung Einführung: GLMM GLMM: Marginale und konditionale Verteilung Bsp: Interpretation Random-Intercept-Logitmodell Konditional: P(yit =1|xit +1,bi ) P(yit =0|xit +1,bi ) P(yit =1|xit ,bi ) P(yit =0|xit ,bi ) = exp((xit + 1)β + bi ) = exp(β) exp(xit β + bi ) Marginal: P(yit =1|xit +1) P(yit =0|xit +1) P(yit =1|xit ) P(yit =0|xit ) = Eb P(yit =1|xit +1,bi ) P(yit =0|xit +1,bi ) P(yit =1|xit ,bi ) P(yit =0|xit ,bi ) Z = exp((xit + 1)β + bi ) f (b|ϑ)db exp(xit β + bi ) 6= exp(β) ⇒ Interpretation von β nur bedingt auf zufällige Effekte bi zulässig ⇒ β ist individuenspezifischer Parameter, nicht Populationsparameter Einführung: GLMM GLMM: Marginale und konditionale Verteilung GLMM: Marginale und konditionale Verteilung Erinnerung: E(yij |ηij ) = g −1 (x 0ij β + u 0ij b i ) Für g −1 (x) 6= x gilt: Z Eb (E(yij |ηij )) = E(yij |ηij )f (b i |ϑ)d b Z = g −1 (x 0ij β + u 0ij b i )f (b i |ϑ)d b 6= g −1 (x 0ij β) GLMM: ⇒ g −1 (x) 6= x ⇒ marginaler Eb (E(yij |ηij )) 6= konditionaler E(yij |ηij ) Einführung: GLMM GLMM in allgemeiner Form GLMM in allgemeiner Form I Für geeignete Designmatrizen X , U ist η = X β + Ub; η = (η11 , . . . , η1n1 , . . . , ηmnm ) I analog: für b i ∼ N(0, D); i = 1, . . . , m gilt D .. b ∼ N(0, G ); G = . D Hierarchisches GLMM Einführung: GLMM GLMM in allgemeiner Form GLMM in allgemeiner Form I Verteilungsannahme I: Gegeben die zufälligen Effekte b sind die y bedingt unabhängig und die bedingte Dichte f (yi |b i ) gehört zu einer Exponentialfamilie I Strukturannahme: Der bedingte Erwartungswert µi = E(yi |b i ) ist mit dem linearen Prädiktor ηi = x 0i β + u 0i b durch µi = g −1 (ηi ) verknüpft. g () ist eine bekannte Linkfunktion. I Verteilungsannahme II: Die zufälligen Effekte b sind b ∼ N(0, G ) Einführung: GLMM GLMM in allgemeiner Form GLMM in allgemeiner Form I Verteilungsannahme I: Gegeben die zufälligen Effekte b sind die y bedingt unabhängig und die bedingte Dichte f (yi |b i ) gehört zu einer Exponentialfamilie I Strukturannahme: Der bedingte Erwartungswert µi = E(yi |b i ) ist mit dem linearen Prädiktor ηi = x 0i β + u 0i b durch µi = g −1 (ηi ) verknüpft. g () ist eine bekannte Linkfunktion. I Verteilungsannahme II: Die zufälligen Effekte b sind b ∼ N(0, G ) (auch andere Verteilungen möglich) Einführung: GLMM Bsp: Verpickelung Bsp: Verpickelung: Bayesianische Funktionsschätzung Verpickelung im Lauf der Zeit 12 I I keine echten Daten Pickel auf den Gesichtern von 200 Teens und Twens wurden gezählt (1 Beob./Person) Verlauf der Verpickelung über die Zeit 10 8 pickel I 6 4 2 0 15 20 age 25 Einführung: GLMM Bsp: Verpickelung Bsp: Verpickelung: Modell I I I Response pickeli : Teilnehmer/in i hat pickeli Pickel im Gesicht Kovariable alteri : Alter in Jahren (10 − 30) Beobachtungsmodell: pickeli |· ∼ Po (exp (f (alteri ))) f (alteri ) = X β + Ub (aus TP(2)-Basis) X = (1, alter, alter2 ) U = (alter − κ1 )2+ , . . . , (alter − κq )2+ I Prioris: β ∼ N3 (0, 106 I 3 ) (sehr diffuse priori ⇒ quasi unpenalisiert) 1 b|τ ∼ Nq (0, I q ) τ τ ∼ Γ(.01, .01) (diffuse priori für Varianz der Splinekoeffizienten) Einführung: GLMM Bsp: Verpickelung Bsp: Verpickelung: BUGS-Syntax model { #Likelihood: y_j ~ Poisson(mu_j); mu_j = exp(X beta + U b) for (j in 1:n){ y[j] ~ dpois(mu[j]) log(mu[j]) <- inprod(X[j,], beta[]) + inprod(U[j,], b[]) } #priori: beta = (beta_0, beta_lin, beta_qu) ~ N(0, 1e6) for(k in 1:3){ beta[k] ~ dnorm(0.0, 1.0E-6) } #priori: b ~ N(0, 1/tau) for(i in 1:q){ b[i] ~ dnorm(0.0, tau) } #priori: Var(b) ~ InvGamma(.01, .01) tau ~ dgamma(.01, .01) #Transformation: Varianzen der Spline-Koeffizienten sigma.b <- 1/tau Einführung: GLMM Bsp: Verpickelung Bsp: Verpickelung: Ergebnis 3 chains, each with 150000 iterations (first 3000 discarded), n.thin = 20, n.sims = 22050 iterations saved mean sd 2.5% 25% 50% 75% 97.5% Rhat n.eff beta[1] -16.0 5.9 -26.6 -20.6 -16.3 -11.8 -4.7 1.1 43 beta[2] -18.9 6.1 -29.8 -23.6 -19.1 -14.5 -7.2 1.1 43 beta[3] -7.5 2.1 -11.2 -9.1 -7.6 -6.0 -3.6 1.1 44 b[1] 2.5 2.5 -2.5 0.7 2.5 4.2 7.3 1.0 51 b[2] 4.2 2.5 0.0 2.5 4.0 5.6 9.7 1.0 2900 b[3] 1.4 2.3 -3.6 0.1 1.6 2.9 5.7 1.0 1300 b[4] 0.1 2.5 -5.6 -1.2 0.3 1.6 4.5 1.0 3500 b[5] 2.2 3.0 -2.6 0.2 1.7 3.6 9.4 1.0 1200 b[6] -1.4 2.6 -7.1 -2.8 -1.2 0.2 3.3 1.0 4800 b[7] -1.9 2.7 -7.7 -3.4 -1.7 -0.1 3.2 1.0 5900 b[8] -0.1 3.8 -7.8 -2.2 -0.2 1.9 7.6 1.0 9700 sigma.b 16.0 20.0 1.9 5.6 10.1 18.7 67.4 1.0 240 deviance 553.7 3.8 547.8 551.0 553.2 555.9 562.5 1.0 2100 For each parameter, n.eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor Einführung: GLMM Bsp: Verpickelung Bsp: Verpickelung: Ergebnis Bugs model at "X:\Lehre\gemischte_Modelle_SoSe2011\Fabian\R\pickel\pickelT −50 80% interval for each chain 0 50 beta[1] [2] [3] b[1] [2] [3] [4] [5] [6] [7] [8] sigma.b 1 R−hat 1.5 2+ 1.5 2+ ● ● ● ● ● ● ● ● ● ● ● ● −50 0 50 1 Einführung: GLMM Bsp: Verpickelung 12 Bsp: Verpickelung: Ergebnis ● Daten (jittered) post. MW + HPD 80% (punktweise) Wahrheit ● 10 ● ● 8 ● ● 6 ●● ● ● ● ● ● 4 ● ●● 2 ● ●● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ●● ● ● 0 pickel ●● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● 15 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● 10 ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ●●●● ● ● ● age ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ● 20 ● ● ● ● ● ● ● ● ●● ●● ● ● 25 ● ● ●●● ● ● ● ● ● ● ● ● ●● ●●● ●● ●● ●●●● ● ● ● ●● ●● ● ● ●● 30 Einführung: GLMM Bsp: Verpickelung Hausaufgabe/Übung: I Experimentieren Sie mit dem R-Code für die Madras-Daten- wie lässt sich der Fit des Modells weiter verbessern? I Schreiben Sie ein BUGS-Model für kubische B-splines mit penalisierten zweiten Differenzen I Wiederholen Sie den IWLS-Algorithmus I Informieren Sie sich über die Laplace-Approximation (z.B. http://www.inference.phy.cam.ac.uk/mackay/itprnn/ps/341. 342.pdf)