Gemischte Modelle - Institut für Statistik

Transcription

Gemischte Modelle - Institut für Statistik
Gemischte Modelle
Fabian Scheipl, Sonja Greven
Institut für Statistik
Ludwig-Maximilians-Universität München
SoSe 2011
Inhalt
Wdh: GLM, LMM
Wdh: Generalisiertes Lineares Modell
Wdh: Lineares Gemischtes Modell
Einführung: GLMM
GLMM = GLM + LMM
GLMM für Longitudinal-/Clusterdaten
Bsp: Madras-Daten
GLMM: Marginale und konditionale Verteilung
GLMM in allgemeiner Form
Bsp: Verpickelung
Wdh: GLM, LMM
Wdh: Generalisiertes Lineares Modell
Generalisiertes Lineares Modell (GLM): Strukturannahme
I
Strukturannahme: Verknüpfung von Erwartungswert und linearem
Prädiktor η = X β durch Linkfunktion g ():
E (yi |x i ) = g −1 (ηi ) ⇔ g (E (yi |x i )) = ηi
I
I
Binäre Daten: z.B. Logitmodell: E(yi |x i ) = P(yi = 1|x i ) =
Zähldaten: z.B. log-lineares Modell: E(yi |x i ) = exp(x i β)
exp(x 0i β)
1+exp(x 0i β)
Wdh: GLM, LMM
Wdh: Generalisiertes Lineares Modell
Generalisiertes Lineares Modell (GLM): Verteilungsannahme
I
Verteilungsannahme: Gegeben ηi sind die yi unabhängig verteilt und
ihre Dichte f (yi ) gehört zu einer Exponentialfamilie:
yi θi − b(θi )
⇒ f (yi |θi ) = exp
− c(yi , φi )
φi
mit E(yi |x i ) = b0 (θi ) = g −1 (x 0i β); Var(yi |x i ) = φb00 (θi );
I
I
θ: natürlicher/kanonischer Parameter
φi : Skalenparameter (φi = 1 für Binär-/Poisson-Daten)
Wdh: GLM, LMM
Wdh: Generalisiertes Lineares Modell
GLM
I
Strukturannahme:
E (yi |x i ) = g −1 (x 0i β)
I
Verteilungsannahme:
f (yi |θi ) = exp
yi θi − b(θi )
− c(yi , φi )
φi
⇒ Verknüpfung von Erwartungswertstruktur und Varianzstruktur
I
I
E(yi |x i ) = g −1 (x 0i β) = b 0 (θi )
Var(yi |x i ) = φi b 00 (θi )
Wdh: GLM, LMM
Wdh: Generalisiertes Lineares Modell
GLM
f (yi |θi ) = exp
yi θi −b(θi )
φi
− c(yi , φi )
I
E(yi |x i ) = g −1 (x 0i β) = b0 (θi )
I
Var(yi |x i ) = φi b00 (θi )
Also:
η
θ
g −1
b0
φb 00
&
.
&
E (y |θ bzw. η)
Var(y |θ)
Wdh: GLM, LMM
Wdh: Generalisiertes Lineares Modell
GLM
f (yi |θi ) = exp
yi θi −b(θi )
φ
− c(yi , φ)
I
E(yi |x i ) = g −1 (x 0i β) = b0 (θi )
I
Var(yi |x i ) = φb00 (θi )
I
kanonische Linkfunktion: g −1 () = b0 ()
Also:
η
kanonische Linkfkt.
=
θ
g −1
b0
φb 00
&
.
&
E (y |θ bzw. η)
Var(y |θ)
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM
I
Was ist anders/neu im gemischten Modell?
I
Wozu gemischte Modelle?
I
Was macht gemischte Modelle so super?
Wdh: GLM, LMM
LM ⇒ LMM: formal
Was ist anders/neu im LMM?
Wdh: Lineares Gemischtes Modell
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: formal
Was ist anders/neu im LMM?
I
Erweiterung des linearen Prädiktors um zufällige/penalisierte
Effekte b: η = X β + Ub
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: formal
Was ist anders/neu im LMM?
I
Erweiterung des linearen Prädiktors um zufällige/penalisierte
Effekte b: η = X β + Ub
I
Verteilungsannahme über b: b ∼ P(ϑ)
üblich: b ∼ N(0, G (ϑ))
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: formal
Was ist anders/neu im LMM?
I
Erweiterung des linearen Prädiktors um zufällige/penalisierte
Effekte b: η = X β + Ub
I
Verteilungsannahme über b: b ∼ P(ϑ)
üblich: b ∼ N(0, G (ϑ))
I
Inferenz über penalisierte (Log-)Likelihood:
lpen (y |β, b, σε2 , ϑ) = l (y |β, b, σε2 ) + l (b|ϑ)
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: formal
Was ist anders/neu im LMM?
I
Erweiterung des linearen Prädiktors um zufällige/penalisierte
Effekte b: η = X β + Ub
I
Verteilungsannahme über b: b ∼ P(ϑ)
üblich: b ∼ N(0, G (ϑ))
I
Inferenz über penalisierte (Log-)Likelihood:
lpen (y |β, b, σε2 , ϑ) = l (y |β, b, σε2 ) + l (b|ϑ)
I
konditionales Modell / marginales Modell:
U und G (ϑ) bestimmen marginale Kovarianzstruktur von y .
y |b ∼ N(X β + Ub, σε2 R); b ∼ N(0, G (ϑ))
⇒ y ∼ N(X β, UG (ϑ)U 0 + σε2 R)
Wdh: GLM, LMM
LM ⇒ LMM: inhaltlich
Wozu LMM?
Wdh: Lineares Gemischtes Modell
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: inhaltlich
Wozu LMM?
11
●●
11
1
20
−10
6 6
5
6 565
4
65 1 1 1
6
4 2
24 4 2 2
4
451
54 4 4 4 42 4 4 2 2 4
2
3
4
11
2
2
3 2 2 22
3 3 33
2
3
3 3
3
33 3
3 3
0
I
1
2
4
t
6
10
y
y
10
0
1
6
66 56 5
1
61 6 5 565 5
61 5 6
5 5
1
1
●
20
0
−10
1
●
1
●
6
●
1
●
5
6●
56 ●
6●
●
16 ●
●
5
5 ●
●
6●
●
61 ●
●
55
●
6
●
6●
●
1●
5●
5
●
5
6
6 ●
●
5
●
5
6●
●
56●
1
1●
●
4
●
65 ●
●
1
●
6
●
4 ●
●
4
2●
●
2●
2
51 ●
42
●
4●
●
4 ●
2●
●
4
4
●
5●
●
2
●
4
4 ●
●
4
●
4
●
2●
4 ●
4●
2
3
●
4
11
●
●
2
●
2
●
3●
●
2●
2●
2 ●
2●
3●
3 3●
3
●
2
●
3
●
3
3 ●
3
●
●
3●
●
3
3 ●
3
3●
●
0
2
4
t
6
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: inhaltlich
Wozu LMM?
I
konditional betrachtet:
(zeitliche/räumliche/hierarchische) Struktur der Daten legt bestimmte
Struktur der Abweichungen der Beobachtungen y von X β nahe
11
●●
11
1
20
−10
6 6
5
6 565
4
65 1 1 1
6
4 2
24 4 2 2
4
451
54 4 4 4 42 4 4 2 2 4
2
3
4
11
2
2
3 2 2 22
3 3 33
2
3
3 3
3
33 3
3 3
0
I
1
2
4
t
6
10
y
y
10
0
1
6
66 56 5
1
61 6 5 565 5
61 5 6
5 5
1
1
●
20
0
−10
1
●
1
●
6
●
1
●
5
6●
56 ●
6●
●
16 ●
●
5
5 ●
●
6●
●
61 ●
●
55
●
6
●
6●
●
1●
5●
5
●
5
6
6 ●
●
5
●
5
6●
●
56●
1
1●
●
4
●
65 ●
●
1
●
6
●
4 ●
●
4
2●
●
2●
2
51 ●
42
●
4●
●
4 ●
2●
●
4
4
●
5●
●
2
●
4
4 ●
●
4
●
4
●
2●
4 ●
4●
2
3
●
4
11
●
●
2
●
2
●
3●
●
2●
2●
2 ●
2●
3●
3 3●
3
●
2
●
3
●
3
3 ●
3
●
●
3●
●
3
3 ●
3
3●
●
0
2
4
t
6
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: inhaltlich
konditional betrachtet:
(zeitliche/räumliche/hierarchische) Struktur der Daten legt bestimmte
Struktur der Abweichungen der Beobachtungen y von X β nahe:
0
4
11
6
1
66 56 5
1
61 6 5 565 5
61 5 6
5 5
10
−10
6 6
5
6 565
4
65 1 1 1
6
4 2
24 4 2 2
4
451
54 4 4 4 42 4 4 2 2 4
2
3
4
11
2
2
3 2 2 22
3 3 33
2
3
3 3
3
33 3
3 3
0
I
4
6
5
6
2
4
t
●
● ●
● ● ●●
●
●
● ●●● ●
●●● ●
●● ●● ●
●● ●
● ●
●●
●●
●●
●● ● ●
●●●●
●
●●
1
6
10
0
−10
resid
1
0
2
1
20
y
I
1
2
3
●●
●
●
●●
●●
●
10
0
●●●
●
●●
●●
●
● ●
● ●
●●
● ●●●
● ●
●●
●●
●
● ●
●
−10
● ●
● ●●
●●
0
2
4
6
0
t
2
4
6
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: inhaltlich
marginal betrachtet:
(zeitliche/räumliche/hierarchische) Struktur der Daten legt bestimmte
Kovarianzstruktur der Beobachtungen nahe:
11
6
1
66 56 5
1
61 6 5 565 5
61 5 6
5 5
10
−10
6 6
5
6 565
4
65 1 1 1
6
4 2
24 4 2 2
4
451
54 4 4 4 42 4 4 2 2 4
2
3
4
11
2
2
3 2 2 22
3 3 33
2
3
3 3
3
33 3
3 3
0
I
10
1
2
4
t
6
resid
1
0
1
●
1
20
y
I
0
1●
●
1
1
1●
●
1
●
●
1
61 ●
6
●
●
6
6●
●
6 ●
●
6●
●
56 ●
●
1
5
55
6●
●
5 ●
5●
6●
●
5
5●
6 ●
●
6
●
6
●
5
6
●
5
56 ●
●
6●
●
5 ●
●
5
1●
1●
●
1
5●
●
4●
51
4 ●
1●
●
4
33
4 ●
●
1●
2●
●
4
2 ●
●
4●
4 ●
42
2●
●
2●
2 ●
●
2 ●
●
4 4●
2 ●
3 ●
2●
4 ●
3 4●
●
2 ●
2●
4
3●
●
2
●
2
●
3
3
●
4 ●
2
4●
2 ●
●
3
●
−10
3 ●
●
3 3●
●
3
3 ●
3●
●
3
0
2
4
t
6
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: pragmatisch betrachtet
Was macht gemischte Modelle so super?
complete pooling
kein pooling
11
●●
0
−10
1
●
1
●
6
●
1
●
5
6●
56 ●
6●
●
16 ●
●
5
●
6● ●
●
61 ●
●
5 55
●
6
6●
●
1 5●
5
●●
5
●
6
6 ●
●
5
●
5
●
6●
●
56●●
1
1
4
●
65 ●
●
1
6●
●
4 ●
●
4
2●
●
2●
2
51 ●
42
●
4●
●
4 ●
2●
●
4
4
5●
●
2 ●
4 ●
4 ●
4 ●
●
4●
2●
4 ●
4●
2
3
●
4
11
●
●
2
●
2
●
3●
●
2●
2●
2 ●
2●
3
3●
●
3
3
2 ●
●
3
●
3
3 ●
3
●
●
3●
●
3
3 ●
3
3●
●
0
I
2
4
t
6
1
●
20
10
y
y
10
11
●●
1
●
20
0
−10
1
●
1
●
6
●
1
●
5
6●
56 ●
6●
●
16 ●
●
5
●
6● ●
●
61 ●
●
5 55
●
6
6●
●
1 5●
5
●●
5
●
6
6 ●
●
5
●
5
●
6●
●
56●●
1
1
4
●
65 ●
●
1
6●
●
4 ●
●
4
2●
●
2●
2
51 ●
42
●
4●
●
4 ●
2●
●
4
4
5●
●
2 ●
4 ●
4 ●
4 ●
●
4●
2●
4 ●
4●
2
3
●
4
11
●
●
2
●
2
●
3●
●
2●
2●
2 ●
2●
3
3●
●
3
3
2 ●
●
3
●
3
3 ●
3
●
●
3●
●
3
3 ●
3
3●
●
0
2
4
t
6
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: pragmatisch betrachtet
Was macht gemischte Modelle so super?
I LMM bilden Kompromiss zwischen komplettem pooling und
keinem pooling
I
I
komplettes pooling : gewöhnliches LM ohne Einbezug der
Gruppierungsstruktur
kein pooling : separates LM für jede Ausprägung der Gruppierung
complete pooling
kein pooling
11
●●
0
−10
1
●
1
●
6
●
1
●
5
6●
56 ●
6●
●
16 ●
●
5
●
6● ●
●
61 ●
●
5 55
●
6
6●
●
1 5●
5
●●
5
●
6
6 ●
●
5
●
5
●
6●
●
56●●
1
1
4
●
65 ●
●
1
6●
●
4 ●
●
4
2●
●
2●
2
51 ●
42
●
4●
●
4 ●
2●
●
4
4
5●
●
2 ●
4 ●
4 ●
4 ●
●
4●
2●
4 ●
4●
2
3
●
4
11
●
●
2
●
2
●
3●
●
2●
2●
2 ●
2●
3
3●
●
3
3
2 ●
●
3
●
3
3 ●
3
●
●
3●
●
3
3 ●
3
3●
●
0
I
2
4
t
6
1
●
20
10
y
y
10
11
●●
1
●
20
0
−10
1
●
1
●
6
●
1
●
5
6●
56 ●
6●
●
16 ●
●
5
●
6● ●
●
61 ●
●
5 55
●
6
6●
●
1 5●
5
●●
5
●
6
6 ●
●
5
●
5
●
6●
●
56●●
1
1
4
●
65 ●
●
1
6●
●
4 ●
●
4
2●
●
2●
2
51 ●
42
●
4●
●
4 ●
2●
●
4
4
5●
●
2 ●
4 ●
4 ●
4 ●
●
4●
2●
4 ●
4●
2
3
●
4
11
●
●
2
●
2
●
3●
●
2●
2●
2 ●
2●
3
3●
●
3
3
2 ●
●
3
●
3
3 ●
3
●
●
3●
●
3
3 ●
3
3●
●
0
2
4
t
6
Wdh: GLM, LMM
Wdh: Lineares Gemischtes Modell
LM ⇒ LMM: pragmatisch betrachtet
I
LMM für hierarchische Daten bilden Kompromiss zwischen
komplettem pooling und keinem pooling : Schätzung der
Varianzparameter ϑ erfasst Heterogenität zwischen Gruppen auf Basis
des gesamten Datensatzes
→ Shrinkage der einzelnen Koeffizienten zum Populationsmittel
entsprechend stärker oder schwächer.
I
penalisiertes Likelihoodkriterium stabilisiert Parameterschätzung (aber:
Bias-Varianz-Tradeoff!)
I
bayesianisch: priori-Annahmen über b bilden Vorwissen über Struktur
der Daten ab. Einführung dieser zusätzlichen Information erlaubt
stabile Schätzung von Modellen mit sehr vielen Parametern.
I
sehr vielseitiges Konzept: Modelle für zeitliche, räumliche,
hierarchische und gruppierte Datenstrukturen als auch nichtlineare
Einflüsse lassen sich als (G)LMM auffassen.
Einführung: GLMM
GLMM = GLM + LMM
LMM ⇒ GLMM: Flexibilisierung der Verteilungsannahme
I
LMM: nur normalverteilter Response: y |η ∼ Nn (η, Σ)
I
GLMM: Response aus beliebiger Exponentialfamilie:
E(y |η) = g −1 (X β + Ub)
y |η ∼ Expo.fam.
Einführung: GLMM
GLMM = GLM + LMM
GLMM = GLM + LMM
I
1. Stufe:
yi bedingt auf den erweiterten linearen Prädiktor X β + Ub
unabhängig verteilt nach Exponentialfamilie (analog GLM)
I
2. Stufe:
Verteilungsannahme über b
⇒ regularisierte Schätzung (analog LMM)
Interpretation der Verteilungsannahme als Penalty oder Eigenschaft
der Grundgesamtheit (freq.) oder Priori-Annahme (bayes.)
Einführung: GLMM
GLMM für Longitudinal-/Clusterdaten
GLMM für Longitudinal-/Clusterdaten
I
yij ; i = 1, . . . , m; m = 1, . . . , ni mit je ni Messwiederholungen an m
Subjekten (z.B Binär-/Zähldaten)
I
Bedingte Verteilung von yij |b i ist aus Exponentialfamilie (z.B.
Bernoulli/Poisson)
I
Bedingter Erwartungswert µij = E(yij |b) = g −1 (x 0ij β + u 0ij b i )
Allg. GLMM
Einführung: GLMM
Bsp: Madras-Daten
Bsp: Madras-Daten
rel. Häufigkeit der Anfälle über die Zeit
1.0
I
I
69 stationäre
SchizophreniePatienten
1 Jahr lang
nach Ersteinlieferung
beobachtet
12 Beobachtungen pro
Patient
0.8
0.6
gender
Male
y
I
Female
0.4
0.2
0.0
0
2
4
month
6
8
10
Einführung: GLMM
Bsp: Madras-Daten
Bsp: Madras-Daten: Logit-Modell mit zufälligem Intercept
I
I
Response: yit ∈ 0, 1: Patient/in i hat Schub im Monat t
Kovariablen:
I
I
I
month: Zeit in Monaten nach Einlieferung (0-11)
gender: Geschlecht
id: Patient
I
Modell: logit(P(yit = 1|bi )) = β0 + bi + βM montht + βG genderi
I
R:
R> load("madras.Rdata")
... (Daten aufhübschen) ...
R> library(lme4)
R> m1 <- lmer(y ~ month + gender + (1|id),
family=binomial(), data=madrasC)
Einführung: GLMM
Bsp: Madras-Daten
Bsp: Madras-Daten: Ergebnis
R> summary(m1)
Generalized linear mixed model fit by the Laplace approximation
Formula: y ~ month + gender + (1 | id)
Data: madrasC
AIC BIC logLik deviance
646 665
-319
638
Random effects:
Groups Name
Variance Std.Dev.
id
(Intercept) 4.91
2.22
Number of obs: 828, groups: id, 69
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
1.933
0.437
4.42 9.8e-06 ***
month
-0.573
0.045 -12.72 < 2e-16 ***
genderFemale
-1.574
0.595
-2.65
0.0081 **
...
Einführung: GLMM
Bsp: Madras-Daten
Bsp: Madras-Daten: Interpretation
beta exp(beta) CI_95(beta)_lo CI_95(beta)_hi
month
-0.573
0.564
0.5161
0.616
genderFemale -1.574
0.207
0.0646
0.665
R> quantile(exp(ranef(m1)$id$’(Intercept)’),
+
p=c(.2,.4,.6,.8))
20%
40%
60%
80%
0.138 0.634 2.167 5.828
Einführung: GLMM
Bsp: Madras-Daten
Bsp: Madras-Daten: Interpretation
beta exp(beta) CI_95(beta)_lo CI_95(beta)_hi
month
-0.573
0.564
0.5161
0.616
genderFemale -1.574
0.207
0.0646
0.665
R> quantile(exp(ranef(m1)$id$’(Intercept)’),
+
p=c(.2,.4,.6,.8))
20%
40%
60%
80%
0.138 0.634 2.167 5.828
⇒ relativ starke individuelle Heterogenität
Einführung: GLMM
Bsp: Madras-Daten
Bsp: Madras-Daten
^
Modell 1: yit & p
it
1.0
0.8
0.6
gender
y
Male
Female
0.4
0.2
0.0
0
2
4
month
6
8
10
Einführung: GLMM
GLMM: Marginale und konditionale Verteilung
Bsp: Madras-Daten: Interpretation
Wie sind die Parameter in diesem Logit-Modell mit Random Intercept zu
interpretieren?
beta
month −0.573
exp(beta)
0.564
Einführung: GLMM
0.6
0.4
0.2
0.0
logit−1(xβ
β)
0.8
1.0
Graphisch:
x
GLMM: Marginale und konditionale Verteilung
Einführung: GLMM
Graphisch:
0.6
0.4
0.2
0.0
logit−1(xβ
β + b)
0.8
1.0
P(y=1|x, β, b)
x
GLMM: Marginale und konditionale Verteilung
Einführung: GLMM
Graphisch:
GLMM: Marginale und konditionale Verteilung
Einführung: GLMM
GLMM: Marginale und konditionale Verteilung
Bsp: Interpretation Random-Intercept-Logitmodell
Konditional:
P(yit =1|xit +1,bi )
P(yit =0|xit +1,bi )
P(yit =1|xit ,bi )
P(yit =0|xit ,bi )
=
exp((xit + 1)β + bi )
= exp(β)
exp(xit β + bi )
Marginal:
P(yit =1|xit +1)
P(yit =0|xit +1)
P(yit =1|xit )
P(yit =0|xit )

= Eb 
P(yit =1|xit +1,bi )
P(yit =0|xit +1,bi )
P(yit =1|xit ,bi )
P(yit =0|xit ,bi )

Z
=
exp((xit + 1)β + bi )
f (b|ϑ)db
exp(xit β + bi )
6= exp(β)
⇒ Interpretation von β nur bedingt auf zufällige Effekte bi zulässig
⇒ β ist individuenspezifischer Parameter, nicht Populationsparameter
Einführung: GLMM
GLMM: Marginale und konditionale Verteilung
GLMM: Marginale und konditionale Verteilung
Erinnerung:
E(yij |ηij ) = g −1 (x 0ij β + u 0ij b i )
Für g −1 (x) 6= x gilt:
Z
Eb (E(yij |ηij )) =
E(yij |ηij )f (b i |ϑ)d b
Z
=
g −1 (x 0ij β + u 0ij b i )f (b i |ϑ)d b
6= g −1 (x 0ij β)
GLMM: ⇒ g −1 (x) 6= x ⇒
marginaler Eb (E(yij |ηij )) 6= konditionaler E(yij |ηij )
Einführung: GLMM
GLMM in allgemeiner Form
GLMM in allgemeiner Form
I
Für geeignete Designmatrizen X , U ist
η = X β + Ub; η = (η11 , . . . , η1n1 , . . . , ηmnm )
I
analog: für b i ∼ N(0, D); i = 1, . . . , m gilt

D

..
b ∼ N(0, G ); G = 
.



D
Hierarchisches GLMM
Einführung: GLMM
GLMM in allgemeiner Form
GLMM in allgemeiner Form
I
Verteilungsannahme I: Gegeben die zufälligen Effekte b sind die y
bedingt unabhängig und die bedingte Dichte f (yi |b i ) gehört zu einer
Exponentialfamilie
I
Strukturannahme: Der bedingte Erwartungswert µi = E(yi |b i ) ist
mit dem linearen Prädiktor
ηi = x 0i β + u 0i b
durch µi = g −1 (ηi ) verknüpft.
g () ist eine bekannte Linkfunktion.
I
Verteilungsannahme II: Die zufälligen Effekte b sind
b ∼ N(0, G )
Einführung: GLMM
GLMM in allgemeiner Form
GLMM in allgemeiner Form
I
Verteilungsannahme I: Gegeben die zufälligen Effekte b sind die y
bedingt unabhängig und die bedingte Dichte f (yi |b i ) gehört zu einer
Exponentialfamilie
I
Strukturannahme: Der bedingte Erwartungswert µi = E(yi |b i ) ist
mit dem linearen Prädiktor
ηi = x 0i β + u 0i b
durch µi = g −1 (ηi ) verknüpft.
g () ist eine bekannte Linkfunktion.
I
Verteilungsannahme II: Die zufälligen Effekte b sind
b ∼ N(0, G )
(auch andere Verteilungen möglich)
Einführung: GLMM
Bsp: Verpickelung
Bsp: Verpickelung: Bayesianische Funktionsschätzung
Verpickelung im Lauf der Zeit
12
I
I
keine echten
Daten
Pickel auf den
Gesichtern
von 200
Teens und
Twens wurden gezählt (1
Beob./Person)
Verlauf der
Verpickelung
über die Zeit
10
8
pickel
I
6
4
2
0
15
20
age
25
Einführung: GLMM
Bsp: Verpickelung
Bsp: Verpickelung: Modell
I
I
I
Response pickeli :
Teilnehmer/in i hat pickeli Pickel im Gesicht
Kovariable alteri : Alter in Jahren (10 − 30)
Beobachtungsmodell:
pickeli |· ∼ Po (exp (f (alteri )))
f (alteri ) = X β + Ub (aus TP(2)-Basis)
X = (1, alter, alter2 )
U = (alter − κ1 )2+ , . . . , (alter − κq )2+
I
Prioris:
β ∼ N3 (0, 106 I 3 ) (sehr diffuse priori ⇒ quasi unpenalisiert)
1
b|τ ∼ Nq (0, I q )
τ
τ ∼ Γ(.01, .01) (diffuse priori für Varianz der Splinekoeffizienten)
Einführung: GLMM
Bsp: Verpickelung
Bsp: Verpickelung: BUGS-Syntax
model {
#Likelihood: y_j ~ Poisson(mu_j); mu_j = exp(X beta + U b)
for (j in 1:n){
y[j] ~ dpois(mu[j])
log(mu[j]) <- inprod(X[j,], beta[]) + inprod(U[j,], b[])
}
#priori: beta = (beta_0, beta_lin, beta_qu) ~ N(0, 1e6)
for(k in 1:3){
beta[k] ~ dnorm(0.0, 1.0E-6)
}
#priori: b ~ N(0, 1/tau)
for(i in 1:q){
b[i] ~ dnorm(0.0, tau)
}
#priori: Var(b) ~ InvGamma(.01, .01)
tau ~ dgamma(.01, .01)
#Transformation: Varianzen der Spline-Koeffizienten
sigma.b <- 1/tau
Einführung: GLMM
Bsp: Verpickelung
Bsp: Verpickelung: Ergebnis
3 chains, each with 150000 iterations (first 3000 discarded),
n.thin = 20, n.sims = 22050 iterations saved
mean
sd 2.5%
25%
50%
75% 97.5% Rhat n.eff
beta[1] -16.0 5.9 -26.6 -20.6 -16.3 -11.8 -4.7 1.1
43
beta[2] -18.9 6.1 -29.8 -23.6 -19.1 -14.5 -7.2 1.1
43
beta[3]
-7.5 2.1 -11.2 -9.1 -7.6 -6.0 -3.6 1.1
44
b[1]
2.5 2.5 -2.5
0.7
2.5
4.2
7.3 1.0
51
b[2]
4.2 2.5
0.0
2.5
4.0
5.6
9.7 1.0 2900
b[3]
1.4 2.3 -3.6
0.1
1.6
2.9
5.7 1.0 1300
b[4]
0.1 2.5 -5.6 -1.2
0.3
1.6
4.5 1.0 3500
b[5]
2.2 3.0 -2.6
0.2
1.7
3.6
9.4 1.0 1200
b[6]
-1.4 2.6 -7.1 -2.8 -1.2
0.2
3.3 1.0 4800
b[7]
-1.9 2.7 -7.7 -3.4 -1.7 -0.1
3.2 1.0 5900
b[8]
-0.1 3.8 -7.8 -2.2 -0.2
1.9
7.6 1.0 9700
sigma.b
16.0 20.0
1.9
5.6 10.1 18.7 67.4 1.0
240
deviance 553.7 3.8 547.8 551.0 553.2 555.9 562.5 1.0 2100
For each parameter, n.eff is a crude measure of effective
sample size, and Rhat is the potential scale reduction factor
Einführung: GLMM
Bsp: Verpickelung
Bsp: Verpickelung: Ergebnis
Bugs model at "X:\Lehre\gemischte_Modelle_SoSe2011\Fabian\R\pickel\pickelT
−50
80% interval for each chain
0
50
beta[1]
[2]
[3]
b[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
sigma.b
1
R−hat
1.5
2+
1.5
2+
●
●
●
●
●
●
●
●
●
●
●
●
−50
0
50
1
Einführung: GLMM
Bsp: Verpickelung
12
Bsp: Verpickelung: Ergebnis
●
Daten (jittered)
post. MW + HPD 80% (punktweise)
Wahrheit
●
10
●
●
8
●
●
6
●●
●
●
● ●
●
4
● ●●
2
●
●● ● ●
●
●
●●●
●
●
●
●
●
●●
●
●
●●
●
●
0
pickel
●●
●
●
●
●●
●
●
●
●
●●
●
●
●● ●
●●
●
●
●
●
●
15
●
●
●
●
●
●
● ●●
●
●
● ● ●
●
10
●
●
●
● ●●
●
●
●
●
●
●
●●
●
● ●
●●
●
●
●
●
●●
● ●●●●
●
●
●
age
●
●
●
●
●
● ●
●
●
●●
●
●●
●
●
●
●
●
●
● ● ●● ●●
●● ●
●
●● ●
●
20
●
● ●
●
●
●
● ● ●● ●●
●
●
25
●
●
●●●
●
●
●
●
●
●
●
●
●●
●●●
●●
●●
●●●● ●
● ● ●● ●●
●
● ●●
30
Einführung: GLMM
Bsp: Verpickelung
Hausaufgabe/Übung:
I
Experimentieren Sie mit dem R-Code für die Madras-Daten- wie lässt
sich der Fit des Modells weiter verbessern?
I
Schreiben Sie ein BUGS-Model für kubische B-splines mit penalisierten
zweiten Differenzen
I
Wiederholen Sie den IWLS-Algorithmus
I
Informieren Sie sich über die Laplace-Approximation (z.B.
http://www.inference.phy.cam.ac.uk/mackay/itprnn/ps/341.
342.pdf)