Die SAS-Prozedur MIXED

Transcription

Die SAS-Prozedur MIXED
H.-P. Altenburg: Die SAS-Prozedur MIXED
Prozedur MIXED
Inhalt:
Die SAS-Prozedur MIXED
• Feste und zufällige Effekte
• verwandte SAS-Prozeduren:
GLM, VARCOMP, NESTED
•
•
•
•
Hans-Peter Altenburg
Deutsches Krebsforschungszentrum
Heidelberg
Schätzverfahren
Varianzkomponenten
Syntax
Beispiele
1
2
Feste und zufällige Effekte
Feste und zufällige Effekte
• Feste Effekte: Faktoren, bei denen die Stufen der
Faktoren diejenigen Stufen sind, die im
Experiment gerade betrachtet werden.
Modell mit festen Effekten
• Zufällige Effekte: Faktoren, bei denen die Stufen,
die gerade betrachtet werden, eine Zufallsauswahl
aus einer “unendlichen” Population von
möglichen Stufen darstellen. Inferenzaussage für
die gesamte Population der Faktorstufen.
Gemischtes Modell (Mixed Model):
• enthält feste und zufällige (random) Effekte.
• Varianz-Schätzungen assoziiert mit den zufälligen
Effekten werden als Varianzkomponenten
bezeichnet.
Modell mit zufälligen Effekten
• Kombination: gemischte (mixed) Modelle
3
4
Feste und zufällige Effekte
Feste und zufällige Effekte
• Completely Random Model:
Jeder erwartete MS (expected mean square) ist
eine Funktion der Varianzen der zufälligen
Effekte
• Mixed Model:
Jeder erwartete MS (expected mean square) ist
eine Funktion der Varianzen der zufälligen
Effekte plus quadratische Funktionen der
Parameter der festen Effekte.
5
SAS-Benutzertreff Heidelberg, 3.11.2000
Beispiel:
Studie über die Wirkung einer Chemotherapie
Effekte:
• Behandlung: Chemo- / Radio-Therapie
fester Effekt
• Alter: Kind / Erwachsener
fester Effekt
• Klinik: 5 beteiligte Kliniken
fester Effekt: nur Interesse an der Variabil. der 5 Kl.
zufälliger Effekt: falls Interesse an der Pop. der Klein.
• Patient: zufälliger Effekt, da zugrunde gelegt wird, daß
die Patientenstichprobe aus einer unendlichen GG stammt.
6
1
H.-P. Altenburg: Die SAS-Prozedur MIXED
Prozedur GLM: Feste Effekte
Feste und zufällige Effekte
Normalfall: feste Effekte → Prozedur GLM
Modell: y=Xβ + ε
wobei
y=Vektor der beobachteten Daten
X=bekannte Versuchsdesignmatrix
β =Vektor der unbekannten festen Effektparameter
ε =Vektor der nicht beobachtbaren Zufallsfehler
• Konzept ist/war nicht unumstritten:
z.B. die Kontroverse zwischen Yates und
Nelder: Arbeit von Nelder (1977) wurde als
“The great mixed model muddle”
bezeichnet.
Kommentar zu Mixed Models:
“To a Non-Baysian, all things are BLUPs.”
Voraussetzung: Komponenten von ε sind unkor7
Prozedur GLM: Feste Effekte
und somit
E[y] = Xβ und VAR[y] = σ2I
Wichtig: Die Prozedur GLM modelliert stets alle Effekte
als feste Effekte, auch wenn das RANDOM-Statement benutzt wurde. RANDOM liefert nur “expected mean squares”.
CLASS- und MODEL-Statement spezifizieren gemeinsam X.
9
Prozedur MIXED: Feste und zufällige Effekte
Erweitertes Modell:
feste und zufällige Effekte → Prozedur MIXED
Modell: y=Xβ + Zν + ε
wobei
y=Vektor der beobachteten Daten
X, Z=bekannte Versuchsdesign-Matrizen
β =Vektor der unbekannten festen Effektparameter
ν = Vektor der unbek. zufälligen Effektparameter
ε =Vektor der nicht beobachtbaren Zufallsfehler
10
Prozedur MIXED: Feste und zufällige Effekte
SAS Proceduren mit RANDOM-Statement:
Erweitertes Modell: y=Xβ + Zν + ε
(mit µ = (ν , ε )T )
ν und ε normal verteilt:
GLM
MIXED
E[µ] = 0 und Var[µ] = Diag{G,R}
Das allgemeine lineare Modell ist ein Spezialfall des
gemischten Modells mit Z=0 und R= σ2I.
SAS-Benutzertreff Heidelberg, 3.11.2000
8
Prozedur MIXED: Feste und zufällige Effekte
Modell: y=Xβ + ε
d.h. es gilt
E[ε]=0 und VAR[ε]= σ2I, I=Einheitsmatrix
Die Prozedur MIXED erlaubt es verschiedene
Kovarianzstrukturen für G und R zu spezifizieren.
reliert, normal verteilt mit Varianz σ2 und Erw. null
SAS Prozeduren assoziiert mit Random Effects:
NESTED
VARCOMP
MIXED
NLMIXED (Vs 8)
11
12
2
H.-P. Altenburg: Die SAS-Prozedur MIXED
Wahl der Prozedur: GLM oder MIXED
Abgrenzung der Prozedur MIXED
• Verallgemeinerung von GLM
• ähnliche Syntax
• gleiche Parametrisierung, manchmal unterschiedliche
CLASS Level
• MIXED bietet nur die Typ III Teste für feste Effekte
(dagegen GLM Typ I, II, III und IV)
• MIXED nur LSMEANS (GLM auch noch MEANS)
• RANDOM- und REPEATED-Statements werden
unterschiedlich benutzt
• Varianzkomponentenschätzung: REML, ML, MM oder
MIVQUE0, GLM dagegen nur Momentenmethode (MM)
13
Zufällige Effekte vorhanden:
• GLM: Standardfehler sind falsch → SE der LS Means falsch
→ Einfluß auf: Hypothesentesten, Schätzen der Differenzen von
LS means / Konfidenzintervalle
• Schätzverfahren: GLM benutzt LS, Varianzkomponenten für
zufällige Effekte müssen per Hand berechnet werden anhand der
ausgegebenen GLM-Schätzwerte
• GLM: keine Unterscheidung zwischen festen und zuf. Effekten
Hypothesenprüfung stets über F=MS/MSE
Mixed Modell: erwartete MS um herauszufinden welcher MS im
Zähler für die Prüfung eines best. Effektes erforderlich ist.
Manchmal existiert kein geeigneter MS und muß entsprechend
synthetisiert werden.
14
Wahl der Prozedur: GLM oder MIXED
Varianzkomponenten
Zufällige Effekte vorhanden:
• GLM: Annahme alle Fehler iid
GLM für Mixed Modelle: Annahme alle Var.-Komp. unabhängig
und innerhalb VK ident. Verteilt, Verfeinerung durch Annahme
einer sehr einfachen Abhängigkeitsstruktur unter den Fehlern
(insbes. bei Repeated Measurements).
MIXED dagegen, keine Annahme Fehler oder Var.-Komp. iid,
Struktur und Beziehungen der Fehler und Var.-Komps werden ins
Modell einbezogen.
15
Varianzkomponenten - Beispiel
Eine Varianzkomponente ist, vereinfacht gesprochen, eine
“Quelle weißen Rauschens”, die die Beobachtungswerte
beeinflusst. Die Bezeichnung Varianzkomponente wird
i.d.R. verwendet, wenn unterschiedliche Komponenten
einer Variabilität unabhängig sind.
Beispiel: Zweifache Varianzanalyse
Reagentgruppe \ Wdh Teste
\ 1 2 3 4 5 6
1
2
3
...
8
y11 ....
y33 y34 ....
16
....
Varianzkomponenten
Modell für die Struktur des Nichtbeobachtbaren:
Zwei oder mehrere Variationskomponenten
Zwei Variationsursachen: Reagent- / Testeffekt
Varianzkomponenten: assoziierte Varianzen
Praktische Fragen verlangen meist ein konzeptionelles
Verständnis der Variations-Komponenten
Ziel eines statistischen Modells:
Erfasse Struktur und Einfluß
des Nicht-Beobachtbaren
17
SAS-Benutzertreff Heidelberg, 3.11.2000
18
3
H.-P. Altenburg: Die SAS-Prozedur MIXED
Varianzkomponenten
Varianzkomponentenschätzung
Variationsursachen:
• Messung: Kalibrierung, Operator-to-Operator Differenz, Variation
bzgl. Temperaturschwankungen, Ablesefehler, ...
• Stichprobenvariabilität: Unterscheidet sich das beobachtete
Material vom nicht beobachteten?
Kann z.B. reduziert werden durch Vergrößern der Stichprobe
• Wechselwirkung: zwischen Behandlung / Faktor und den äußeren
Umständen
MM: Momentenmethode,
• vergleicht erwartete Werte mit den Stichprobenschätzwerten
• Varianzkomponenten: Varianzen, die mit der
Variationsursache oder Zufälligkeit in den Daten
assoziiert sind
• kann u.U. negative Schätzwerte der Varianz
liefern
19
Varianzkomponentenschätzung
20
Varianzkomponentenschätzung
MIVQUE0: ein bestimmter Typ von Momentenmethode,
• Schätzer sind invariant bzgl. fester Effekte,
• Mittelwertquadrate, die mit den zufälligen
Effekten assoziiert sind, werden nach den festen
Effekten adjustiert
ML: Maximum Likelihood-Methode,
• iteratives Verfahren zur Schätzung von
Parameterwerten,
• maximiert die Likelihoodfunktion
• negative Varianzen werden bei der Prozedur
MIXED auf null gesetzt
21
22
Varianzkomponentenschätzung
Beispiel 1: Prozedur MIXED
REML: restricted / residual Maximum Likelihood,
• Likelihoodfunktion wird in zwei Teilen
konstruiert (ein Teil feste Effekte, der andere frei
von festen Effekten)
• liefert ML-Schätzung der Varianzkomponenten
aus dem Anteil des Modells, der frei von festen
Effekten ist
• negative Varianzen werden bei der Prozedur
MIXED auf null gesetzt
Experiment zur Überprüfung der Wirksamkeit eines
Antibiotikas, das zwei Jahre gelagert worden war. Aus acht
Behältern wurden jeweils zwei Proben gezogen und die
Konzentration der aktiven Komponente gemessen.
23
SAS-Benutzertreff Heidelberg, 3.11.2000
Fragestellung:
1) Schätzung der (overall) mittleren Gesamtkonzentration.
2) Hat die zufällige Auswahl der Behälter einen Einfluß auf
die Variabilität der Responsen?
24
4
H.-P. Altenburg: Die SAS-Prozedur MIXED
Beispiel 1: Einfaktorielles Modell
Daten Beispiel 1
Start von Beispielprogramm 1
%HK½OWHU %DWFK
26
25
Beispiel 1: Prozedur MIXED - zufällige Effekte
Beispiel 1: Prozedur MIXED - feste Effekte
Modell 1(Behälter: Zufallsauswahl aus allen Behältern):
yij = µ + βi + εij
wobei
µ = overall Mittel (fixed Effekt),
βi = zufälliger (random) Effekt,
εij = Zufallsfehler für Beobachtung j in Batch i.
εij ~ iid N(0, σ2 ), unabhängig voneinander
βi ~ iid N(0, σ2b )
εij ~ iid N(0, σ2 ), unabhängig voneinander
E[yij]= µ ,
Varianzkomponenten: Var[yij]= σ2b + σ2 (σ2<< σ2b).
27
E[yij]= µ+βi , i=1,...,8
Varianz: Var[yij]= σ2
(Jeder Behälter hat seinen speziellen Erwartungswert)
(Nur eine Quelle für die Variabilität)
28
Abgrenzung der Prozedur MIXED
Abgrenzung der Prozedur MIXED
Gegen die Prozedur VARCOMP:
• MIXED verallgemeinert VARCOMP
• VARCOMP berechnet auch Typ I ANOVA
Varianzkomponenten
• beide erlauben als Schätzverfahren: REML, ML
und MIVQUE0
• beide erlauben feste und zufällige Effekte
• VARCOMP erlaubt keine stetigen unabh. Variabl.
• Std-Schätzverfahren: MIVQUE0 (MIXED:REML)
29
SAS-Benutzertreff Heidelberg, 3.11.2000
Modell 2 (Behälter sind alle möglichen gewesen):
yij = µ + βi + εij
wobei
µ = overall Mittel (fixed Effekt),
βi = Haupt-Effekt für Behälter i (fixed Effekt),
εij = Zufallsfehler für Beobachtung j in Batch i.
Verwende VARCOMP
• um Schätzungen für Varianzkomponenten zu
erhalten, die assoziiert sind mit den zufälligen
Effekten
30
5
H.-P. Altenburg: Die SAS-Prozedur MIXED
Abgrenzung der Prozedur MIXED
Abgrenzung der Prozedur MIXED
Die Prozedur NESTED:
Weitere Prozeduren:
CALIS: erlaubt nur feste Effekte
• berechnet Varianzkomponenten und Schätzwerte
nach der Momentenmethode
• erlaubt keine stetigen Effekte in X
• schätzt zufällige Effekte Modelle nur für
Experimente mit einer geschachtelten Struktur
ARIMA / AUTOREG: passen Zeitreihenfehlerstrukturen an aber keine Varianzkomponenten und
nur feste Effekte
RSCREG: Zeitreihenquerschnittmodelle, Park’s
Fehlerstruktur (nicht in MIXED möglich)
31
32
Einsatz der Prozedur MIXED
Syntax Prozedur MIXED
Wann kann die Prozedur MIXED benutzt werden?
• Repeated Measurements (Wachstumskurvenmodell)
• Zufällige Effekte (Varianzkomponentenmodell, z.B.
Split-Plot-Design)
• Zufällige Koeffizienten (spezielles Wachstumskurvenmodell bei dem die Spalten von Z stetige
Variablen und keine Dummy-Variablen)
• Räumliche Daten (Landwirtschaft, Geostatistik)
• Heterogene Varianzen (Anova mit ungleichen
Gruppenvarianzen)
• Metaanalyse (Studie als zufälliger Effekt)
• Verallgem. Lin. Mixed Models (Macros GLIMMIX,
NLINMIX / Vs 6.12, ab Vs 8: PROC NLMIXED) 33
PROC MIXED < options > ;
BY variables ;
CLASS variables ;
ID variables ;
MODEL dependent = < fixed-effects > < / options > ;
RANDOM random-effects < / options > ;
REPEATED < repeated-effect > < / options > ;
PARMS (value-list) ... < / options > ;
PRIOR < distribution > < / options > ;
CONTRAST 'label'< fixed-effect values ...> <| random-effect values ...> < / options>;
ESTIMATE 'label' < fixed-effect values ... > <| random-effect values ...>< / options >;
LSMEANS fixed-effects < / options > ;
MAKE 'table' OUT=SAS-data-set ;
WEIGHT variable ;
34
Statements Prozedur MIXED
Statements Prozedur MIXED
CLASS variables ;
Spezifiziert die Namen der Klassifikationsvariablen;
die Werte dieser Variablen identifizieren die Levels.
MODEL dependent = < fixed-effects > < / options > ;
Spezifiziert die Namen der abhängigen und unabhängigen Variablen (feste Effekte und Kovariablen).
RANDOM random-effects < / options > ;
Spezifiziert die zufälligen Effekte, die mit dem Vektor
ν assoziiert sind, die Matrix Z sowie die Struktur der
Matrix G.
35
SAS-Benutzertreff Heidelberg, 3.11.2000
REPEATED < repeated-effect > < / options > ;
Spezifiziert die Wiederholungseffekte und die Matrix R;
Effekte, die hier aufgelistet sind, müssen im CLASSStatement auch gelistet sein.
PARMS (value-list) ... < / options > ;
Spezifiziert die Anfangswerte für Kovarianzparameter
PRIOR < distribution > < / options > ;
Bayes Analyse für die Varianzkomponentenmodelle
CONTRAST 'label'< fixed-effect values ...> <| random-effect values ...> < /
options>;
Lineare Kontraste für Hypothsenteste
36
6
H.-P. Altenburg: Die SAS-Prozedur MIXED
Beispiel 2: Zweifache Varianzanalyse
Statements Prozedur MIXED
ESTIMATE 'label' < fixed-effect values ... > <| random-effect values ...>< /
options >;
Schätzt Linearkombinationen von festen und zufälligen
Effekten
LSMEANS fixed-effects < / options > ;
Liefert verallgemeinerte Kleinste-Quadrate Mittelwerte
für die festen Effekte.
MAKE 'table' OUT=SAS-data-set ;
Konvertiert jede Tabelle der Ausgabe in SAS-Data Set
WEIGHT variable ;
Spezifiziert die Gewichtungsvariable für R
37
Beispiel 2: Zweifache Varianzanalyse
Methoden: A, B, C
Sorte: 1,2,3,4,5
Zielgröße: Ertrag nach vier Wochen
Vollständig randomisiertes Experiment mit 2 Fakt.
Unterschiede beim Ertrag?
Unterschiede bei der Methode pro Sorte?
38
Beispiel 2: gemischtes Modell
Sorte: zufälliger Effekt (Zufallsauswahl aus größerer Pop.)
Methode: fester Effekt (nur die drei Methoden interessieren)
⇒ gemischtes Modell
Ziel: Hypothesenteste zum Vergleich der Methoden,
die Sorte als zufälligen Effekt zulassen.
39
Beispiel 2: gemischtes Modell
Mixed Modell:
yijk = µ + αi + βj + (αβ)ij + εijk
wobei
µ = overall Mittel (fixed Effekt),
αi= Effekt der i-ten Methode (fester Effekt),
βi = Effekt der j-ten Sorte (zufälliger Effekt),
(αβ)ij=Wechselwirkung zwischen i-ter Methode und j-ter W
εijk = Zufallsfehler für Beobachtung j in Batch i.
(αβ)ij ~ iid N(0, σ2ab )
βj ~ iid N(0, σ2b )
εijk ~ iid N(0, σ2 ), unabhängig voneinander
40
Beispiel 2: gemischtes Modell
Mixed Modell:
yijk = µ + αi + βj + (αβ)ij + εijk
Mixed Modell in Matrix-Schreibweise:
y=Xβ + Zν + ε
wobei
y= 90×1 Vektor der beobachteten Erträge
Erwartungswert von Methode i (über alle Sorten):
E[yijk]= µ + αi ,
β= 4×1 Vektor (µ, α1, α2, α3)
ν=20 × 1Vektor der zufälligen Effekte (5 Sorten, 15 WW)
ε= 90×1 Vektor der Fehler
Varianzkomponenten:
Var[yijk]= σ2b + σ2ab + σ2 .
41
SAS-Benutzertreff Heidelberg, 3.11.2000
Geprüft werden soll die Tauglichkeit von drei
Wachstumsmethoden für fünf verschiedene
Grassamensorten (n=6 Wdh.):
X=90 ×4 Design-Matrix (aufgeteilt in I30 -Matrizen)
Z= 90 ×20 Design-Matrix (aufgeteilt in I6 -Matrizen)
G=Diag{σ2b I5 , σ2ab I15 } und R= σ2 I30 .
42
7
H.-P. Altenburg: Die SAS-Prozedur MIXED
Beispiel 2: gemischtes Modell
Beispiel 3: Wachstumskurvenmodell
Start von Beispielprogramm 2
Wachstumskurve mit zusammengesetzter
Symmetrie (Compound symmetry):
Gegeben:
drei Wachstumskurvenmessungen bei s Individuen
Problem:
Anpassung eines overall linearen Trends in der Zeit
(Lineares Regressionsmodell)
43
Beispiel 3: Wachstumskurvenmodell
44
Beispiel 3: Wachstumskurvenmodell -2-
Prozedur-Aufruf:
Alternative:
spezifiziere die Matrizen Z und G wie auf der
Folie angegeben und
PROC MIXED DATA=dset ;
CLASS indiv ;
MODEL y = time ;
REPEATED / TYPE=cs SUBJECT=indiv ;
RUN ;
R= σ2I3s
Option TYPE definiert dabei die Kovarianzstruktur: vc (=variance components, Default)
cs (=compound symmetry)
un (=unstructered)
45
Beispiel 3: Wachstumskurvenmodell -2-
46
Beispiel 3: Wachstumskurvenmodell -2-
Prozedur-Aufruf:
Prozedur-Aufruf:
PROC MIXED DATA=dset ;
CLASS indiv ;
MODEL y = time ;
RANDOM indiv ;
RUN ;
PROC MIXED DATA=dset ;
CLASS indiv ;
MODEL y = time ;
RANDOM intercept / SUBJECT=indiv ;
RUN ;
47
SAS-Benutzertreff Heidelberg, 3.11.2000
48
8
H.-P. Altenburg: Die SAS-Prozedur MIXED
Zusammenfassung
Beispiel 3: Wachstumskurvenmodell -2Alle drei Prozedur-Aufrufe passen das gleiche
Modell an:
• RANDOM-Statement:
Einschänkung der Korrelationen
auf positive Korr’s
Verwende MIXED für
• Random Effekte:
– Varianzkomponentenmodelle
• Random Koeffizienten:
– best. Typ von Wachstumskurvenmodellen in denen die Spalten von Z stetige
Variablen sind, nicht Dummyvariablen
• Repeated Measures:
• REPEATED-Statement:
– multiple Measurements bei Subjekten und Growth-Kurven-Modellen
Korr’s nicht eingeschränkt
• Heterogenenen Varianzen:
– ANOVA mit ungleichen Gruppen-Varianzen
• Meta-Analysen:
– Studie als random Effekt
49
MIXED: Literaturhinweise
50
MIXED: Literaturhinweise - 2
• Gert Verbeke / Geert Molenberghs (eds.):
Linear Mixed Models in Practice - A SASoriented Approach.
Springer Lecture Notes in Statistics No 126, 1997
• SAS V8 Online Dokumentation
• Littell, R.C., Milliken, G.A., Stroup, W.W.
and Wolfinger, R.D. (1996): SAS System for
Mixed Models. SAS Institute Inc. Cary, NC,
USA
• SUGI-Proceedings
-2 51
52
Zur Prozedur MIXED
Any Questions ?
;-)
53
SAS-Benutzertreff Heidelberg, 3.11.2000
9

Similar documents