Die SAS-Prozedur MIXED
Transcription
Die SAS-Prozedur MIXED
H.-P. Altenburg: Die SAS-Prozedur MIXED Prozedur MIXED Inhalt: Die SAS-Prozedur MIXED • Feste und zufällige Effekte • verwandte SAS-Prozeduren: GLM, VARCOMP, NESTED • • • • Hans-Peter Altenburg Deutsches Krebsforschungszentrum Heidelberg Schätzverfahren Varianzkomponenten Syntax Beispiele 1 2 Feste und zufällige Effekte Feste und zufällige Effekte • Feste Effekte: Faktoren, bei denen die Stufen der Faktoren diejenigen Stufen sind, die im Experiment gerade betrachtet werden. Modell mit festen Effekten • Zufällige Effekte: Faktoren, bei denen die Stufen, die gerade betrachtet werden, eine Zufallsauswahl aus einer “unendlichen” Population von möglichen Stufen darstellen. Inferenzaussage für die gesamte Population der Faktorstufen. Gemischtes Modell (Mixed Model): • enthält feste und zufällige (random) Effekte. • Varianz-Schätzungen assoziiert mit den zufälligen Effekten werden als Varianzkomponenten bezeichnet. Modell mit zufälligen Effekten • Kombination: gemischte (mixed) Modelle 3 4 Feste und zufällige Effekte Feste und zufällige Effekte • Completely Random Model: Jeder erwartete MS (expected mean square) ist eine Funktion der Varianzen der zufälligen Effekte • Mixed Model: Jeder erwartete MS (expected mean square) ist eine Funktion der Varianzen der zufälligen Effekte plus quadratische Funktionen der Parameter der festen Effekte. 5 SAS-Benutzertreff Heidelberg, 3.11.2000 Beispiel: Studie über die Wirkung einer Chemotherapie Effekte: • Behandlung: Chemo- / Radio-Therapie fester Effekt • Alter: Kind / Erwachsener fester Effekt • Klinik: 5 beteiligte Kliniken fester Effekt: nur Interesse an der Variabil. der 5 Kl. zufälliger Effekt: falls Interesse an der Pop. der Klein. • Patient: zufälliger Effekt, da zugrunde gelegt wird, daß die Patientenstichprobe aus einer unendlichen GG stammt. 6 1 H.-P. Altenburg: Die SAS-Prozedur MIXED Prozedur GLM: Feste Effekte Feste und zufällige Effekte Normalfall: feste Effekte → Prozedur GLM Modell: y=Xβ + ε wobei y=Vektor der beobachteten Daten X=bekannte Versuchsdesignmatrix β =Vektor der unbekannten festen Effektparameter ε =Vektor der nicht beobachtbaren Zufallsfehler • Konzept ist/war nicht unumstritten: z.B. die Kontroverse zwischen Yates und Nelder: Arbeit von Nelder (1977) wurde als “The great mixed model muddle” bezeichnet. Kommentar zu Mixed Models: “To a Non-Baysian, all things are BLUPs.” Voraussetzung: Komponenten von ε sind unkor7 Prozedur GLM: Feste Effekte und somit E[y] = Xβ und VAR[y] = σ2I Wichtig: Die Prozedur GLM modelliert stets alle Effekte als feste Effekte, auch wenn das RANDOM-Statement benutzt wurde. RANDOM liefert nur “expected mean squares”. CLASS- und MODEL-Statement spezifizieren gemeinsam X. 9 Prozedur MIXED: Feste und zufällige Effekte Erweitertes Modell: feste und zufällige Effekte → Prozedur MIXED Modell: y=Xβ + Zν + ε wobei y=Vektor der beobachteten Daten X, Z=bekannte Versuchsdesign-Matrizen β =Vektor der unbekannten festen Effektparameter ν = Vektor der unbek. zufälligen Effektparameter ε =Vektor der nicht beobachtbaren Zufallsfehler 10 Prozedur MIXED: Feste und zufällige Effekte SAS Proceduren mit RANDOM-Statement: Erweitertes Modell: y=Xβ + Zν + ε (mit µ = (ν , ε )T ) ν und ε normal verteilt: GLM MIXED E[µ] = 0 und Var[µ] = Diag{G,R} Das allgemeine lineare Modell ist ein Spezialfall des gemischten Modells mit Z=0 und R= σ2I. SAS-Benutzertreff Heidelberg, 3.11.2000 8 Prozedur MIXED: Feste und zufällige Effekte Modell: y=Xβ + ε d.h. es gilt E[ε]=0 und VAR[ε]= σ2I, I=Einheitsmatrix Die Prozedur MIXED erlaubt es verschiedene Kovarianzstrukturen für G und R zu spezifizieren. reliert, normal verteilt mit Varianz σ2 und Erw. null SAS Prozeduren assoziiert mit Random Effects: NESTED VARCOMP MIXED NLMIXED (Vs 8) 11 12 2 H.-P. Altenburg: Die SAS-Prozedur MIXED Wahl der Prozedur: GLM oder MIXED Abgrenzung der Prozedur MIXED • Verallgemeinerung von GLM • ähnliche Syntax • gleiche Parametrisierung, manchmal unterschiedliche CLASS Level • MIXED bietet nur die Typ III Teste für feste Effekte (dagegen GLM Typ I, II, III und IV) • MIXED nur LSMEANS (GLM auch noch MEANS) • RANDOM- und REPEATED-Statements werden unterschiedlich benutzt • Varianzkomponentenschätzung: REML, ML, MM oder MIVQUE0, GLM dagegen nur Momentenmethode (MM) 13 Zufällige Effekte vorhanden: • GLM: Standardfehler sind falsch → SE der LS Means falsch → Einfluß auf: Hypothesentesten, Schätzen der Differenzen von LS means / Konfidenzintervalle • Schätzverfahren: GLM benutzt LS, Varianzkomponenten für zufällige Effekte müssen per Hand berechnet werden anhand der ausgegebenen GLM-Schätzwerte • GLM: keine Unterscheidung zwischen festen und zuf. Effekten Hypothesenprüfung stets über F=MS/MSE Mixed Modell: erwartete MS um herauszufinden welcher MS im Zähler für die Prüfung eines best. Effektes erforderlich ist. Manchmal existiert kein geeigneter MS und muß entsprechend synthetisiert werden. 14 Wahl der Prozedur: GLM oder MIXED Varianzkomponenten Zufällige Effekte vorhanden: • GLM: Annahme alle Fehler iid GLM für Mixed Modelle: Annahme alle Var.-Komp. unabhängig und innerhalb VK ident. Verteilt, Verfeinerung durch Annahme einer sehr einfachen Abhängigkeitsstruktur unter den Fehlern (insbes. bei Repeated Measurements). MIXED dagegen, keine Annahme Fehler oder Var.-Komp. iid, Struktur und Beziehungen der Fehler und Var.-Komps werden ins Modell einbezogen. 15 Varianzkomponenten - Beispiel Eine Varianzkomponente ist, vereinfacht gesprochen, eine “Quelle weißen Rauschens”, die die Beobachtungswerte beeinflusst. Die Bezeichnung Varianzkomponente wird i.d.R. verwendet, wenn unterschiedliche Komponenten einer Variabilität unabhängig sind. Beispiel: Zweifache Varianzanalyse Reagentgruppe \ Wdh Teste \ 1 2 3 4 5 6 1 2 3 ... 8 y11 .... y33 y34 .... 16 .... Varianzkomponenten Modell für die Struktur des Nichtbeobachtbaren: Zwei oder mehrere Variationskomponenten Zwei Variationsursachen: Reagent- / Testeffekt Varianzkomponenten: assoziierte Varianzen Praktische Fragen verlangen meist ein konzeptionelles Verständnis der Variations-Komponenten Ziel eines statistischen Modells: Erfasse Struktur und Einfluß des Nicht-Beobachtbaren 17 SAS-Benutzertreff Heidelberg, 3.11.2000 18 3 H.-P. Altenburg: Die SAS-Prozedur MIXED Varianzkomponenten Varianzkomponentenschätzung Variationsursachen: • Messung: Kalibrierung, Operator-to-Operator Differenz, Variation bzgl. Temperaturschwankungen, Ablesefehler, ... • Stichprobenvariabilität: Unterscheidet sich das beobachtete Material vom nicht beobachteten? Kann z.B. reduziert werden durch Vergrößern der Stichprobe • Wechselwirkung: zwischen Behandlung / Faktor und den äußeren Umständen MM: Momentenmethode, • vergleicht erwartete Werte mit den Stichprobenschätzwerten • Varianzkomponenten: Varianzen, die mit der Variationsursache oder Zufälligkeit in den Daten assoziiert sind • kann u.U. negative Schätzwerte der Varianz liefern 19 Varianzkomponentenschätzung 20 Varianzkomponentenschätzung MIVQUE0: ein bestimmter Typ von Momentenmethode, • Schätzer sind invariant bzgl. fester Effekte, • Mittelwertquadrate, die mit den zufälligen Effekten assoziiert sind, werden nach den festen Effekten adjustiert ML: Maximum Likelihood-Methode, • iteratives Verfahren zur Schätzung von Parameterwerten, • maximiert die Likelihoodfunktion • negative Varianzen werden bei der Prozedur MIXED auf null gesetzt 21 22 Varianzkomponentenschätzung Beispiel 1: Prozedur MIXED REML: restricted / residual Maximum Likelihood, • Likelihoodfunktion wird in zwei Teilen konstruiert (ein Teil feste Effekte, der andere frei von festen Effekten) • liefert ML-Schätzung der Varianzkomponenten aus dem Anteil des Modells, der frei von festen Effekten ist • negative Varianzen werden bei der Prozedur MIXED auf null gesetzt Experiment zur Überprüfung der Wirksamkeit eines Antibiotikas, das zwei Jahre gelagert worden war. Aus acht Behältern wurden jeweils zwei Proben gezogen und die Konzentration der aktiven Komponente gemessen. 23 SAS-Benutzertreff Heidelberg, 3.11.2000 Fragestellung: 1) Schätzung der (overall) mittleren Gesamtkonzentration. 2) Hat die zufällige Auswahl der Behälter einen Einfluß auf die Variabilität der Responsen? 24 4 H.-P. Altenburg: Die SAS-Prozedur MIXED Beispiel 1: Einfaktorielles Modell Daten Beispiel 1 Start von Beispielprogramm 1 %HK½OWHU %DWFK 26 25 Beispiel 1: Prozedur MIXED - zufällige Effekte Beispiel 1: Prozedur MIXED - feste Effekte Modell 1(Behälter: Zufallsauswahl aus allen Behältern): yij = µ + βi + εij wobei µ = overall Mittel (fixed Effekt), βi = zufälliger (random) Effekt, εij = Zufallsfehler für Beobachtung j in Batch i. εij ~ iid N(0, σ2 ), unabhängig voneinander βi ~ iid N(0, σ2b ) εij ~ iid N(0, σ2 ), unabhängig voneinander E[yij]= µ , Varianzkomponenten: Var[yij]= σ2b + σ2 (σ2<< σ2b). 27 E[yij]= µ+βi , i=1,...,8 Varianz: Var[yij]= σ2 (Jeder Behälter hat seinen speziellen Erwartungswert) (Nur eine Quelle für die Variabilität) 28 Abgrenzung der Prozedur MIXED Abgrenzung der Prozedur MIXED Gegen die Prozedur VARCOMP: • MIXED verallgemeinert VARCOMP • VARCOMP berechnet auch Typ I ANOVA Varianzkomponenten • beide erlauben als Schätzverfahren: REML, ML und MIVQUE0 • beide erlauben feste und zufällige Effekte • VARCOMP erlaubt keine stetigen unabh. Variabl. • Std-Schätzverfahren: MIVQUE0 (MIXED:REML) 29 SAS-Benutzertreff Heidelberg, 3.11.2000 Modell 2 (Behälter sind alle möglichen gewesen): yij = µ + βi + εij wobei µ = overall Mittel (fixed Effekt), βi = Haupt-Effekt für Behälter i (fixed Effekt), εij = Zufallsfehler für Beobachtung j in Batch i. Verwende VARCOMP • um Schätzungen für Varianzkomponenten zu erhalten, die assoziiert sind mit den zufälligen Effekten 30 5 H.-P. Altenburg: Die SAS-Prozedur MIXED Abgrenzung der Prozedur MIXED Abgrenzung der Prozedur MIXED Die Prozedur NESTED: Weitere Prozeduren: CALIS: erlaubt nur feste Effekte • berechnet Varianzkomponenten und Schätzwerte nach der Momentenmethode • erlaubt keine stetigen Effekte in X • schätzt zufällige Effekte Modelle nur für Experimente mit einer geschachtelten Struktur ARIMA / AUTOREG: passen Zeitreihenfehlerstrukturen an aber keine Varianzkomponenten und nur feste Effekte RSCREG: Zeitreihenquerschnittmodelle, Park’s Fehlerstruktur (nicht in MIXED möglich) 31 32 Einsatz der Prozedur MIXED Syntax Prozedur MIXED Wann kann die Prozedur MIXED benutzt werden? • Repeated Measurements (Wachstumskurvenmodell) • Zufällige Effekte (Varianzkomponentenmodell, z.B. Split-Plot-Design) • Zufällige Koeffizienten (spezielles Wachstumskurvenmodell bei dem die Spalten von Z stetige Variablen und keine Dummy-Variablen) • Räumliche Daten (Landwirtschaft, Geostatistik) • Heterogene Varianzen (Anova mit ungleichen Gruppenvarianzen) • Metaanalyse (Studie als zufälliger Effekt) • Verallgem. Lin. Mixed Models (Macros GLIMMIX, NLINMIX / Vs 6.12, ab Vs 8: PROC NLMIXED) 33 PROC MIXED < options > ; BY variables ; CLASS variables ; ID variables ; MODEL dependent = < fixed-effects > < / options > ; RANDOM random-effects < / options > ; REPEATED < repeated-effect > < / options > ; PARMS (value-list) ... < / options > ; PRIOR < distribution > < / options > ; CONTRAST 'label'< fixed-effect values ...> <| random-effect values ...> < / options>; ESTIMATE 'label' < fixed-effect values ... > <| random-effect values ...>< / options >; LSMEANS fixed-effects < / options > ; MAKE 'table' OUT=SAS-data-set ; WEIGHT variable ; 34 Statements Prozedur MIXED Statements Prozedur MIXED CLASS variables ; Spezifiziert die Namen der Klassifikationsvariablen; die Werte dieser Variablen identifizieren die Levels. MODEL dependent = < fixed-effects > < / options > ; Spezifiziert die Namen der abhängigen und unabhängigen Variablen (feste Effekte und Kovariablen). RANDOM random-effects < / options > ; Spezifiziert die zufälligen Effekte, die mit dem Vektor ν assoziiert sind, die Matrix Z sowie die Struktur der Matrix G. 35 SAS-Benutzertreff Heidelberg, 3.11.2000 REPEATED < repeated-effect > < / options > ; Spezifiziert die Wiederholungseffekte und die Matrix R; Effekte, die hier aufgelistet sind, müssen im CLASSStatement auch gelistet sein. PARMS (value-list) ... < / options > ; Spezifiziert die Anfangswerte für Kovarianzparameter PRIOR < distribution > < / options > ; Bayes Analyse für die Varianzkomponentenmodelle CONTRAST 'label'< fixed-effect values ...> <| random-effect values ...> < / options>; Lineare Kontraste für Hypothsenteste 36 6 H.-P. Altenburg: Die SAS-Prozedur MIXED Beispiel 2: Zweifache Varianzanalyse Statements Prozedur MIXED ESTIMATE 'label' < fixed-effect values ... > <| random-effect values ...>< / options >; Schätzt Linearkombinationen von festen und zufälligen Effekten LSMEANS fixed-effects < / options > ; Liefert verallgemeinerte Kleinste-Quadrate Mittelwerte für die festen Effekte. MAKE 'table' OUT=SAS-data-set ; Konvertiert jede Tabelle der Ausgabe in SAS-Data Set WEIGHT variable ; Spezifiziert die Gewichtungsvariable für R 37 Beispiel 2: Zweifache Varianzanalyse Methoden: A, B, C Sorte: 1,2,3,4,5 Zielgröße: Ertrag nach vier Wochen Vollständig randomisiertes Experiment mit 2 Fakt. Unterschiede beim Ertrag? Unterschiede bei der Methode pro Sorte? 38 Beispiel 2: gemischtes Modell Sorte: zufälliger Effekt (Zufallsauswahl aus größerer Pop.) Methode: fester Effekt (nur die drei Methoden interessieren) ⇒ gemischtes Modell Ziel: Hypothesenteste zum Vergleich der Methoden, die Sorte als zufälligen Effekt zulassen. 39 Beispiel 2: gemischtes Modell Mixed Modell: yijk = µ + αi + βj + (αβ)ij + εijk wobei µ = overall Mittel (fixed Effekt), αi= Effekt der i-ten Methode (fester Effekt), βi = Effekt der j-ten Sorte (zufälliger Effekt), (αβ)ij=Wechselwirkung zwischen i-ter Methode und j-ter W εijk = Zufallsfehler für Beobachtung j in Batch i. (αβ)ij ~ iid N(0, σ2ab ) βj ~ iid N(0, σ2b ) εijk ~ iid N(0, σ2 ), unabhängig voneinander 40 Beispiel 2: gemischtes Modell Mixed Modell: yijk = µ + αi + βj + (αβ)ij + εijk Mixed Modell in Matrix-Schreibweise: y=Xβ + Zν + ε wobei y= 90×1 Vektor der beobachteten Erträge Erwartungswert von Methode i (über alle Sorten): E[yijk]= µ + αi , β= 4×1 Vektor (µ, α1, α2, α3) ν=20 × 1Vektor der zufälligen Effekte (5 Sorten, 15 WW) ε= 90×1 Vektor der Fehler Varianzkomponenten: Var[yijk]= σ2b + σ2ab + σ2 . 41 SAS-Benutzertreff Heidelberg, 3.11.2000 Geprüft werden soll die Tauglichkeit von drei Wachstumsmethoden für fünf verschiedene Grassamensorten (n=6 Wdh.): X=90 ×4 Design-Matrix (aufgeteilt in I30 -Matrizen) Z= 90 ×20 Design-Matrix (aufgeteilt in I6 -Matrizen) G=Diag{σ2b I5 , σ2ab I15 } und R= σ2 I30 . 42 7 H.-P. Altenburg: Die SAS-Prozedur MIXED Beispiel 2: gemischtes Modell Beispiel 3: Wachstumskurvenmodell Start von Beispielprogramm 2 Wachstumskurve mit zusammengesetzter Symmetrie (Compound symmetry): Gegeben: drei Wachstumskurvenmessungen bei s Individuen Problem: Anpassung eines overall linearen Trends in der Zeit (Lineares Regressionsmodell) 43 Beispiel 3: Wachstumskurvenmodell 44 Beispiel 3: Wachstumskurvenmodell -2- Prozedur-Aufruf: Alternative: spezifiziere die Matrizen Z und G wie auf der Folie angegeben und PROC MIXED DATA=dset ; CLASS indiv ; MODEL y = time ; REPEATED / TYPE=cs SUBJECT=indiv ; RUN ; R= σ2I3s Option TYPE definiert dabei die Kovarianzstruktur: vc (=variance components, Default) cs (=compound symmetry) un (=unstructered) 45 Beispiel 3: Wachstumskurvenmodell -2- 46 Beispiel 3: Wachstumskurvenmodell -2- Prozedur-Aufruf: Prozedur-Aufruf: PROC MIXED DATA=dset ; CLASS indiv ; MODEL y = time ; RANDOM indiv ; RUN ; PROC MIXED DATA=dset ; CLASS indiv ; MODEL y = time ; RANDOM intercept / SUBJECT=indiv ; RUN ; 47 SAS-Benutzertreff Heidelberg, 3.11.2000 48 8 H.-P. Altenburg: Die SAS-Prozedur MIXED Zusammenfassung Beispiel 3: Wachstumskurvenmodell -2Alle drei Prozedur-Aufrufe passen das gleiche Modell an: • RANDOM-Statement: Einschänkung der Korrelationen auf positive Korr’s Verwende MIXED für • Random Effekte: – Varianzkomponentenmodelle • Random Koeffizienten: – best. Typ von Wachstumskurvenmodellen in denen die Spalten von Z stetige Variablen sind, nicht Dummyvariablen • Repeated Measures: • REPEATED-Statement: – multiple Measurements bei Subjekten und Growth-Kurven-Modellen Korr’s nicht eingeschränkt • Heterogenenen Varianzen: – ANOVA mit ungleichen Gruppen-Varianzen • Meta-Analysen: – Studie als random Effekt 49 MIXED: Literaturhinweise 50 MIXED: Literaturhinweise - 2 • Gert Verbeke / Geert Molenberghs (eds.): Linear Mixed Models in Practice - A SASoriented Approach. Springer Lecture Notes in Statistics No 126, 1997 • SAS V8 Online Dokumentation • Littell, R.C., Milliken, G.A., Stroup, W.W. and Wolfinger, R.D. (1996): SAS System for Mixed Models. SAS Institute Inc. Cary, NC, USA • SUGI-Proceedings -2 51 52 Zur Prozedur MIXED Any Questions ? ;-) 53 SAS-Benutzertreff Heidelberg, 3.11.2000 9