SAS-Kurs: SS 08
Transcription
SAS-Kurs: SS 08
Korrelationskoeffizienten • Syntax: SAS-Kurs: SS 08 Helmut Küchenhoff, Cornelia Oberhauser, Terinka Baldwin, Sara Wadle PROC CORR < Optionen >; BY Variablen; VAR Variablen; PARTIAL Variablen; WITH Variablen; FREQ Variable; WEIGHT Variable; RUN; • PROC CORR Anweisung: – wichtige Optionen: 1. Wahl des Korrelationskoeffizienten: 24. Juli 2008 ∗ PEARSON ∗ SPEARMAN Prozeduren für induktive Statistiken Lineare Regression und Varianzanalyse 2. Weitere Informationen zum Korrelationskoeffizienten von Pearson: ∗ ALPHA (Cronbachs Alpha, Itemanalyse) ∗ COV ∗ NOCORR ∗ RANK 1 3. Festlegung von Datensätzen • PARTIAL Anweisung: ∗ DATA = SAS-Datensatz ∗ OUTP = SAS-Datensatz – berechnet die entsprechenden partiellen Korrelationskoeffizienten ∗ OUTS = SAS-Datensatz 4. Gestaltung des Outputs – die genannten Variablen sind die, deren Einfluss eliminiert werden soll ∗ NOPRINT – aktiviert automatisch NOMISS-Option ∗ NOPROB ∗ NOSIMPLE • WITH Anweisung: 5. Weitere Möglichkeiten – wird verwendet, wenn nicht alle möglichen Kombinationen von Korrelationskoeffizienten berechnet werden sollen ∗ NOMISS • BY Anweisung: ⇒ siehe PROC FREQ – für jede WITH-Variable wird die Korrelation mit jeder VAR-Variable berechnet • VAR Anweisung: • FREQ Anweisung: Haüfigkeitsvariable – legt die Variablen fest, für die die Koeffizienten berechnet werden sollen – es werden alle möglichen Kombinationen berechnet 2 • WEIGHT Anweisung: Gewichtsvariable 3 T-Test für unabhängige Stichproben • Syntax: PROC TTEST < Optionen>; CLASS Variable; BY Variablen; VAR Variablen; RUN; T-Test für abhängige Stichproben • Syntax: • PROC TTEST Anweisung: wichtige Optionen: PROC TTEST < Optionen>; PAIRED var1*var2; BY Variablen; RUN; – DATA = SAS-Datensatz – H0=m • PROC TTEST Anweisung: – ALPHA=p – startet die Prozedur • CLASS Anweisung: – benennt die Variable, die die Gruppen festlegt, die verglichen werden sollen – ist notwendig, um die Tests berechnen zu können – die CLASS-Variable muss genau zwei Ausprägungen besitzen; dies dürfen numerische oder character“ Werte sein ” – wichtige Optionen: ∗ DATA = SAS-Datensatz • PAIRED Anweisung: – Gibt die beiden Variablen an, die miteinander verglichen werden sollen. – Kein Class-Statement erforderlich • VAR Anweisung: – legt die Variablen fest, deren Mittelwerte verglichen werden sollen 4 5 • CLASS Anweisung: Varianzanalyse – legt die Variablen fest, die die Gruppen für die Analyse identifizieren • Syntax: – die Anweisung ist notwendig und muss vor der MODEL-Anweisung stehen PROC ANOVA < Optionen >; CLASS Variablen; MODEL abh. Var. = Effekte </ Optionen >; – die CLASS-Variablen können numerische oder character“ Ausprägungen besitzen ” • MODEL Anweisung: – MODEL-Anweisung ist notwendig BY Variablen; FREQ Variable; – legt die Effekte und die abhängigen Variablen fest MEANS Effekte </ Optionen >; TEST <H = Effekte> E = Effekt; RUN; – bei den Effekten handelt es sich um kategoriale Variablen – Spezifikation der Effekte: ∗ Modell mit Haupteffekten: model y = a b c • PROC ANOVA Anweisung: ∗ Modell mit Interaktionen: model y = a b c a*b a*c b*c ⇔ model y = a|b|c@2 wichtige Optionen: – DATA = SAS-Datensatz – Optionen: – OUTSTAT = SAS-Datensatz ∗ INT | INTERCEPT ∗ NOUNI 6 7 Nichtparametrische Tests für unabhängige Stichproben • Syntax: • CONTRAST Anweisung: – erlaubt es, allgemeine lineare Hypothesen zu testen • MEANS Anweisung: PROC NPAR1WAY < Optionen >; CLASS Variable; BY Variablen; VAR Variablen; EXACT < Optionen >; RUN; • PROC NPAR1WAY Anweisung: – berechnet Mittelwerte und Standardabweichungen für alle Gruppen von angegeben Variablen – mit der MEANS-Anweisung ist es möglich eine Vielzahl verschiedener multipler Vergleichstests zu berechnen – startet die Prozedur – wichtige Optionen: 1. Zur Datengrundlage: ∗ DATA = SAS-Datensatz ∗ MISSING 2. Zur Wahl der auszuführenden Analysen: ∗ ANOVA ∗ EDF ∗ MEDIAN ∗ WILCOXON 8 9 • CLASS Anweisung: – benennt die Variable, die die Gruppen festlegt, die verglichen werden sollen – ist notwendig, um die Tests berechnen zu können – die CLASS-Variable kann numerische oder character“ Ausprägungen besitzen ” Das multiple lineare Regressionsmodell Yi = β0 + β1xi1 + . . . + βpxip + i; i = 1, . . . n Fragestellung: • VAR Anweisung: – legt den Response oder die abhängige Variable, die untersucht werden soll, fest Wirkung von Einflussgrößen xk auf eine metrische Zielgröße Y Methodik: • KQ-Schätzung (= ML für Normalverteilung) der Parameter • EXACT Anweisung: – führt exakten Test durch • Bestimmung von Konfidenzintervallen – mögliche Optionen: • Tests mit Hilfe von Residuenquadratsummen ∗ WILCOXON • Modell mit Residuenanalyse überprüfen ∗ MEDIAN 10 11 Lineare Regression (PROC REG) Syntax: Diese Prozedur kann u.a.: - Parameterschätzungen nach der Methode der kleinsten Quadrate berechnen - Vorhersagewerte, Residuen und Konfidenzintervalle ausgeben und/oder in einer SAS-Datei abspeichern PROC REG <optionen>; MODEL abhängige variable = unabhängige variable(n) </ optionen>; BY variable; ID variable; OUTPUT < OUT = SAS-datensatz>; PLOT <yvariable*xvariable> <schlüsselwort>; TEST gleichung </ optionen>; WEIGHT variable; RUN; <QUIT;> - Parameterschätzungen unter linearen Restriktionen vornehmen - lineare Hypothesen testen 12 13 • PROC REG-Anweisung – DATA = SAS-Datensatz gibt an, welche Datei referenziert wird. Falls die Option DATA nicht spezifiziert wird, verwendet PROC REG den Datensatz, der als letztes erzeugt wurde – OUTEST = SAS-Datensatz ermöglicht das Abspeichern der Parameterschätzungen – TABLEOUT • MODEL-Anweisung MODEL abhängige variable = unabhängige variable(n) </ optionen>; – es können mehrere MODEL-Anweisungen verarbeitet werden – Wichtige Optionen: (nur in Verbindung mit der Option OUTEST) R CLM – ALPHA – SIMPLE CLI – CORR Residuen und Cook’s Distanz-Werte Konfidenzintervall für den Erwartungswert jeder abhängigen Beobachtung Vorhersageintervall für jede geschätzte Beobachtung – ALL – NOPRINT unterdrückt den Output 14 15 Allgemeines lineares Modell (PROC GLM) Optionen: • OUTPUT-Anweisung OUTPUT OUT = Datensatz Schlüsselwort = Name spezifiziert einen Ausgabe-Datensatz, der die Ergebnisse des Modells für jede einzelne Beobachtung enthält. Schlüsselwörter sind z.B.: - PREDICTED | P Vorhersagewerte für die abhängige Variable - RESIDUAL | R Residuen Diese Prozedur berechnet u.a.: - einfache und multiple Regressionsmodelle (siehe PROC REG) - Varianzanalyse im balancierten/unbalancierten Fall (ANOVA) - Repeated Measurement-Modelle - Kovarianz-Analyse • PLOT-Anweisung Syntax: – Ausgabe von Streudiagrammen – Variablen, die erst in der Prozedur erzeugt werden, müssen mit einem Punkt am Ende des Namens versehen werden (z.B. PREDICTED.) PROC GLM < optionen >; CLASS variable; MODEL abhängige variable = unabhängige variable(n) </ optionen >; – Schlüsselwörter sind u.a. PREDICTED., RESIDUAL. und COOKD. BY variable; ID variable; OUTPUT <OUT = SAS-datensatz>; WEIGHT variable; RUN; 16 17 • PROC GLM-Anweisung • Class Anweisung Hier werden die nominalen Einflussgrößen angegeben . Die Anweisung muss vor der MODEL-Anweisung stehen – Zur Spezifikation der Effekte: Neben den bereits in der PROC ANOVA genannten Effekten sind hier noch weitere möglich ∗ einfaches lineares Modell: model y = x; ∗ multiples lineares Modell: model y = x z; ∗ polynomiales Modell: model y = x x*x; • MODEL-Anweisung ∗ multivariate Regression: model y1 y2 = x z; – Allgemeine Bedingungen ⇒ siehe PROC ANOVA ∗ Kovarianzanalyse-Modell: class a; model y = a x; – Variablen, die hier genannt werden, aber nicht bei CLASS spezifiziert sind, werden als metrische Größen behandelt 18 19