SAS-Kurs: SS 08

Transcription

SAS-Kurs: SS 08
Korrelationskoeffizienten
• Syntax:
SAS-Kurs: SS 08
Helmut Küchenhoff, Cornelia Oberhauser,
Terinka Baldwin, Sara Wadle
PROC CORR < Optionen >;
BY Variablen;
VAR Variablen;
PARTIAL Variablen;
WITH Variablen;
FREQ Variable;
WEIGHT Variable;
RUN;
• PROC CORR Anweisung:
– wichtige Optionen:
1. Wahl des Korrelationskoeffizienten:
24. Juli 2008
∗ PEARSON
∗ SPEARMAN
Prozeduren für induktive Statistiken
Lineare Regression und Varianzanalyse
2. Weitere Informationen zum Korrelationskoeffizienten von Pearson:
∗ ALPHA (Cronbachs Alpha, Itemanalyse)
∗ COV
∗ NOCORR
∗ RANK
1
3. Festlegung von Datensätzen
• PARTIAL Anweisung:
∗ DATA = SAS-Datensatz
∗ OUTP = SAS-Datensatz
– berechnet die entsprechenden partiellen
Korrelationskoeffizienten
∗ OUTS = SAS-Datensatz
4. Gestaltung des Outputs
– die genannten Variablen sind die, deren
Einfluss eliminiert werden soll
∗ NOPRINT
– aktiviert automatisch NOMISS-Option
∗ NOPROB
∗ NOSIMPLE
• WITH Anweisung:
5. Weitere Möglichkeiten
– wird verwendet, wenn nicht alle möglichen
Kombinationen von Korrelationskoeffizienten
berechnet werden sollen
∗ NOMISS
• BY Anweisung:
⇒ siehe PROC FREQ
– für jede WITH-Variable wird die Korrelation
mit jeder VAR-Variable berechnet
• VAR Anweisung:
• FREQ Anweisung:
Haüfigkeitsvariable
– legt die Variablen fest, für die die
Koeffizienten berechnet werden sollen
– es werden alle möglichen Kombinationen
berechnet
2
• WEIGHT Anweisung:
Gewichtsvariable
3
T-Test für unabhängige Stichproben
• Syntax:
PROC TTEST < Optionen>;
CLASS Variable;
BY Variablen;
VAR Variablen;
RUN;
T-Test für abhängige Stichproben
• Syntax:
• PROC TTEST Anweisung:
wichtige Optionen:
PROC TTEST < Optionen>;
PAIRED var1*var2;
BY Variablen;
RUN;
– DATA = SAS-Datensatz
– H0=m
• PROC TTEST Anweisung:
– ALPHA=p
– startet die Prozedur
• CLASS Anweisung:
– benennt die Variable, die die Gruppen festlegt,
die verglichen werden sollen
– ist notwendig, um die Tests berechnen zu
können
– die CLASS-Variable muss genau zwei
Ausprägungen besitzen; dies dürfen
numerische oder character“ Werte sein
”
– wichtige Optionen:
∗ DATA = SAS-Datensatz
• PAIRED Anweisung:
– Gibt die beiden Variablen an, die miteinander
verglichen werden sollen.
– Kein Class-Statement erforderlich
• VAR Anweisung:
– legt die Variablen fest, deren Mittelwerte verglichen werden sollen
4
5
• CLASS Anweisung:
Varianzanalyse
– legt die Variablen fest, die die Gruppen für die
Analyse identifizieren
• Syntax:
– die Anweisung ist notwendig und muss vor der
MODEL-Anweisung stehen
PROC ANOVA < Optionen >;
CLASS Variablen;
MODEL abh. Var. = Effekte </ Optionen >;
– die CLASS-Variablen können numerische oder
character“ Ausprägungen besitzen
”
• MODEL Anweisung:
– MODEL-Anweisung ist notwendig
BY Variablen;
FREQ Variable;
– legt die Effekte und die abhängigen Variablen
fest
MEANS Effekte </ Optionen >;
TEST <H = Effekte> E = Effekt;
RUN;
– bei den Effekten handelt es sich um kategoriale Variablen
– Spezifikation der Effekte:
∗ Modell mit Haupteffekten:
model y = a b c
• PROC ANOVA Anweisung:
∗ Modell mit Interaktionen:
model y = a b c a*b a*c b*c ⇔
model y = a|b|c@2
wichtige Optionen:
– DATA = SAS-Datensatz
– Optionen:
– OUTSTAT = SAS-Datensatz
∗ INT | INTERCEPT
∗ NOUNI
6
7
Nichtparametrische Tests für
unabhängige Stichproben
• Syntax:
• CONTRAST Anweisung:
– erlaubt es, allgemeine lineare Hypothesen zu
testen
• MEANS Anweisung:
PROC NPAR1WAY < Optionen >;
CLASS Variable;
BY Variablen;
VAR Variablen;
EXACT < Optionen >;
RUN;
• PROC NPAR1WAY Anweisung:
– berechnet Mittelwerte und Standardabweichungen für alle Gruppen von angegeben Variablen
– mit der MEANS-Anweisung ist es möglich
eine Vielzahl verschiedener multipler Vergleichstests zu berechnen
– startet die Prozedur
– wichtige Optionen:
1. Zur Datengrundlage:
∗ DATA = SAS-Datensatz
∗ MISSING
2. Zur Wahl der auszuführenden Analysen:
∗ ANOVA
∗ EDF
∗ MEDIAN
∗ WILCOXON
8
9
• CLASS Anweisung:
– benennt die Variable, die die Gruppen festlegt,
die verglichen werden sollen
– ist notwendig, um die Tests berechnen zu
können
– die CLASS-Variable kann numerische oder
character“ Ausprägungen besitzen
”
Das multiple lineare Regressionsmodell
Yi = β0 + β1xi1 + . . . + βpxip + i; i = 1, . . . n
Fragestellung:
• VAR Anweisung:
– legt den Response oder die abhängige Variable, die untersucht werden soll, fest
Wirkung von Einflussgrößen xk auf eine metrische
Zielgröße Y
Methodik:
• KQ-Schätzung (= ML für Normalverteilung) der
Parameter
• EXACT Anweisung:
– führt exakten Test durch
• Bestimmung von Konfidenzintervallen
– mögliche Optionen:
• Tests mit Hilfe von Residuenquadratsummen
∗ WILCOXON
• Modell mit Residuenanalyse überprüfen
∗ MEDIAN
10
11
Lineare Regression (PROC REG)
Syntax:
Diese Prozedur kann u.a.:
- Parameterschätzungen nach der Methode der
kleinsten Quadrate berechnen
- Vorhersagewerte, Residuen und Konfidenzintervalle ausgeben und/oder in einer SAS-Datei abspeichern
PROC REG <optionen>;
MODEL abhängige variable =
unabhängige variable(n) </ optionen>;
BY variable;
ID variable;
OUTPUT < OUT = SAS-datensatz>;
PLOT <yvariable*xvariable> <schlüsselwort>;
TEST gleichung </ optionen>;
WEIGHT variable;
RUN;
<QUIT;>
- Parameterschätzungen unter linearen Restriktionen vornehmen
- lineare Hypothesen testen
12
13
• PROC REG-Anweisung
– DATA = SAS-Datensatz
gibt an, welche Datei referenziert wird. Falls
die Option DATA nicht spezifiziert wird, verwendet PROC REG den Datensatz, der als
letztes erzeugt wurde
– OUTEST = SAS-Datensatz
ermöglicht das Abspeichern der Parameterschätzungen
– TABLEOUT
• MODEL-Anweisung
MODEL abhängige variable =
unabhängige variable(n) </ optionen>;
– es können mehrere MODEL-Anweisungen
verarbeitet werden
– Wichtige Optionen:
(nur in Verbindung mit der Option OUTEST)
R
CLM
– ALPHA
– SIMPLE
CLI
– CORR
Residuen und Cook’s Distanz-Werte
Konfidenzintervall für den Erwartungswert jeder abhängigen
Beobachtung
Vorhersageintervall für jede
geschätzte Beobachtung
– ALL
– NOPRINT
unterdrückt den Output
14
15
Allgemeines lineares Modell
(PROC GLM)
Optionen:
• OUTPUT-Anweisung
OUTPUT OUT = Datensatz
Schlüsselwort = Name
spezifiziert einen Ausgabe-Datensatz, der die Ergebnisse des Modells für jede einzelne Beobachtung enthält. Schlüsselwörter sind z.B.:
- PREDICTED | P
Vorhersagewerte für die abhängige Variable
- RESIDUAL | R
Residuen
Diese Prozedur berechnet u.a.:
- einfache und multiple Regressionsmodelle
(siehe PROC REG)
- Varianzanalyse im balancierten/unbalancierten
Fall (ANOVA)
- Repeated Measurement-Modelle
- Kovarianz-Analyse
• PLOT-Anweisung
Syntax:
– Ausgabe von Streudiagrammen
– Variablen, die erst in der Prozedur erzeugt
werden, müssen mit einem Punkt am Ende
des Namens versehen werden (z.B. PREDICTED.)
PROC GLM < optionen >;
CLASS variable;
MODEL abhängige variable =
unabhängige variable(n) </ optionen >;
– Schlüsselwörter sind u.a. PREDICTED., RESIDUAL. und COOKD.
BY variable;
ID variable;
OUTPUT <OUT = SAS-datensatz>;
WEIGHT variable;
RUN;
16
17
• PROC GLM-Anweisung
• Class Anweisung
Hier werden die nominalen Einflussgrößen
angegeben . Die Anweisung muss vor der
MODEL-Anweisung stehen
– Zur Spezifikation der Effekte:
Neben den bereits in der PROC ANOVA genannten Effekten sind hier noch weitere möglich
∗ einfaches lineares Modell:
model y = x;
∗ multiples lineares Modell:
model y = x z;
∗ polynomiales Modell:
model y = x x*x;
• MODEL-Anweisung
∗ multivariate Regression:
model y1 y2 = x z;
– Allgemeine Bedingungen ⇒ siehe PROC
ANOVA
∗ Kovarianzanalyse-Modell:
class a;
model y = a x;
– Variablen, die hier genannt werden, aber nicht
bei CLASS spezifiziert sind, werden als metrische Größen behandelt
18
19

Similar documents