Statistische Grundlagen - Université de Fribourg

Transcription

Statistische Grundlagen - Université de Fribourg
Statistische Grundlagen
Eine Einführung mit Beispielen
aus der Sprachforschung
Jan Vanhove
Universität Freiburg/Fribourg
Departement für Sprachen und Literaturen
Studienbereich für Mehrsprachigkeitsforschung und Fremdsprachendidaktik
[email protected]
http://janhove.github.io
Letzte Überarbeitung: Mai 2016
Vorwort
Anders als in anderen Geisteswissenschaften wie der Psychologie oder Pädagogik gehören
Statistikkurse eher selten zur Grundausbildung von Forschenden in Bereichen wie den einzelsprachigen Philologien (Anglistik, Germanistik, Romanistik usw.), der theoretischen oder
angewandten Linguistik oder der Mehrsprachigkeitsforschung. Das Ziel des vorliegenden Skriptes ist es daher, Forschenden in diesen Bereichen statistische Grundkenntnisse zu vermitteln, die
ihnen sowohl bei der Lektüre quantitativer Forschungsberichte als auch bei der Gestaltung und
Auswertung eigener Studien nützlich sein werden.
Ursprunglich diente dieses Skript als Grundlage eines Wahlfaches, das ich seit 2012 regelmässig
am Studienbereich für Mehrsprachigkeitsforschung und Fremdsprachendidaktik der Universität
Freiburg (Schweiz) unterrichte. Ich denke jedoch, dass es auch als selbstständige Lektüre geeignet
sein dürfte – auch wenn es noch verbesserungsfähig ist. Dieses Skript hat aber nicht zum Ziel, ein
‘Schema F’ für die Datenanalyse zu bieten. Vielmehr versucht es, Ihnen die zentralen Konzepten
der quantitativen Analyse beizubringen, sodass Sie diese Verfahren selbst überlegt einsetzen
können oder auch ihre Anwendung in anderen Studien reflektieren können – nicht ‘Wann darf
ich diesen Test benutzen?’ sondern ‘Was nutzt mir dieser Test überhaupt?’ Wichtig ist also, dass
zumindest die am häufigsten verwendeteten statistischen Verfahren nicht als Orakel betrachtet
werden, sondern dass sie weitgehend demystifiziert werden. Dies ist natürlich – sowohl für Sie
als auch für mich – am Anfang erheblich schwieriger als ein Schema F. Aber der Mehraufwand
zahlt sich aus, wenn Sie am Ende nicht nur im Stande sind, statistischen Ratschlägen (oder
manchmal besser: ‘Befehlen’) zu folgen, sondern diese auch kritisch reflektieren können. Auch
wird Ihnen hoffentlich klar, dass viele ‘Orakel’ (z.B. t-Tests, ANOVAs und Regressionen) im
Grunde alle nur Erscheinungsformen der gleichen Logik sind.
Die Verfahren, die in diesem Skript besprochen werden, sind in der Tradition der sog. frequentistischen Inferenzstatistik angesiedelt. Es gibt aber andere statistische Traditionen – und
die dürften für viele Fragestellungen durchaus angemessener sein (siehe etwa Dienes 2011).
Aber beim Gestalten eines Einführungskurses in die Statistik muss eine Abwägung zwischen
dem ist- und dem soll-Zustand gemacht werden. Fürs Erste habe ich dafür gewählt, jene Verfahren zu präsentieren, die Sie in Forschungsberichten am häufigsten antreffen werden. Ich
möchte Sie aber dazu anhalten, sich auch mit Methoden, die nicht detailliert in diesem Skript
behandelt werden, auseinanderzusetzen. Literaturempfehlungen dazu finden Sie in Kapitel
9 sowie auch an den relevanten Stellen im Skript. Zuletzt möchte ich auf meinen Blog unter
http://janhove.github.io verweisen, wo ich quasi-regelmässig die statistische Praxis in der
angewandten Linguistik und Mehrsprachigkeitsforschung unter die Lupe nehme und diese
konstruktiv zu kritisieren versuche.
In diesem Skript wird die Programmiersprache bzw. das Programm R verwendet – kostenlos herunterzuladen unter http://www.r-project.org/. R hat eine steile Lernkurve, aber auch dieser
Aufwand wird sich auszahlen, denn das Programm zwingt seine BenutzerInnen über die Analyse
nachzudenken. Ausserdem ist R gratis und quasi unbegrenzt erweiterbar (siehe die ‘Packages’ unter http://cran.r-project.org/web/packages/available_packages_by_name.html). Als
i
ii
graphical user interface ist RStudio zu empfehlen: http://www.rstudio.com/.
Zu guter Letzt möchte ich darauf hinweisen, dass dieses Skript sich als ein work-in-progress
versteht. Ich bin von meiner Ausbildung her kein Statistiker und mein Verständnis der besprochenen Verfahren entwickelt sich ständig. Ausserdem bin ich kein deutscher Muttersprachler
und daher ist der Text auch in dieser Hinsicht verbesserungsfähig. Für jegliche Hinweise, sowohl
technisch als auch sprachlich, bin ich natürlich dankbar.
Jan Vanhove
Freiburg/Fribourg, Mai 2015
http://janhove.github.io
Bei der Überarbeitung vom Mai 2016 habe ich ein paar Sprach- und Tippfehler durch andere
ersetzt und ein paar Abschnitte ergänzt oder zu vereinfachen versucht. Zudem habe ich versucht,
den Gebrauch der sehr nützlichen ggplot2- und dplyr-Packages zu illustrieren.
Jan Vanhove
Freiburg/Fribourg, Mai 2016
Inhaltsverzeichnis
I
Grundlagen
1
Daten beschreiben
1.1 Messniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Daten einlesen und anzeigen in R . . . . . . . . . . . . . . . . .
1.2.1 Struktur von Datensätzen . . . . . . . . . . . . . . . . .
1.2.2 Daten einlesen in R . . . . . . . . . . . . . . . . . . . . .
1.2.3 Daten anzeigen in R . . . . . . . . . . . . . . . . . . . .
1.3 Einzelne Variablen numerisch beschreiben . . . . . . . . . . .
1.3.1 Mittelwerte (‘zentrale Tendenz’) . . . . . . . . . . . . .
1.3.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Grafische Darstellung einer Population von univariaten Daten
1.4.1 Cleveland dotchart . . . . . . . . . . . . . . . . . . . . .
1.4.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Säulendiagramm . . . . . . . . . . . . . . . . . . . . . .
1.4.4 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.5 Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . .
1.5 Klassische (idealisierte) Datenverteilungen . . . . . . . . . . .
1.5.1 Gleichverteilung oder Uniformverteilung . . . . . . . .
1.5.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . .
1.5.3 Bimodale Verteilung . . . . . . . . . . . . . . . . . . . .
1.5.4 Schiefe Verteilungen . . . . . . . . . . . . . . . . . . . .
1.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
3
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
3
3
4
5
6
6
10
12
13
13
14
15
16
18
18
18
20
20
20
Wahrscheinlichkeitsaussagen über neue Beobachtungen
2.1 Beispiel: kontinuierliche Gleichverteilung . . . . . . . . . . . . . . . . . .
2.1.1 Wahrscheinlichkeit = Fläche unter der Wahrscheinlichkeitsdichte
2.1.2 Kumulative Verteilungsfunktion . . . . . . . . . . . . . . . . . . .
2.2 Beispiel Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
23
23
24
25
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Wahrscheinlichkeitsaussagen über Stichproben
3.1 Zentrale Tendenz und Streuung der Population anhand einer Stichprobe schätzen
3.1.1 Stichprobenmittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Stichprobenvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Stichprobenstandardabweichung . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Verteilung von Stichprobenmitteln . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Simulation: Verteilung der Stichprobenmittel aus einer rechtsschiefen Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Simulation: Verteilung der Stichprobenmittel aus einer Gleichverteilung .
3.2.3 Fazit: Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . .
iii
28
29
29
29
31
32
32
33
34
INHALTSVERZEICHNIS
3.3
4
II
5
6
iv
3.2.4 Wahrscheinlichkeitsaussagen über neue Stichproben . . . . . . . . . . . .
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Die Logik des Signifikanztests
4.1 Einstichproben-Gauss-Test . . . .
4.1.1 Fragestellung und Daten .
4.1.2 Lösung . . . . . . . . . . .
4.1.3 Schlussfolgerungen . . . .
4.1.4 Anmerkungen . . . . . . .
4.1.5 Power berechnen . . . . .
4.1.6 Relative Effektgrössen . .
4.1.7 Übungen . . . . . . . . . .
4.2 Konfidenzintervalle . . . . . . . .
4.3 Einstichproben-t-Test . . . . . . .
4.3.1 Die t-Verteilungen . . . .
4.3.2 Hypothesen testen . . . .
4.3.3 t- oder Gauss-Test? . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Die weitverbreitesten Tests und Modelle
34
35
36
36
36
37
38
39
41
43
43
44
45
45
46
49
50
Zwei Stichproben vergleichen
5.1 Exkurs: Randomisierung als Inferenzbasis . . . . . . . . . . . . . . . . . . . . .
5.1.1 Ein einfaches Experiment . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.2 Warum randomisieren? . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.3 Die Nullhypothese und Re-Randomisierung . . . . . . . . . . . . . . .
5.1.4 Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.5 Die Holzhammermethode: Permutationstest für grössere Stichproben
5.2 Zweistichproben-t-Test für unabhängige Stichproben . . . . . . . . . . . . . .
5.2.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.3 Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.4 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.5 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.6 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.7 Welch-Test für Stichproben mit ungleichen Varianzen . . . . . . . . . .
5.2.8 Alternativ für nicht-normalverteilte Daten . . . . . . . . . . . . . . . .
5.2.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Zweistichproben-t-Test für abhängige Stichproben . . . . . . . . . . . . . . . .
5.3.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.3 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.4 Schlussfolgerungen und Bemerkungen . . . . . . . . . . . . . . . . . .
5.3.5 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.6 Alternativ für nicht-normalverteilte Stichprobendifferenzen . . . . . .
5.3.7 Denkfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.8 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
52
52
52
53
55
55
55
56
56
57
57
60
60
60
61
62
64
64
64
65
67
67
67
68
68
Zusammenhänge zwischen kontinuierlichen Variablen
6.1 Frage 1: Kovarianz und Korrelation . . . . . . . . . .
6.1.1 Grafische Darstellung: das Streudiagramm .
6.1.2 Kovarianz . . . . . . . . . . . . . . . . . . . .
6.1.3 Pearsons Produkt-Moment-Korrelation (r) .
.
.
.
.
.
.
.
.
70
71
71
72
73
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS
6.2
6.3
7
8
v
6.1.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Frage 2: Einfache lineare Regression . . . . . . . . . . . . . . . . . . .
6.2.1 Regressionsgerade, ‘vorhergesagte’ Werte und Residuen . . .
6.2.2 Zusätzliche Informationen mit summary() . . . . . . . . . . .
6.2.3 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Frage 2: Mehrfache lineare Regression . . . . . . . . . . . . . . . . . .
6.3.1 Mehrere kontinuierliche Prädiktoren (mehrfache Regression)
6.3.2 Kategorielle Prädiktoren . . . . . . . . . . . . . . . . . . . . . .
6.3.3 Der Nutzen von mehrfacher Regression . . . . . . . . . . . . .
6.3.4 Vorbehalte und Weiterbildung . . . . . . . . . . . . . . . . . .
6.3.5 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
79
80
81
83
84
84
88
90
91
92
Mehrere Gruppen vergleichen
7.1 Einfaktorielle Varianzanalyse (one-way ANOVA) . . . . . . . .
7.1.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . .
7.1.2 Grafische Darstellungen . . . . . . . . . . . . . . . . . . .
7.1.3 Mittel und Standardabweichungen berechnen . . . . . .
7.1.4 Signifikanztest . . . . . . . . . . . . . . . . . . . . . . . .
7.1.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . .
7.1.6 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.1.7 Exkurs: Geplante Vergleiche und Post-hoc-Tests . . . . .
7.1.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Zweifaktorielle Varianzanalyse (two-way ANOVA)
ohne Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.1 Daten und Fragestellung . . . . . . . . . . . . . . . . . . .
7.2.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . .
7.2.3 Mittelwerte und Standardabweichungen berechnen . . .
7.2.4 Berechnung . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . .
7.2.6 Warum nicht einfach zwei ANOVAs? . . . . . . . . . . . .
7.2.7 Exkurs: Varianzaufteilung für unbalancierte Designs . .
7.3 Zweifaktorielle Varianzanalyse (two-way ANOVA)
mit Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Was sind Interaktionen? . . . . . . . . . . . . . . . . . . .
7.3.2 Daten und Fragestellung . . . . . . . . . . . . . . . . . . .
7.3.3 Grafische Darstellung . . . . . . . . . . . . . . . . . . . .
7.3.4 Berechnung . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . .
7.3.6 Zur Interpretation von Interaktionen und Haupteffekten
7.4 Varianzanalyse mit wiederholten Messungen
(repeated-measures ANOVA) . . . . . . . . . . . . . . . . . . . .
7.5 Artikel mit ANOVA lesen . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . 113
. . . . . . . . . . 113
Mit kategorialen abhängigen Variablen arbeiten
8.1 Kreuztabellen analysieren . . . . . . . . . . . . . . . . . . .
8.1.1 Daten und Fragestellung . . . . . . . . . . . . . . . .
8.1.2 Eine Kreuztabelle erzeugen und grafisch darstellen
8.1.3 Berechnung des χ2 -Tests . . . . . . . . . . . . . . . .
8.1.4 Schlussfolgerung und Bericht . . . . . . . . . . . . .
8.1.5 Komplikationen . . . . . . . . . . . . . . . . . . . . .
8.1.6 Aufgaben (und ein zusätzlicher Test) . . . . . . . .
8.2 Logistische Regression . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
93
95
95
95
97
98
101
102
103
105
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
105
105
106
107
107
108
108
108
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
109
109
109
110
111
112
112
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
116
116
116
117
119
120
121
125
127
INHALTSVERZEICHNIS
8.2.1
8.2.2
8.2.3
8.2.4
8.2.5
III
9
vi
Warum logistische Regression? . . . . . . . . . . . . . . . .
Odds und log-odds . . . . . . . . . . . . . . . . . . . . . . .
Logistische Regression mit einem kategorischen Prädiktor
Logistische Regression mit Interaktionen . . . . . . . . . .
Logistische Regression mit kontinuierlichen Prädiktoren .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Empfehlungen
127
128
130
132
136
139
Literaturempfehlungen
140
9.1 Wiederholung und Vertiefung von Gelerntem . . . . . . . . . . . . . . . . . . . . . 140
9.2 Fortgeschrittenere Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
9.3 Informative Grafiken erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10 Praktische Empfehlungen
10.1 Planung . . . . . . .
10.2 Analyse . . . . . . . .
10.3 Bericht . . . . . . . .
10.4 Probleme lösen . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
142
142
142
143
144
Teil I
Grundlagen
1
Kapitel 1
Daten beschreiben
In diesem Kapitel befassen wir uns mit den Grundrissen der quantitativen Analyse: Was für
Datenarten gibt es? Wie können wir einzelne Reihen von Daten effizient kommunizieren (Mittelwerte, Streuung, Grafiken)? Und wie können Datensätze in R eingelesen und angezeigt werden?
1.1
Messniveaus
Stevens (1946) unterscheidet vier Datenarten oder Messniveaus:
• nominalskalierte Daten wie Genus (männlich–weiblich–sächlich) oder Sprache (Deutsch–
Englisch–Niederländisch–Französisch. . . ). Unterschiedliche Werte auf diesen Skalen schliessen einander im Prinzip aus: Zum Beispiel sind deutsche Wörter (mit wenigen Ausnahmen) entweder sächlich, männlich oder weiblich. Es gibt aber keine natürliche Reihenfolge
zwischen den ‘Stufen’ solcher Nominalskalen: Sächlich ist weder ‘besser’/‘höher’ noch
‘schlechter’/‘niedriger’ als weiblich, einfach anders.
• ordinalskalierte Daten wie Einschätzungen mittels Likertskalen (etwa sehr hässlich – hässlich – neutral – schön – sehr schön oder sehr dialektal – eher dialektal – eher standardnah – sehr
standardnah). Man kann sagen, dass schön einen höheren Wert auf der Skala darstellt als
neutral und dass neutral einen höheren Wert darstellt als hässlich. Es ist aber schwieriger zu sagen, dass der Unterschied zwischen hässlich und neutral (eine Stufe) gleich dem
Unterschied zwischen neutral und schön (ebenfalls eine Stufe) ist.
• intervallskalierte Daten wie Grad Celsius. Die Null solcher Skalen ist arbiträr: 0 °C heisst
nicht, dass es keine Temperatur gibt. Unterschiede auf der Skala können aber sinnvoll
miteinander verglichen werden: Der Unterschied zwischen 15 und 20 °C ist gleich dem
Unterschied zwischen −10 und −5 °C, und beide Unterschiede sind halb so gross wie jener
zwischen 50 und 60 °C. Man kann aber nicht sagen, dass 20 °C doppelt so warm ist oder
doppelt so viel Temperatur entspricht wie 10 °C.
• verhältnisskalierte Daten wie Reaktionszeiten, Wortfrequenzen, Vokallänge in ms oder
Anzahl Sprecher einer Sprache. Hier ist die Null bedeutungsvoll: Eine Korpusfrequenz
von 0 heisst, dass das Wort nicht im Korpus vorkommt. Gibt es für das eine Wort 8 Treffer
und für das andere 24, dann kann man jetzt schon sagen, dass das andere Wort 3 Mal so
oft vorkommt als das eine.
Intervallskalierte und verhältnisskalierte Daten bezeichnet man auch als kontinuierlich, während man für nominalskalierte Daten (und manchmal auch für ordinalskalierte Daten) auch die
2
KAPITEL 1. DATEN BESCHREIBEN
3
Begriffe kategorial oder diskret verwendet.
Wie wir später sehen werden, wären je nach Messniveau andere statistische Verfahren zulässig.
Diese Aufteilung wurde jedoch öfters kritisiert (Carifio & Perla 2008; Velleman & Wilkinson 1993).
Die aus meiner Sicht pragmatische Lösung ist, den Unterschied zwischen den unterschiedlichen
Messniveaus zwar zu kennen, ihm aber nicht zu pedantisch zu folgen. Insbesondere stösst man
ab und zu auf Kritiken, in denen die Verwendung geläufiger Signifikanztests auf Likertskalen
bemängelt werden. Oft zeigt sich aber das gleiche Ergebnis, wenn man solche Daten mittels
anderer Methoden auswertet (Norman 2010).
1.2
Daten einlesen und anzeigen in R
1.2.1
Struktur von Datensätzen
Im Folgenden arbeiten wir mit Daten, die ich im Rahmen eines Lernexperimentes erhoben habe
(Vanhove 2015b). Von Interesse sind hier nicht die Daten, für die ich mich hauptsächlich interessierte, sondern die Ergebnisse von 80 Versuchspersonen bei einem deutschen Wortschatztest
(Wortschatz) sowie bei einem Englisch- und Französischtest. Daneben enthält der Datensatz
noch Angaben zum Geschlecht und Alter der Versuchspersonen. Die Spalte VPN enthält die
ID-Nummern der Versuchspersonen.
Der Datensatz besteht somit aus fünf Variablen; jede Spalte enthält die Werte einer Variable.
Für jede dieser fünf Variablen verfügen wir über 80 Beobachtungen; jede Zeile enthält die
Beobachtungen, die miteinander assoziiert sind (gleiche Versuchsperson). Die Datei wurde als
Vanhove2015_Vpn.csv gespeichert1 und kann in einem Tabellenkalkulationsprogramm wie
Excel2 oder LibreOffice Calc geöffnet werden. Dies schaut dann so aus (im Gratis-Programm
LibreOffice Calc):
Tipp: Geben Sie Ihren Variablen (= Spalten) möglichst eindeutige und einfache Namen. So wissen
Sie auch Jahre nach der Datenerhebung, worauf sich die Zahlen beziehen.
Tipp: Am einfachsten für die spätere Analyse ist es, wenn alle Beobachtungen derselben Variable
in derselben Spalte stehen und es eine Zeile pro ‘Beobachtungseinheit’ gibt (Wickham 2014), wie
im obigen Beispiel.
1 Die
Datensätze können auf meiner Website heruntergeladen werden.
die Microsoft Office-Website zum Öffnen von csv-Dateien in Excel. Persönlich finde ich das Tabellenkalkulationsprogramm von LibreOffice praktischer.
2 Siehe
KAPITEL 1. DATEN BESCHREIBEN
4
Tipp: Bezeichnen Sie fehlende Werte als ‘NA’ (not available) und nicht etwa als -99 oder 0.
1.2.2
Daten einlesen in R
Am einfachsten können Daten in R eingelesen werden, wenn sie als comma-separated values
(CSV) gespeichert wurden. Alle relevanten Tabellenkalkulationsprogramme (Excel, LibreOffice
usw.) können Arbeitsblätter als CSV speichern (Speichern unter...), aber je nach lokalen
Einstellungen werden die Angaben mit Kommas oder Semikolonen voneinander getrennt. In
den CSV-Dateien, die in diesem Skript verwendet werden, werden die Angaben mit Kommas
getrennt und werden Punkte als Dezimaltrennzeichen verwendet. Solche Dateien können dann
so in R eingelesen werden.
Speichern Sie die csv-Datei in Ihr Arbeitsverzeichnis. Das Arbeitsverzeichnis können Sie in
RStudio unter Session > Set Working Directory > Choose Directory einstellen. Tippen
Sie dann den folgenden Befehl ein:
dat <- read.csv("Vanhove2015_Vpn.csv")
Vergessen Sie das Pfeilchen (<-, ohne Leerstelle zwischen < und -) und die Anführungszeichen
nicht! Auch Gross- vs. Kleinschreibung ist wichtig.
R kennt den Datensatz jetzt als dat. In RStudio finden Sie den Datensatz jetzt unter der Registerkarte Environment (rechts oben):
Tipp: Tragen Sie die R-Befehle nicht direkt auf die Konsole (links unten) ein, sondern schreiben
Sie diese zuerst in ein Skript (File > New File > R Script). Wenn Sie fertig geschrieben
haben, können Sie dann die getippten Zeilen in die Konsole übertragen (z.B. Zeilen selektieren
und dann Code > Run Line(s)). Insbesondere bei komplizierten Befehlen oder bei häufig
verwendeten Befehlen ist dies sehr nützlich, da sich Tippfehler so einfacher aufspüren lassen
und da man so Befehle einfacher ‘rezyklieren’ kann. R-Skripts können auch einfach gespeichert
werden (File > Save As...), sodass man die gleiche Analyse nicht jeden Tag ganz von vorne
anfangen muss.
Eine alternative Methode, um Dateien einzulesen, die irgendwo auf Ihrer Festplatte stehen:
dat <- read.csv(file.choose())
Auch wenn die Angaben in Ihrer CSV-Datei nicht mit Kommas sondern mit Semikolonen
voneinander getrennt sind, können Sie diese in R einlesen. Dazu müssen Sie den sep-Parameter
KAPITEL 1. DATEN BESCHREIBEN
5
als ; einstellen. Wenn statt Punkten Kommas als Dezimaltrennzeichen verwendet werden,
können Sie dies mit dem dec-Parameter einstellen. Beispiel:
daten <- read.csv("IhreDatei.csv", sep = ";", dec = ",")
Details zur read.csv()-Funktion können Sie abrufen, indem Sie in R ?read.csv eintippen.
Mehr Infos zum Einlesen von Datensätzen aller Art (inkl. Excel- und SPSS-Format) finden Sie
unter etwa www.r-tutor.com/r-introduction/data-frame/data-import.
Vorsicht: Wenn Sie eine Datei mit der Import Dataset-Funktion in RStudio einlesen, gibt
RStudio dem Datensatz selber einen Namen. Dieser entspricht dann nicht dem Namen, der ihm
im Skript gegeben wird, was dazu führt, dass der Code in diesem Skript nicht funktionieren
wird.
Vorsicht: Es kann geschehen, dass beim Einlesen einer CSV-Datei, Sonderzeichen wie ö, ü oder ß
falsch eingelesen werden. Dies liegt an der Zeichenkoderierung der Datei, die nicht der defaultEinstellung Ihrer R-Installation entspricht. Wenn Sie die richtige Zeichenkodierung kennen,
können Sie diese beim Einlesen spezifizieren:
dat <- read.csv(file.choose(), encoding = "UTF-8")
UTF-8 ist die Kodierung, die ich für all meine Dateien verwende. Gegebenenfalls können Sie in
Ihrem Spreadsheet-Programm die Datei mit einer anderen Kodierung speichern. In Excel ist dies
etwas umständlich; im Gratis-Programm LibreOffice geht dies einfach über File > Save as >
Text CSV, wo Sie dann Edit filter settings ankreuzen können.
1.2.3
Daten anzeigen in R
Um zu kontrollieren, ob ein Datensatz richtig eingelesen wurde, können Sie die ersten Zeilen
des Datensatzes anzeigen lassen:
head(dat)
##
##
##
##
##
##
##
1
2
3
4
5
6
VPN Wortschatz Englisch Französisch Geschlecht Alter
2
30
0.6250
0.5268
Mann
20
3
33
0.7000
0.4732
Frau
21
4
32
0.7375
0.5357
Frau
21
5
31
0.6000
0.5536
Frau
22
6
34
0.6875
0.5446
Frau
21
7
37
0.7875
0.6518
Mann
23
Nützlich ist auch die summary()-Funktion. Die Informationen, die diese anzeigt, besprechen wir
später:
summary(dat)
##
##
##
##
##
##
##
##
##
##
VPN
Min.
: 2.0
1st Qu.: 28.8
Median : 51.5
Mean
: 50.5
3rd Qu.: 73.2
Max.
:100.0
Französisch
Min.
:0.429
1st Qu.:0.533
Wortschatz
Englisch
Min.
:25.0
Min.
:0.487
1st Qu.:31.0
1st Qu.:0.613
Median :33.0
Median :0.662
Mean
:32.6
Mean
:0.673
3rd Qu.:34.0
3rd Qu.:0.719
Max.
:38.0
Max.
:0.875
Geschlecht
Alter
Frau:66
Min.
:19.0
Mann:14
1st Qu.:21.0
KAPITEL 1. DATEN BESCHREIBEN
##
##
##
##
Median :0.576
Mean
:0.590
3rd Qu.:0.629
Max.
:0.902
6
Median :22.0
Mean
:22.1
3rd Qu.:23.0
Max.
:37.0
Wenn sich hier bei einigen Variablen ein Buchstabensalat zeigt, hat dies in der Regel einen dieser
Gründe:
• Der sep- oder dec-Parameter in der read.csv()-Funktion wurde falsch eingestellt. Lösung:
Öffnen Sie die Datei mit NotePad (oder einem anderen Texteditor) und schauen Sie, welche
Charaktere die Spalten voneinander trennen und welches Zeichen als Dezimaltrennzeichen
dient. Stellen Sie danach die sep- und dec-Parameter richtig ein.
• Ihre Datei enthält längere Textabschnitte (z.B. ganze Sätze), in denen Kommata, Semikolonen usw. vorkommen. Lösung: Stellen Sie diesen Text zwischen doppelte Anführungszeichen ("Text").
Spezifische Daten können folgendermassen angezeigt werden:
dat # Name des Datensatzes: zeigt alle Daten in der Konsole
dat$Wortschatz # Dollarzeichen: zeigt alle Werte in der Wortschatz-Spalte
dat$Englisch[8] # zeigt den Englisch-Wert in der 8. Zeile
dat[8:12, ] # zeigt Zeilen 8 bis 12 des Datensatzes
dat[20:27, 2] # zeigt Zeilen 20 bis 27 in der 2. Spalte
dat[20:27, -2] # zeigt die Zeilen 20 bis 27 für alle Spalten ausser der 2.
dat[, c("Geschlecht", "Alter")] # zeigt alle Zeilen
# für die Spalten namens 'Geschlecht' und 'Alter'
# (Beachten Sie die 'c(...)'-Struktur.)
Zeigen Sie alle Daten in der Alter-Spalte an. Zeigen Sie jetzt nur die 42. Beobachtung in
der Alter-Spalte an. Zeigen Sie die 4. Zeile für die Spalten VPN und Geschlecht (beide
zusammen). (Es sind jeweils mehrere Lösungsansätze möglich.)
1.3
1.3.1
Einzelne Variablen numerisch beschreiben
Mittelwerte (‘zentrale Tendenz’)
Wenn wir etwa über die Wortschatz-Ergebnisse berichten möchten, ist es umständlich, alle 80
Werte zu aufzulisten. Lieber berichten wir eine Zahl, die möglichst typisch für die 80 Beobachtungen ist.
Die Wortschatz-Ergebnisse, über die wir berichten möchten, nennen wir unsere Population
von Daten; die zentrale Tendenz ist ein Wert, der am typischsten, am repräsentativsten für diese
Population ist (Mittelwert). Je nachdem wir ‘typisch’/‘repräsentativ’ verstehen, können wir
diese Zahl numerisch anders erfassen: Es gibt also mehrere Arten von Mittelwerten.
Welcher Mittelwert am geeignetsten ist, ist abhängig von (a) dem Messniveau, (b) der Verteilung
der Daten, (c) dem Zweck der Studie bzw. des Berichtes.
KAPITEL 1. DATEN BESCHREIBEN
7
Modus
Dies ist der Wert, der am meisten vorkommt und den man daher als typisch betrachten kann.
Manchmal gibt es mehr als einen Moduswert.
Bei feinkörnigen Skalen (z.B. Reaktionszeiten in ms) ist es kaum sinnvoll einen Modus zu
berechnen, da jeder Wert vermutlich sowieso nur einmal vorkommt.
Mit table() tabulieren wir, wie oft jeder Wert vorkommt:
table(dat$Wortschatz)
##
## 25 26 27 28 29 30 31 32 33 34 35 36 37 38
## 1 1 3 1 5 5 5 12 16 14 10 3 3 1
Der Wert 33 kommt 16 Mal vor und ist somit der Modus der Wortschatz-Variable.
Bespiel mit der Variable Geschlecht:
table(dat$Geschlecht)
##
## Frau Mann
##
66
14
Es gibt deutlich mehr Frauen als Männer: Frauen sind gewissermassen also ‘typischere’ Versuchspersonen in diesem Datensatz.
Median
Dies ist der mittlere Wert, wenn die beobachteten Werte von klein nach gross geordnet werden.
Bei einer geradzahligen Anzahl Beobachtungen nimmt man das Mittel der zwei mittleren Werte.
R-Funktion: median()
# Daten von klein nach gross ordnen und Werte 40 und 41 anzeigen
sort(dat$Wortschatz)[40:41]
## [1] 33 33
# Mittel von 33 und 33 = 33
# Kürzer:
median(dat$Wortschatz)
## [1] 33
Beispiel mit den Französisch-Daten:
sort(dat$Französisch)[40:41]
## [1] 0.5714 0.5804
# Mittel von 0.5714 und 0.5804 = 0.576
median(dat$Französisch)
## [1] 0.5759
(Wenn Sie mit den letzten Befehlen Probleme haben sollten, liegt dies vermutlich daran, dass
das ö in Französisch nicht richtig eingelesen wurde. Lesen Sie in diesem Fall den Datensatz
nochmals in R ein, aber stellen Sie diesmal bei encoding “UTF-8” ein.)
KAPITEL 1. DATEN BESCHREIBEN
8
Mediane sind sinnvoll bei Ordinalskalen und kontinuierlichen Daten. Bei der Variable Geschlecht,
einer nominalskalierten Variable, wäre es nicht sinnvoll, über das ‘mittlere Geschlecht’ zu reden.
Arithmetisches Mittel
Dies ist der bekannteste Mittelwert und wird auch einfach ‘Mittel’ genannt. Es ist die Summe
aller beobachteten Werte (x1 + x2 + x3 + · · · + xN , wobei N die Anzahl Beobachtungen ist) geteilt
durch die Anzahl Beobachtungen. Symbol: µ.
µ=
x1 + x2 + x3 + x4 + · · · + xN
N
(1.1)
R-Funktion: mean()
# Summe aller Werte:
sum(dat$Wortschatz)
## [1] 2605
# Anzahl Werte:
length(dat$Wortschatz)
## [1] 80
# Summe geteilt durch Anzahl
sum(dat$Wortschatz) / length(dat$Wortschatz)
## [1] 32.56
# Kürzer
mean(dat$Wortschatz)
## [1] 32.56
In diesem Datensatz liegen Modus, Median und Mittel sehr nahe beieinander. Dies ist aber längst
nicht immer der Fall.
Oft wird gesagt, dass Mittel sei nur sinnvoll bei kontinuierlichen Datentypen. Für etwa LikertSkalen sei das Mittel dann ungeeignet. Hier sollten Sie meiner Meinung nach aber nicht zu
pedantisch sein (siehe Abschnitt 1.1).
Das Mittel gilt als der ‘normale’ Mittelwert, ist aber sehr ausreisserempfindlich.
Ausreisser Extremwerte, denen möglicherweise ein technischer Fehler oder irgendeine sonstige
Art von unerwünschtem externem Einfluss zu Grunde liegt. Ab wann ein Wert als Ausreisser
betrachtet werden kann, ist nicht strikte definiert. Eine grafische Darstellung der Daten ist aber
oft einleuchtend. Einfaches Beispiel: Dezimalstelle an falscher Stelle wegen eines Tippfehlers:
# fiktive Daten eintragen
ausreisser <- c(1.35, 2.54, 27.6, 1.75, 1.98, 2.09, 2.43)
# grafisch darstellen
plot(ausreisser)
KAPITEL 1. DATEN BESCHREIBEN
9
ausreisser
25
20
15
10
5
1
2
3
4
5
6
7
Index
Die Grafik zeigt deutlich, dass der 3. Wert weit von den anderen entfernt ist. Das Mittel ist daher
kaum repräsentativ für diese Daten (es gibt keine Werte um 5.7):
mean(ausreisser)
## [1] 5.677
In diesem Fall ist der Median besser geeignet:
median(ausreisser)
## [1] 2.09
Wenn der Ausreisser eindeutig auf einen Tippfehler zurückzuführen ist, soll der Wert natürlich einfach korrigiert werden. Aber nicht jeder Ausreisser ist ein invalider Datenpunkt und
Ausreisser sollten nicht automatisch gelöscht werden.
Andere Mittelwerte
In manchen Forschungsbereichen sind noch einige andere Mittelwerte geläufig, z.B. das harmonische und das geometrische Mittel. Diese Mittelwerte behandeln wir nicht.
Tipp: Der Begriff Mittelwert (average) ist nicht eindeutig definiert, denn es gibt unterschiedliche
Arten von Mittelwerten. Wählen Sie in Ihren eigenen Arbeiten daher den passenden eindeutigen
Begriff. Sehr lesenswert zu diesem Thema ist noch How to lie with statistics (spezifisch Kapitel 2,
aber eigentlich das ganze Buch) von Huff (1954).
Tipp: Sie müssen bzw. sollten beim Berichten Ihrer Ergebnisse nicht alle Dezimalstellen berichten,
die Ihnen Ihr Software ausspuckt. Es ist schwierig, hier spezifische Vorgaben zu machen. Eine
Faustregel, die ich versuche zu hantieren, lautet: Berichte die Dezimalstellen, die nötig sind, um
die Ergebnisse sinnvoll interpretieren zu können. Wenn etwa eine Gruppe von Lernenden Texte
von im Schnitt (Mittel) 865.022 Wörtern produziert und eine andere Gruppe Texte mit im Schnitt
739.947 Wörtern schreibt, verlieren Sie keine sinnvollen Informationen, wenn Sie diese Mittel
auf 865 bzw. 740 abrunden. Im Gegenteil: Die Ergebnisse sind für die Leserschaft einfacher zu
verstehen. Siehe auch Ehrenberg (1981).
KAPITEL 1. DATEN BESCHREIBEN
1.3.2
10
Streuung
Schauen Sie sich diese zwei Zahlenreihen an:
2, 5, 5, 8, 8, 8, 8, 11, 11, 14
−58, −25, −25, 8, 8, 8, 8, 41, 41, 74
Beide Zahlenreihen haben den gleichen Modus, den gleichen Median und das gleiche Mittel
(alle 8), unterscheiden sich trotzdem deutlich voneinander: Die Werte der zweiten Reihe liegen
viel weiter auseinander, d.h. ihre Streuung ist grösser. Um diesen Aspekt der Daten numerisch
zu erfassen, brauchen wir ein Streuungsmass. Von denen gibt es wiederum einige.
Spannweite
Einfach der Unterschied zwischen dem höchsten (max()) und dem niedrigsten Wert (min()).
# Maximum
max(dat$Wortschatz)
## [1] 38
# Minimum
min(dat$Wortschatz)
## [1] 25
# Minimum und Maximum
range(dat$Wortschatz)
## [1] 25 38
# Unterschied
diff(range(dat$Wortschatz))
## [1] 13
Die Spannweite basiert aber auf nur zwei Beobachtungen und ist folglich äusserst ausreisserempfindlich. Ihre Anwendung ist daher beschränkt.
Summe der Quadrate
Wenn wir alle Beobachtungen ins Streuungsmass einfliessen lassen wollen, scheint es auf den
ersten Blick sinnvoll, die Unterschiede zwischen den beobachteten Werten und dem Mittel zu
berechnen und diese Unterschiede beieinander aufzuzählen: (x1 − µ) + (x2 − µ) + . . . . Diese
Summe ist aber immer 0:
sum(dat$Wortschatz - mean(dat$Wortschatz))
## [1] 0
Die häufigste Lösung besteht darin, diese Unterschiede zuerst zu quadrieren, sodass alle beieinander aufgezählten Zahlen positiv sind, und dann deren Summe zu berechnen. Dieses
Streuungsmass nennt man die Summe der Quadrate (sum of squares). Symbol: S.S. oder d2 :
d2 = (x1 − µ)2 + (x2 − µ)2 + · · · + (xN − µ)2
(1.2)
KAPITEL 1. DATEN BESCHREIBEN
11
sum((dat$Wortschatz - mean(dat$Wortschatz))^2)
## [1] 541.7
Varianz
Ein Problem mit d2 ist, dass Datensätze unterschiedlicher Grösse nicht vergleichbar sind: Je mehr
Beobachtungen es gibt, desto grösser ist d2 . d2 misst also sowohl die Grösse des Datensatzes als
die Streuung der Daten, und dies ist unerwünscht.
Lösung: d2 teilen durch die Anzahl Beobachtungen. Dies ergibt die Varianz der Population.
Symbol: σ2 :
σ2 =
1
d2
=
(x1 − µ)2 + (x2 − µ)2 + · · · + (xN − µ)2
N
N
(1.3)
sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / length(dat$Wortschatz)
## [1] 6.771
Vorsicht: In der Regel müssen wir die Varianz einer Stichprobe, nicht jene einer Population
berechnen. Diese Masse werden leicht unterschiedlich berechnet (siehe Kapitel 3).
Standardabweichung
Varianzen sind nicht einfach zu interpretieren, da sie, aufgrund der Quadrierung in der Berechnung, in quadrierten Einheiten ausgedrückt werden (z.B. quadrierte Sprecher per Sprache
oder, wie hier, quadrierte Testergebnisse). Wir können aber ihren Wurzel nehmen, was die
Standardabweichung der Population ergibt. Symbol: σ:
√
σ = σ2 =
r
1
((x1 − µ)2 + (x2 − µ)2 + · · · + (xN − µ)2 )
N
(1.4)
Oder in R:
sqrt(sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / length(dat$Wortschatz))
## [1] 2.602
Diese Formeln werden schon ziemlich komplex. Wir können diese Berechnungen auch mit
Zwischenschritten ausführen und die Zwischenergebnisse im Arbeitsspeicher speichern. Dazu
verwenden wir den assignment operator <- (oder =; ich verwende selber lieber <-):
d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz))^2)
d2
## [1] 541.7
sigma2 <- d2 / length(dat$Wortschatz)
sigma2
## [1] 6.771
sigma <- sqrt(sigma2)
sigma
KAPITEL 1. DATEN BESCHREIBEN
12
## [1] 2.602
Standardabweichungen und Varianzen kann man nicht absolut interpretieren: Eine Standardabweichung von 0.4 ist je nach der Art von Daten klein, gross oder unauffällig, und dies gilt auch
für Standardabweichungen von 8’000.
Vorsicht: In der Regel müssen wir die Standardabweichung einer Stichprobe, nicht jene einer
Population berechnen. Den Unterschied besprechen wir in Kapitel 3.
Tipp: Tippen Sie zu Hause die Befehle in diesem Skript auch mal selber ein (nicht kopieren und
kleben, denn dabei lernen Sie nichts!). Dabei werden Sie feststellen, dass die Anzahl und Position
der Klammern sowie auch Gross- und Kleinschreibung in R wichtig sind.
Tipp: Wenn ein Befehl aus diesem Skript bei Ihnen nicht funktioniert, liegt dies in gefühlten 9
von 10 Fällen daran, dass eine Klammer oder Komma vergessen wurde. Achten Sie darauf, dass
Sie den Befehl auf eine neue Zeile, die mit ‘>’ anfängt, eintippen.
Wenn Sie in der ersten Zeile des obigen Kodes eine Klammer vergessen haben, fängt die zweite
Zeile mit einem ‘+’ statt mit einem ‘>’ an, zum Beispiel:
> d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2)
+ d2
Error: unexpected symbol in:
"d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2)
d2"
unexpected symbol, unexpected ’)’ oder unexpected ’,’ heissen meistens, dass eine Klammer oder eine Komma vergessen wurde oder überflüssig ist. R nimmt hier an, dass die Funktion
in der ersten Zeile noch nicht abgeschlossen wurde und dass die zweite Zeile eine Fortsetzung der ersten ist (‘+’). Wenn Sie die erste Zeile richtig eintippen, weiss R, dass die Funktion
abgeschlossen wurde, und interpretiert es die zweite Zeile als einen neuen Befehl (‘>’):
> d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz))^2)
> d2
[1] 541.7
Übrigens spielt auch die Position der Klammern eine Rolle. Wieso gibt es bei diesem Befehl zwar
keine Fehlermeldung, dafür aber eine sinnlose Zahl (d2 sollte immer positiv sein)?
d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2))
d2
## [1] -82220
Tipp: Tippen Sie die Befehle nicht direkt in R ein, sondern zuerst in ein eigenes Skript (in RStudio:
File → New File → R Script). Wenn Sie irgendwo eine Klammer ausgelassen haben, müssen
Sie dann nicht alles erneut eintippen.
1.4
Grafische Darstellung einer Population von univariaten Daten
Bevor man überhaupt anfängt, mit Daten herumzurechnen, lohnt es sich, sich diese grafisch
anzuschauen. Dies kann bestimmte Muster, wie etwa Ausreisser, direkt hervorheben und für
die Leserschaft ist eine einfache Grafik oft einfacher zu interpretieren als Mittelwerte und
Standardabweichungen.
KAPITEL 1. DATEN BESCHREIBEN
1.4.1
13
Cleveland dotchart
Der Cleveland dotchart oder dotplot stellt die einzelnen Datenpunkte, oft von klein nach gross
sortiert, dar. Ausreisser fallen hierdurch schnell auf; in dieser Grafik kann man nicht von Ausreissern sprechen.
dotchart(sort(dat$Wortschatz), # sort() ordnet die Datenpunkte
xlab = "Wortschatzergebnis")
26
28
30
32
34
36
38
Wortschatzergebnis
Zum Vergleich: Wenn eine Versuchsperson ein Ergebnis von 10 gehabt hätte, hätte die Grafik so
ausgesehen:
Ausreisser
10
15
20
25
30
35
Wortschatzergebnis
1.4.2
Boxplot
Der Boxplot oder box-and-whisker-plot ist eine beliebte Methode, um die Streuung und zentrale
Tendenz einer Variable darzustellen.
Mittlere, dickere Linie: Median; untere und obere Linie der Box: 25%- bzw. 75%-Quantile;
Füsschen: Maximum- und Minimumwerte. Die 25%- und 75%-Quantile nennt man auch Quartile.
(Den Text habe ich manuell hinzugefügt.)
boxplot(dat$Wortschatz,
ylab = "Wortschatzergebnis",
main = "Boxplot von Wortschatz")
KAPITEL 1. DATEN BESCHREIBEN
14
Boxplot von Wortschatz
Maximum
38
Wortschatzergebnis
36
75. Quantil
34
Median
32
25. Quantil
30
28
'Minimum'
26
Mögliche Ausreisser?
Für die Wortschatz-Variable sind die 25%- und 75%-Quantile 31 bzw. 34:
quantile(dat$Wortschatz, probs = c(0.25, 0.75))
## 25% 75%
## 31 34
Das heisst, dass 25% der Daten einen Wert von 31 oder niedriger haben, und 75% der Daten
einen Wert haben, der 34 oder niedriger ist. Zwischen den 25%- und 75%-Quantilen (interquartile
range, IRQ) befindet sich m.a.W. etwa die Hälfte der Datenpunkte.
Manchmal (wie hier) gibt es auch Kreischen in einem Boxplot. Dies sind Extremwerte, die mehr
als 1.5 × das IRQ vom nächsten Quartil entfernt liegen (siehe ?boxplot → Arguments → range).
Diese Extremwerte sind mögliche Ausreisser, aber überprüfen Sie mit etwa einem Dotplot, ob es
sich tatsächlich um Ausreisser handelt.
1.4.3
Säulendiagramm
Insbesondere kategoriale Daten können mithilfe eines Säulendiagramms dargestellt werden.
Zunächst müssen die Daten in eine Tabelle, die zeigt, wie viele Beobachtungen es für jeden Wert
gibt, gegossen werden:
geschlecht.tab <- table(dat$Geschlecht)
geschlecht.tab
##
## Frau Mann
##
66
14
Diese Tabelle können wir dann mit barplot() darstellen; auch ein Cleveland dotchart funktioniert hier gut:
par(mfrow = c(1, 2)) # 2 Grafiken nebeneinander
barplot(geschlecht.tab,
xlab = "Geschlecht",
ylab = "absolute Anzahl",
main = "Säulendiagramm")
KAPITEL 1. DATEN BESCHREIBEN
15
dotchart(geschlecht.tab,
xlab = "absolute Anzahl", xlim = c(0, 80),
ylab = "Geschlecht",
main = "Cleveland dotchart")
par(mfrow = c(1, 1)) # wieder 1 Grafik aufs Mal
Säulendiagramm
Cleveland dotchart
50
Geschlecht
absolute Anzahl
60
40
30
20
Mann
Frau
10
0
Frau
Mann
0
20
40
60
80
Tipp: Vermeiden Sie Kuchendiagramme (siehe ?pie → Note). Weiter sind auch dreidimensionale
Säulendiagramme zu vermeiden: Sie erschweren die Interpretation.
1.4.4
Histogramm
Im obigen Beispiel gibt es nur zwei mögliche Ergebnisse (Mann oder Frau) und können wir die
Anzahl Beobachtungen pro Wert sinnvoll darstellen. Wenn die Anzahl möglicher Ergebnisse
aber grösser ist, wie bei kontinuierlichen Variablen, ist dies weniger sinnvoll, da jeder einzelne
Wert eh nur selten vorkommt. In solchen Fällen ist es sinnvoller, die Ergebnisse in sog. bins zu
gruppieren und darzustellen, wie viele Werte in jedem bin beobachtet wurden.
In den folgenden Grafiken werden die Englisch-Ergebnisse in bins von 0.45 bis 0.50, 0.50 bis
0.55 usw. aufgeteilt und dargestellt. Eine solche Grafik nennt man ein Histogramm. Links wird
dargestellt, wie viele Beobachtungen (absolute Anzahl) es in jedem bin gibt; rechts werden die
Frequenzen skaliert, sodass die Gesamtfläche des Histogramms (die Summe der Breite jedes bins
multipliziert mit ihrer Höhe) 1 (oder 100%) beträgt. Dies erlaubt es, Datensätze unterschiedlicher
Grösse miteinander zu vergleichen.
par(mfrow = c(1, 2))
hist(dat$Englisch,
freq = TRUE, col = "grey",
xlab = "Englisch-Wert", ylab = "absolute Frequenz",
main = "Englischergebnisse")
hist(dat$Englisch,
freq = FALSE, col = "grey",
xlab = "Englisch-Wert", ylab = "relative Frequenz",
main = "Englischergebnisse")
par(mfrow = c(1, 1))
KAPITEL 1. DATEN BESCHREIBEN
16
Englischergebnisse
4
15
relative Frequenz
absolute Frequenz
Englischergebnisse
10
5
0
3
2
1
0
0.5
0.6
0.7
0.8
0.9
0.5
Englisch−Wert
0.6
0.7
0.8
0.9
Englisch−Wert
Die Breite der bins wählt R in diesem Beispiel automatisch. Sie kann jedoch auch mit dem
breaks-Parameter manuell spezifiziert werden.
1.4.5
Wahrscheinlichkeitsdichte
Was passiert, wenn wir äusserst feinkörnige Messungen (d.h. mit sehr vielen möglichen Ergebnissen und höchstens einem Beleg pro möglichen Wert) haben und die Anzahl bins immer
vergrössern? Je mehr bins es gibt, desto kleiner sind sie und desto weniger Beobachtungen
beinhalten sie, wie die nächsten Grafiken illustrieren. (Diese Grafiken beziehen sich nicht auf
Daten in Vanhove2015_Vpn.csv.)
10 bins
25 bins
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
0
5 10
20
0
50 bins
0.15
0.10
0.10
0.05
0.05
0.00
0.00
5
10
10
20
100 bins
0.15
0
5
20
0
5
10
20
Wenn die bins verschwindend klein sind, sprechen wir von einer Wahrscheinlichkeitsdichte,
wie in diesem Beispiel:
KAPITEL 1. DATEN BESCHREIBEN
17
Feinkörniges Histogramm (grau)
und Wahrscheinlichkeitsdichte (rot)
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
−5
0
5
10
15
20
25
Ähnlich wie bei den skalierten Histogrammen repräsentiert die Fläche unter der Kurve hier 100%
der Daten, d.h. die Fläche zwischen Kurve und x-Achse beträgt 1.
Vorsicht: In dieser Abbildung ist die Wahrscheinlichkeit, dass ein Wert von 10 beobachtet wird,
nicht etwa 13%, sondern verschwindend gering. Wenn man bloss genügend Dezimalstellen
in Betracht nimmt (z.B. 10,000001 oder 9,999999), ist jeder einzelne Wert ja verschwindend
unwahrscheinlich. Wir können deswegen keine sinnvollen Wahrscheinlichkeitsaussagen über
spezifische Werte machen sondern nur über Intervalle. Dies machen wir in den nächsten Kapiteln.
Mit dem Befehl plot(density(...)) können Sie eine Wahrscheinlichkeitsdichte einer Variable
zeichnen (links); mit dem Befehl lines(density(...)) können Sie etwa einem Histogramm
eine Wahrscheinlichkeitsdichte hinzufügen (rechts):
par(mfrow = c(1, 2))
# Links: nur Wahrscheinlichkeitsdichte
plot(density(dat$Englisch),
xlab = "Englischergebnis", ylab = "Dichte",
main = "Wahrscheinlichkeitsdichte\nfür Englisch")
# Rechts: Histogramm + Wahrscheinlichkeitsdichte
# zuerst Histogramm:
hist(dat$Englisch,
freq = FALSE,
xlab = "Englischergebnis",
ylab = "Dichte (relative Frequenz)",
main = "Histogramm (grau) +\nDichte (blau)",
col = "grey")
lines(density(dat$Englisch),
col = "blue",
lwd = 2) # etwas dickere Linie
par(mfrow = c(1, 1))
KAPITEL 1. DATEN BESCHREIBEN
18
Histogramm (grau) +
Dichte (blau)
Dichte (relative Frequenz)
Wahrscheinlichkeitsdichte
für Englisch
Dichte
4
3
2
1
0
0.4
0.6
4
3
2
1
0
0.8
0.5
Englischergebnis
0.6
0.7
0.8
0.9
Englischergebnis
Mit dem Befehl colors() finden Sie übrigens alle Farbennamen, die R kennt.
1.5
Klassische (idealisierte) Datenverteilungen
Es lassen sich ein paar klassische Arten von Datenverteilungen unterscheiden. In ihrer ‘puren’
Form trifft man diese Verteilungen zwar selten an, aber viele Datenverteilungen können als
Annäherungen dieser idealisierten Verteilungen betrachtet werden.
1.5.1
Gleichverteilung oder Uniformverteilung
In einer Uniformverteilung ist jeder mögliche Wert gleich wahrscheinlich. Das typische Beispiel
ist das Würfeln eines fairen Würfels (‘diskrete Uniformverteilung’): Die Wahrscheinlichkeit, eine
6 zu würfeln, ist gleich gross wie jene, eine 1 usw. zu würfeln. Wenn die möglichen Ergebnisse
feinkörniger sind, spricht man von einer ‘kontinuierlichen Uniformverteilung’. Die folgende
Grafik zeigt drei kontinuierliche Uniformverteilungen mit Bereichen [-2.5, 2.5], [0, 1] und [0.5, 1]:
1.5
1.0
0.5
0.0
2.0
Dichte (f(x))
2.0
Dichte (f(x))
Dichte (f(x))
2.0
1.5
1.0
0.5
0.0
−3
−2
−1
0
1
2
3
x
1.5
1.0
0.5
0.0
−3
−2
−1
0
x
1
2
3
−3
−2
−1
0
1
2
3
x
Erklären Sie, warum die Wahrscheinlichkeitsdichte höher als 1 sein kann. (Tipp: Berechnen
Sie die Flächen unter den Kurven!)3
1.5.2
Normalverteilung
Die Normalverteilung ist die typische ‘Glockenkurve’. Ihre Wahrscheinlichkeitsdichte wird
durch eine kompliziert aussehende Gleichung definiert, die für unsere Zwecke nicht so wichtig
ist. Wichtig ist nur, dass die Form der Glockenkurve von zwei Faktoren bestimmt wird: dem
Das entscheidende Merkmal einer Wahrscheinlichkeitsdichte ist, dass die Fläche unter der Kurve immer 1 beträgt. Bei
Uniformverteilungen ist die Fläche unter der Kurve einfach ein Rechteck mit Fläche 1. In der 1. Grafik ist die Breite
dieses Rechtecks 5 (von -2.5 bis 2.5) und die Höhe daher 51 = 0.20 (denn 5 × 51 = 1). Für die 3. Grafik ist die Breite 0.5,
1
die Höhe dementsprechend 0.5
= 2, und somit grösser als 1.
3
KAPITEL 1. DATEN BESCHREIBEN
19
Mittel der Datenverteilung (µ) und ihrer Standardabweichung (σ). µ bestimmt, um welchen
Wert sich die Kurve zentriert; σ wie ‘breit’ und ‘hoch’ die Kurve ist:
µ = 2; σ = 1
f(x)
f(x)
µ = 0; σ = 1
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
−4
0
2
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
4
−4
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
−4
0
2
0
2
4
x
µ = 0; σ = 0.7
f(x)
f(x)
x
µ = 0; σ = 2
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
4
x
−4
0
2
4
x
Eine Standardnormalverteilung ist eine Normalverteilung mit µ = 0 und σ = 1.
Normalität überprüfen und Datentransformationen
Bei einer Normalverteilung sind Modus, Mittel und Median gleich, d.h. es gibt eine eindeutige
zentrale Tendenz. Mit vielen statistischen Verfahren kann man Aussagen über das Mittel einer
Population oder Stichprobe machen. Wenn Mittel, Median und Modus alle (mehr oder weniger)
gleich sind – wie bei Normalverteilungen –, kann man mit diesen Verfahren die zentrale Tendenz
also völlig erfassen. Wenn die Daten stark von einer Normalverteilung abweichen, gelten die
Aussagen, die solche Verfahren übers Mittel machen, zwar (oft) noch immer, aber sind diese
eben weniger relevant fürs Erfassen der zentralen Tendenz. (Das Mittel ist bloss ein Versuch,
die zentrale Tendenz zu erfassen.) Wie wir in den nächsten Kapiteln sehen werden, ist die
Normalverteilung auch aus anderen Gründen in der Statistik von zentraler Bedeutung.
Es ist aus diesen Gründen praktisch, überprüfen zu können, ob Daten annähernd normalverteilt
sind. Manchmal werden zu diesem Zweck statistische Tests verwendet, aber diese würde ich
nicht empfehlen.4 Vielmehr sollte man sich auf eine visuelle Dateninspektion verlassen: Zeichnen
Sie Histogramme und Wahrscheinlichkeitsdichten.
Manchmal sind Daten zwar nicht-normalverteilt, können aber einfach zu annähernd normalverteilten Daten transformiert werden. Solche Datentransformationen werden in diesem Skript nur
oberflächlich behandelt. Mehr Informationen dazu finden Sie in den weiterführenden Ressourcen
(siehe Kapitel 9).
4 Beispiele sind der Shapiro–Wilk-Test (?shapiro.test) und der Kolmogorov–Smirnov-Test (?ks.test). Ein erster
Grund, weshalb ich solche numerischen Tests nicht empfehle, ist, dass sie sehr von der Stichprobengrösse abhängig sind:
Grobe Verletzungen gegen Normalität werden in kleinen Stichproben nicht identifiziert, während in grossen Stichproben
sogar die kleinsten Verletzungen als problematisch bezeichnet werden. Dabei ist es für die häufigsten statistischen
Verfahren gerade bei grösseren Stichproben weniger wichtig, dass die Daten normalverteilt sind. Der zweite Grund ist,
dass Ihre Leserschaft sich vermutlich weniger gut mit solchen Tests auskennt. Ich erwähne diese Tests nur, weil man sie
in Forschungsartikeln öfters antrifft und nicht weil man sich selber auf sie verlassen sollte.
KAPITEL 1. DATEN BESCHREIBEN
1.5.3
20
Bimodale Verteilung
Eine bimodale Verteilung ist eine Verteilung mit zwei ‘Höckern’. Bei einer Befragung zu einem
gesellschaftlichen Thema etwa würde eine solche Verteilung darauf hindeuten, dass die Bevölkerung stark zwischen Befürworter und Gegner polarisiert ist und dass relativ wenige Leute eine
Zwischenposition vertreten.
Eine bimodale Verteilung kann auch darauf hindeuten, dass eigentlich zwei Populationen statt
nur einer gemessen wurden. Zum Beispiel ist (in der akustischen Phonetik) die Verteilung der
Grundfrequenz in der ganzen Population bimodal verteilt: Männerstimmen haben eine tiefere
Grundfrequenz als Frauenstimmen.
Manchmal trifft man auch multimodale Verteilungen, also Verteilungen mit mehreren Höckern,
an.
1.5.4
Schiefe Verteilungen
Eine rechtsschiefe Verteilung (oder: Verteilung mit positiver Schiefe) ist eine nicht-symmetrische
Verteilung, die nach rechts neight. Etwa Reaktionszeiten, Wortfrequenzen und die Anzahl tip-ofthe-tongue-Probleme pro Aufnahme sind oft rechtsschief verteilt.
Eine linksschiefe Verteilung (oder: Verteilung mit negativer Schiefe) ist nicht-symmetrisch und
neigt nach links. Bei Testergebnissen könnte dies darauf hindeuten, dass der Test zu einfach war
(Deckeneffekt). Zu schwierigen Tests führen zu rechtsschiefen Verteilungen (Bodeneffekt).
Die folgende Grafik zeigt eine bimodale, eine rechtsschiefe und eine linksschiefe Verteilung.
bimodale Verteilung
rechtsschiefe Verteilung
f(x)
f(x)
0.15
0.10
0.05
0.00
−6
−4
−2
0
2
x
1.6
4
6
linksschiefe Verteilung
8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
6
f(x)
0.20
4
2
0
0
1
2
3
x
4
5
6
0.65
0.75
0.85
0.95
x
Aufgaben
1. Einkommensniveaus nach Land, Region oder Gemeinde werden üblicherweise in Medianen statt in Mitteln ausgedrückt. Warum?
2. Zeichnen Sie ein Histogramm und eine Wahrscheinlichkeitsdichte der Variable Französisch.
Sind die Daten normalverteilt? Ist das Mittel ein sinnvoller Indikator der zentralen Tendenz
in diesen Daten oder wäre der Median geeigneter?
3. 80 willkürlich ausgewählte Schweizer Staatsbürger werden gebeten, auf einer 10er-Skala
anzudeuten, inwieweit sie mit der Aussage Privater Waffenbesitz sollte verboten werden
einverstanden sind (1 = gar nicht einverstanden; 10 = völlig einverstanden). Würde diese
Befragung annähernd normalverteilte Daten liefern? Wenn nicht, welcher Datenverteilung
würden sie am ehesten entsprechen?
4. M&Ms können sechs Farben haben: blau, braun, gelb, grün, orange und rot. Wie schätzen
Sie die relativen Frequenzen dieser Farben ein? Gibt es z.B. Ihrer Erfahrung nach eine
KAPITEL 1. DATEN BESCHREIBEN
21
ähnlich Anzahl blaue als rote M&Ms? Entspricht diese Verteilung einer der Verteilungen,
die wir oben kennengelernt haben?
5. Die Datei Stocker_Deutsch.csv enthält einen Teil der Daten aus der Masterarbeit von
Stocker (2014). 160 Versuchspersonen wurden gebeten, die Glaubwürdigkeit von Aussagen
von SprecherInnen mit unterschiedlichen Akzenten (Englisch, Französisch, Deutsch und
Italienisch) auf einer Skala von 0 bis 100 zu bewerten. Diese Daten stehen in der scoreSpalte.
(a) Lesen Sie diese Datei in R ein und kontrollieren Sie, ob die Datei richtig eingelesen
wurde.
(b) Berechnen Sie das Mittel und den Median der score-Daten. Sind sich diese Mittelwerte
ähnlich?
(c) Zeichnen Sie ein Boxplot der score-Daten. Was schliessen Sie aus diesem Boxplot?
(d) Zeichnen Sie jetzt ein Histogramm der score-Daten (mit den default-Einstellungen).
Welcher klassischen Verteilung entspricht diese am ehesten?
(e) Zeichnen Sie ein Histogramm mit 20 bins (breaks = 19 in der hist()-Funktion).
Beschreiben Sie dieses Histogramm. Sind das Mittel und der Median repräsentativ für
diese Daten?
Merksatz: Immer zuerst die Daten grafisch darstellen!
Kapitel 2
Wahrscheinlichkeitsaussagen über
neue Beobachtungen
Dieses Kapitel dient als Auffrischung der Wahrscheinlichkeitsrechnung. Konkret besprechen wir,
wie wir Wahrscheinlichkeitsaussagen über Zufallsvariablen machen können, wenn wir schon
wissen, aus welcher Verteilung diese Variable stammt. Was Zufallsvariablen sind, wird aus den
Beispielen klar. Die Fähigkeit, Wahrscheinlichkeitsaussagen über Zufallsvariablen zu machen,
ist an sich schon praktisch, aber zudem muss man die hinterliegende Logik kennen, wenn man
Inferenzstatistik verstehen will.
2.1
Beispiel: kontinuierliche Gleichverteilung
Die Kreislinie eines Rads ist folgendermassen mit Zahlen von 0 bis 360 vermerkt:
Jedes Mal, wenn der Pfeil gedreht wird, bleibt er an einer zufälligen Stelle auf der Kreislinie
stehen. Dies entspricht einer kontinuierlichen Gleichverteilung mit dem Bereich von 0 bis 360.
Mit folgendem Kode können wir diese Verteilung in R zeichnen. Da die Verteilung von 0 bis 360
geht und die Fläche zwischen der Wahrscheinlichkeitsdichte und der x-Achse 1 betragen muss,
1
1
liegt die Linie bei 360
≈ 0.0028 (denn (360 − 0) × 360
= 1).
# Zeichne f(x) = Uniformverteilung von 0 bis 360
plot(function(x) dunif(x, min = 0, max = 360),
from = 0, to = 360, xlab = "x", ylab = "f(x)")
22
KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN
23
f(x)
0.0035
0.0030
0.0025
0.0020
0
2.1.1
45
90
135
180
225
270
315
360
Wahrscheinlichkeit = Fläche unter der Wahrscheinlichkeitsdichte
Wie wahrscheinlich ist es, dass wir den Pfeil drehen und er irgendwo zwischen 45 und 93 stehen
bleibt? Zwischen den Werten 45 und 93 liegt etwa 13.3% der ganzen Wahrscheinlichkeitsvertei48
= 0.133. Die Wahrscheinlichkeit liegt also bei 13.3%.
lung: 93 − 45 = 48 und 360
Diese Berechnungsmethode lässt sich aber nur bei Gleichverteilungen anwenden – also bei Verteilungen, bei denen jeder Wert genau so wahrscheinlich ist. Eine Methode, die auch für andere
Verteilungen gilt, besteht darin, die Fläche unter der Wahrscheinlichkeitsdichte zwischen den
beiden Werten – das ‘Integral’ aus dem Gymnasium – zu berechnen. Diese Fläche wurde in der
obigen Grafik grau eingefärbt. Bei einer Gleichverteilung ist dies ein Rechteck, sodass wir sie
1
einfach berechnen können: (93 − 45) × 360
= 0.133.
2.1.2
Kumulative Verteilungsfunktion
Mit der dunif()-Funktion haben wir die Wahrscheinlichkeitsdichte (d für density) gezeichnet;
mit der punif()-Funktion können wir eine Grafik zeichnen, die zeigt, wie wahrscheinlich es ist,
einen Wert kleiner als x zu beobachten (p für probability). Die resultierende Grafik nennt man eine
kumulative Verteilungsfunktion. Die kumulative Wahrscheinlichkeit wird mit F(x) (grosses F)
dargestellt und variiert von 0 bis 1.
kumulative
Verteilungsfunktion
1.0
F(x)
0.8
0.6
0.4
0.2
0.0
0
100 200 300
x
Mit der punif()-Funktion können wir einfach die Wahrscheinlichkeit, einen Wert zwischen
45 und 93 zu beobachten, berechnen. Zuerst berechnen wir die Wahrscheinlichkeit, einen Wert
kleiner als 93 zu beobachten. Diese Wahrscheinlichkeit entspricht dem roten F(x)-Wert in der
oben stehenden Grafik (Handgelenk mal Pi: etwa 25%). Mit punif() berechnen wir den genauen
Wert:
punif(93, min = 0, max = 360)
## [1] 0.2583
KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN
24
Und dann die Wahrscheinlichkeit, einen Wert kleiner als 45 zu beobachten (blauer F(x)-Wert;
etwa 15%):
punif(45, min = 0, max = 360)
## [1] 0.125
Der Unterschied ist die Wahrscheinlichkeit, einen Wert zwischen 45 und 93 zu beobachten:
0.2583 - 0.125
## [1] 0.1333
# oder kürzer:
punif(93, min = 0, max = 360) - punif(45, min = 0, max = 360)
## [1] 0.1333
2.2
Beispiel Normalverteilung
IQ-Werte sind normalverteilt mit – per Definition – Mittel 100 und Standardabweichung 15. Die
linke Grafik ist die Wahrscheinlichkeitsdichte einer normalverteilten Variable mit Mittel 100 und
Standardabweichung 15 (dnorm()).
par(mfrow = c(1, 2)) # erlaubt es, 2 Grafiken nebeneinander zu zeichnen
# Zeichne f(x) = Normalverteilung mit Mittel 100 und sd 15
plot(function(x) dnorm(x, mean = 100, sd = 15),
from = 40, to = 160, xlab = "x", ylab = "f(x)")
# Zeichne F(x) dieser Normalverteilung
plot(function(x) pnorm(x, mean = 100, sd = 15),
from = 40, to = 160, xlab = "x", ylab = "F(x)")
par(mfrow = c(1, 1)) # wieder 1 Grafik aufs Mal
1.0
0.025
0.8
0.020
f(x)
F(x)
0.015
0.6
0.010
0.4
0.005
0.2
0.000
0.0
40
60
80
120
x
160
40
60
80
120
160
x
Wenn wir zufällig eine Person aus der Gesamtpopulation wählen, wie wahrscheinlich ist es
dann, dass ihr IQ niedriger als 115 ist? Diese Wahrscheinlichkeit entspricht der Fläche unter
der Wahrscheinlichkeitsdichte zwischen −∞ und 115; diese Fläche wurde in der linken Grafik
rötlich eingefärbt. Mit der pnorm()-Funktion können wir diesen Wert genau berechnen (roter
F(x)-Wert in der rechten Grafik; visuell geschätzt: 85%):
KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN
25
pnorm(115, mean = 100, sd = 15)
## [1] 0.8413
Die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person einen IQ von 115 oder niedriger
hat liegt also bei 84%.
Mit der Option lower.tail = FALSE können wir das Komplement dieses Werts berechnen, d.h.,
die Wahrscheinlichkeit, einen Wert höher als 115 anzutreffen:
pnorm(115, mean = 100, sd = 15, lower.tail = FALSE)
## [1] 0.1587
# oder:
1 - pnorm(115, mean = 100, sd = 15)
## [1] 0.1587
Wir können die Frage auch andersherum stellen, z.B.: Für welchen IQ-Wert gilt, dass 38%
der Population einen niedrigeren IQ hat? Hierzu verwenden wir die qnorm()-Funktion (q für
quantile) (blauer x-Wert in der obigen Grafik):
qnorm(0.38, mean = 100, sd = 15)
## [1] 95.42
38% der Population hat also einen IQ niedriger als 95.4. Anders gesagt: Das 38. Quantil der
IQ-Verteilung (einer Normalverteilung mit Mittel 100 und einer Standardabweichung von 15) ist
95.4.
Eine andere Frage könnte sein: Zwischen welchen zwei Werten, die symmetrisch um das Mittel
liegen, befinden sich 80% der IQ-Werte in der Population? Symmetrisch ums Mittel liegen 80%
der Daten zwischen dem 10. und 90. Quantil, daher:
qnorm(0.10, mean = 100, sd = 15)
## [1] 80.78
qnorm(0.90, mean = 100, sd = 15)
## [1] 119.2
Oder auf einmal mithilfe der c()-Funktion (combine):
qnorm(c(0.10, 0.90), mean = 100, sd = 15)
## [1]
2.3
80.78 119.22
Aufgaben
1. M&Ms kommen in sechs Farben vor; unten werden ihre relativen Frequenzen dargestellt:
braun
0.12
blau
0.23
relative Frequenz
0.25
0.15
0.20
0.23
grün
0.15
orange
0.10
0.12
0.05
0.15
rot
0.00
gelb
26
0.30
KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN
(a) Wie wahrscheinlich ist es, dass ein zufällig ausgewähltes M&M rot oder orange ist?
(b) Wie wahrscheinlich ist es, dass zwei zufällig ausgewählte M&M beide rot oder orange
(also zwei rote, zwei orange oder ein rotes und ein oranges) sind?
(c) Wie wahrscheinlich ist es, dass von zwei zufällig ausgewählten M&Ms ein rotes und
ein oranges dabei sind?
(d) Wie wahrscheinlich ist es, dass wenn 5 M&Ms zufällig ausgewählt werden, alle blau
sind?
(e) Wie wahrscheinlich ist es, dass wenn 5 M&Ms zufällig ausgewählt werden, kein einziges
blaues dabei ist?
(Tipp: Wie wahrscheinlich ist es, dass Sie ein einziges M&M nehmen und es nicht blau
ist?)
2. (a) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ niedriger als
90 hat? (Siehe vorige Seiten für die IQ-Verteilung)
(b) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ grösser als
85 hat?
(c) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ zwischen
110 und 120 hat?
(d) Wie wahrscheinlich ist es, dass eine willkürlich ausgewählte Person einen IQ hat, der
mehr als zwei Standardabweichungen vom Populationsmittel entfernt liegt?
(e) Durchschnittliche Intelligenz ist definiert als der IQ der mittleren 45% der Bevölkerung.
Zwischen welchen zwei Werten liegt er?
(f) Die folgenden Übungen sind etwas schwieriger und haben als Ziel, Sie über kombinierte Wahrscheinlichkeiten nachdenken zu lassen. Wie wahrscheinlich ist es, dass, wenn
zwei Personen zufällig ausgewählt werden, keine der beiden einen IQ niedriger als
105 hat?
(Tipp: Wie wahrscheinlich ist es, dass eine einzige Person einen IQ höher als 105 hat?)
(g) Wie wahrscheinlich ist es, dass, wenn drei Personen zufällig ausgewählt werden, genau
eine Person einen IQ niedriger als 90 hat?
(Tipp: Wie wahrscheinlich ist es, dass die erste Person einen IQ niedriger als 90 hat,
die zweite und die dritte aber nicht? Was ist nun die Wahrscheinlichkeit, dass die
zweite Person einen IQ niedriger als 90 hat, die erste und die dritte aber nicht? Und
wie wahrscheinlich ist es, dass die dritte Person einen IQ niedriger als 90 hat, die ersten
zwei aber nicht.)
KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN
27
(h) Wie wahrscheinlich ist es, dass, wenn drei Personen zufällig ausgewählt werden,
mindestens eine Person einen IQ niedriger als 90 hat?
(Tipp: Wie wahrscheinlich ist es, dass keine einzige Person einen IQ niedriger als 90
hat?)
3. Wie gross ist bei einer normalverteilten Variable (egal welcher!) die Wahrscheinlichkeit,
einen zufällig ausgewählten Wert, der weniger als 1; 1,5; und 2 Standardabweichungen
vom Mittel entfernt ist, anzutreffen?
(Tipp: Zeichnen Sie ein paar Normalverteilungen mit anderen Mitteln und Standardabweichungen und beantworten Sie diese Frage für jede Verteilung separat.)
Kapitel 3
Wahrscheinlichkeitsaussagen über
Stichproben
Oft möchten wir zwei Populationen in einer bestimmten Hinsicht miteinander vergleichen. Zum
Beispiel könnten wir uns für die Frage interessieren, ob Berner OberländerInnen und ZürcherInnen eine unterschiedliche durchschnittliche Sprechgeschwindigkeit haben. Aus praktischen
Gründen ist es meistens nicht möglich, Daten bei der ganzen Population – also bei allen Berner
OberländerInnen und ZürcherInnen – zu erheben, um den relevanten Mittelwert festzustellen.
Daher arbeiten wir fast immer mit Stichproben. Von Interesse sind aber nicht an erster Stelle
die zentrale Tendenz der Stichprobe und die Streuung in der Stichprobe, sondern die zentrale
Tendenz der Population und die Streuung in der Population. Mit Inferenzstatistik versuchen
wir, mit einer Stichprobe Aussagen über die ganze Population zu machen. Dies setzt aber voraus,
dass wir über eine gute Stichprobe verfügen:
• Im Prinzip muss die Stichprobe zufällig ausgewählt werden, was (in der Regel) heisst,
dass jedes Element in der relevanten Population die gleiche Wahrscheinlichkeit haben muss,
ausgewählt zu werden: Möchten wir Aussagen über alle Berner OberländerInnen machen,
dann müsste unsere Stichprobe aus nach dem Zufallsprinzip ausgewählten Berner OberländerInnen bestehen und müsste jede(r) OberländerIn die gleiche Wahrscheinlichkeit
haben, ausgewählt zu werden. Aus praktischen Gründen ist dies meistens unmöglich und
muss man sich mit einem pragmatischeren Ansatz versöhnen, z.B. eine nicht-zufällige aber
möglichst repräsentative Stichprobe, oder eine Stichprobe, von der man annimmt, dass sie
die Tendenzen in der Population aufzeigt.
• Die Stichprobe muss gross genug sein, damit man mit genugend Sicherheit Schlussfolgerungen über die relevante Population machen kann. Wie gross ‘gross genug’ ist, werden
wir im Laufe des Kurses ausführlicher diskutieren, ohne dabei aber auf eine allgemein
gültige Regel zu stossen.
In diesem Kapitel befassen wir uns mit folgenden Fragen: (1) Wie können wir anhand einer
Stichprobe am besten die zentrale Tendenz (insbesondere das Mittel) und die Streuung (insbesondere die Varianz und Standardabweichung) der Population schätzen? (2) Wenn wir zufällige
Stichproben aus der gleichen Verteilung ziehen, wie stark unterscheiden sich diese Stichproben
dann im Schnitt?
28
KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN
3.1
29
Zentrale Tendenz und Streuung der Population anhand einer Stichprobe schätzen
3.1.1
Stichprobenmittel
Die beste Schätzung des Mittels der Population (µ), die uns in der Regel zur Verfügung steht,
ist das Mittel der Stichprobe (x̄). Etwas kompliziert ausgedrückt ist der Grund, dass der Erwartungswert von x̄, E(x̄), gleich µ ist: Wenn wir eine grosse Anzahl zufällige Stichproben
aus der gleichen Population ziehen, dann wird das Mittel der Stichprobenmittel gleich dem
Populationsmittel sein.
Das Stichprobenmittel wird analog zum Populationsmittel berechnet (vgl. Gleichung 1.1):
x̄ =
x1 + x2 + x3 + x4 + · · · + xn
n
(3.1)
R-Funktion: mean()
3.1.2
Stichprobenvarianz
Die Berechnungart des Populationsmittel und jene des Stichprobenmittels sind einander gleich,
da der Erwartungswert des Letzteren gleich dem Wert des Ersteren ist: Im Schnitt (jedoch
nicht im Einzelfall) haben Stichproben aus der gleichen Population ein Mittel, das gleich dem
Populationsmittel ist. Gilt dies auch für die Populationsvarianz und die Stichprobenvarianz?
Wenn wir die Stichprobenvarianz analog zur Populationsvarianz berechnen (Formel 1.3 auf Seite
11), gilt dann auch, dass die Stichprobenvarianz im Durchschnitt gleich der Populationsvarianz
ist?
Derartige Fragen kann man im Prinzip algebraisch lösen,1 aber auch ohne Algebra kann man
eine ungefähre Lösung finden. Im Folgenden versuchen wir diese Frage mittels einer Simulation
zu beantworten. Das heisst, dass wir (in R) ein Computerskript schreiben, das eine grosse Anzahl
‘Daten’ generiert, deren Eigenschaften wir untersuchen können. Ein zusätzliches Ziel dieser
Übung ist es, Ihnen zu zeigen, wie man in R auch eigene Funktionen schreiben kann.
Simulation Eine bestimmte Variable lässt sich als eine kontinuierliche Gleichverteilung mit
x ∈ [−4, 15] beschreiben. Diese Gleichverteilung hat eine Varianz von σ2 = 30.083.2
Zunächst schreiben wir selbst eine Funktion, sim.spvar.fnc(), mit der wir eine einzige Stichprobe aus einer Gleichverteilung ziehen können. Die Funktion hat drei Parameter: minimum
(das Minimum der Gleichverteilung, also a), maximum (das Maximum, b) und groesse (die
Stichprobengrösse). Von dieser Stichprobe wird die Varianz mittels Formel 1.3 berechnet, als
spvar gespeichert und ausgespuckt.
1 Siehe
2 Die
lernen.
en.wikipedia.org/wiki/Variance#Sample_variance.
Varianz einer kontinuierlichen Gleichverteilung mit Bereich [a, b] ist gleich
1
2
12 (b − a) .
Bitte nicht auswendig
KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN
30
# sim.spvar.fnc ist eine selbstgeschriebene Funktion,
# die eine zufällige Stichprobe aus einer Gleichverteilung
# generiert, und ihre Varianz berechnet und ausspuckt.
sim.spvar.fnc <- function(minimum, maximum, groesse) {
# Stichprobe generieren aus einer Gleichverteilung mit
# n = groesse,
# min = minimum,
# max = maximum
stichprobe <- runif(n = groesse,
min = minimum,
max = maximum)
# Stichprobenvarianz analog zur Populationsvarianz berechnen
spvar <- sum((mean(stichprobe) - stichprobe)^2) / groesse
# Und ausspucken
return(spvar)
}
# Diese Funktion 1 Mal ausführen:
sim.spvar.fnc(minimum = -4, maximum = 15, groesse = 10)
## [1] 36.06
# Wenn Sie diese Funktion selber ausführen,
# werden Sie ein anderes Ergebnis bekommen,
# denn die Stichprobe wird immer wieder neu, zufällig generiert.
Jetzt, wo wir diese Funktion definiert haben, können wir sie einfach Tausende Male laufen lassen.
Jedes Mal wird eine neue Stichprobe generiert und ihre Varianz berechnet und ausgespuckt.
Dazu verwenden wir die replicate()-Funktion; die Ergebnisse speichern wir als sp.vars.3
# sim.spvar.fnc 10'000 laufen lassen
sp.vars <- replicate(10000,
sim.spvar.fnc(minimum = -4, maximum = 15, groesse = 10))
Zeichnen Sie jetzt ein Histogramm der Werte in sp.vars und berechnen Sie zudem ihr Mittel.
hist(sp.vars)
mean(sp.vars)
## [1] 27.22
Histogram of sp.vars
Frequency
2000
1500
1000
500
0
0
10
20
30
40
50
60
sp.vars
Vergleichen Sie das Mittel Ihrer Varianzmessungen mit der Populationsvarianz (30.083). Was
3 Für
diejenigen, die sich für die technische Seite interessieren: Es ist natürlich auch möglich, diese Simulation als ein
for-loop zu schreiben. replicate() ist aber übersichtlicher.
KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN
31
stellen Sie fest? Ist es grösser, kleiner oder ungefähr gleich der Populationsvarianz? Haben Ihre
KurskollegInnen Ähnliches festgestellt?
Generieren Sie jetzt 10’000 Stichproben von jeweils 8 Elementen und vergleichen Sie das Mittel
der Varianzen wieder mit der Populationsvarianz. Wie schaut es aus für 5, 3 und 2 Elementen
pro Stichprobe? Für ein Element pro Stichprobe?
Fazit Wie Sie selber feststellen konnten, liefert Formel 1.3, wenn sie auf Stichproben angewandt
wird, im Schnitt eine zu niedrige Schätzung der Populationsvarianz σ2 . Würden wir Formel 1.3
anwenden, um anhand einer Stichprobe die Varianz der Population zu charakterisieren, dann
würden wir diese systematisch unterschätzen.
Ausserdem konnten wir feststellen: Je kleiner die Stichprobe, desto grösser die Unterschätzung.
Wie Sie anhand Ihrer Simulationen überprüfen können, ist das Bias n−1
n . Anders gesagt liefert
die Formel für Stichproben mit 10 Beobachtungen im Schnitt einen Wert, der nur 10−1
10 = 90% so
gross ist wie die eigentliche Populationsvarianz. Für Stichproben mit Grösse 5 ist dieser Wert im
Schnitt nur 80% so gross wie die eigentliche Populationsvarianz. Die Stichprobenvarianz s2 wird
daher nicht mit Formel 1.3 berechnet. Stattdessen wird d2 durch n − 1 statt durch n geteilt:
s2 =
d2
1
=
(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
n−1
n−1
(3.2)
Nur wenn s2 auf diese Art berechnet wird, haben Stichproben aus der gleichen Population im
Schnitt die gleiche Varianz wie die Population.
Schreiben Sie eine Funktion sim.spvar2.fnc(), indem Sie die Funktion sim.spvar.fnc()
kopieren und diese Zeile:
spvar <- sum((mean(stichprobe) - stichprobe)^2) / groesse
durch
spvar <- sum((mean(stichprobe) - stichprobe)^2) / (groesse - 1)
ersetzen. Führen Sie jetzt erneut die Simulationsschritte aus.
R-Funktion
Die R-Funktion, um s2 zu berechnen, ist var(). Beispiel:
sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / (length(dat$Wortschatz)-1)
## [1] 6.857
var(dat$Wortschatz)
## [1] 6.857
vgl. Populationsvarianz auf S. 11!
3.1.3
Stichprobenstandardabweichung
Die Stichprobenstandardabweichung s wird von der Stichprobenvarianz s2 abgeleitet:4
4 Obwohl die Stichprobenvarianz im Schnitt eine richtige Schätzung der Populationsvarianz ergibt, unterschätzt die
Stichprobenstandardabweichung die Populationsstandardabweichung trotzdem immer noch ein bisschen. Dieses Bias zu
korrigieren stellt sich aber als schwierig heraus.
KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN
√
s = s2 =
r
1
((x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 )
n−1
32
(3.3)
R-Funktion: sd()
sqrt(sum((dat$Wortschatz - mean(dat$Wortschatz))^2) /
(length(dat$Wortschatz)-1))
## [1] 2.619
sd(dat$Wortschatz)
## [1] 2.619
Tipp: Wenn Varianzen oder Standardabweichungen berichtet werden, handelt es sich fast ausnahmslos um Stichprobenvarianzen oder -standardabweichungen. Hier wollte ich Ihnen vor
allem zeigen, warum in Gleichung 3.1.2 durch n − 1 und nicht durch das naheliegendere n
geteilt wird. Ausserdem war es eine gute Gelegenheit, Sie etwas vertrauter mit Simulationen zu
machen.
3.2
Verteilung von Stichprobenmitteln
Stichproben aus der gleichen Population haben im Schnitt zwar ein Mittel, das dem Mittel der
Population gleich ist, aber einzeln betrachtet wird das Mittel einer Stichprobe natürlich selten
genau gleich dem Mittel der Population sein: Mal wird es grösser, mal wird es kleiner sein. Wie
stark weichen einzelne Stichprobenmittel nun vom Populationsmittel ab? Diese Frage versuchen
wir wiederum anhand einiger Simulationen zu beantworten.
3.2.1
Simulation: Verteilung der Stichprobenmittel aus einer rechtsschiefen
Verteilung
Eine bestimmte Variable ist rechtsschief verteilt mit µ = 1.2 und σ2 = 1.26 (F-Verteilung mit
Freiheitsgraden 4 und 12; was eine F-Verteilung ist, ist im Moment nicht wichtig):
f(x)
plot(function(x) df(x, 4, 12),
from = 0, to = 6,
xlab = "x", ylab = "f(x)")
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
x
Was geschieht, wenn wir Stichproben von je n Beobachtungen aus dieser schiefen Population
ziehen, das Mittel jeder Stichprobe berechnen und in einem Histogramm darstellen? Wiederum
können wir versuchen, diese Frage mit einer Simulation zu beantworten. Zuerst schreiben
wir eine Funktion sim.spmean.f.fnc(), die eine Stichprobe mit Grösse groesse aus einer
F(4, 12)-Verteilung zieht und ihr Mittel berechnet und ausspuckt.
KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN
33
# sim.spmean.f.fnc ist eine selbstgeschriebene Funktion,
# die eine zufällige Stichprobe aus einer F(4, 12)-Verteilung
# generiert, und ihr Mittel berechnet und ausspuckt.
sim.spmean.f.fnc <- function(groesse) {
# Stichprobe generieren aus einer F(4, 12)-Verteilung mit
# n = groesse
stichprobe <- rf(n = groesse, 4, 12)
# Stichprobenvarianz analog zur Populationsvarianz berechnen
spmean <- mean(stichprobe)
# Und ausspucken
return(spmean)
}
# Diese Funktion 1 Mal ausführen:
sim.spmean.f.fnc(groesse = 5)
## [1] 1.581
# Wenn Sie diese Funktion selber ausführen,
# werden Sie ein anderes Ergebnis bekommen,
# denn die Stichprobe wurde zufällig generiert.
Generieren wir jetzt 10’000 solche Stichproben mit Grösse 5 und berechnen wir ihr Mittel:
# sim.spmean.f.fnc 10'000 laufen lassen
sp.means <- replicate(10000,
sim.spmean.f.fnc(groesse = 5))
Schauen Sie sich jetzt das Histogramm dieser Stichprobenmittel an:
hist(sp.means)
Wie schaut es aus? Was ist ungefähr das Mittel der Verteilung der Stichprobenmittel (mean(sp.means))?
Was mit 10’000 Stichproben von Grösse 20? Und Grösse 100? Nimmt die Streuung zu oder ab, je
grösser die Stichproben werden?
Grösse 5
Grösse 20
Grösse 100
4000
1500
Frequency
1500
Frequency
Frequency
3000
1000
2000
1000
500
1000
0
500
0
0
1
2
3
4
0
0
Stichprobenmittel
3.2.2
1
2
3
Stichprobenmittel
4
0
1
2
3
4
Stichprobenmittel
Simulation: Verteilung der Stichprobenmittel aus einer Gleichverteilung
Eine Variable ist uniform verteilt mit µ = −1 und σ2 = 12 (Gleichverteilung von −7 bis 5):
plot(function(x) dunif(x, -7, 5),
from = -7, to = 5)
KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN
34
Was würde jetzt geschehen, wenn wir auch aus dieser Distribution 10’000 Stichproben von je n
Beobachtungen nehmen und ihre Mittel grafisch darstellen?
(a) Schreiben Sie eine neue Funktion, sim.spmean.unif.fnc(), die ähnlich funktioniert wie
sim.spmean.f.fnc(), aber die Daten aus einer uniformen Verteilung statt einer F-Verteilung
generiert.
Tipp: Sie müssen die folgende Zeile anpassen:
stichprobe <- rf(n = groesse, 4, 12)
(b) Zeichnen Sie mithilfe dieser Funktion wieder das Histogramm der Stichprobenmittel für
jeweils 10’000 Stichproben von 5, 20 und 100 Beobachtungen.
(c) Wie schauen diese Histogramme aus?
(d) Was ist ungefähr ihr Mittel?
(e) Wie ändert sich ihre Varianz mit unterschiedlichen Werten für n?
(f) Vergleichen Sie die Form dieser Histogramme mit derjenigen aus der letzten Aufgabe.
3.2.3
Fazit: Zentraler Grenzwertsatz
Wenn Stichproben mit n Beobachtungen aus einer Population mit Mittel µ und Varianz σ2 gezogen werden, sind die Stichprobenmittel ungefähr normalverteilt, wenn n gross genug ist—auch
wenn die Population selber nicht normalverteilt ist.5 Das Mittel der Verteilung der Stichprobenmittel (µx̄ ) nähert sich µ, je mehr Stichproben genommen werden. Die Varianz der Stichprobenmittel,
σ2x̄ , wird kleiner, je grösser die Stichproben sind:
σ2x̄ =
σ2
n
(3.4)
Die Standardabweichung der Verteilung der Stichprobenmittel, Standardfehler (S.E.) genannt,
ist demnach:
r
S.E. = σx̄ =
Beispiel
σ2
σ
=√
n
n
(3.5)
Die Verteilung der Mittel von Stichproben mit Grösse 36 aus einer Normalverteilung
q
mit µ = 1.2 und σ2 = 1.26 hat ein Mittel von 1.2 und einen Standardfehler von 1.26
≈ 0.19. Mit
q
q 36
1.26
Stichprobengrössen von 50 bzw. 100 ist der Standardfehler 1.26
50 ≈ 0.16 bzw.
100 ≈ 0.11. (Ggf.
können Sie dies mit einer Simulation überprüfen.)
3.2.4
Wahrscheinlichkeitsaussagen über neue Stichproben
Jetzt können wir nicht nur Wahrscheinlichkeitsaussagen über neue einzelne Beobachtungen
machen, wenn wir die Datenverteilung kennen, sondern auch über neue Stichproben: Wenn
5 Was ‘gross genug’ ist, ist von Population zu Population unterschiedlich. Die Mittel vieler Verteilungen sind bei
n = 30 annähernd normalverteilt; Normalverteilungen und einige andere symmetrische Verteilungen konvergieren
schon viel schneller.
KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN
35
wir die Varianz und das Mittel der Datenverteilung kennen, wissen wir dank des Zentralen
Grenzwertsatzes auch (oft), was die Varianz und das Mittel der Stichproben aus dieser Verteilung
sind!
3.3
Aufgaben
1. Sie möchten wissen, wie viele Bücher in Schweizer Wohnzimmern vorhanden sind. Sie
wählen acht Haushalte nach dem Zufallsprinzip aus und zählen die Anzahl Bücher pro
Haushalt. Dies sind Ihre Ergebnisse:
18, 10, 7, 142, 48, 27, 257, 14
Tragen Sie diese Daten in R ein und beantworten Sie danach folgende Fragen.
(a) Stellen Sie die Verteilung dieser Daten grafisch da und beschreiben Sie diese.6
(b) Was ist Ihre beste Schätzung des Mittels der Population?
(c) Was ist Ihre beste Schätzung der Varianz und der Standardabweichung der Population?
(d) Erklären Sie sich, warum wir hier mit Schätzungen zu tun haben. Warum sind wir uns
nicht sicher, was das Mittel bzw. die Streuung der Population betrifft?
2. Aus einer Normalverteilung mit µ = 10 und σ2 = 36 wird eine Stichprobe mit Grösse n
gezogen.
(a) Wie wahrscheinlich ist es, dass eine Stichprobe mit 4 Beobachtungen ein Mittel von
5 oder weniger hat? (Gehen Sie davon aus, dass der Zentrale Grenzwertsatz zutrifft –
auch wenn die Stichprobe dafür eigentlich etwas zu klein ist.)
(b) Idem, aber für 10 Beobachtungen und für 50 Beobachtungen.
(c) Wie viel Prozent der Stichprobenmittel liegen mehr als 4 Einheiten von µ entfernt bei
n = 8?
(d) Zwischen welchen zwei Werten liegen, symmetrisch um µ, 66.7% der Stichprobenmittel bei n = 10 und bei n = 60? Wie gross ist die Entfernung zu µ ausgedrückt in
Standardfehlern?
(e) Idem, aber 90% der Stichprobenmittel und 95% der Stichprobenmittel.
6 Noch zum Unterschied zwischen Stichproben und Populationen: Die Verteilung von Daten, die zufällig aus (etwa)
einer Normalverteilung gezogen wurden, ähnelt oft annähernd dieser Verteilung. Dies ist aber nicht unbedingt der
Fall. Diese drei Histogramme zeigen alle Stichproben von 25 Datenpunkten. Obwohl die Datenpunkte alle aus der
gleichen Normalverteilung gezogen wurden, zeigen die Histogramme keine perfekten Normalverteilungen. Dies ist
dem inhärenten Zufallsfaktor zuzuschreiben. Natürlich gilt hier: Je mehr Daten man hat, desto besser entspricht die
Verteilung der Stichprobe der Verteilung der Population.
6
4
2
0
−3
−1
1
x
3
7
6
5
4
3
2
1
0
8
Frequenz
Frequenz
Frequenz
8
6
4
2
0
−2
0
x
1
2
−3
−1
x
1 2
Kapitel 4
Die Logik des Signifikanztests
In diesem Kapitel wird die Logik des Signifikanztests anhand des Zentralen Grenzwertsatzes
aus dem letzten Kapitel erklärt. Die sog. Einstichproben-Tests, anhand derer diese Logik erklärt
wird, kommen in der Praxis selten vor, stellen aber den einfachsten Fall des Signifikanztests da.
4.1
4.1.1
Einstichproben-Gauss-Test
Fragestellung und Daten
(Fiktives Beispiel1 ) Am Ende der obligatorischen Schulzeit sollen durchschnittliche flämische
GymnasialschülerInnen im Bereich Hörverstehen Französisch das B2.2-Niveau erreicht haben.
Politiker befürchten allerdings, dass die Effektivität des flämischen Französischunterricht abnimmt und dass die durchschnittlichen Hörverstehenskompetenzen nicht dem B2.2-Niveau
entsprechen. Bisher liegen keine Daten über das Hörverstehensniveau flämischer GymnasialschülerInnen vor, die diese Befürchtung bestätigen bzw. widerlegen können. Das flämische
Bildungsministerium entscheidet, solche Daten zu sammeln. Die Forschungsfrage lautet: “Entspricht die durchschnittliche Hörverstehensleistung flämischer GymnasialschülerInnen am Ende
der obligatorischen Schulzeit dem B2.2-Niveau?” Diese Forschungsfrage führt zu zwei einander
ausschliessenden Hypothesen:
• Die bisherige Annahme oder Nullhypothese (H0 ): Die durchschnittliche Leistung entspricht dem B2.2-Niveau.
• Die neue Vermutung oder zu testende alternative Hypothese (HA ): Die durchschnittliche
Leistung entspricht nicht dem B2.2-Niveau und ist also entweder höher oder niedriger.
In Flandern gibt es keine dem Abitur entsprechende Abschlussprüfung, weshalb keine Daten
für die ganze Population gesammelt werden können. Daher wird eine zufällige Stichprobe mit 225
SchülerInnen ausgewählt, die alle einen standardisierten Französischtest absolvieren. Der Test
wird auf einer 20er-Skala benotet; eine Note von 15 entspricht dem B2.2-Niveau. Das Mittel der
Testergebnisse ist x̄ = 14.67 mit einer (Stichproben-)Standardabweichung von s = 3.
1 Für Tests, die man in der Literatur nur selten antrifft, ist es schwierig, überzeugende Beispiele aus dem sprachlichen
Bereich zu finden. Daher bitte ich bei diesen Beispielen um etwas willing suspension of disbelief.
36
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
4.1.2
37
Lösung
Eine zu einfache Antwort auf die Forschungsfrage wäre, dass die durchschnittliche Leistung
tatsächlich dem B2.2-Niveau nicht entspricht, denn x̄ < 15. Aber x̄ wurde berechnet auf der Basis
von einer Stichprobe – nicht auf der Basis der ganzen Population. Daher ist es möglich, dass die
Forschenden bei der Auswahl der Stichprobe nur Pech gehabt haben und dass das Mittel der
ganzen Population (µ) immerhin gleich 15 ist.
Anders als sich nur x̄ anzuschauen, kann man sich fragen, wie wahrscheinlich ein solches Stichprobenmittel und noch extremere Stichprobenmittel sind, wenn die Nullhypothese stimmt. Ist
diese Wahrscheinlichkeit sehr klein, dann liegt es auf der Hand, die alternative Hypothese zu
bevorzugen.
Dies ist die Logik, die bei allen hier besprochenen Tests gilt: Man nimmt vorübergehend an,
dass es in der Population keinen ‘Effekt’ (hier: keinen Unterschied) gibt, und berechnet dann, wie
erstaunlich die beobachteten Daten (Stichprobe) in diesem Fall sind. Sind die Daten unter dieser
Annahme erstaunlich, dann schliesst man hieraus, dass die Annahme (‘kein Effekt’) wohl falsch
war.2
Wie wahrscheinlich ist es nun, ein Stichprobenmittel von x̄ = 14.67 oder noch extremer (d.h.,
noch mehr von µ abweichend) zu bekommen, wenn das Populationsmittel (laut der Nullhypothese) µ0 = 15 ist? Extremere Stichprobenmittel sind hier nicht nur Mittel niedriger als 14.67,
sondern auch Mittel höher als 15.33: Beide weichen 0.33 Punkte oder mehr von dem von der
Nullhypothese postulierten Populationsmittel ab.
Wenn wir aus der Population viele zufällige Stichproben mit 225 Beobachtungen ziehen, dann
sind die Mittel dieser Stichproben laut dem Zentralen Grenzwertsatz normalverteilt. Wenn die
Nullhypothese stimmt, ist das Mittel der Stichprobenmittelverteilung (µx̄ ) gleich dem Mittel der
Population laut der Nullhypothese, also 15. Die Standardabweichung der Stichprobenmittelverteilung (= der Standardfehler) ist σx̄ = √σn (n = 225). σ kennen wir zwar nicht, aber wir wir
können sie anhand der Stichprobenstandardabweichung schätzen:
σ
s
3
3
S.E. = √ ≈ √ = √
=
= 0.20
15
n
n
225
Wenn die Nullhypothese stimmt, schaut die Verteilung der Mittel von Stichproben mit 225 Beobachtungen aus der Population also ungefähr so aus:
Stichprobenmittelverteilung unter der Nullhypothese
1.0
2.0
0.8
F(x)
f(x)
1.5
1.0
0.5
0.6
0.4
0.2
0.0
0.0
14.0
14.5
15.0
15.5
Stichprobenmittel
16.0
14.0
14.5
15.0
15.5
16.0
Stichprobenmittel
2 Diese Logik kann – zu Recht – kritisiert werden (siehe etwa Cohen 1994, für eine einfache und deutliche Kritik).
Sie liegt den Hypothesentests, die man in der Forschungsliteratur am häufigsten antrifft, aber zu Grunde. Alternative
Logiken bestehen auch, kommen in der Praxis zur Zeit aber deutlich weniger vor, was wohl damit zusammenhängt, dass
die damit verknüpften Berechnungen um Einiges komplizierter sind (siehe etwa Dienes 2011, für eine kurze Einführung
in die sog. ‘bayessche’ Statistik; siehe Kruschke 2011, für eine detailliertere Behandlung).
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
38
Wenn die Nullhypothese stimmt, ist das Mittel, das tatsächlich beobachtet wurde, x̄ = 14.67, Teil
dieser Verteilung. Wie wahrscheinlich ist es nun, dass eine Stichprobe von 225 Datenpunkten
aus einer Population mit einem Mittel von 15 und einer Standardabweichung von 3 ein Mittel
von 14.67 oder niedriger oder ein Mittel von 15.33 oder höher hat? Diese Wahrscheinlichkeit
entspricht der eingefärbten Fläche under der Kurve. Die Grösse dieser Fläche kann einfach
berechnet werden (siehe Kapitel 2):
pnorm(q = 14.67, mean = 15, sd = 0.20) # linker Teil
## [1] 0.04947
pnorm(q = 15.33, mean = 15, sd = 0.20, lower.tail = FALSE) # rechter Teil
## [1] 0.04947
# Oder zusammen:
pnorm(q = 14.67, mean = 15, sd = 0.20) +
pnorm(q = 15.33, mean = 15, sd = 0.20, lower.tail = FALSE)
## [1] 0.09894
Wenn das Populationsmittel 15 ist, dann beobachten wir in etwas weniger als 10% der Fälle ein
Stichprobenmittel von 14.67 oder niedriger oder von 15.33 oder höher. Dieser Wert (0.099) ist
der berühmt-berüchtigte p-Wert. Meistens gilt in den Geistes- und Sozialwissenschaften, dass
ein p-Wert von 0.05 oder weniger auf einen sog. signifikanten Unterschied hinweist, d.h. wenn
dieser Wert 0.05 oder kleiner ist, wird die Nullhypothese abgelehnt zugunsten der alternativen
Hypothese.
4.1.3
Schlussfolgerungen
“Wir fanden keinen statistisch signifikanten Unterschied zwischen der durchschnittlichen Hörverstehenskompetenz im Französischen bei flämischen GymnasialschülerInnen nach Ende der
obligatorischen Schulzeit (x̄ = 14.7, SD = 3, n = 225) und dem vom Lehrplan vorgeschriebenen
Niveau (µ = 15; Gauss-Test: z = 1.65, p = 0.10).
Zwischen Klammern kommen zunächst die deskriptiven Masse: Stichprobenmittel, Stichprobenstandardabweichung (SD) und Anzahl Datenpunkte (n). Statt x̄ wird hierbei allerdings meistens
M geschrieben. Dann kommen die inferenzstatistischen Werte. z drückt die Distanz zwischen
dem beobachteten Mittel und dem Mittel der Nullhypothese in Standardfehlern aus:
z=
x̄ − µ0
x̄ − µ0
=
√s
SE
n
(4.1)
In diesem Fall: z = 14.67−15
= −1.65; dieser Wert wird in der Regel als absolute Zahl (also 1.65)
0.20
berichtet. In einer Standardnormalverteilung (einer Normalverteilung mit Mittel 0 und Standardabweichung 1) ist dieser Wert assoziert mit pnorm(-1.65) + pnorm(1.65, lower.tail
= FALSE), also mit demselben Wert, den wir oben berechnet haben:
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
39
Verteilung der z−Werte
unter der Nullhypothese
0.4
f(z)
0.3
0.2
0.1
pnorm(1.65,
lower.tail = FALSE)
pnorm(−1.65)
0.0
−3
−2
−1
0
1
2
3
z−Wert
Dieser p-Wert folgt danach. Der Deutlichkeit halber können wir auch erwähnen, welchen Test wir
verwendet haben, obwohl dies auch oft aus dem Kontext und den berichteten Werten deutlich
wird.
Allgemein gilt, dass der p-Wert bis auf zwei Stellen abgerundet wird, wenn er höher als 0.01 ist. Da
ein Wert von 0.05 als Schwelle gilt, schadet es nicht noch eine dritte Stelle anzuzeigen, wenn sich
der Wert zwischen 0.045 und 0.055 befindet. Werte kleiner als 0.01 werden als ‘< 0.01’ oder ggf.
‘< 0.001’ angezeigt. ‘p = 0.00’ ist eigentlich nicht sinnvoll, denn irgendeine Wahrscheinlichkeit,
wie gering diese auch sein mag, gibt es eigentlich immer. Der z-Wert wird normalerweise auch
auf zwei Dezimalstellen abgerundet.
4.1.4
Anmerkungen
Annahmen des Gauss-Tests
• Der Gauss-Test setzt nicht voraus, dass die Daten selber normalverteilt sind, sondern
dass das Stichprobenmittel aus einer normalverteilten Stichprobenmittelverteilung kommt,
sodass wir uns auf den Zentralen Grenzwertsatz berufen können. Sind die Daten nicht
normalverteilt, dann besteht allerdings das Risiko, dass das Mittel kein guter Indikator der
zentralen Tendenz ist.
• s muss eine sehr gute Schätzung von σ sein, sodass wir s stellvertretend für σ in der Formel
zur Berechnung des Standardfehlers verwenden können. Grössere Stichproben liefern
genauere Schätzungen von σ. Wenn σ bereits bekannt ist, brauchen wir sie nicht mehr mit
s zu schätzen. Dies kommt aber nur selten vor.
Eine wichtige Annahme, die aber bei grösseren Stichproben nicht unbedingt erfüllt ist, ist die Unabhängigkeitsannahme: Jeder Datenpunkt muss unabhängig von jedem anderen Datenpunkt
sein (z.B. entweder 40 Messungen von einem Sprecher oder eine Messung von 40 verschiedenen
Sprechern). Ist diese Annahme nicht erfüllt, dann unterschätzt der Gauss-Test, wie alle anderen
Tests, die wir besprechen werden, den Standardfehler. Dies führt dazu, dass die Genauigkeit,
mit der wir Aussagen machen können, überschätzt wird. Die Unabhängigkeitsannahme wird oft
verletzt in Studien, in denen SchülerInnen aus mehreren Klassen als Versuchspersonen dienen,
oder wenn mehrere Datenpunkte pro Versuchsperson vorliegen (siehe Vanhove 2015a, Abschnitt
4, für mehr Details).
Zur Nullhypothese
Die Nullhypothese ist nicht unbedingt die Hypothese, die besagt, dass µ = 0. Vielmehr stellt sie
die ‘uninteressante’ Erklärung dar – z.B., dass sich nichts geändert hat. Im Englischen spricht
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
40
man übrigens von der null hypothesis (von ‘to nullify’, also die aufzuhebende Hypothese) und
nicht von der nil hypothesis (die Hypothese, dass ein Wert gleich 0 ist).
Ein- und zweiseitige Tests
Im obigen Beispiel haben wir einen zweiseitigen Gauss-Test verwendet, denn wir haben nicht
nur berechnet, wie wahrscheinlich es ist, einen Mittelwert von 14.67 oder niedriger zu beobachten,
wenn die Nullhypothese stimmt (linke Seite), sondern auch, wie wahrscheinlich ein Mittelwert
von 15.33 oder höher in diesem Fall ist (rechte Seite).
In der Literatur trifft man ab und zu auch einseitige Tests an. Bei solchen Tests schaut man
sich nur eine der beiden Wahrscheinlichkeiten an. Dies ist dann sinnvoll, wenn es sachlogisch
unmöglich ist, dass das Populationsmittel jenseits des von der Nullhypothese postulierten Mittels
liegt. (In diesem Beispiel hätten wir dann einen einseitigen Test berechnen können, wenn es
unmöglich gewesen wäre, dass das wahre Populationsmittel höher als 15 wäre.) p-Werte von
einseitigen Tests sind kleiner als p-Werte von zweiseitigen Tests.
Vorsicht: Man sollte sich nicht zuerst die Daten anschauen, und dann entscheiden, dass man
einen einseitigen Test verwenden möchte – etwa, wenn der zweiseitige Test ein nicht-signifikantes
Ergebnis produziert. Bei einem einseitigen Test sollte zudem auch im Vorhinein festgelegt werden,
ob man erwartet, dass µ < µ0 oder µ > µ0 , und muss begründet werden, weshalb die Alternative
sachlogisch unmöglich ist. Wenn ein einseitiger Test verwendet wird und vermutet wird, dass
µ < µ0 ist es natürlich sinnlos, einen p-Wert zu berechnen, wenn x̄ > µ0 . Der p-Wert wird in
diesem Fall immer nicht-signifikant sein. Hier reicht es dann einfach, die deskriptiven Masse
aufzulisten.
Tipp: Wenn Sie auch den geringsten Zweifel haben, ob ein ein- oder zweiseitiger Test angebracht
ist, berechnen Sie dann den zweiseitigen Test:
Two sided tests should be used unless there is a very good reason for doing otherwise.
If one sided tests are to be used the direction of the test must be specified in advance.
One sided tests should never be used simply as a device to make a conventionally
non-significant difference significant. (Bland & Altman 1994)
Bedeutung des p-Wertes
• p ist die Wahrscheinlichkeit, dass ein Stichprobenmittel x̄ oder ein noch extremeres Mittel
beobachtet wird, wenn die Nullhypothese tatsächlich stimmt.
• Liegt p unter einer arbiträr festgelegten Schwelle (meistens 0.05), dann spricht man von
einem ‘signifikanten’ Ergebnis. H0 wird dann zugunsten von HA abgelehnt.
Der p-Wert repräsentiert nicht:
• die Wahrscheinlichkeit, dass die Nullhypothese stimmt. Wir können nicht schlussfolgern,
dass es eine Wahrscheinlichkeit von 10% gibt, dass H0 stimmt.
• das Komplement der Wahrscheinlichkeit, dass die alternative Hypothese stimmt. Im obigen
Beispiel können wir also nicht schlussfolgern, dass HA mit 1 − 0.10 = 90% Wahrscheinlichkeit zutrifft.
Wenn p = 0.03, heisst dies also weder, dass die Wahrscheinlichkeit, dass H0 stimmt, 3% ist, noch,
dass HA mit 97% Wahrscheinlichkeit stimmt. Solche falsche Interpretationen des p-Wertes trifft
man mit grosser Regelmässigkeit in der Literatur an – manchmal sogar in Einführungen in die
Statistik!
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
41
Tipp: In einem kurzen und sehr lesbaren Artikel bespricht Goodman (2008) zwölf Fehlschlüsse,
die häufig aus p-Werten gezogen werden.
‘Signifikanz’
In der Statistik ist ‘Signifikanz’ ein technischer Begriff, der nicht mit dem alltäglicheren Begriff von praktischer oder theoretischer Signifikanz oder Bedeutung verwechselt werden soll.
Versuchen Sie in Ihren eigenen Arbeiten, diese Zweideutigkeit zu vermeiden.
Signifikanzschwelle, Fehlentscheidungen, ‘power’ und Effektgrösse
Die Schwelle, die signifikante von nicht-signifikanten p-Werten trennt, bezeichnet man als α und
wird im Prinzip arbiträr festgelegt. In den Sozial- und Geisteswissenschaften einigt man sich
allerdings meistens implizit auf α = 0.05 (und zwar grundsätzlich aus keinem anderen Grund,
als dass eine Hand fünf Fingern zählt).
Signifikanztests bieten keine Sicherheit. Wenn H0 tatsächlich zutrifft, dann werden wir bei der
traditionellen α-Schwelle von 5% H0 in 5% der Fälle fälschlicherweise ablehnen. Diese Art Fehler
nennt man einen Typ-I-Fehler (falsch positiv: etwas finden, was nicht da ist).
Wenn nun H0 nicht zutrifft (d.h., es gibt eigentlich einen Effekt), dann besteht trotzdem die
Gefahr, ein nicht-signifikantes Ergebnis zu finden. Diese Art Fehler nennt man einen Typ-IIFehler (falsch negativ: etwas nicht finden, was schon da ist). Die Wahrscheinlichkeit eines
Typ-II-Fehlers wird als β bezeichnet. Das Komplement von β, 1 − β, nennt man die statistische
power eines Tests.
p<α
p>α
H0 stimmt
H0 stimmt nicht
Typ-I-Fehler (α)
OK (1 − α)
OK (1 − β)
Typ-II-Fehler (β)
Vorsicht: Aufgrund des Typ-II-Fehlers können wir bei einem nicht-signifikanten Ergebnis weder
schlussfolgern, dass es einen Unterschied gibt, noch, dass es keinen gibt. Wenn Sie irgendwo
lesen, dass A und B sich nicht signifikant voneinander unterscheiden und daher einander gleich
sind, ist dies in der Regel lediglich bequeme Rethorik: Absenz von Evidenz ist nicht gleich
Evidenz für Absenz. Schmidt (1996) nennt diesen Fehlschluss übrigens “the most devastating
of all to the research enterprise” (S. 126).
4.1.5
Power berechnen
Wie wahrscheinlich ist es, dass wir mit einer Stichprobe von 225 SchülerInnen einen signifikanten
Unterschied zu µ0 = 15 feststellen, wenn µ 6= 15. Zunächst müssen wir definieren, wie gross
der Unterschied zwischen µA und µ0 eigentlich sein müsste, um von praktischer oder theoretischer Bedeutung zu sein. Dies ist die erwartete Effektgrösse. In diesem Beispiel könnten wir
etwa annehmen, dass ein Populationsmittel von 14.5 (oder weniger) bzw. 15.5 (oder mehr) das
Bildungsministerium dazu veranlassen sollte, zusätzliche Mittel in den Französischunterricht zu
investieren bzw. die Lehrpläne umzuschreiben. Ein Unterschied von mindestens 0.5 Punkten
auf der 20er-Skala hätte in diesem Fall also praktische Konsequenzen. (µA1 6 15 − 0.5 = 14.5;
µA2 > 15 + 0.5 = 15.5).
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
42
Auch für diese alternativen Hypothesen (HA1 : µ = 14.5 und HA1 : µ = 15.5) können wir
Stichprobenmittelverteilungen zeichnen. Deren Standardabweichung wird ebenfalls mithilfe
3
von s geschätzt: σ ≈ √225
= 0.2.
Wenn das eigentliche Populationsmittel 15 ist (= die Nullhypothese), dann sind die Mittel der
Stichproben mit 225 Beobachtungen, die zufällig aus dieser Population gezogen werden, wie
die schwarze Kurve verteilt. Wenn das eigentliche Populationsmittel aber 14.5 ist (= eine der
alternativen Hypothesen), dann sind die Stichprobenmittel wie die rote Kurve verteilt:
H0: mu = 15
HA1: mu = 14.5
2.0
f(x)
1.5
1.0
0.5
0.0
13.5
14.0
14.5
15.0
15.5
16.0
Stichprobenmittel
Bei einem zweiseitigen Test mit α = 0.05 lehnen wir in diesem Fall die Nullhypothese nur ab,
wenn das Stichprobenmittel grösser als 15.39 oder kleiner als 14.61 ist:
qnorm(0.025, mean = 15, sd = 0.2) # linke Grenze
## [1] 14.61
qnorm(0.975, mean = 15, sd = 0.2) # rechte Grenze
## [1] 15.39
Diese Grenzen werden in der Grafik mit senkrechten Linien dargestellt.
Wenn nun die alternative Hypothese (µ = 14.5) zutrifft, dann würden wir die Nullhypothese
(µ = 15) fälschlicherweise nicht ablehnen, wenn wir ein Stichprobenmittel zwischen 14.61 und
15.39 beobachten würden. Die Wahrscheinlichkeit, ein solches Stichprobenmittel anzutreffen,
wenn die alternative Hypothese zutrifft, entspricht der Fläche unter der roten Kurve zwischen
14.61 und 15.39. Diese Fläche wurde oben rot eingefärbt. Die Grösse dieser Fläche lässt sich
relativ einfach berechnen mit den Funktionen, die wir bereits kennen:
pnorm(15.39, mean = 14.5, sd = 0.2) - pnorm(14.61, mean = 14.5, sd = 0.2)
## [1] 0.2912
Wenn die alternative Hypothese stimmt, dann stellen wir in etwa 30% der Fälle ein Stichprobenmittel zwischen 14.61 und 15.39 und somit keinen signifikanten Unterschied fest. Da wir in 30%
der Fälle, in denen die alternative Hypothese stimmt, eine falsche Nullhypothese nicht ablehnen,
ist unsere power bei einer Effektgrösse von 0.5 Punkten also 70%.
Unter sonst gleichen Bedingungen, hat eine Studie mehr power als eine andere Studie, wenn:
• sie grössere Effekte untersucht. Die schwarzen und roten Kurven liegen dann weiter
auseinander, weshalb ihre Überlappung kleiner ist.
• sie eine grössere Stichprobe hat. Dies reduziert den Standardfehler ( √σn wird kleiner, wenn
n grösser wird), was wiederum zu einer geringeren Überlappung zwischen der schwarzen
und roten Kurve führt;
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
Cohens d
Interpretation
0.2
0.5
0.8
kleiner Effekt
mittlerer Effekt
grosser Effekt
43
Tabelle 4.1: Interpretation von Effektgrössen. Cohens d drückt die Effektgrösse aus als die Entfernung
zwischen zwei Werten in Standardabweichungen. Welche Entfernung genau “gross” oder “klein” zu
nennen ist, hängt selbstverständlich vom Thema und Zweck der Untersuchung ab; Cohen (1992) hält
diese Werte für typisch in der Psychologie. Für L2-Forschung schlagen Plonsky & Oswald (2014) leicht
andere Werte vor. Selber bin ich immer mehr skeptisch, was solche Richtlinien betrifft, da sie meiner
Meinung nach alles über einen Leisten schlagen; siehe auch meinen Blog und Baguley (2009).
• ihre Daten genauer bzw. zuverlässiger gemessen wurden. Auch dies reduziert den Standardfehler, denn Messfehler tragen zu σ bei ( √σn wird kleiner, wenn σ kleiner wird). Eine
Studie, die Sprachkenntnisse mithilfe eines schnellen Tests erfasst, wird also wohl weniger
power haben, um Unterschiede in diesen Sprachkenntnissen festzustellen, als eine Studie,
in der diese Sprachkenntnisse sehr präzise gemessen wurden.
• sie ein raffinierteres Design hat, welches es erlaubt, die Varianz mit statistischen Mitteln zu
reduzieren (siehe Vanhove 2015a, Abschnitte 2.3 und 3, für Beispiele).
Besonders nützlich für die Planung von Studien ist, dass man mithilfe der Poweranalyse berechnen kann, wie gross eine Stichprobe sein muss, damit β klein genug ist. Auch kann man im
Vorhinein berechnen, wie kraftvoll ein Test ist, wenn man schon weiss, wie gross die Stichprobe
sein wird, oder wie gross der Effekt sein muss, damit man ihn mit genügend power erfassen
kann. Die Algebra ist aber komplex; später besprechen wir eine Familie von R-Funktionen, mit
denen wir dies alles ziemlich einfach berechnen können – vorausgesetzt, man hat eine grobe
Einschätzung der Effektgrösse und der Variabilität der Daten.
4.1.6
Relative Effektgrössen
Effektgrössen können auch relativ statt absolut ausgedrückt werden. Anstatt zu fragen, wie
gut ein statistischer Test einen Unterschied von 0.5 Punkten ermitteln kann, können wir auch
fragen, wie gut er Unterschiede von 0.17 σ von µ0 ermitteln kann ( 0.5
3 = 0.17). Eine Effektgrösse
ausgedrückt in Standardabweichungen bezeichnet man als Cohens d, s. Tab. 4.1.
4.1.7
Übungen
1. Ein ECTS-Punkt entspricht im Schnitt 28 Arbeitsstunden. Eine Vorlesung wird mit 2 ECTSPunkten benotet und entspricht demnach 56 Arbeitsstunden. Laut der Fachschaft brauchen
die meisten Studierenden allerdings erheblich mehr als 56 Arbeitsstunden, um den Stoff
zu verarbeiten. Die Kursleiterin will untersuchen, ob dies tatsächlich stimmt. Da sie aber
zu viele Studierende hat, um alle Studierenden zu befragen, werden 39 willkürlich ausgewählte Studierende gebeten, einen Fragebogen auszufüllen. Sie wird eine ausführlichere
Umfrage organisieren, wenn sich mit p < 0.05 ergibt, dass die Studierenden im Schnitt
mehr als 56 Arbeitsstunden brauchen. Auf der Basis früherer Umfragen weiss sie bereits,
dass die Standardabweichung bei derartigen Befragungen 8 Arbeitsstunden betrifft (willing
suspension of disbelief gefragt).
• Formulieren Sie die Null- und Alternativhypothese.
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
44
Bei der Befragung ergibt sich, dass die 39 Studierenden im Schnitt 57.8 Arbeitsstunden
brauchen, um den Stoff zu verarbeiten. Die Ergebnisse sind aber eher uniform als normalverteilt.
• Ist es für einen Gauss-Test ein Problem, dass die Ergebnisse nicht normalverteilt sind?
Warum (nicht)?
• Führen Sie einen Gauss-Test aus und berichten Sie das Ergebnis in geeigneter Form.
Sollte die Kursleiterin eine ausführlichere Umfrage organisieren?
2. Ein Gauss-Test liefert einen p-Wert von 0.02. Im Vorhinein wurde beschlossen, die Nullhypothese abzulehnen, wenn der p-Wert kleiner als 0.05 ist. Welche der folgenden Aussagen
stimmen und welche nicht?
• Die Wahrscheinlichkeit, dass die Nullhypothese stimmt, beträgt 2%.
• Wenn das Experiment 100 Mal wiederholt wird, werden wir etwa zwei Mal ein
nicht-signifikantes Ergebnis finden.
• Wenn die Nullhypothese tatsächlich stimmt, dann kriegen wir in nur 2% der Fälle
ein Ergebnis, das mindestens so von dem Mittel, das die Nullhypothese postuliert,
abweicht.
• Die Nullhypothese ist endgültig widerlegt zugunsten der alternativen Hypothese.
• Die Nullhypothese stimmt mit 95% Wahrscheinlichkeit.
4.2
Konfidenzintervalle
Ein α%-Konfidenzintervall besteht aus zwei Werten, die um x̄ liegen und die so nach einem
Verfahren bestimmt wurden, dass das Intervall das wahre Populationsmittel in α% der Fälle
enthält.3 Zum Beispiel werden 95%-Konfidenzintervalle nach einem Verfahren konstruiert, das
garantieren soll, dass das Populationsmittel µ in 95% der Fälle in diesem Intervall liegt.
Wenn die Stichprobenmittel normalverteilt sind (Annahme des Gauss-Tests), kann man diese
Konfidenzintervalle mithilfe der Stichprobenmittelverteilung folgendermassen berechnen:
• Berechne den Standardfehler (S.E. =
√σ
n
≈
√s ).
n
• Suche die Werte, die in einer Standardnormalverteilung symmetrisch um das Mittel liegen
und für die gilt, dass z.B. 95% aller möglichen Beobachtungen dazwischen liegen. (Konfidenzintervalle sind nicht per Definition symmetrisch, aber mit dieser Methode berechnen
wir eben symmetrische Konfidenzintervalle.)
# Für ein 95%-Konfidenzintervall:
qnorm(0.025); qnorm(0.975)
3 Die Definition ist leider schwierig, da das Konzept schwieriger ist als was man auf den ersten Blick denken würde –
auch für erfahrene Forschende (Hoekstra et al. 2014). Oft interpretiert man ein 95%-Konfidenzintervall als die zwei Werte,
zwischen denen der Populationsparameter (hier: µ) mit 95% Wahrscheinlichkeit liegt. Dies stimmt strikte genommen
nicht (Morey et al. 2015). Zur Interpretation von Konfidenzintervallen schreibt Ehrenberg (1982) aber Folgendes:
[T]he rough-and-ready interpretation of confidence limits . . . will be close to the truth. The choice is
between making a statement which is true but so complex that it is almost unactionable, and making
one which is much simpler but not quite correct. Fortunately, the effective content of the two kinds of
statement is generally similar. (S. 125)
Statt Konfidenzintervallen empfehlen Morey et al. (2015) den Gebrauch von ‘Kredibilitätsintervallen’. Diese sind im
Bereich der bayesschen Statistik angesiedelt und kommen in unserer Forschungsliteratur kaum vor. Wer mehr über
Kredibilitätsintervalle erfahren möchte, kann sich bei Kruschke (2011) schlau machen.
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
45
## [1] -1.96
## [1] 1.96
# Für ein 90%-Konfidenzintervall:
qnorm(0.05); qnorm(0.95)
## [1] -1.645
## [1] 1.645
• Multipliziere den Standardfehler mit diesen Werten und zähle die Ergebnisse beim Stichprobenmittel auf.
Beispiel: x̄ = 14.3, s = 12.1, n = 42. 90%-Konfidenzintervall?
• S.E. ≈
12.1
√
42
= 1.87
• qnorm((1-0.90)/2); qnorm(1-(1-0.90)/2) → ±1.64 (Symbol: z0.05 bzw. z0.95 )
• x̄ ± S.E. × z0.95 = 14.3 ± 1.87 × 1.64 = {11.2, 17.4}
90%−Konfidenzintervall
Wenn wir aus der gleichen Population 100 Stichproben mit Grösse 42 nehmen, ihre Mittel und
Standardabweichung und dann die 90%-Konfidenzintervalle nach diesem Prinzip berechnen,
dann wird das Populationsmittel in etwa 90 der berechneten Intervalle liegen. Zur Illustration
habe ich 20 Stichproben mit Grösse 42 aus einer Gleichverteilung mit µ = 12.5 gezogen und jeweils die 90%-Konfidenzintervalle berechnet. Im Schnitt werden zwei dieser Konfidenzintervalle
µ (gestrichelte Linie) nicht enthalten (rot).
15
14
13
12
11
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Stichprobe
Unter rpsychologist.com/d3/CI/ finden Sie eine lehrreiche App zu Konfidenzintervallen.
4.3
4.3.1
Einstichproben-t-Test
Die t-Verteilungen
Eine Voraussetzung des Gauss-Tests ist, dass wir die Standardabweichung der Population mit
grosser Genauigkeit geschätzt haben. Wie wir im vorigen Kapitel kurz angesprochen haben,
unterschätzt die Standardabweichung einer Stichprobe die Standardabweichung der Population
aber etwas, und dieses Bias ist grösser für kleinere Stichproben (Fussnote 4 auf Seite 31). Deshalb
müssen wir die Stichprobenmittelverteilung breiter machen, je kleiner die Stichprobe ist. Die
t-Verteilungen sagen uns, wie viel breiter. Dieser mathematische Trick funktioniert im Prinzip
nur, wenn unsere Daten aus einer Normalverteilung stammen (= striktere Annahme). Allerdings
wird diese Annahme weniger wichtig, je grösser unsere Stichproben sind.
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
46
Diese Grafik zeigt die t-Verteilungen mit 2 (violett), 5 (grün), 15 (rot) und 30 (blau) Freiheitsgraden; bei einer t-Verteilung ist diese Anzahl gleich der Anzahl Beobachtungen in der Stichprobe
−1.4 Die schwarze Kurve ist die Standardnormalverteilung.
0.4
f(x)
0.3
0.2
0.1
0.0
−4
−2
0
2
4
x
Konkret: Wenn die Stichprobe drei Datenpunkte umfasst, diese Datenpunkte aus einer Normalverteilung stammen und die Nullhypothese stimmt, dann ist der berechnete t-Wert Teil der
t(2)-Verteilung (violett). Hat die Stichprobe 16 Datenpunkte, dann ist der berechnete t-Wert Teil
der t(15)-Verteilung (rot).
4.3.2
Hypothesen testen
Mithilfe der t-Verteilungen können wir jetzt auch anhand kleinerer Stichproben Hypothesen
testen. Logik und Vorgehen sind identisch wie beim Gauss-Test, nur wird anstatt einer Normalverteilung eine t-Verteilung mit den angemessenen Freiheitsgraden verwendet. Die t-Statistik
wird analog zur z-Statistik berechnet:
t=
x̄ − µ0
x̄ − µ0
=
√s
SE
n
(4.2)
Beispiel 1 H0 : µ = 10, HA : µ 6= 10. Stichprobe: {9, 14, 11, 12, 13, 10}. α = 0.10. Annahme: Die
Daten kommen aus einer Normalverteilung. Sollten wir die Nullhypothese ablehnen?
• Daten einlesen:
x <- c(9, 14, 11, 12, 13, 10)
• x̄ (Mittel) berechnen:
mean(x)
## [1] 11.5
• s (Standardabweichung) berechnen:
sd(x)
## [1] 1.871
• t-Statistik berechnen:
4 Freiheitsgrade
sind grundsätzlich ein Mass des Informationsreichtums der Stichprobe. Eisenhauer (2008) erklärt den
Begriff detaillierter.
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
47
t <- abs((mean(x) - 10) / (sd(x) / sqrt (6)))
t
## [1] 1.964
• Zweiseitige Wahrscheinlichkeit für t > 1.96 und t < −1.96 bei 6 − 1 = 5 Freiheitsgraden.
Dies entspricht der eingefärbte Fläche in dieser Grafik:
t−Verteilung mit 5 d.f.
f(t)
0.3
0.2
0.1
pt(1.96, df = 5,
lower.tail = FALSE
pt(−1.96, df = 5)
0.0
−4
−2
0
2
4
t
pt(-t, df = 5) # linke Seite
## [1] 0.05337
pt(t, df = 5, lower.tail = FALSE) # rechte Seite
## [1] 0.05337
pt(-t, df = 5) + pt(t, df = 5, lower.tail = FALSE) # zusammen
## [1] 0.1067
“Aufgrund dieser Daten lehnen wir die Nullhypothese (µ = 10) nicht ab (M = 11.5, SD = 1.87,
n = 6; t(5) = 1.96, p = 0.11).”
Oder schneller in R:
# Daten eingeben
t.test(x, mu = 10)
##
##
##
##
##
##
##
##
##
##
##
One Sample t-test
data: x
t = 1.96, df = 5, p-value = 0.11
alternative hypothesis: true mean is not equal to 10
95 percent confidence interval:
9.5367 13.4633
sample estimates:
mean of x
11.5
Beispiel 2 H0 : µ = 2.4, HA : µ 6= 2.4. Stichprobe: {1.4, 2.6, 1.7, 0.9}. α = 0.05. Annahme: Die
Daten stammen aus einer Normalverteilung. H0 ablehnen?
• Daten einlesen:
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
48
x <- c(1.4, 2.6, 1.7, 0.9)
• x̄ (Mittel) berechnen:
mean(x)
## [1] 1.65
• s (Standardabweichung) berechnen:
sd(x)
## [1] 0.71414
• t-Statistik berechnen:
t <- abs((mean(x) - 2.4) / (sd(x) / sqrt (4)))
t
## [1] 2.1004
• Zweiseitige Wahrscheinlichkeit für t < −2.1 und t > 2.1 bei 4 − 1 = 3 Freiheitsgraden
berechnen. Dies entspricht der eingefärbten Fläche in dieser Grafik:
t−Verteilung mit 3 d.f.
f(t)
0.3
0.2
0.1
pt(2.1, df = 3,
lower.tail = FALSE
pt(−2.1, df = 3)
0.0
−4
−2
0
2
4
t
pt(-t, df = 3) # linke Seite
## [1] 0.063257
pt(t, df = 3, lower.tail = FALSE) # rechte Seite
## [1] 0.063257
pt(-t, df = 3) + pt(t, df = 3, lower.tail = FALSE) # zusammen
## [1] 0.12651
Oder:
t.test(x, mu = 2.4)
##
##
##
##
##
##
##
##
One Sample t-test
data: x
t = -2.1, df = 3, p-value = 0.13
alternative hypothesis: true mean is not equal to 2.4
95 percent confidence interval:
0.51364 2.78636
KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS
49
## sample estimates:
## mean of x
##
1.65
“Die Nullhypothese (µ = 2.4) konnte auf Basis unserer Daten nicht abgelehnt werden (M = 1.65,
SD = 0.71, n = 4; t(3) = −2.10, p = 0.13).”
Beachten Sie: Wenn (zu Unrecht) ein Gauss-Test verwendet worden wäre, wäre der Unterschied
signifikant gewesen:
pnorm(-t) + pnorm(t, lower.tail = FALSE)
## [1] 0.035692
Vorsicht: Natürlich müssen wir beim Ziehen von Schlussfolgerungen extremst vorsichtig sein,
wenn die Stichprobe bloss drei Beobachtungen zählt. Einerseits haben wir wenig power und
ist ein nicht-signifikantes Ergebnis daher kaum informativ; andererseits müssten wir auch
ein eventuelles signifikantes Ergebnis mit einem riesigen Salzkorn nehmen: Der Unterschied,
den wir finden, dürfte zufallsbedingt sein und ist vermutlich eine Überschätzung des echten
Unterschieds (siehe hierzu Gelman & Carlin 2014). Die obigen Übungen dienen also lediglich
dazu, Ihnen zu zeigen, dass man auch bei kleinen Stichproben Signifikanztests einsetzen kann –
nicht dass man dies regelmässig tun sollte.
4.3.3
t- oder Gauss-Test?
Im Prinzip kann man für grosse Stichproben den Gauss-Test verwenden und für kleine den
t-Test. Da die t-Verteilung bei einer grösseren Anzahl Freiheitsgrade aber kaum von einer
Normalverteilung zu unterscheiden ist, können wir den t-Test auch für grössere Stichproben
verwenden. Deshalb gibt es in R zwar eine t-Test-Funktion, aber keine Gauss-Test-Funktion.
Vorsicht: Beim Konstruieren von Konfidenzintervallen sollte man die geeignete t-Verteilung
statt der Normalverteilung benutzen, wenn die Stichproben relativ klein sind. Dies geht einfach
mit der t.test()-Funktion. Im zweiten Beispiel oben ist das 95%-Konfidenzintervall also [0.51;
2.79].
Da Einstichproben-Tests nur äusserst selten vorkommen, gibt es in diesem Kapitel keine weiteren
praktischen Aufgaben.
Teil II
Die weitverbreitesten Tests und
Modelle
50
Kapitel 5
Zwei Stichproben vergleichen
Im letzten Kapitel haben wir gesehen, wie in der sogenannten ‘frequentistischen’ Inferenzstatistik
(dem am häufigsten verwendeten Inferenzparadigma) Hypothesen getestet werden:
1. Eine Null- und eine Alternativhypothese werden (meistens implizit) formuliert.
2. Es werden Daten bei einer Stichprobe erhoben. Im Idealfall stellt diese Stichprobe eine zufällige Auswahl aus der betroffenen Population dar, meistens jedoch ist dies aus praktischen
Gründen nicht möglich.
3. Man stellt sich die Frage: “Wie wahrscheinlich ist es, dieses Stichprobenmittel oder ein noch
extremeres Stichprobenmittel zu finden, wenn die Nullhypothese tatsächlich stimmt?”
4. Anhand der Standardabweichung der Stichprobe wird die Standardabweichung der Population geschätzt und der Standardfehler berechnet. Die Differenz zwischen dem Stichprobenmittel und dem von der Nullhypothese vorhergesagten Mittel wird geteilt durch
diesen Standardfehler, was eine Teststatistik ergibt, die man als z oder als t bezeichnet.
5. Anhand einer Referenzverteilung (der Standardnormalverteilung oder der entsprechenden
t-Verteilung), die die Verteilung der Teststatistik unter Annahme der Nullhypothese erfasst,
wird der p-Wert berechnet.
6. Ist diese Wahrscheinlichkeit p gering (in der Regel p < 0.05), dann wird die Nullhypothese
zugunsten der Alternativhypothese abgelehnt. Wenn dies nicht der Fall ist, lehnt man die
Nullhypothese vorübergehend nicht ab.
7. Man versucht sich dessen bewusst zu bleiben, dass ein signifikanter p-Wert die Existenz
des Unterschieds nicht unumstösslich beweist (Möglichkeit eines Typ-I-Fehlers) und dass
ein nicht-signifikanter p-Wert nicht ohne Weiteres die Absenz dieses Unterschieds belegt
(Möglichkeit eines Typ-II-Fehlers).
Bis jetzt haben wir das Mittel einer Stichprobe mit einem postulierten Populationsmittel verglichen. In diesem Kapitel werden wir die Mittel von zwei Stichproben miteinander vergleichen.
Die hinterliegende Logik der verwendeten Tests ist aber grundsätzlich die gleiche wie in Kapitel
4. In Kapitel 7 besprechen wir, wie Aussagen über mehr als zwei Stichproben gemacht werden
können.
Abschnitt 5.1 stellt einen mechanistischen Ansatz zur Beantwortung der Frage nach der statistischen Signifikanz vor. Dieses Abschnitt versteht sich als Exkurs, kann Ihnen dabei möglicherweise helfen, wichtige Konzepte in der Inferenzstatistik besser zu verstehen. Ausserdem wiederholt
51
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
52
es grundlegende Konzepte des experimental designs. Die in diesem Abschnitt beschriebene Methode lässt sich in der Praxis, aus Gründen, die in Kürze besprochen werden, nur selten anwenden.
Trotzdem halte ich die Logik hinter dieser Methode für didaktisch nützlich.
5.1
5.1.1
Exkurs: Randomisierung als Inferenzbasis
Ein einfaches Experiment
(Fiktives Beispiel, aber siehe Guiora et al. 1972.) Um den Effekt von Alkohol auf die Sprechgeschwindigkeit zu untersuchen, werden sechs Germanistikstudierende zu einem Experiment
eingeladen. Nach dem Zufallsprinzip wird die Hälfte der Studierenden der Experimentalgruppe
und die andere Hälfte der Kontrollgruppe zugeteilt. Die Versuchspersonen in der Experimentalgruppe müssen ein Videofragment beschreiben, nachdem sie zuerst 5 Deziliter alkoholhaltiges
Bier getrunken haben. Die Versuchspersonen in der Kontrollgruppe erledigen dieselbe Aufgabe,
trinken statt alkoholhaltigem aber 5 Deziliter alkoholfreies Bier. Die Versuchspersonen wissen
nicht, ob das Bier, dass sie trinken, alkoholfrei oder alkoholhaltig ist. Gemessen wird die Sprechgeschwindigkeit in Silben pro Sekunde. Auch die Mitarbeitenden, die die Silben zählen, wissen
nicht, welche Versuchspersonen welcher Kondition zugeteilt wurden (double-blind experiment).
Wieso sollten im Idealfall weder die Versuchspersonen noch die Mitarbeitenden wissen,
welche Versuchsperson welcher Kondition zugeteilt wurde?
In diesem Design ist die Kondition (alkoholhaltig vs. alkoholfrei) die unabhängige Variable:
Die Forschenden konnten diese Variable selber manipulieren. Ein Begriff mit einer ähnlichen
Bedeutung ist ‘Prädiktor’. Die Variable ‘Sprechgeschwindigkeit’ ist die abhängige Variable, da
wir davon ausgehen, dass ihr Wert teilweise von der unabhängigen Variable abhängt. Andere
Begriffe sind ‘outcome variable’ und ‘response variable’.
Von den sechs Studierenden wurden Sandra, Daniel und Maria nach dem Zufallsprinzip der
Kontrollgruppe zugeteilt, während Nicole, Michael und Thomas der Experimentalgruppe zugeteilt wurden. Die Versuchspersonen in der Kontrollgruppe äusserten beim Beschreiben des
Videofragments 4.2, 3.8 und 5.0 Silben pro Sekunde; diejenigen in der Experimentalgruppe 3.1,
3.4 und 4.2 Silben pro Sekunde.
Es ist klar, dass die Versuchspersonen in der Kontrollgruppe eine höhere durchschnittliche
Sprechgeschwindigkeit haben als jene in der Experimentalgruppe: Der Unterschied zwischen
den Gruppenmitteln beträgt etwa 0.8 Silben pro Sekunde. Können wir daraus schliessen, dass
das Trinken von alkoholhaltigem vs. alkoholfreiem Bier diesen Unterschied mitverursacht hat,
oder beruht er auf reinem Zufall?
5.1.2
Warum randomisieren?
Die Versuchspersonen wurden nach dem Zufallsprinzip einer der Gruppen zugeteilt. So wurde
sichergestellt, dass die Ergebnisse nicht systematisch verzerrt wurden. Zum Beispiel gibt es
zwar in der Kontrollgruppe zwei Frauen und in der Experimentalgruppe nur eine, aber dieser
Unterschied ist rein zufällig: Wir haben die Kontrollgruppe nicht systematisch bevorteilt. Das
Ziel von Randomisierung ist also nicht, perfekt äquivalente Gruppen zu generieren, sondern
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
53
eine systematische Verzerrung vorzubeugen – sowohl was bekannte als auch was unbekannte
Störvariablen betrifft. (Siehe Vanhove 2015a, zu diesem Missverständnis.)
Ausserdem handelt es sich in diesem Fall um ein double-blind experiment: Weder die Versuchspersonen selber noch die auswertenden Mitarbeitenden wussten, wer welcher Kondition zugeteilt
wurde. Dies beugt eine Verzerrung der Ergebnisse aufgrund von Erwartungseffekten vonseiten der Versuchspersonen (subject-expectancy effect, vgl. den Placebo-Effekt) oder vonseiten der
Forschenden (observer-expectancy effect) vor (siehe Green & Levy Paluck 2004).
Sicher hätten wir dieses Design verfeinern können, indem wir etwa die Herkunft der Versuchspersonen in beiden Gruppen fixiert hätten (z.B. eine Bündernin, ein Zürcher und eine Bernerin in
jeder Gruppe; wer sich für solche raffiniertere Designs interessiert, kann sich ausgewählte Kapitel
aus Oehlert 2010, anschauen) oder indem wir die Sprechgeschwindigkeit der Versuchspersonen
auch vor dem Experiment gemessen hätten (‘Pretest’) und die Unterschiede analysiert hätten,
aber auch ohne solche Raffinesse erlaubt dieses Design dank der Randomisierung (und der
Blindierung) gültige Aussagen.
5.1.3
Die Nullhypothese und Re-Randomisierung
Der Unterschied zwischen den Mitteln der Gruppen beträgt etwa 0.8 Silben pro Sekunde. Da
wir ein randomisiertes Experiment ausgeführt haben und somit eine systematische Verzerrung
der Ergebnisse vorgebeugt haben, könnten wir daraus sogar schliessen, dass dieser Unterschied
z.T. von unserer experimentellen Manipulation verursacht wurde: Der Konsum von 5 Deziliter
alkholhaltigem Bier bremst die Sprechgeschwindigkeit.
Bevor wir eine solche kausale Aussage machen, müssen wir uns mit einer trivialeren Erklärung
beschäftigen: Vielleicht beruht der Unterschied auf reinem Zufall. Dies ist unsere Nullhypothese,
die mit der Alternativhypothese kontrasiert:
• H0 : Der Unterschied zwischen beiden Mitteln ist nur dem Zufallsfaktor zuzuschreiben.
• HA : Der Unterschied ist auch teilweise der experimentellen Manipulation zuzuschreiben.
In der ‘frequentistischen’ Inferenzstatistik argumentiert man kontradiktorisch: Man berechnet,
wie wahrscheinlich es ist, den beobachteten Effekt oder noch extremere Effekte anzutreffen,
davon ausgehend, dass die Nullhypothese stimmt. Ist diese Wahrscheinlichkeit gering (unter
einer arbiträren Schwelle), dann schliessen wir daraus, dass unsere erste Annahme – die Nullhypothese stimmt – wohl nicht berechtigt war und dass auch ein systematischer Effekt im Spiel ist.
Für dieses Beispiel nehmen wir 10% als arbiträre Schwelle; in der Regel ist aber 5% üblich.
Wie berechnen wir nun diese Wahrscheinlichkeit? Wenn wir davon ausgehen, dass die Nullhypothese stimmt, dann ist der Unterschied zwischen den Gruppen lediglich das Ergebnis der
Randomisierung, also des Zufalls. Die Gruppierung der Ergebnisse, so wie wir sie beobachtet
haben, wird in diesem Cleveland dotplot dargestellt:
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
54
Ergebnisse Experiment
Alkoholfrei
Sandra
Daniel
Maria
Alkoholhaltig
Thomas
Michael
Nicole
3.5
4.0
4.5
5.0
Sprechgeschwindigkeit (Silben/Sekunde)
Wenn das Zufallsverfahren aber statt Michael Sandra der Experimentalgruppe zugeteilt hätte
und Alkoholkonsum die Sprechgeschwindigkeit nicht beeinflusst, wäre dies die Verteilung
gewesen – und wäre der Unterschied nicht 0.8 sondern bloss 0.3 Silben pro Sekunde gewesen:
Alternative Ergebnisse
Alkoholfrei
Michael
Daniel
Maria
Alkoholhaltig
Thomas
Sandra
Nicole
3.5
4.0
4.5
5.0
Sprechgeschwindigkeit (Silben/Sekunde)
Um jetzt zu berechnen, wie ‘erstaunlich’ ein Unterschied von 0.8 oder mehr unter Annahme
der Nullhypothese ist, können wir berechnen, wie oft das Zufallsverfahren alleine schon einen
solchen Unterschied generiert. Es gibt 20 Möglichkeiten, um 6 Versuchspersonen in zwei 3erGruppen aufzuteilen (z.B. Sandra, Daniel, Maria / Thomas, Michael, Nicole; Sandra, Daniel,
Thomas / Maria, Michael, Nicole; Sandra, Daniel, Michael / Thomas, Maria, Nicole; usw.).1 Für
jede dieser 20 Möglichkeiten berechnen wir, wie gross der Gruppenunterschied ist. (Der R-Code
ist dabei nicht so wichtig, nur die Logik.) Diese Grafik stellt für jede mögliche Re-Randomisierung
den Unterschied zwischen den Gruppenmitteln dar:
Gruppenunterschiede für alle Randomisierungen
−1.0
−0.5
0.0
0.5
1.0
Unterschied zwischen den Mitteln
der beiden Gruppen
Die roten Linien stellen einen absoluten Unterschied von etwa 0.8 Silben pro Sekunde dar. Insge1
6!
3!(6−3)!
=
720
6×6
= 20. Oder kurz in R: choose(6, 3).
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
55
samt 6 der 20 mögliche Re-Randomisierungen führen zu einem absoluten Gruppenunterschied
von 0.8 Silben pro Sekunde oder mehr. Die Wahrscheinlichkeit, einen Unterschied zwischen
den Mitteln von 0.8 oder mehr Silben pro Sekunde anzutreffen, wenn der Unterschied komplett
6
zufallsbedingt ist, liegt also bei 20
= 0.3 (also 30%). Dies ist unser p-Wert.
Da 30% gar nicht so unwahrscheinlich ist und über unserer arbiträren Schwelle von 10% liegt,
betrachten wir die Nullhypothese vorübergehend als nicht abgelehnt. Dies heisst nicht, dass wir
die Nullhypothese bestätigt haben, sondern nur, dass keine statistische Evidenz vorliegt, dass
sie abgelehnt werden sollte. (Absenz von Evidenz 6= Evidenz für Absenz!)
5.1.4
Bemerkungen
• Der Gebrauch dieses Permutationstests wird durch das Forschungsdesign (genauer gesagt
durch die uneingeschränkte Randomisierung) legitimiert. Dies illustriert, dass Design und
Analyse unauflöslich miteinander verknüpft sind.
• Wir haben unsere Versuchspersonen zufällig den experimentellen Konditionen zugeordnet, aber sie nicht zufällig aus irgendeiner Population gewählt. Wenn wir ein statistisch
signifikantes Ergebnis gefunden hätten, dann hätten wir folglich daraus immer noch nicht
ohne Weiteres schliessen können, dass die experimentelle Manipulation einen Effekt in
einer bestimmten Population hätte. Dazu hätten wir sowohl eine zufällige Auswahl aus der
Population (random sampling) und eine zufällige Zuweisung der Versuchspersonen an die
Konditionen (random assignment) verwenden müssen. Ohne eine zufällige Auswahl beruht
eine solche Schlussfolgerung auf einer (oft impliziten) sachlogischen Argumentation – nicht
auf einer statistischen Gegebenheit. Diese Nuance entspricht dem Unterschied zwischen
interner Validität (Ist der Unterschied oder der Effekt, der wir in dieser Stichprobe beobachtet haben, der experimentellen Manipulation zuzuschreiben?) und externer Validität
(Lässt sich dieser Befund über die Stichprobe hinaus generalisieren?).2
Für weitere Details bzgl. Permutationstests, siehe meinen Blog.
5.1.5
Die Holzhammermethode: Permutationstest für grössere Stichproben
Der oben besprochene Lösungsansatz lässt sich in der Regel nur selten anwenden, da wir
meistens mit grösseren Stichproben zu tun haben. Es gibt 20 Möglichkeiten, 6 Versuchspersonen
in 2 gleich grosse Gruppen aufzuspalten, aber bereits mehr als 155 Millionen Möglichkeiten, 30
Versuchspersonen in 2 gleich grosse Gruppen aufzuspalten. Die Stichprobenmittel für alle ReRandomisierungen zu vergleichen würde viel zu lange dauern. Ein alternativer Lösungsansatz
besteht darin, ‘nur’ 1’000 oder 10’000 solcher Re-Randomisierungen zu generieren und die Mittel
zu vergleichen. Solche Permutationstests trifft man aber ebenfalls nur selten in der Literatur an.
5.2
Zweistichproben-t-Test für unabhängige Stichproben
Ein Test, den man weitaus häufiger als die oben besprochenen Permutationstests antrifft, ist
der Zweistichproben-t-Test. Dieser beruht nicht auf einem machinellen Lösungsansatz, sondern
lässt sich analytisch herleiten, und zwar ähnlich wie der Gauss- und Einstichproben-t-Test.
2 Wer sich für die Effizienz didaktischer Methoden interessiert ist, muss wohl die externe Validität der Untersuchung
berücksichtigen. Aber für etwa experimentelle Psychologen ist externe Validität nicht unbedingt so wichtig (Mook 1983):
Für sie kann es wichtiger sein, zu zeigen, dass eine Manipulation überhaupt einen Effekt erzeugen kann, ohne dass die
Grenzen dieses Befunds schon erprobt werden müssen.
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
56
Dass er so oft angewandt wird, verdankt er der Tatsache, dass seine Ergebnisse mit jenen von
Permutationstests konvergieren:
the statistician does not carry out this very simple and very tedious process [i.e.
running a permutation test, JV], but his conclusions have no justification beyond the
fact that they agree with those which could have been arrived at by this elementary
method. (Fischer, 1936; zitiert in Ernst 2004)
Um das Inferenzproblem in den Griff zu bekommen, müssen allerdings bestimmte Annahmen
gemacht werden. Auch ist die Herleitung des t-Tests umständlicher als jene des Permutationstests. Als EndbenützerInnen brauchen wir uns zwar nicht ausführlich um diese Herleitung
zu kümmern, aber ich halte es für sinnvoll, zumindest zu wissen, wo die berichteten Zahlen
herkommen und welche Rolle die berühmt-berüchtigten Annahmen in der Berchnung des Tests
genau spielen.
5.2.1
Fragestellung und Daten
(Fiktives Beispiel, aber siehe Guiora et al. 1972.) Die Fragestellung und das Design sind ähnlich
wie im obigen Beispiel, nur haben wir statt 6 jetzt 36 Versuchspersonen rekrütiert. 18 werden
nach dem Zufallsprinzip der Experimentalgruppe zugeordnet, die restlichen 18 dienen als
Kontrollgruppe. Die Daten finden Sie in der Datei Alkohol_Sprechgeschwindigkeit.csv.
# Daten einlesen; ev. file.choose() verwenden
alkohol <- read.csv("Alkohol_Sprechgeschwindigkeit.csv")
alkohol[c(1:3, 34:36), ]
##
##
##
##
##
##
##
Gruppe Sprechgeschwindigkeit
1
Kontrollgruppe
4.0
2
Kontrollgruppe
4.2
3
Kontrollgruppe
4.4
34 Experimentalgruppe
4.4
35 Experimentalgruppe
4.0
36 Experimentalgruppe
3.9
5.2.2
Grafische Darstellung
Es ist immer eine gute Idee, die Daten zunächst grafisch darzustellen. Bei einem Gruppenvergleich mit einer kontinuierlichen abhängigen Variable (und ipso facto einer nominalskalierten
unabhängigen Variable) sind Boxplots mehr oder weniger der Standard. Siehe Abschnitt 7.1.2 ab
Seite 95 für Alternativen.
# Mit 'mar' mache ich insb. den Linkerrand breiter,
# sodass die Gruppennamen reinpassen.
# Mit 'las = 1' zeichne ich die Labels horizontal.
# Siehe ?par für mehr Infos.
par(mar = c(3, 8.5, 2, 1), las = 1)
# Boxplot
boxplot(Sprechgeschwindigkeit ~ Gruppe, data = alkohol,
main = "Boxplot",
horizontal = TRUE)
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
57
Boxplot
Kontrollgruppe
Experimentalgruppe
3.6
5.2.3
3.8
4.0
4.2
4.4
4.6
Beschreibende Statistik
Mit der summarise()-Funktion aus dem dplyr-Package können einfach beschreibende Masse für
jede Gruppe berechnet werden. Das Package können Sie mit dem Befehl install.packages("dplyr")
installieren. Führen Sie dann folgende Befehle aus:
library(dplyr)
# Datensatz 'alkohol' nach Variable 'Gruppe' aufteilen
alkohol.sum <- summarise(group_by(alkohol, Gruppe),
Mittel = mean(Sprechgeschwindigkeit), # Mittel berechnen
Median = median(Sprechgeschwindigkeit), # Median
StdAbw = sd(Sprechgeschwindigkeit), # Standardabweichung
Anzahl = n()) # Anzahl Beobachtungen
alkohol.sum
## Source: local data frame [2 x 5]
##
##
Gruppe Mittel Median StdAbw Anzahl
##
(fctr) (dbl) (dbl)
(dbl) (int)
## 1 Experimentalgruppe 4.1889
4.25 0.27842
18
## 2
Kontrollgruppe 4.0000
4.05 0.25668
18
5.2.4
Lösung
Der Nullhypothesentest für den Zweistichproben-Fall ist mit dem Vorgehen aus dem letzten
Kapitel vergleichbar. Die Nullhypothese ist diesmal, dass die Mittel der Populationen, aus denen
beide Stichproben gezogen wurden, gleich sind:
H0 : µ1 = µ2
Die Gegenhypothese ist hier lediglich, dass dies nicht der Fall ist:
HA : µ1 6= µ2
Wenn µ1 = µ2 (H0 ), dann gilt natürlich µ1 − µ2 = 0. Wir beobachteten aber einen Unterschied
von 0.2 Silben pro Sekunde zwischen den Stichprobenmitteln beider Gruppen (x̄1 und x̄2 ) (4.19
vs. 4.00; siehe beschreibende Statistik).
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
58
Ähnlich wie im letzten Kapitel stellen wir uns jetzt folgende Frage:
Wie wahrscheinlich ist es, dass die Mittel so voneinander abweichen, wenn H0
stimmt?
Um diese Frage beantworten zu können, müssen wir wieder eine t-Statistik berechnen: Wir
teilen den Unterschied durch seinen Standardfehler:
t=
x̄1 − x̄2
S.E.x̄1 −x̄2
(5.1)
Den Unterschied zu berechnen ist einfach, beim Standardfehler ist es komplizierter. Der Standardfehler des Unterschieds ist eine Funktion der Varianzen der Populationen, aus denen die
Stichproben gezogen wurden, und der Anzahl Beobachtungen in jeder Stichprobe:3
s
S.E.x̄1 −x̄2 =
σ21
σ2
+ 2
n1 n2
(5.2)
Also: Je kleiner die Varianz der Daten oder je grösser die Stichproben, desto kleiner der Standardfehler und desto grösser t.
Wenn wir davon ausgehen können, dass σ21 = σ22 (Annahme!), dann vereinfacht sich die Formel:
s
S.E.x̄1 −x̄2 =
σ2
1
1
+
n1 n2
s
=σ
1
1
+
n1 n2
(5.3)
σ ist in der Regel unbekannt, aber kann auf der Basis der Stichprobenstandardabweichungen
als s12 geschätzt werden. Um s1 und s2 miteinander zu kombinieren, verwenden wir folgende
Formel:
s
σ ≈ s12 =
(n1 − 1)s21 + (n2 − 2)s22
(n1 − 1) + (n2 − 1)
(5.4)
Das Konzept hinter dieser Formel ist, dass zuerst die beiden Schätzungen von σ2 (s21 und s22 )
gemittelt werden, aber nach Stichprobengrösse gewichtet werden. Danach wird die Wurzel
gezogen, um die Standardabweichung zu berechnen.
Die Standardabweichungen innerhalb der Gruppen betragen 0.28 und 0.26 (siehe beschreibende
Statistik). Daraus:
3 Dieser Schritt ist etwas schwierig. Der Grund, dass wir ihn machen können, ist, dass beide Stichprobenmittel aus
normalverteilten
Stichprobenmittelverteilungen kommen (Zentraler Grenzwertsatz; Annahme!). Die Standardfehler
r
r
σ21
n1
und
σ22
n2
sind die Standardabweichungen dieser Stichprobenmittelverteilungen. Ihre Quadrate
σ21
n1
und
σ22
n2
sind
also die Varianzen. Wenn wir die entsprechenden Elemente aus zwei zufälligen Reihen (Vektoren) normalverteilter
Variablen beieinander aufzählen, dann ist die daraus resultierende Reihe von Zahlen auch normalverteilt. Das Mittel
der Summen µ1+2 ist dann gleich µ1 + µ2 und die Varianz der Summen σ21+2 ist gleich σ21 + σ22 . Wenn wir zwei
Vektoren normalverteilter Variablen voneinander abziehen, ist das Mittel der Ergebnisse natürlich µ1 − µ2 . Die Varianz
der Unterschiede ist aber noch immer die Summe der Varianzen σ21 + σ22 . (Wenn wir das Zeichen aller Werte in der
zweiten Zahlenreihe umdrehen (positiv wird negativ, negativ wird positiv), dann wird das Mittel der Zahlenreihe
−µ2 ; die Varianz bleibt aber gleich.) Hieraus folgt, dass die Verteilung der Unterschiede zwischen normalverteilten
Stichprobenmitteln auch normalverteilt ist, und zwar mit µ = µ1 − µ2 (laut H0 : µ1 − µ2 = 0) und σ2 =
Lange Rede, kurzer Sinn: Die Formel ist gar nicht so absurd.
σ21
n1
+
σ22
n2 !
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
s
s12 =
59
(18 − 1) × 0.282 + (18 − 1) × 0.262
= 0.27
18 + 18 − 2
r
S.E.1−2 = 0.27
t=
1
1
+
= 0.09
18 18
4.19 − 4.00
= 2.1
0.09
Die zweiseitige Wahrscheinlichkeit dieses t-Wertes berechnen wir anhand der t-Verteilung mit
n1 + n2 − 2 Freiheitsgraden, da diese Anzahl Freiheitsgrade unsere Sicherheit in der Schätzung
von s12 reflektiert.
0.4
Verteilung der t−Statistik (34 d.f.)
unter der Nullhypothese
f(t)
0.3
0.2
0.1
pt(−2.1, df = 34,
lower.tail = TRUE)
pt(2.1, df = 34,
lower.tail = FALSE)
0.0
−4
−2
0
2
4
t
Die rot eingefärbte Fläche entspricht folgender Wahrscheinlichkeit:
pt(-2.1, df = 34, lower.tail = TRUE) +
pt(2.1, df = 34, lower.tail = FALSE)
## [1] 0.043223
Dies ist unser p-Wert. Oder glücklicherweise ganz einfach in R:
t.test(Sprechgeschwindigkeit ~ Gruppe,
data = alkohol,
var.equal = TRUE) # Varianz1 = Varianz2
##
##
##
##
##
##
##
##
##
##
##
##
##
Two Sample t-test
data: Sprechgeschwindigkeit by Gruppe
t = 2.12, df = 34, p-value = 0.042
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.0074993 0.3702785
sample estimates:
mean in group Experimentalgruppe
4.1889
mean in group Kontrollgruppe
4.0000
Die kleinen Unterschiede zwischen dem von Hand berechneten Test und dem mit t.test()
berechneten Test sind Ründungsfehlern zuzuschreiben.
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
5.2.5
60
Schlussfolgerungen
“Versuchspersonen, die eine Einheit Alkohol konsumierten, sprachen im Schnitt signifikant
schneller (n = 18, M = 4.2 Silben pro Sekunde, SD = 0.3) als jene in der Kontrollgruppe (n = 18,
M = 4.0 Silben pro Sekunde, SD = 0.3; t(34) = 2.1, p = 0.04).”
5.2.6
Annahmen
• Strikte genommen setzt der t-Test voraus, dass die Populationen, aus denen die Daten
stammen, annähernd normalverteilt sind. Der Grund ist, dass die Verteilung der t-Statistik
unter der Nullhypothese sonst nicht nachweisbar die relevante t-Verteilung ist (siehe
Seite 45 zu dem hinterliegenden mathematischen Trick). Für grössere Stichproben ist dies
unproblematisch, da t-Verteilungen mit einer hohen Anzahl Freiheitsgraden kaum von
einer Normalverteilung zu unterscheiden sind. Sind die Daten nicht normalverteilt, dann
besteht allerdings das Risiko, dass das Mittel kein guter Indikator der zentralen Tendenz
ist. Grafiken sind also nach wie vor unerlässlich.
• Die Datenpunkte sind unabhängig voneinander. Ist dies nicht der Fall, dann ergibt der Test
zu viele signifikante Ergebnisse (siehe Vanhove 2015a).
• Bei der Berechnung von S.E.x̄1 −x̄2 sind wir davon ausgegangen, dass die Populationen, aus
denen die zwei Stichproben kamen, die gleiche Varianz σ2 haben. Daher durften wir σ2 als
‘Kompromiss’ zwischen s21 und s22 schätzen. Wenn wir nicht hiervon ausgehen wollen oder
können, bietet sich Welch’ t-Test für ungleiche Varianzen als Alternative an (siehe unten).
• Der t-Test vergleicht Mittel. Wenn das Mittel kein gutes Mass für die zentrale Tendenz ist,
sind diese Aussagen vielleicht nicht falsch, aber vermutlich weniger relevant.
5.2.7
Welch-Test für Stichproben mit ungleichen Varianzen
Beim üblichen t-Test gehen wir davon aus, dass die beiden Stichproben aus Populationen mit der
gleichen Varianz σ2 kamen. Will man nicht hiervon ausgehen, dann bietet sich der Welch-t-Test
an:
t.test(Sprechgeschwindigkeit ~ Gruppe,
data = alkohol,
var.equal = FALSE) # = die Standardeinstellung
##
##
##
##
##
##
##
##
##
##
##
##
##
Welch Two Sample t-test
data: Sprechgeschwindigkeit by Gruppe
t = 2.12, df = 33.8, p-value = 0.042
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.0074553 0.3703224
sample estimates:
mean in group Experimentalgruppe
4.1889
mean in group Kontrollgruppe
4.0000
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
61
Erwähnen Sie es immer explizit, wenn Sie einen Welch-Test verwendet haben. In diesem Fall
würden wir das Testergebnis folgendermassen hinschreiben: “(Welch-t-Test: t(33.8) = 2.1, p =
0.04”. (Beim Welch-Test wird die Anzahl Freiheitsgrade angepasst, sodass diese Anzahl nicht
unbedingt eine ganze Zahl ist.)
In unserer Literatur trifft man diesen Test eher selten an. Wenn ein t-Test ohne Weiteres berichtet
wird, können Sie davon ausgehen, dass es sich um einen normalen t-Test handelt.
Manche Autoren empfehlen, immer den Welch-Test zu verwenden (Ruxton 2006), aber in der
Regel ist der Unterschied zwischen einem normalen t-Test und einem Welch-Test minimal
(Johnson 2008).
Tipp: Es gibt wichtigere Dinge, um die man sich Sorgen machen kann, als die Frage, ob man
jetzt einen normalen oder einen Welch-t-Test verwenden sollte.
Wenn Sie irgendwann feststellen, dass die Ergebnisse beider Tests dramatisch unterschiedlich
sind, geben Sie mir bitte Bescheid.
5.2.8
Alternativ für nicht-normalverteilte Daten
Der t-Test geht strikte genommen davon aus, dass die Daten aus einer normalverteilten Population stammen. Bei grösseren Stichproben führt eine Verletzung dieser Annahme kaum zu
Problemen; bei kleineren Stichproben könnte dies problematisch sein. In solchen Fällen kann
man eine nicht-parametrische Alternative, wie der Permutationstest, in Betracht ziehen. Eine
andere Alternative stellt der Wilcoxon-Rangsummentest (auch Wilcoxon-Mann-Whitney-Test,
Mann-Whitney-Test oder U-Test genannt) dar. Dieser Test geht davon aus, dass die Populationen, aus denen beide Stichproben gezogen wurden, bis auf eine horizontale Verschiebung gleich
verteilt sind (aber nicht unbedingt normal):
wilcox.test(Sprechgeschwindigkeit ~ Gruppe,
data = alkohol)
## Warning in wilcox.test.default(x = c(4.3, 4.1, 3.6, 4.3, 4.5, 4.6, 4.3, : cannot
compute exact p-value with ties
##
## Wilcoxon rank sum test with continuity correction
##
## data: Sprechgeschwindigkeit by Gruppe
## W = 226, p-value = 0.044
## alternative hypothesis: true location shift is not equal to 0
Vorsicht: Sowohl für den t-Test, für den Permutationstest als auch für den Wilcoxon-Rangsummentest gilt die Unabhängigkeitsannahme. Unabhängigkeit ist eine wichtigere Annahme
als Normalität (Gelman & Hill 2007).
Vorsicht: Manche Forschende verwenden den Wilcoxon-Rangsummentest immer dann, wenn
ihre Daten nicht normalverteilt sind. Dieser Test setzt aber voraus, dass die Populationen, aus
denen beide Stichproben gezogen wurden, bis auf eine horizontale Verschiebung gleich verteilt
sind. Schaut man genauer hin, sieht man in der Regel, dass dies vermutlich nicht der Fall ist. Der
Wilcoxon-Rangsummentest ist also kein Wundermittel, um mit nicht-normalverteilten Daten
umzugehen.
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
5.2.9
62
Übungen
1. Die Datei sinergia.csv enthält eine Zusammenfassung der Daten meiner Dissertation
(Vanhove 2014). 163 Deutschschweizer Versuchspersonen wurden gebeten, 45 geschriebene und 45 (andere) gesprochene schwedische Wörter ins Deutsche zu übersetzen. Die
Reihenfolge der Aufgabe (zuerst geschrieben, dann gesprochen, oder zuerst gesprochen,
dann geschrieben) wurde für jede Versuchsperson zufällig festgelegt (FirstBlock). Lesen
Sie diese Datei in R ein und beantworten Sie danach die folgenden Fragen.
(a) Können Versuchspersonen, die zuerst schwedische Wörter gehört haben (FirstBlock
== Spoken), besser geschriebene schwedische Wörter verstehen, als Versuchspersonen, die mit den geschriebenen Wörtern angefangen haben? Stellen Sie die Daten im
Hinblick auf diese Frage grafisch dar. Führen Sie dann einen geeigneten t-Test aus und
berichten Sie diesen im geeigneten Format.
(b) Können Frauen besser gesprochene schwedische Wörter verstehen als Männer?
(c) Denkfrage: Handelt es sich hier in beiden Fällen um ein randomisiertes Experiment?
Wurden die Versuchspersonen zufällig aus irgendeiner Population gewählt, denken
Sie? Wie informativ ist der p-Wert dann?
(d) Denkfrage: Die Befunde anlässlich der obigen Fragen lassen sich wohl relativ einfach
erklären. Aber wir hätten die obigen Fragen auch andersherum formulieren können:
Können diejenigen, die zuerst geschriebene Wörter gesehen haben, besser gesprochene
Wörter verstehen? Und können Frauen besser geschriebene Wörter verstehen als
Männer? Sind diese Fragen weniger sinnvoll als die obigen? Halten Sie es für eine gute
Idee, mehrere Vergleiche auszuprobieren, und dann nur jene zu berichten, die einen
signifikanten Unterschied ergeben?
2. In den folgenden zwei Übungen werden die Schlussfolgerungen von zwei Studien kritisch
unter die Lupe genommen. Dies mag ungesittet scheinen, aber ich halte es für didaktisch
nützlich, Ihnen zu zeigen, dass auch in renommierten Zeitschriften veröffentlichte Studien
von namhaften Forschenden nicht frei von Kritik auf statistischer Ebene sind.
Abrahamsson & Hyltenstam (2009) berichten über eine Studie zu den Zweitsprachkenntnissen von zwei Gruppen spanischer Immigranten in Schweden. Die eine Gruppe besteht aus
53 Spanischsprachigen, die im Alter von 0 bis 5 nach Schweden umgezogen sind; die zweite Gruppe aus 54, die im Alter von 6 bis 11 umgezogen sind. Die Schwedischkenntnisse
dieser Versuchspersonen wurden von schwedischen raters beurteilt und diese Ergebnisse
wurden statistisch analysiert. Schlussfolgerung war, dass es keinen Unterschied zwischen
den beiden Gruppen gibt.
(a) Installieren und laden Sie das Package pwr:
install.packages("pwr")
library("pwr")
(b) Die Funktion pwr.t2n.test() erlaubt es, Poweranalysen auszuführen, wenn die
Gruppen ungleich gross sind. Berechnen Sie die Power, die Abrahamsson & Hyltenstam
(2009) gehabt hätten, um einen nach Cohen (1992) mittelgrossen Unterschied zwischen
den beiden Gruppen zu detektieren.4 Gehen Sie dabei von einem zweiseitigen Test mit
α = 0.05 aus:
4 Siehe Seite 43: Cohen (1992) schlägt folgende Effektgrössen vor: d = 0.2 ist klein, d = 0.5 ist mittelgross und d = 0.8
gross. Wenn Psychologen über ‘grosse’ oder ‘kleine’ Effektgrössen reden, wird normalerweise dies gemeint. Ich bin,
was solche Massstäbe betrifft, aber skeptisch. Nützlich ist jedoch Kristoffer Magnussons interaktive Visualisierung von
Cohens d unter rpsychologist.com/d3/cohend/.
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
63
pwr.t2n.test(n1 = 53, n2 = 54, # Stichprobengrössen
d = 0.5, # standardisierte Effektgrösse
sig.level = 0.05, # Signifikanzschwelle
alternative = "two.sided") # zweiseitige Hypothese
(c) Erklären Sie das Ergebnis in Ihren eigenen Worten.
(d) Wie viel Power hatten Abrahamsson & Hyltenstam (2009), um einen nach Cohen (1992)
kleinen Unterschied (d = 0.2) zu detektieren?
3. Johnson & Newport (1989) verglichen die Englischkenntnisse von 7 koreanischen und
chinesischen Versuchspersonen, die im Alter von 3 bis 7 in die U.S.A. umgezogen sind,
mit denen von 21 amerikanischen Versuchspersonen, die als Kontrollgruppe dienten. Sie
fanden keinen signifikanten Unterschied und leiteten aus diesem Nullergebnis ab, dass
sich die Gruppen nicht voneinander unterschieden.
(a) Wie viel Power hatten Johnson & Newport (1989), um einen nach Cohen (1992) grossen
Unterschied zu detektieren (d = 0.8)? Gehen Sie dabei von einem zweiseitigen Test mit
α = 0.05 aus:
pwr.t2n.test(n1 = 21, n2 = 7, d = 0.8, sig.level = 0.05,
alternative = "two.sided")
(b) Wie viel Power hatten sie, um einen mittelgrossen Unterschied (d = 0.5) zu detektieren?
(c) Wie hoch sollte α sein, damit ein mittelgrosser Effekt mit einer Power von 0.80 detektiert
werden kann?
pwr.t2n.test(n1 = 21, n2 = 7, d = 0.5,
sig.level = NULL,
power = 0.8, alternative = "two.sided")
(d) Wie gross hätte die Immigrantengruppe (n2) sein sollen, damit ein grosser Effekt
(d = 0.8) mit α = 0.05 und einer Power von 0.80 hätte detektiert werden können? Was
wäre mit einem mittelgrossen Effekt (d = 0.4)? (Diese Frage ist etwas fies.)
4. Sie rekrütieren 60 Versuchspersonen für ein ‘between-subjects’-Experiment mit zwei Konditionen. Ohne die erwartete Effektgrösse zu kennen: Wie viele Versuchspersonen soll es
in jeder Kondition geben, damit die power möglichst gross ist?
5. (Fiktives Beispiel) Ein Forscher möchte untersuchen, ob sich die Länge des deutschen [I]Vokals unterscheidet, je nachdem ein(e) Sprecher(in) balanziert zweisprachig Französisch–
Deutsch ist oder nicht. 15 balanzierte Zweisprachige und 13 Monolinguale produzieren
insgesamt 840 tokens, deren Länge gemessen wird. Das Ergebnis wird folgendermassen
berichtet: “Es gibt einen signifikanten Längeunterschied zwischen [I]-Lauten, die von
Zweisprachigen (n = 450, M = 72 ms, SD = 29) produziert wurden einerseits, und
denjenigen, die von Einsprachigen (n = 390, M = 87 ms, SD = 28) produziert wurden
andererseits (t(838) = 7.39, p < 0.001).”
War es überhaupt erlaubt, einen solchen t-Test durchzuführen?
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
5.3
5.3.1
64
Zweistichproben-t-Test für abhängige Stichproben
Fragestellung und Daten
(Fiktives Beispiel) Eine Universität veranstaltet zum ersten Mal einen Schreibkurs Französisch
für anderssprachige Jurastudierende und möchte nun nachgehen, ob dieser Kurs überhaupt
etwas bringt. 20 Studierende schreiben sich ein. In der ersten Sitzung schreiben sie ein Essay
auf Französisch, damit ihre schon vorhandenen Fähigkeiten von einem Französischlehrer eingeschätzt werden können. Am Ende des Kurses schreiben die Studierenden ein neues Essay. Die
Daten finden Sie in der Datei franzkurs.csv.
franzkurs <- read.csv("franzkurs.csv")
head(franzkurs)
##
##
##
##
##
##
##
1
2
3
4
5
6
vor nach
4
7
11
11
14
18
13
11
7
9
13
16
Lässt sich eine Verbesserung in den Ergebnissen feststellen?
5.3.2
Grafische Darstellung
Wie immer lohnt es sich die Daten grafisch darzustellen. Hier folgen drei Beispiele von Grafiken,
die einleuchtend sein können.
Links: Die Pre- und Posttest-Ergebnisse jeder Versuchsperson werden in einem Streudiagramm
dargestellt. Die diagonale Linie ist die x = y-Linie; Kreise unterhalb der Linie stellen Versuchspersonen dar, deren Posttest-Ergebnis niedriger als deren Pretest-Ergebnis ist; oberhalb der Linie
liegen Versuchspersonen mit einem höheren Posttest- als Pretest-Ergebnis.
Aus dieser Grafik wird bereits klar, dass die meisten Versuchspersonen beim Posttest besser
abschneiden als beim Pretest (mehr Punkte oberhalb der Linie als unterhalb). Aber die diagonale
Linie macht es schwierig, visuell einzuschätzen, wie gross der Unterschied zwischen Pre und
Post ist.
Mitte: Daher wird im zweiten Plot nicht das Posttest-Ergebnis gezeigt, sondern der Unterschied
zwischen Pre und Post. Die horizontale Linie ist die y = 0-Linie: Punkte oberhalb der Linie
stellen Versuchspersonen mit einem höheren Post- als Pretestergebnis dar. Dieser Grafik können
wir einfacher entnehmen, dass ein durchschnittlicher Fortschritt um die 2 Punkte liegt. Ein
weiterer Vorteil dieser Grafik ist, dass sie nicht-konstante Effekte aufdecken kann: Man könnte
sich vorstellen, dass Versuchspersonen mit niedrigeren Pretest-Ergebnissen mehr vom Kurs
profitieren als jene mit höheren Pretest-Ergebnissen. In diesem Fall würde man sehen, dass die
Punkte links höher liegen als jene rechts. Dies wäre eine wichtige Nuance beim Berichten der
Ergebnisse.
Rechts: Ein Boxplot der Differenzen zeigt, dass der durchschnittliche Fortschritt (Median) bei 2
Punkten liegt und dass etwa drei Viertel der Versuchspersonen einen Fortschritt aufzeigen. Der
Boxplot zeigt allerdings nicht, ob der Fortschritt je nach dem Pretest-Ergebnis unterschiedlich
gross ist.
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
65
par(mfrow = c(1, 3))
# Streudiagramm vor vs. nach
plot(nach ~ vor, data = franzkurs,
xlab = "Testergebnis Anfang Semester",
ylab = "Testergebnis Ende Semester",
main = "Vor vs. Nach")
abline(a = 0, b = 1, lty = 2)
# Verbesserung berechnen
franzkurs$Verbesserung <- franzkurs$nach - franzkurs$vor
# Streudiagramm vor vs. Verbesserung
plot(Verbesserung ~ vor, data = franzkurs,
xlab = "Testergebnis Anfang Semester",
ylab = "Fortschritt",
main = "Vor vs. Fortschritt")
abline(a = 0, b = 0, lty = 2)
# Boxplot Verbesserung
boxplot(franzkurs$Verbesserung,
ylab = "Fortschritt",
main = "Boxplot Fortschritte")
abline(a = 0, b = 0, lty = 2)
par(mfrow = c(1, 1))
Vor vs. Fortschritt
16
14
12
10
8
6
4
6
8
10
14
Testergebnis Anfang Semester
5.3.3
Boxplot Fortschritte
4
4
3
3
Fortschritt
18
Fortschritt
Testergebnis Ende Semester
Vor vs. Nach
2
1
0
2
1
0
−1
−1
−2
−2
4
6
8
10
14
Testergebnis Anfang Semester
Lösung
Von allen Studierenden haben wir zwei Beobachtungen: ein Ergebnis für den Vortest und ein
Ergebnis für den Nachtest. Studierende, die beim Vortest gut abschneiden, werden in der Regel
auch beim Nachtest besser abschneiden. Die Ergebnisse für den Vor- und Nachtest sind m.a.W.
nicht unabhängig voneinander. Deswegen dürfen wir keinen ‘normalen’ t-Test für unabhängige
Stichproben benutzen. Stattdessen bietet sich der gepaarte t-Test (oder t-Test für abhängige
Stichproben) an.
Die Null- und Alternativhypothesen dieser Test liegen auf der Hand:
H0 : µnach = µvor
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
66
HA : µnach 6= µvor
Anstatt die Mittel beider Stichproben direkt zu vergleichen (wie bei einem normalen t-Test),
berechnen wir aber den Unterschied zwischen beiden Tests per Versuchsperson. Statt 2 × 20
Messungen (mit Abhängigkeiten) haben wir dann nur noch 20 Messungen ohne Abhängigkeiten.
di = xnach,i − xvor,i
(5.5)
Die Null- und Alternativhypothese können wir nun umformulieren. Laut der Nullhypothese ist
der durchschnittliche Unterschied 0, laut der Alternativhypothese ist dieser Unterschied nicht
gleich 0:
H0 : µd = 0
HA : µd 6= 0
Diese Nullhypothese können wir einfach mit einem Einstichproben-t-Test testen.
franzkurs$Differenz <- franzkurs$nach - franzkurs$vor
t.test(franzkurs$Differenz, mu = 0)
##
##
##
##
##
##
##
##
##
##
##
One Sample t-test
data: franzkurs$Differenz
t = 3.26, df = 19, p-value = 0.0041
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
0.52046 2.37954
sample estimates:
mean of x
1.45
Der gepaarte t-Test für zwei gepaarte Variablen ist äquivalent mit dem Einstichproben-t-Test für
die Unterschiede zwischen diesen Paaren:
t.test(franzkurs$vor, franzkurs$nach,
paired = TRUE) # gepaarter t-Test
##
##
##
##
##
##
##
##
##
##
##
Paired t-test
data: franzkurs$vor and franzkurs$nach
t = -3.26, df = 19, p-value = 0.0041
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.37954 -0.52046
sample estimates:
mean of the differences
-1.45
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
5.3.4
67
Schlussfolgerungen und Bemerkungen
“Die Posttest-Ergebnisse waren signifikant höher als die Pretest-Ergebnisse (Vortest: M = 9.4,
SD = 3.4; Nachtest: M = 10.9, SD = 3.9; gepaarter t-Test: t(19) = 3.3, p < 0.01).”
Die Freiheitsgrade der t-Verteilung: Anzahl Paare minus 1.
Vorsicht: Wenn zu Unrecht ein nicht-gepaarter t-Test ausgeführt worden wäre, hätte dieser
gezeigt, dass die Testergebnisse nicht signifikant unterschiedlich gewesen wären!
t.test(franzkurs$nach, franzkurs$vor,
var.equal = TRUE)
##
##
##
##
##
##
##
##
##
##
##
Two Sample t-test
data: franzkurs$nach and franzkurs$vor
t = 1.26, df = 38, p-value = 0.21
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.87063 3.77063
sample estimates:
mean of x mean of y
10.85
9.40
Tipp: Gepaarte t-Tests haben i.d.R. mehr Power als nicht-gepaarte t-Tests, da eine wichtige Quelle
von Varianz kontrolliert wird: Interindividuelle Unterschiede in a priori-Fähigkeiten werden
weggerechnet. Wenn die Forschungsfrage es erlaubt und es praktisch durchführbar ist, ist ein
Forschungsdesign mit gepaarten Stichproben (‘within-subjects design’) also zu bevorzügen! Oft
ist dies aufgrund von möglichen Lerneffekten aber schwierig.
Für mehr Informationen bzgl. Forschungsdesigns und der Frage ‘Wie viele Versuchspersonen
brauche ich?’, siehe Abbuhl et al. (2013) und Quené (2010).
5.3.5
Annahmen
Der gepaarte t-Test macht die gleichen Annahmen wie der Einstichproben-t-Test, nur gelten
diese für die Differenzen statt für die originellen Werte.
Vorsicht: Wenn nicht alle Datenpunkte sinnvoll und nach demselben Muster (z.B. zwei Messungen per Sprache oder per Sprecher oder per Vokal usw.) gepaart sind, kann der gepaarte
t-Test nicht verwendet werden. Entweder sind die Stichproben völlig unabhängig voneinander
(unabhängiger t-Test) oder sie sind völlig gepaart (gepaarter t-Test); wenn sie nur z.T. gepaart
sind, können die Daten nur mittels viel komplexerer Methoden analysiert werden. Versuchen
Sie daher, wenn möglich, das Design der Studie möglichst einfach zu halten! Wenn die Datenpunkte nicht in Paaren sondern zu dritt usw. erscheinen, bietet sich eine ANOVA für wiederholte
Messungen an (Kapitel 7), oder eben wiederum eine komplexere Methode.
5.3.6
Alternativ für nicht-normalverteilte Stichprobendifferenzen
Eine nicht-parametrische Alternative ist der Wilcoxon-Vorzeichen-Rang-Test (wilcox.test()
mit Option paired = TRUE); die Warnungen sind hier nicht so wichtig:
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
68
wilcox.test(franzkurs$vor, franzkurs$nach, paired = TRUE)
## Warning in wilcox.test.default(franzkurs$vor, franzkurs$nach, paired = TRUE):
cannot compute exact p-value with ties
## Warning in wilcox.test.default(franzkurs$vor, franzkurs$nach, paired = TRUE):
cannot compute exact p-value with zeroes
##
## Wilcoxon signed rank test with continuity correction
##
## data: franzkurs$vor and franzkurs$nach
## V = 19, p-value = 0.0065
## alternative hypothesis: true location shift is not equal to 0
Diesen Test habe ich in der sprachwissenschaftlichen Literatur allerdings noch nie gesehen.
5.3.7
Denkfrage
Wie überzeugend finden Sie die Schlussfolgerung, dass die Teilnahme am Französischkurs zu
einer Verbesserung der Schreibfähigkeit führt? Verteidigen Sie Ihren Standpunkt.5
5.3.8
Übungen
1. In der Tabelle sind die durchschnittlichen (Median) F1-Frequenzen (in Hz) für 11 englische
Vokale je nach Herkunft der Sprecher (Birmingham vs. Glasgow) aufgeführt; Daten von
Ferragne & Pellegrino (2010). (Mehr Info zu Formanten finden Sie auf Wikipedia.)
Vokal
heed
hid
head
had
hard
hod
hoard
hood
who’d
Hudd
heard
F1 (Hz) Birmingham
F1 (Hz) Glasgow
289
350
502
679
639
576
454
414
318
482
491
301
446
473
636
693
530
463
327
345
480
543
Tragen Sie diese Daten selber auf irgendeine Art und Weise in R ein (direkt eintippen,
zuerst in Excel speichern und dann einlesen, . . . ).
Unterscheiden sich die F1-Messungen systematisch zwischen Birmingham und Glasgow?
2. Der in R eingebaute Datensatz women enthält die Körpergrössen (in inch) und Körpergewichte (Pfund) 15 amerikanischer Frauen:
Um dies zu zeigen, müsste man eine Kontrollgruppe haben, denn es ist durchaus denkbar, dass die Studierenden auch
ohne den Französischkurs bei der zweiten Erhebung besser abgeschlossen hätten.
5
KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN
69
women
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
height weight
58
115
59
117
60
120
61
123
62
126
63
129
64
132
65
135
66
139
67
142
68
146
69
150
70
154
71
159
72
164
Sollte man einen t-Test berechnen, um den Bezug zwischen Körpergrösse und -gewicht zu
erfassen? Verteidigen Sie Ihre Antwort.
3. Die Datei SimonTask.csv enthält die Ergebnisse eines sog. Simon-Tasks (siehe den Anhang
von Vanhove 2014). Eine Beschreibung des Simon-Tasks finden Sie auf Wikipedia. Für jede
Versuchsperson ist die durchschnittliche (Median) Reaktionszeit (in ms) für 28 kongruente
(congruent) und 28 inkongruente (incongruent) Trials aufgeführt. Die Erwartung ist,
dass Versuchspersonen schneller auf kongruente als auf inkongruente Trials reagieren.
Lesen Sie die Daten in R ein und stellen Sie die Daten im Hinblick auf diese Hypothese
grafisch dar. Was entnehmen Sie dieser Grafik? Wird die Hypothese von diesen Daten
unterstützt?
Kapitel 6
Zusammenhänge zwischen
kontinuierlichen Variablen
Oft interessieren wir uns nicht sosehr für die Mittel unterschiedlicher Gruppen, sondern für
den Zusammenhang zwischen zwei oder mehreren kontinuierlichen Variablen. Zum Beispiel
könnten wir uns fragen, wie der Zusammenhang zwischen dem Alter (einer kontinuierlichen
Variable) und dem Ergebnis bei einem Wortschatztest (ebenso einer kontinuierlichen Variable)
bei 5- bis 12-Jährigen ausschaut. Zu oft wird in unserem Fachgebiet in solchen Fällen eine der
Variablen diskretisiert: Zum Beispiel werden die 5- bis 8-Jährigen zusammen als die ‘junge’
Gruppe und die 9- bis 12-Jährigen als die ‘alte’ Gruppe betrachtet, sodass die Ergebnisse beim
Wortschatztest mit einem t-Test verglichen werden können.
Das Problem mit dem Aufteilen kontinuierlicher Variablen ist, dass hierdurch nützliche Information verloren geht (z.B. Cohen 1983): Die Versuchspersonen innerhalb jeder Gruppe sind auch
unterschiedlichen Alters, aber dies wird bei einem t-Test nicht länger berücksichtigt. Dies führt
zu einem Powerverlust. Zudem kann Diskretisierung dazu führen, dass arbiträre Trennungen
(Warum 5–8 und 9–12 und nicht etwa 5–7 und 8–12? Würde das Ergebnis anders aussehen?)
überbetont werden und dass Schwelleneffekte zu Unrecht hineininterpretiert werden dürften
(siehe Altman & Royston 2006; Vanhove 2013).
In solchen Fällen ist es – mit wenigen Ausnahmen – besser, kontinuierliche Variablen auch in
der Analyse als kontinuierlich zu behandeln. Dazu besprechen wir einige Methoden in diesem
Kapitel. Dieses Kapitel versteht sich aber als eine Einführung; detailliertere Informationen und
komplexere linguistische Beispiele finden Sie in Baayen (2008).
Mit den Methoden, die wir in diesem Kapitel besprechen, können wir versuchen, eine Antwort
auf eine dieser zwei Fragen zu geben:
1. Wie stark ist der Zusammenhang zwischen zwei kontinuierlichen Variablen? Anders gesagt,
wenn wir den Wert einer Variable kennen, wie gut können wir dann den Wert der anderen
Variable schätzen? (Korrelationsanalyse)
2. Was ist der Zusammenhang zwischen zwei (oder mehreren) kontinuierlichen Variablen?
Anders gesagt, wenn wir den Wert einer Variable kennen, wie können wir dann den Wert
der anderen Variable schätzen? (Regressionsanalyse)
Beide Fragen werden oft miteinander verwechselt, was manchmal zu Verwirrungen führt (Vanhove 2013). Zwei Beispiele, um den Unterschied klar zu stellen:
• Wenn man die Temperatur in Grad Celsius kennt, kann man die Temperatur in Grad
70
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
71
Fahrenheit perfekt schätzen: Die Korrelation ist also äusserst stark (Frage 1). Damit wissen
wir aber noch nicht, wie wir die Temperatur in Grad Fahrenheit berechnen können, wenn
wir die Temperatur in Grad Celsius kennen. Eine Regressionsanalyse würde zeigen, dass
wir dazu die Temperatur in Grad Celsius mit 9 multiplizieren müssen, dann teilen durch 5
und dann noch 32 Grad hinzufügen (Frage 2): ◦ Fahrenheit = 32◦ + 95 × ◦ Celsius.
• Wenn man die Körpergrösse eines Menschen kennt, kann man sein Gewicht besser schätzen,
als wenn man die Körpergrösse nicht kennt. Die Schätzung ist aber nicht perfekt: Die
Korrelation ist positiv, aber nicht so hoch wie im letzten Beispiel (Frage 1). Um zu wissen,
wie man das Gewicht am besten anhand der Grösse schätzt (z.B. Gewicht in kg = 0.6×
Grösse in cm −40 kg für Frauen zwischen 145 und 185 cm), braucht es Regressionsanalyse.
6.1
Frage 1: Kovarianz und Korrelation
Betrachten wir den Datensatz von DeKeyser et al. (2010), in dem Daten zum ‘age of acquisition’
(AOA) von 76 russischsprachigen Immigranten in den USA und Kanada sowie ihr Ergebnis auf
einer englischen Grammatikalitätsurteilaufgabe (GJT) gespeichert wurden. Unsere Fragestellung
lautet: Wie stark hängt das Alter, in dem Russischsprachige angefangen haben, vor Ort Englisch
zu lernen, zusammen mit ihrem Ergebnis auf dieser Aufgabe? (DeKeyser et al. (2010) hatten
übrigens eine andere Fragestellung.)
# Daten einlesen
dat <- read.csv("dekeyser2010.csv")
# Erste sechs Fälle anzeigen
head(dat)
##
##
##
##
##
##
##
1
2
3
4
5
6
6.1.1
AOA
59
9
51
58
27
11
GJT
151
182
127
113
157
188
Grafische Darstellung: das Streudiagramm
Auch hier ist es immer eine gute Idee, die Daten grafisch darzustellen. Wenn man sich für den
Zusammenhang zwischen zwei kontinuierlichen Variablen interessiert, sind Streudiagramme
(scatterplots) einfach aber besonders effizient.
plot(GJT ~ AOA, dat)
# oder: plot(dat$AOA, dat$GJT)
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
72
200
180
GJT
160
140
120
10
30
50
70
AOA
Auf den ersten Blick wird klar, dass es sich hier um einen negativen Zusammenhang ohne
offensichtliche Ausreisser geht: Grössere AOA-Werte sind in der Regel mit kleineren GJT-Werten
assoziiert. Wichtig ist auch, dass der Zusammenhang zwischen den beiden Variablen ungefähr linear ist. Die nächste Grafik zeigt in Gegensatz dazu vier Beispiele von nicht-linearen
Zusammenhängen:
Sinusoid
logarithmische Zunahme
Parabel
(quadratische Funktion)
Deckeneffekt
Vorsicht: Ist der Zusammenhang zwischen den Variablen nicht (ungefähr) gerade, dann lohnt es
sich kaum, ohne Weiteres Korrelations- und Regressionsanalysen durchzuführen. Manchmal
kann man die Daten aber sinnvoll transformieren, sodass der Zusammenhang linear wird
(Beispiele in etwa Baayen 2008; Gelman & Hill 2007).
6.1.2
Kovarianz
Um numerisch zu beschreiben, wie stark zwei Variablen miteinander zusammenhängen (Frage
1), brauchen wir ein Mass, dessen absoluter Wert gross ist, wenn kleine Unterschiede in x
mit kleinen Unterschieden in y zusammenhängen und grosse Unterschiede in x mit grossen
Unterschieden in y, und dessen absoluter Wert klein ist, wenn grosse Unterschiede in der einen
Variable mit nur kleinen Unterschieden in der anderen Variable zusammenhängen. Ein solches
Mass ist die Kovarianz:
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
Cov(x, y) =
1
((x̄ − x1 )(ȳ − y1 ) + (x̄ − x2 )(ȳ − y2 ) + · · · + (x̄ − xn )(ȳ − yn ))
n−1
73
(6.1)
Die Summe der Produkte wird durch n−1 statt durch n geteilt aus dem gleichen Grund, weshalb
dies bei der Varianzberechnung der Fall ist.
sum((mean(dat$AOA) - dat$AOA) * (mean(dat$GJT) - dat$GJT)) / (nrow(dat) - 1)
## [1] -394.93
# einfacher:
cov(dat$AOA, dat$GJT)
## [1] -394.93
Ist die Kovarianz positiv, dann besteht ein positiver Zusammenhang zwischen den beiden
Variablen (je grösser x, desto grösser y); ist die Kovarianz negativ, dann gibt es einen negativen
Zusammenhang (je grösser x, desto kleiner y). Abgesehen von diesen zwei Richtschnuren ist das
Kovarianzmass schwierig zu interpretieren, weshalb Sie es in der Literatur nur selten antreffen
werden. Aber Kovarianz ist ein wichtiges Konzept in der Mathe hinter komplexeren Verfahren,
weshalb es sich trotzdem lohnt, zumindest zu wissen, dass es besteht.
6.1.3
Pearsons Produkt-Moment-Korrelation (r)
Da das Kovarianzmass nicht einfach zu interpretieren ist, wird meistens Pearsons ProduktMoment-Korrelationskoeffizient (r) (oder einfach Pearsons Korrelation) verwendet. Diese Zahl
drückt aus, wie gut der Zusammenhang durch eine gerade Linie beschrieben werden kann. Es
wird ähnlich wie das Kovarianzmass berechnet, aber die Variablen werden in Standardabweichungen zum Stichprobemittel ausgedrückt. Dies ergibt dann immer eine Zahl zwischen −1 und
1.
rxy =
Cov(x, y)
sx sy
(6.2)
cov(dat$AOA, dat$GJT) / (sd(dat$AOA) * sd(dat$GJT))
## [1] -0.80285
# einfacher:
cor(dat$AOA, dat$GJT)
## [1] -0.80285
Ist r = 1, dann liegen alle Datenpunkte perfekt auf einer geraden, steigenden Linie. Dies deutet
fast ausnahmslos auf eine Tautologie hin. Zum Beispiel sind Körpergrössen in Zentimetern und
in Inches perfekt korreliert, aber dieser Zusammenhang ist nicht spektakulär sondern höchst
langweilig. Ist r = −1, dann liegen alle Datenpunkte auf einer geraden, senkenden Linie. Dies
deutet wohl darauf hin, dass die beiden Variablen perfekt komplementär sind. Zum Beispiel
wird die Anzahl richtige Antworten oft mit r = −1 mit der Anzahl falsche Antworten korrelieren;
auch dies ist wenig spektakulär. Ist r = 0, dann ist die Linie perfekt senkrecht, d.h. es gibt
überhaupt keinen linearen Zusammenhang zwischen den beiden Variablen.
Je grösser der absolute Wert von r, desto näher befinden sich die Datenpunkte bei der geraden
Linie. Anders ausgedrückt: Je grösser der absolute r-Wert, desto präziser kann man y bestimmen,
wenn man x schon kennt (und umgekehrt).
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
kleiner Effekt
mittlerer Effekt
grosser Effekt
Cohens d
Pearsons r
0.2
0.5
0.8
0.1
0.3
0.5
74
Tabelle 6.1: Interpretation von Pearsons r nach Cohen (1992). (Erweiterung von Tabelle 4.1 auf Seite
43.) Plonsky & Oswald (2014) schlagen auch hier leicht andere Werte vor. Ebenso wie bei Cohens d bin
ich skeptisch, was solche Massstäbe betrifft, siehe Why I don’t like standardised effect sizes und More on
why I don’t like standardised effect sizes.
Die Korrelation zwischen x und y ist gleich der Korrelation zwischen y und x. Es macht also
nichts aus, ob man cor(dat$AOA, dat$GJT) oder cor(dat$GJT, dat$AOA) eintippt.
Die unten stehende Grafik zeigt vier Zusammenhänge, um die Bedeutung von Pearsons r zu
illustrieren.
Oben links: Es gibt wenig Streuung entlang der y-Achse. Die Streuung, die es gibt, wird grösstenteils von einer Gerade erfasst. r ist daher sehr hoch.
Oben rechts: Es gibt nun mehr Streuung entlang der y-Achse; diese wird aber weniger gut von
einer Gerade erfasst, daher der niedrigere Korrelationskoeffizient. Die Form der Gerade ist zwar
gleich wie in der linken Grafik, der Korrelationskoeffizient jedoch nicht.
Unten links: Es gibt zwar sehr viel Streuung entlang der y-Achse, aber diese wird grösstenteils
von einer Gerade erfasst. r ist daher wiederum sehr hoch. Der Korrelationskoeffizient ist zwar
gleich wie in der obigen Grafik, die Form der Gerade jedoch nicht.
Unten rechts: Die gleiche Gerade erfasst die Streuung entlang der y-Achse weniger gut, daher ist
die Form der Gerade zwar gleich, der Korrelationskoeffizient aber niedriger.
y = 15 + x, r = 0.94
y
200
150
100
50
0
−50
−100
y
200
150
100
50
0
−50
−100
y = 15 + x, r = 0.59
0
5
15
25
0
5
15
25
x
x
y = 15 + 5x, r = 0.94
y = 15 + 5x, r = 0.59
y
200
150
100
50
0
−50
−100
y
200
150
100
50
0
−50
−100
0
5
15
x
25
0
5
15
25
x
Pearsons rs werden oft ähnlich wie Cohens d als klein, mittelgross oder gross eingestuft; siehe
Tabelle 6.1.
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
75
Welche Frage beantwortet r (und welche nicht)?
Pearsons r drückt aus, wie nahe die Datenpunkte auf einer geraden Linie fallen; es gibt keine direkt
Antwort auf die Frage, wie denn diese Linie ausschaut (ausser: steigend oder senkend); siehe die
vier obigen Beispiele.
Ausserdem ist es möglich, dass es einen sehr starken (nicht-linearen) Zusammenhang zwischen
zwei Variablen gibt, dieser aber in Pearsons r nicht zum Ausdruck kommt (Bspl.: untere Grafik:
links). Umgekehrt kann r den Eindruck geben, dass es sich um einen ziemlich starken linearen
Zusammenhang handelt, während ein solcher Zusammenhang für die meisten Datenpunkte
kaum vorliegt (mittel), oder während der Zusammenhang sogar eigentlich in die umgekehrte
Richtung geht (rechts: Es gibt zwei Gruppen, in denen der Zusammenhang negativ ist; der
Koeffizient ist jedoch positiv, wenn die beiden Gruppen gleichzeitig betrachtet werden).
r = −0.03
r = 0.96
r = 0.96
100
80
60
40
20
0
1.0
0.5
0.0
−0.5
−1.0
−6
−2 0
2
300
200
100
0
0
20
40
60
80
0 20
60
100
Tipp: Schauen Sie sich, bevor Sie Korrelationskoeffiziente berechnen, immer die Daten grafisch
(Streudiagramm) an. Nehmen Sie diese Streudiagramme in Ihre Papers, Arbeiten und Vorträge
auf.
Wichtig ist noch: Korrelation heisst nicht unbedingt Kausation. Wenn gezeigt wird, dass zwei Variablen miteinander korrelieren, wird also noch nicht gezeigt, dass die eine Variable Unterschied in
der anderen Variable verursacht. Um dies sicherer festzustellen, braucht es ein Experiment.
Andere Korrelationsmasse
Ab und zu trifft man Spearmans ρ-Koeffizient (oder manchmal: rs ) an. Hierfür drückt man die
Daten in Rängen aus, d.h. man ordnet die Daten von klein nach gross und schaut, auf welchem
Platz die einzelnen Datenpunkte stehen. Dann berechnet man einfach die Pearsonkorrelation für
die Ränge statt für die Rohwerte:
cor(rank(dat$AOA), rank(dat$GJT))
## [1] -0.78877
# einfacher:
cor(dat$AOA, dat$GJT, method = "spearman")
## [1] -0.78877
Spearmans ρ kann nützlich sein, wenn der Zusammenhang zwischen zwei Variablen monoton
aber nicht-linear ist (Monoton heisst: Tendenziell steigend oder tendenziell senkend; nicht etwa
zuerst steigend und dann senkend.) oder wenn ein Ausreisser das Globalbild zerstört, aber man
ihn aus irgendwelchem Grund nicht aus dem Datensatz entfernen kann.
Ein anderes Mass ist Kendalls τ (cor(..., ..., method = "kendall")). Dieses wird aber nur
höchst selten verwendet.
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
76
Tipp: Die Anwendung von Spearmans ρ und Kendalls τ ist eher beschränkt. Statt automatisch
auf ρ oder τ zurückzugreifen, wenn ein Zusammenhang nicht gerade linear ist oder wenn
man einen Ausreisser vermutet, lohnt es sich m.E. eher, darüber nachzudenken, ob (a) man
sich tatsächlich für Frage 1 (Stärke des Zusammenhangs) interessiert, (b) man eine oder beide
Variablen nicht sinnvoll transformieren kann, sodass sich ein linearerer Zusammenhang ergibt,
oder (c) der vermutete Ausreisser überhaupt ein legitimer Datenpunkt ist.
Signifikanz und Konfidenzintervall eines Korrelationskoeffizients
Mit cor.test() können p-Werte und Konfidenzintervalle um r, ρ und τ berechnet werden. Die
Nullhypothese ist in der Regel, dass es keinen (linearen/monotonen) Zusammenhang zwischen
den zwei Variablen gibt. Der p-Wert gibt m.a.W. wieder, wie wahrscheinlich die beobachtete
(Stichproben)Korrelation wäre, wenn es in der Population keine Korrelation gäbe. Der t-Wert,
und somit auch der p-Wert und das Konfidenzintervall um einen Korrelationskoeffizient, hängt
nur vom Wert des Korrelationskoeffizientes und der Anzahl Datenpunkte ab:
t= q
r
1−r2
n−2
(6.3)
Mit cor.test() ist die Berechnung ganz einfach:
cor.test(dat$AOA, dat$GJT)
##
##
##
##
##
##
##
##
##
##
##
Pearson's product-moment correlation
data: dat$AOA and dat$GJT
t = -11.6, df = 74, p-value <2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.87070 -0.70501
sample estimates:
cor
-0.80285
Der p-Wert ist hier dermassen klein, dass er in wissenschaftlicher Notation dargestellt wird.
‘2e-16’ ist eine 2, der 16 Nulle vorgestellt werden: 0.0000000000000002. Dies ist die kleinste Zahl,
die R kennt. Berichten tut man diesen Wert meistens als “r = −0.80, t(74) = 12, p < 0.001”.
Randomisierungstest Um die Signifikanz eines Korrelationskoeffizients zu berechnen, könnten wir auch hier die Randomisierungslogik (siehe Kapitel 5.1 auf Seite 52) anwenden. Laut
der Nullhypothese wäre der Zusammenhang zwischen den Variablen AOA und GJT rein zufallsbedingt. Um zu schauen, ob man oft ähnlich grosse oder grössere Korrelationskoeffiziente
beobachten würde, wenn die Nullhypothese stimmt, kann man eine der beiden Variablen willkürlich permutieren und den Korrelationskoeffizient berechnen. Bei 76 Beobachtungen gibt es
allerdings eine riesige Anzahl mögliche Permutationen (76! ≈ 1.9 × 10111 ), weshalb wir uns hier
’nur’ 100’000 willkürliche Permutationen anschauen:
# 100'000 Mal Korrelation zwischen AOA und permutierter Variable GJT berechnen
cors <- replicate(100000,
cor(dat$AOA, sample(dat$GJT)))
# In Histogramm darstellen
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
77
hist(cors, col = "grey", xlim = c(-1, 1),
main = "Korrelationskoeffiziente\nunter Nullhypothese",
xlab = "Pearsons r",
ylab = "Anzahl")
abline(v = cor(dat$AOA, dat$GJT), lty = 2, col = "red")
Korrelationskoeffiziente
unter Nullhypothese
Anzahl
15000
10000
5000
0
−1.0 −0.5
0.0
0.5
1.0
Pearsons r
Von 100’000 willkürlichen Permutationen ergibt keine einzige einen Korrelationskoeffizient von
1
|0.80| oder grösser. Laut dem Randomisierungstest ist der p-Wert also kleiner als 100000
; wir
kommen zum gleichen Schluss wie beim analytischen Test.
Unterschiede zwischen zwei Korrelationskoeffizienten
Manchmal möchte man der Frage nachgehen, ob der Zusammenhang zwischen diesen zwei
Variablen stärker ist als der zwischen jenen zwei Variablen (Variation auf Frage 1). Oder ob
Variable A stärker mit B korreliert als mit C.
Was Sie in solchen Fällen nicht tun können, ist etwa zu sagen, dass A und B signifikant miteinander korrelieren, A und C aber nicht, und daraus schliessen, dass A stärker mit B zusammenhängt
als mit C. Der Grund ist, kurz gesagt, dass “der Unterschied zwischen ‘signifikant’ und ‘nicht
signifikant’ selber nicht signifikant ist” (siehe Gelman & Stern 2006, für Beispiele; siehe auch
Vanhove 2013, für Belege dieses Irrtums im sprachlichen Kontext).
Für Informationen über wie man Unterschiede zwischen Korrelationskoeffizienten hinsichtlich
ihrer Signifikanz überprüfen kann, siehe Assessing differences of significance. Es sei aber darauf
hingewiesen, dass eine sinnvolle Antwort auf die Frage nach dem Unterschied zwischen Korrelationskoeffizienten grössere Stichproben bedingt als was man zuerst denken würde. So hat
man bei Stichprobengrössen von 20 Beobachtungen nur etwa 18% power, um den Unterschied
zwischen r = 0.2 und r = 0.5 zu erfassen; für 80% power bräuchte man in diesem Fall etwa 140
Beobachtungen pro Stichprobe, siehe Power simulations for comparing independent correlations.
6.1.4
Übungen
1. Lesen Sie den Datensatz SimonTask.csv ein und stellen Sie den Zusammenhang zwischen
den durchschnittlichen (Median) Reaktionszeiten in der kongruenten Kondition und jenen in der inkongruenten Kondition grafisch dar. Geben Sie den Achsen dabei sinnvolle
Bezeichnungen.
(a) Ist der Zusammenhang annähernd linear?
(b) Gemessen wurden Zeiten (ms pro Stimulus), aber eigentlich interessieren wir uns für
Geschwindigkeiten (z.B. Anzahl Stimuli pro Sekunde). Transformieren Sie die Daten,
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
78
sodass Sie direkt Geschwindigkeiten ausdrücken (Stimuli pro Sekunde):
simon$congruent.speed <- 1000 / simon$congruent
simon$incongruent.speed <- 1000 / simon$incongruent
Stellen Sie jetzt den Zusammenhang zwischen diesen beiden Variablen grafisch dar. Ist
dieser annähernd linear? Welchen Ausdrucksform (Zeiten oder Geschwindigkeiten)
finden Sie am sinnvollsten?
(c) Ist es sinnvoll einen Pearsons r-Koeffizient zu berechnen? Warum (nicht)? Wenn ja,
berechnen Sie ihn sowie seine Signifikanz.
2. Die Datei diss_hintergrundvars.csv enthält einige Hintergrundsvariablen der Teilnehmenden an meinem Dissertationsprojekt. Lesen Sie diese Datei ein. Stellen Sie den
Zusammenhang zwischen dem Alter der Versuchspersonen (Age) und ihrem Ergebnis
bei einem L1-Wortschatztest (WST.Right) grafisch dar. Geben Sie den Achsen sinnvolle
Bezeichnungen und beantworten Sie nachher folgende Fragen.
(a) Ist es sinnvoll, einen r-Koeffizient zu berechnen für den Zusammenhang beider Variablen? Warum (nicht)? Wenn ja, berechnen Sie r und seine Signifikanz.
(b) Fällt Ihnen sonst bei dieser Grafik noch etwas auf?1 Woran könnte dies liegen? Versuchen Sie, das Problem zu lösen.
3. Auch mit diss_hintergrundvars.csv.
(a) Berechnen Sie Pearsons r für den Zusammenhang zwischen WST.Right und dem
Ergebnis bei einem Englischtest (English.Overall).
(b) Stellen Sie nun den Zusammenhang zwischen WST.Right und English.Overall
grafisch dar. Was fällt Ihnen auf? Woran könnte dies liegen? Wie könnte man es lösen?
(c) Lösen Sie das Problem, stellen Sie die Daten erneut grafisch dar und berechnen Sie,
falls sinnvoll, Pearsons r.
4. Wie viel Power hat man, um in einer Stichprobe mit jeweils 40 Beobachtungen von zwei
Variablen einen signifikanten Korrelationskoeffizient (α = 0.05) zu finden, wenn es in der
Population eine mittlere bis starke Korrelation (r = 0.4)2 zwischen den beiden Variablen
gibt?
library(pwr)
pwr.r.test(n = 40, r = 0.4, sig.level = 0.05)
5. Sie möchten eine Hypothese testen, die besagt, dass es einen mittelstarken Zusammenhang
(r = 0.3) zwischen zwei Variablen gibt.3 Wie gross muss Ihre Stichprobe sein, damit Sie die
Nullhypothese (r = 0) mit α = 0.05 und einer Power von 0.80 widerlegen können?
Es gibt einen massiven Ausreisser bei einer Versuchsperson von 72 Jahren. Diesen Ausreisser können wir nur in diesem
Streudiagramm finden; in einem Histogramm würde er nicht auffallen.
1
2 Die Korrelation in der Population wird eigentlich mit dem griechischen Buchstaben ρ dargestellt. Da dieser aber auch
oft verwendet wird, um Spearmans Rangkorrelationskoeffizient darzustellen, verwende ich hier einfach den römischen
Buchstaben.
3 Ich halte es allerdings für wenig wahrscheinlich, dass man in unserem Forschungsgebiet sinnvoll solche Voraussagen
machen kann.
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
6.2
79
Frage 2: Einfache lineare Regression
Es ist klar, dass es im Datensatz dekeyser2010.csv einen Zusammenhang zwischen AOA und
GJT gibt. Eine senkende gerade Linie erfasst die GJT-Daten schon ziemlich gut. Aber wie schaut
diese Linie genau aus? Mit der Hand könnten wir zwar eine gerade Linie durch die Punktwolke
ziehen, aber jeder zieht die Linie wohl an einem etwas anderen Ort:
200
180
GJT
160
140
120
10
30
50
70
AOA
Welche der vier Geraden beschreibt die Daten am besten? Es ist klar, dass wir ein Kriterium
brauchen, um die am besten passende Gerade zu finden. Eine gerade Linie wird definiert durch
einen Schnittpunkt (α; dies ist der y-Wert, wenn x = 0) und eine Steigung (β; diese sagt, um
wie viele Punkte y steigt, wenn x um eine Einheit erhöht wird). Egal, wie wir α und β wählen:
Die Linie y = α + βx wird die Daten nicht perfekt beschreiben: Es gibt noch Unterschiede
zwischen der Linie und den individuellen Datenpunkten. Dieser Unterschied wird als Restfehler
(ε) bezeichnet. Jeder y-Wert (y1 , y2 etc.) kann also umschrieben werden als die Kombination
eines systematischen Teils (α + βxi ) und eines Restfehlers:
yi = α + βxi + εi
(6.4)
Diese mathematische Beschreibung ist ein einfaches lineares Regressionsmodell: ‘einfach’, weil
y nur eine Funktion einer Variable (x) ist, und ‘linear’, weil y als eine Summe (und nicht etwa ein
Produkt oder etwas Komplexeres) verschiedener Terme modelliert wird.
Um die α- und β-Werte der ‘optimalen’ Gerade zu finden, müssen wir definieren, was ‘optimal’
in diesem Kontext heisst. Das Optimalisierungskriterium, das meistens verwendet wird, ist,
dass die optimale Linie jene Gerade ist, die Summe der Quadrate der Restfehler minimiert.4
Wenn dies unser Optimalisierungskriterium ist, können wir die Parameter der optimalen Linie
folgendermassen berechnen (Der Beweis dafür wird hier nicht reproduziert.)–die Hütchen über
dem α und β stellen dar, dass es sich hierbei um datenbasierte Schätzungen handelt:
β̂ = rxy
sy
sx
α̂ = ȳ − β̂x̄
(6.5)
(6.6)
Wenn α und β aus Gleichung 6.4 so geschätzt werden, dann ist die Summe der Quadrate von ε
am geringsten.
Für dekeyser2010.csv:
4 Die Methode wird daher auch die ‘Methode der kleinsten Quadrate’ (least-squares) genannt. Andere Kriterien
bestehen jedoch auch, z.B. die Methode der kleinsten Abweichungen (wo die Summe der absoluten Werte der Restfehler
minimiert wird) oder orthogonale Regression (wo der Restfehler anders definiert wird), um nur zwei zu nennen. Die
hier beschriebene Methode ist die Methode, die in der Forschungsliteratur am häufigsten vorkommt.
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
80
beta <- cor(dat$AOA, dat$GJT) * sd(dat$GJT) / sd(dat$AOA)
beta
## [1] -1.218
alpha <- mean(dat$GJT) - beta * mean(dat$AOA)
alpha
## [1] 190.41
Einfacher geht es mit der lm()-Funktion (linear model):
lm(GJT ~ AOA, data = dat)
##
##
##
##
##
##
##
Call:
lm(formula = GJT ~ AOA, data = dat)
Coefficients:
(Intercept)
190.41
AOA
-1.22
Vorsicht: Können die Daten nicht von einer geraden Linie erfasst werden, dann kann man zwar
noch immer Regressionskoeffiziente berechnen, ist dies aber weniger sinnvoll.
6.2.1
Regressionsgerade, ‘vorhergesagte’ Werte und Residuen
Was ist nun der von unserem Modell vorhergesagte GJT-Wert (ŷ) für eine Versuchsperson mit
AOA = 15? Die Regressionsgleichung für diese Daten haben wir oben berechnet und schaut so
aus:
ŷi = α̂ + β̂xi + εi
= 190.41 + (−1.22) × xi + εi
In dieser Gleichung ersetzen wir xi durch 15. Den Restfehler εi kennen wir nicht, aber wir wissen,
dass das Mittel aller Restfehler 0 ist. Wir lassen ihn daher ausser Betracht. Der ‘vorhergesagte’
Wert (unsere beste Einschätzung für yi ) wird als ŷ bezeichnet und ist 172, wenn x = 15:
ŷAOA=15 = 190.41 + (−1.22) × 15
= 172
Diese ‘vorhergesagten’ Werte können wir dem Streudiagramm hinzufügen, um das Modell
besser zu veranschaulichen:
plot(GJT ~ AOA, data = dat)
mod.lm <- lm(GJT ~ AOA, data = dat)
abline(mod.lm, col = "red", lwd = 2)
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
81
200
180
GJT
160
140
120
10
30
50
70
AOA
Die Regressionsgerade beschreibt die beobachteten Daten jedoch nicht perfekt. Die Restfehler
(oder Residuen) sind die Unterschiede zwischen den vom Modell ‘vorhergesagten’ Werten
und den tatsächlich beobachteten Werten. Die nächste Grafik plottet die Residuen, deren Mittel
immer 0 ist, gegen die AOA-Werte.
dat$Residue <- resid(mod.lm)
plot(Residue ~ AOA, dat)
abline(h = 0, lty = 2)
Residue
20
0
−20
−40
10
30
50
70
AOA
6.2.2
Zusätzliche Informationen mit summary()
Mit der summary()-Funktion können wir zusätzliche Details über das Modell abfragen:
summary(mod.lm)
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = GJT ~ AOA, data = dat)
Residuals:
Min
1Q Median
-44.70 -9.54 -0.26
3Q
13.02
Max
32.45
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 190.409
3.904
48.8
<2e-16
AOA
-1.218
0.105
-11.6
<2e-16
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
82
## Residual standard error: 16.4 on 74 degrees of freedom
## Multiple R-squared: 0.645,Adjusted R-squared: 0.64
## F-statistic: 134 on 1 and 74 DF, p-value: <2e-16
Zuerst wird der ‘call’ wiederholt. Danach kommen folgende Informationen.
Verteilung der Residuen Die Residuen können weiter analysiert werden, sodass das Modell
verfeinert werden kann. Für eine Einführung, siehe Baayen (2008).
Regressionskoeffiziente Unter Estimate stehen die Regressionskoeffiziente, die wir vorher
berechnet haben. Std. Error zeigt die Standardfehler dieser Koeffiziente; t value die dazu
Estimate
gehörigen t-Werte (= Std.
Error ); Pr(>|t|) zeigt die p-Werte, die mit den t-Werten assoziiert
sind (hier mit 74 Freiheitsgraden, siehe Residual standard error). Die standard gelieferten
t-Werte und Signifikanzwerte beziehen sich auf die Nullhypothese, dass diese Parameter in der
Population gleich 0 sind.5
Die Signifikanz des Intercepts (ȳ-Wert für x = 0) ist übrigens selten von Interesse.
Restfehler Neben Residual standard error finden Sie eine Schätzung der Streuung des
Restfehlers (also von ε). Diese Schätzung ist konzeptuell vergleichbar mit der Standardabweichung der Residuen. Diese Schätzung hat n − p Freiheitsgrade (hier 74), wo n die Anzahl
Datenpunkte (76) ist und p die Anzahl geschätzter Koeffiziente (in unserem Fall: Intercept und
AOA, also p = 2).6
Den Restfehler des Modells bespricht man in Artikeln selten, aber die berichteten Signifikanztests
sind von ihm abhängig.
‘Erklärte’ Varianz Multiple R-squared zeigt, wie viel Prozent der Varianz in der abhängigen
Variable (hier: GJT) mithilfe des Modells ‘erklärt’ (oder besser: beschrieben) werden kann. Die
Varianz der GJT-Werte liegt bei:
var(dat$GJT)
## [1] 746.26
Wenn der lineare Effekt von AOA aus den GJT-Werten ‘weggerechnet’ wird, liegt die Varianz
noch bei:
var(dat$Residue)
## [1] 265.24
Der lineare Effekt von AOA ‘erklärt’ also fast 65% der Varianz in GJT:
1 - var(dat$Residue)/var(dat$GJT)
## [1] 0.64457
Bei einem einfachen Regressionsmodell ist diese Zahl gleich Pearsons r2 : −0.80292 = 0.645.
5 Vergleichen
Sie den t- und p-Wert der AOA-Variable in diesem Regressionsmodell mit dem t- und p-Wert für den
Korrelationstest. Welche Schlussfolgerung würden Sie hieraus schliessen? (Nur für einfache Regressionen (also mit einem
Prädiktor).)
6 Was diese Anzahl Freiheitsgrade genau heisst, ist weniger wichtig. Es ist ein schwieriges Konzept, dass die wenigsten
Hobbystatistiker (zu denen ich mich selber zähle) wirklich verstehen.
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
83
Adjusted R-squared passt diese Zahl leicht an, um zu verhindern, dass Modelle mit vielen Va-
riablen quasi-automatisch hohe R2 -Werte haben. Dieser Wert wird allerdings nur selten berichtet.
Die Wichtigkeit von R2 wird m.E. vollkommen überschätzt. Genau so wie pauschale Einstüfungen von Pearsons r in klein, mittel und gross in der Regel wenig sinnvoll sind, gibt es keinen
universell sinnvollen Massstab, R2 zu interpretieren. R2 ist m.E. hauptsächlich nützlich, um zu
wissen, wie viel Variation in der abhängigen Variable vielleicht noch mit irgendwelchen anderen
Faktoren beschrieben werden könnte.
F-Test Mit dem F-Test wird die Nullhypothese getestet, dass das Gesamtmodell keine Varianz
in der abhängigen Variable erklärt. Bei einfacher Regression spielt dies keine Rolle, denn der tTest liefert das gleiche Ergebnis. Bei mehrfacher Regression könnte dies interessant sein. Meistens
kann der F-Test m.E. jedoch ignoriert werden.
6.2.3
Übungen
1. Führen Sie folgende Analyse auf die dekeyser2010.csv-Daten aus:
plot(AOA ~ GJT, data = dat)
mod2.lm <- lm(AOA ~ GJT, data = dat)
summary(mod2.lm)
(a) Erklären Sie, was Sie gerade berechnet haben. Was bedeuten die geschätzten Parameter?
Wieso ist das Intercept so gross? Was bedeutet das Intercept?
(b) Welche Zahlen haben sich geändert, welche nicht? Können Sie sich dies erklären?
(c) Welches Modell finden Sie am sinnvollsten: mod.lm oder mod2.lm? Warum?
2. (a) Lesen Sie sowohl die Dateien sinergia.csv und diss_hintergrundvars.csv ein.
(In den Übungen auf Seite 78 mussten Sie falsch kodierte Einträge korrigieren. Lesen
Sie bitte die korrigierten Dateien ein – oder nehmen Sie die Korrekturen nochmals vor.)
sinergia <- read.csv("sinergia.csv")
head(sinergia)
hintergrundvars <- read.csv("diss_hintergrundvars.csv")
head(hintergrundvars)
Beide Dateien enthalten Variablen zu den gleichen Versuchspersonen. Die Identifikation
der Versuchspersonen steht in beiden Datensätzen in der Spalte Subject.
zusammen <- merge(x = sinergia,
y = hintergrundvars,
by = "Subject")
head(zusammen)
Was haben Sie gerade mit der merge()-Funktion bewirkt?
(b) Stellen Sie den Zusammenhang zwischen der Anzahl richtiger Antworten in der
gesprochenen Modalität (Correct.Spoken) und dem Ergebnis bei einem IQ-Test
(Raven.Right) grafisch dar. Führen Sie, falls Sie es für sinnvoll halten, eine Regressionsanalyse aus und erläutern Sie diese kurz.
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
6.3
6.3.1
84
Frage 2: Mehrfache lineare Regression
Mehrere kontinuierliche Prädiktoren (mehrfache Regression)
Mit folgendem Kode werden die Datensätze sinergia.csv und diss_hintergrundvars.csv
eingelesen. Danach werden die Kodierungsfehler (siehe Seite 78) korrigiert (falls Sie dies noch
nicht gemacht haben) und die beiden Datensätze miteinander kombiniert:
### Datensätze einlesen und anzeigen
sinergia <- read.csv("sinergia.csv")
# head(sinergia)
hintergrundvars <- read.csv("diss_hintergrundvars.csv")
# head(hintergrundvars)
### Fehler korrigieren:
### 'NA' ist R für 'not available'
hintergrundvars$WST.Right[hintergrundvars$WST.Right == 0] <- NA
hintergrundvars$English.Overall[hintergrundvars$English.Overall == -9999] <- NA
### Datensätze kombinieren und anzeigen
zusammen <- merge(x = sinergia,
y = hintergrundvars,
by = "Subject")
# head(zusammen)
In der letzten Übung interessierten wir uns für den Effekt von Raven.Right auf CorrectSpoken.
Aber auch die Effekte der kontinuierlichen Variablen WST.Right, NrLang (Anzahl Fremdsprachen), DS.Span (Arbeitsgedächtnisskapazität) und English.Overall (Englischtestergebnis) auf
CorrectSpoken würden uns interessieren!7 Sollten wir daher fünf Regressionsanalysen ausführen und berichten? Nein – die fünf Prädiktoren können ins gleiche Regressionsmodell eingetragen
werden: mehrfache Regression.
Tipp: Anstatt die Zusammenhänge zwischen einer abhängigen Variable und mehreren unabhängigen Variablen (Prädiktoren) in separaten Analysen zu untersuchen, ist es in der Regel besser,
die Variablen in einem Modell zu analysieren. Dies liefert eine bessere Schätzung der Effekte der
einzelnen Variablen.
Grafische Darstellung
Im Folgenden modellieren wir die Anzahl richtige Antworten anhand der Englisch- und der
IQ-Ergebnisse. Auch hier lohnt es sich, die Daten zunächst grafisch darzustellen. Die linke
und mittlere Grafik stellen die bivariaten Zusammenhänge zwischen den zwei Prädiktoren
einerseits und der abhängigen Variable andererseits dar. In beiden Fällen handelt es sich um
einen positiven Zusammenhang, der mehr oder weniger linear ausschaut. Die rechte Grafik
zeigt, dass die IQ- und die Englischergebnisse ebenfalls miteinander korrelieren. In keiner der
drei Grafiken scheint es massive Ausreisser zu geben.
par(mfrow = c(1, 3))
plot(CorrectSpoken ~ Raven.Right, data = zusammen,
7 Mit
‘Effekt auf’ ist hier nicht unbedingt ein kausaler Zusammenhang gemeint. Die Frage ist lediglich: Wie können
Unterschiede in CorrectSpoken mithilfe der anderen Variablen beschrieben werden.
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
85
25
20
15
10
5
0
5
15
25
IQ−Testergebnis
35
25
Ergebnis Englischtest
Anzahl richtig (gesprochen)
Anzahl richtig (gesprochen)
xlab = "IQ-Testergebnis",
ylab = "Anzahl richtig (gesprochen)")
plot(CorrectSpoken ~ English.Overall, data = zusammen,
xlab = "Ergebnis Englischtest",
ylab = "Anzahl richtig (gesprochen)")
plot(English.Overall ~ Raven.Right, data = zusammen,
xlab = "IQ-Testergebnis",
ylab = "Ergebnis Englischtest")
par(mfrow = c(1, 1))
20
15
10
5
−4
−2
0
2
Ergebnis Englischtest
2
0
−2
−4
0
5
15
25
35
IQ−Testergebnis
Mit pairs() können alle bivariaten Zusammenhänge zwischen mehreren Variablen dargestellt
werden:
pairs(zusammen[ , c("CorrectSpoken",
"Raven.Right", "DS.Span",
"English.Overall", "WST.Right")],
col = "darkgrey")
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
0
15
30
−4
0 2
25
20
15
10
5
CorrectSpoken
35
30
25
20
15
10
5
0
86
Raven.Right
8
7
6
5
4
3
2
DS.Span
2
0
−2
−4
English.Overall
WST.Right
5
15
25
2
4
6
8
10
40
30
20
10
30
Wie Sie solche Streudiagrammmatrizen verbesseren können, erfahren Sie bei ?pairs unter
Examples.
Regressionsmodell
Mit + in der lm()-Funktion können wir mehrere Prädiktoren ins Modell aufnehmen:
sinergia.lm <- lm(CorrectSpoken ~ Raven.Right + English.Overall,
data = zusammen)
summary(sinergia.lm)
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = CorrectSpoken ~ Raven.Right + English.Overall, data = zusammen)
Residuals:
Min
1Q
-10.623 -2.382
Median
0.406
3Q
2.495
Max
13.431
Coefficients:
(Intercept)
Raven.Right
Estimate Std. Error t value Pr(>|t|)
13.0549
0.8411
15.52 < 2e-16
0.1919
0.0438
4.39 2.1e-05
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
##
##
##
##
##
##
English.Overall
1.3682
0.1865
7.34
87
1.1e-11
Residual standard error: 4.07 on 157 degrees of freedom
(3 observations deleted due to missingness)
Multiple R-squared: 0.442,Adjusted R-squared: 0.435
F-statistic: 62.1 on 2 and 157 DF, p-value: <2e-16
Dieser Output ist jenem des einfachen Regressionmodells sehr ähnlich, nur wurden drei statt
bloss zwei Parametern geschätzt. Die Interpretation der Parameter ist wie folgt:
• (Intercept): Eine Versuchsperson mit Raven.Right- und English.Overall-Werten von
0 hätte, laut dem Modell, einen CorrectSpoken-Wert von 13.
Solche Versuchspersonen dürfte es im Datensatz keine geben. Um das Intercept bedeutungsvoller zu machen, zentriert man daher oft die anderen Prädiktoren, d.h., man zieht
das Mittel der Werte von den Werten ab und verwendet die neuen Werte als Prädiktoren.
Das Intercept stellt nun den modellierten Wert für eine durchschnittliche Versuchsperson
dar, was meistens viel informativer ist.
zusammen$c.Raven.Right <- zusammen$Raven.Right - mean(zusammen$Raven.Right)
zusammen$c.English.Overall <- zusammen$English.Overall - mean(zusammen$English.Overall)
• Raven.Right: Bleibt English.Overall unverändert, dann steigt der modellierte CorrectSpoken-Wert um 0.2 Punkte, wenn Raven.Right um einen Punkt steigt.
• English.Overall: Bleibt Raven.Right unverändert, dann steigt der modellierte CorrectSpoken-Wert um 1.4 Punkte, wenn English.Overall um einen Punkt steigt.
Vorsicht: Raven.Right und English.Overall wurden natürlich auf anderen, nicht miteinander
vergleichbaren Skalen gemessen. Wir können also nicht schliessen, dass English.Overall 7 ×
wichtiger als Raven.Right ist!
Vorsicht: Drei Beobachtungen wurden aufgrund fehlender Daten aus dem Modell ausgeschlossen (‘list-wise deletion’). Eine Diskussion über Strategien, um mit fehlenden Daten umzugehen,
würde den Rahmen dieses Skripts sprengen, aber siehe Honaker et al. (2012). Bei dieser niedrigen
Anzahl fehlender Daten sind solche Strategien wohl überflüssig.
Um dieses Modell grafisch darzustellen, können wir das effects-Package verwenden:
# ggf. zuerst installieren:
# install.packages("effects")
library(effects)
plot(allEffects(sinergia.lm),
ylim = c(8, 22)) # sodass die Grafiken den gleichen Bereich haben
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
English.Overall effect plot
22
22
20
20
CorrectSpoken
CorrectSpoken
Raven.Right effect plot
88
18
16
14
12
10
18
16
14
12
10
8
8
0
5 10 15 20 25 30 35
Raven.Right
−4 −3 −2 −1
0
1
2
English.Overall
Modelldiagnose
Man sollte noch kontrollieren, ob das Modell überhaupt ein gutes Modell ist. Ist ein lineares
Modell geeignet oder müssen wir bestimmte Zusammenhänge nicht-linear modellieren? Können
wir das Modell verbessern, indem wir ihm zusätzliche Prädiktoren hinzufügen? Gibt es einzelne
Datenpunkte, die die anderen Datenpunkte ‘überstimmen’ (z.B. Ausreisser)?
In Baayen (2008) finden Sie erste Ansätze, um diese Fragen zu beantworten und das Modell ggf.
anzupassen.
6.3.2
Kategorielle Prädiktoren
Auch kategorielle Prädiktoren, z.B. FirstBlock und Sex, können dem Modell hinzugefügt
werden:
sinergia.lm2 <- lm(CorrectSpoken ~ Raven.Right + English.Overall +
FirstBlock + Sex,
data = zusammen)
summary(sinergia.lm2)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = CorrectSpoken ~ Raven.Right + English.Overall +
FirstBlock + Sex, data = zusammen)
Residuals:
Min
1Q Median
-11.11 -2.50
0.53
3Q
2.51
Max
12.74
Coefficients:
(Intercept)
Raven.Right
English.Overall
FirstBlockWritten
Sexmale
Estimate Std. Error t value Pr(>|t|)
13.7242
0.9644
14.23 < 2e-16
0.1840
0.0438
4.20 4.4e-05
1.3301
0.1881
7.07 4.9e-11
0.0348
0.6494
0.05
0.957
-1.2297
0.6592
-1.87
0.064
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
89
##
## Residual standard error: 4.06 on 155 degrees of freedom
##
(3 observations deleted due to missingness)
## Multiple R-squared: 0.454,Adjusted R-squared: 0.44
## F-statistic: 32.2 on 4 and 155 DF, p-value: <2e-16
Die Variable FirstBlock hat zwei ‘levels’: Spoken und Written. Da Spoken im Alphabet vor
Written kommt, gilt es als ‘Nullwert’ und ist es im Intercept enthalten. FirstBlockWritten
zeigt, um wie viele Punkte der geschätzte CorrectSpoken-Wert erhöht werden muss, wenn das
level für FirstBlock Written statt Spoken ist.
Die gleiche Logik gilt bei der Variable Sex, deren levels female und male sind. female gilt hier
als Nullwert und ist im Intercept enthalten; der Parameter Sexmale zeigt, um wie viele Punkte
CorrectSpoken-Wert ‘erhöht’ werden muss, wenn die Versuchsperson männlich ist.
Die Bedeutung des Intercepts dieses Modells ist also der vorhergesagte CorrectSpoken-Wert
für eine weibliche Versuchsperson, die zuerst den gesprochenen Teil der Aufgabe absolvierte
und Raven.Right- und English.Overall-Werte von 0 hat.
Grafisch können wir dieses Modell so darstellen:
plot(allEffects(sinergia.lm2),
ylim = c(8, 22))
English.Overall effect plot
22
22
20
20
CorrectSpoken
CorrectSpoken
Raven.Right effect plot
18
16
14
12
18
16
14
12
10
10
8
8
0
5 10 15 20 25 30 35
−4 −3 −2 −1
Raven.Right
22
20
20
CorrectSpoken
CorrectSpoken
2
Sex effect plot
22
18
16
14
12
18
16
14
12
10
10
8
8
Written
FirstBlock
1
English.Overall
FirstBlock effect plot
Spoken
0
female
male
Sex
Übrigens hat keiner der beiden kategoriellen Prädiktoren hier einen signifikanten Effekt. Insbe-
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
90
sondere für die FirstBlock-Variable ist dies auch in der Grafik deutlich: Die Konfidenzintervalle
überlappen sich fast komplett.
6.3.3
Der Nutzen von mehrfacher Regression
Muttersprache und Alter. Der Datensatz readingSkills.csv (ursprunglich Teil des partyPackages) enthält (fiktive) Daten zu den Lesekenntnissen bei Kindern unterschiedlichen
Alters. Lesen Sie diesen Datensatz in R ein und zeigen Sie ihn an. Wie Sie sehen können,
enthält der Datensatz die Variablen nativeSpeaker (Wurde das Kind in seiner Muttersprache getestet?), age in Jahren, shoeSize in Zentimetern und score, das Ergebnis bei einem
Lesetest. Erledigen Sie mit diesem Datensatz die folgenden Aufgaben.
1. Stellen Sie den Zusammenhang zwischen score und der nominalskalierten Variable
nativeSpeaker grafisch dar. Beschreiben Sie, was der Grafik entnommen werden
kann.
2. Führen Sie einen t-Test mit diesen Variablen aus (gehen Sie dabei davon aus, dass die
Varianzen in beiden Gruppen gleich sind) und berichten Sie diesen. Unterscheiden
sich die Leseverständnisergebnisse signifikant je nach Sprachgruppe?
3. Modellieren Sie jetzt dieselben Variablen in einem Regressionsmodell mit score als
abhängiger Variable.
# zum Beispiel:
mod <- lm(score ~ nativeSpeaker, data = readingSkills)
summary(mod)
Vergleichen Sie den t- und p-Wert des Koeffizients für nativeSpeakeryes mit dem
Ergebnis des t-Tests. Was stellen Sie fest?
4. Stellen Sie jetzt den Zusammenhang zwischen score und der kontinuierlichen Variable
age grafisch dar. Beschreiben Sie die Grafik.
5. Fügen Sie dem Regressionsmodell die Altersvariable hinzu.
# zum Beispiel
mod2 <- lm(score ~ nativeSpeaker + age, data = readingSkills)
Vergleichen Sie den Residual standard error dieses Modell mit jenem des vorigen
Modells. Wie hat er sich geändert? Schauen Sie sich jetzt die Parameterschätzung sowie
auch den Standardfehler von nativeSpeakeryes an und vergleichen Sie beide Zahlen
mit jenen des vorigen Modells. Wie hat sich unsere ‘Sicherheit’ über diesen Parameter
geändert? Wie erklären Sie sich dies?
Merksatz: Der t-Test für unabhängige Stichproben mit gleichen Varianzen kann auch als ein
Regressionsmodell geschrieben werden. Die Darstellungsart ist eine andere, die Ergebnisse sind
aber gleich.
Merksatz: Mehrfache Regression erlaubt uns, Variablen zu berücksichtigen, die uns vielleicht
zwar nicht stark interessieren (in diesem Beispiel: age), die aber dennoch mit der abhängigen
Variable zusammenhängen. Hierdurch wird der Restfehler kleiner, was wiederum die Standardfehler der übrigen Parameter verkleinert und zu einer grösseren power führt. Auch wenn Ihnen
der Einfluss irgendeiner Variable nicht interessiert, kann es sich daher lohnen, diese Variable
trotzdem mitzuerheben, wenn sie den Restfehler eingreifend reduzieren kann – aber dieses
Prinzip sollte man auch nicht übertreiben. (Siehe Vanhove 2015a, zu den Vorteilen von ‘ANCOVA’,
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
91
was im Grunde genommen das Gleiche ist.)
Schuhgrösse und Alter Erledigen Sie diese Aufgaben, ebenfalls mit dem Datensatz
readingSkills.csv.
1. Stellen Sie den Zusammenhang zwischen score und der kontinuierlichen Variable
shoeSize grafisch dar. Beschreiben Sie, was der Grafik entnommen werden kann.
2. Führen Sie eine Regressionsanalyse (mit score als abhängiger Variable) aus. Wie
interpretieren Sie die Ergebnisse dieser Regressionsanalyse?
3. Fügen Sie diesem Regressionsmodell jetzt die age-Variable hinzu. Wie ändert sich der
Parameter für shoeSize? Wie erklären Sie sich diese Veränderung? (Tipp: Stellen Sie
auch einmal den Zusammenhang zwischen age und shoeSize grafisch dar.)
Merksatz: Mehrfache Regression erlaubt es (oft), ‘direktere’ ‘Effekte’ von ‘indirekteren’ zu
trennen. shoeSize und score variieren zwar zusammen, aber der Zusammenhang mit shoeSize
ist durch age bedingt: Ältere Kinder haben grössere Füsse und schneiden besser beim Lesetest
ab. Zugegebenermassen sind nicht alle Fälle so eindeutig wie dieser; siehe auch Controlling for
confounding variables in correlational research: Four caveats.
6.3.4
Vorbehalte und Weiterbildung
• Bei sowohl Korrelations- als auch Regressionsanalysen haben wir uns mit linearen Zusammenhängen befasst. Sind die Zusammenhänge nicht linear, dann sind solche Analysen
natürlich weniger sinnvoll. Details zum Modellieren nicht-linearer Zusammenhänge finden
Sie u.a. in Baayen (2008).
• Seien Sie vorsichtig mit Extrapolation: Wenn wir eine Stichprobe von Versuchspersonen zwischen 8 und 26 Jahren haben, ist es gefährlich, Aussagen über 5- oder 40-Jährige zu machen.
Dies wird in der linken Abbildung illustriert: Eine Fähigkeit, die sich im Alter zwischen 10
und 35 entwickelt, hat nicht unbedingt die gleiche Entwicklung ausserhalb dieses Bereichs.
Eine Extrapolierung auf der Basis der Regressionsgerade ist hier irreführend. Auch bei
Intrapolation ist Vorsicht geboten. Aus den Daten in der rechten Grafik könnte man zum
Beispiel die Schlussfolgerung ziehen, dass sich Reaktionszeiten graduell verlängern im
Alter. Auch diese Schlussfolgerung dürfte zu kurz greifen.
Gefahr bei Extrapolation
Gefahr bei Intrapolation
Reaktionszeit
Fähigkeit
extrapolierte Schätzung
für Fähigkeit
echte Entwicklung
von Fähigkeit
intrapolierte Schätzung
für Reaktionszeit
echte Entwicklung
von Reaktionszeit
10
20
30
40
50
60
70
80
Alter (Jahre)
10
20
30
40
50
60
70
80
Alter (Jahre)
• Wie immer ist es auch hier wichtig, dass die Datenpunkte unabhängig voneinander sind.
Dieser Punkt wird von Abbildung 2 in Jaeger et al. (2011) illustriert.
Eine erste Ressource zur Weiterbildung ist Baayen (2008).
KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN
6.3.5
92
Übungen
1. Schauen Sie sich das Modell in Abschnitt 6.3.2 an. Was ist der vom Modell vorhergesagte
Werte für eine weibliche Versuchsperson mit einem IQ-Testergebnis von 22, einem Englischtestergebnis von −0.3, die im ersten Block des Versuchs geschriebene Wörter übersetzen
musste?
2. Mit dem gleichen Datensatz: Stellen Sie den Zusammenhang zwischen CorrectSpoken
und WST.Right (= Wortschatztestergebnis) grafisch dar. Beschreiben Sie den Zusammenhang informell (also einfach in Worten, ohne irgendwelche Analysen auszuführen)?
3. Berechnen Sie ein mehrfaches Regressionsmodell für CorrectSpoken mit den Prädiktoren
Raven.Right, English.Overall und WST.Right.8
(a) Vergleichen Sie die Koeffiziente dieses Modell mit denjenigen von Modell sinergia.lm
(Seite 86). Wie eingreifend haben sich diese verändert? Erklären Sie, was das Intercept
in beiden Fällen darstellt.
(b) Auf wie vielen Beobachtungen basiert dieses Modell?
(c) Stellen Sie dieses Modell mithilfe des effects-Packages grafisch dar.
(d) Zeigt CorrectSpoken einen signifikanten Zusammenhang mit WST.Right auf?
(e) Berechnen Sie jetzt ein einfaches Regressionmodell mit nur WST.Right als Prädiktor.
Zeigt CorrectSpoken hier einen signifikanten Zusammenhang mit WST.Right auf?
Wie erklären Sie sich dies?
8 In
meiner Diss habe ich diese Daten übrigens anders modelliert. Wie bereits mehrmals erwähnt, ist Regressionsanalyse ein schwieriges Thema und will ich hier nur zeigen, worum es eigentlich geht.
Kapitel 7
Mehrere Gruppen vergleichen
Kapitel 5 besprach eine Methode, um die Mittel von zwei Stichproben miteinander zu vergleichen
(t-Test), und in Kapitel 6 wurde gezeigt, dass dieser t-Test im Grunde genommen, wie auch
lineare Regression, nur eine Erscheinungsform des ‘linearen Modells’ ist: Ob man die Mittel von
zwei Gruppen mit einem t-Test (für gleiche Varianzen) oder in einer linearen Regression (mit der
Gruppenvariable als kategorischem Prädiktor) analysiert, macht unter dem Strich nichts aus,
denn das Ergebnis (der p-Wert) bleibt unverändert. In diesem Kapitel besprechen wir nun die
am meisten verwendete Methode, um die Mittel von mehr als zwei Stichproben miteinander
zu vergleichen oder um kompliziertere Experimente auszuwerten: Varianzanalyse oder ANOVA
(analysis of variance). Auch diese Methode lässt sich als eine Erscheinungsform des linearen
Modells verstehen: Vergleicht man die Mittel von zwei Gruppen in einer ANOVA statt mit dem
üblicheren t-Test, dann ändert sich am Ergebnis nichts – man macht die Sachen nur komplizierter
als strikte nötig.
Es lassen sich drei Arten von ANOVA unterscheiden:
• Einfaktorielle Varianzanalyse: Statt zwei Gruppen hinsichtlich ihres Mittels zu vergleichen (t-Test), vergleichen wir mehrere Gruppen miteinander.
Beispiel: Die Frequenz des ersten Formantes des englischen KIT-Vokals (siehe Übung 1
auf Seite 68) wird bei spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden
gemessen.
Frage: Unterscheidet sich mindestens ein (irgendein) Gruppenmittel von den anderen?
• Zwei- bzw. mehrfaktorielle Varianzanalyse: In zweifaktorieller ANOVA können die Einflüsse von zwei Variablen sowie auch ihr Zusammenspiel untersucht werden.
Beispiel: Die Frequenz des ersten Formantes des englischen KIT-Vokals wird bei spanisch-,
deutsch-, französisch- und finnischsprachigen Lernenden gemessen; jede Gruppe besteht
zur Hälfte aus Frauen und zur Hälfte aus Männern. Die Verteilung der Versuchspersonen
könnte dann so ausschauen:1
Frauen
Männer
L1 Spanisch
L1 Deutsch
L1 Französisch
L1 Finnisch
10
10
10
10
10
10
10
10
Mögliche Fragen: Unterscheidet sich die Formantfrequenz je nach Sprachgruppe? Unterscheidet sich die Formantfrequenz je nach Geschlecht? Und ist der Effekt von Sprachgruppe
1 Es
ist nicht strikte nötig, dass alle Zellen gleich gross sind, aber es macht die Berechnungen schon einfacher. Mehr
dazu in Abschnitt 7.2.7.
93
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
94
unterschiedlich je nach Geschlecht?2
Diese letzte Frage betrifft die Interaktion von Sprachgruppe und Geschlecht. Da Sprachgruppe vier ‘levels’ hat und Geschlecht zwei, spricht man auch von einer 4 × 2-Interaktion.
Bei mehrfaktorieller ANOVA werden mehr als zwei Variablen und ihre möglichen Interaktionen berücksichtigt, die Logik ist aber die gleiche. Hier werden wir nur zweifaktorielle
ANOVA besprechen, da drei- und vierfache Interaktionen schnell unübersichtlich werden
und den Lern- und Lehraufwand zu sehr erhöhen würden.
• Varianzanalyse für wiederholte Messungen: In den obigen Beispielen hatten wir 80 Lernende, die alle mit einem Datenpunkt in der Analyse vertreten waren. Die Daten waren
somit unabhängig voneinander. Da eine Versuchsperson (subject) entweder spanisch- oder
deutsch- oder französisch- oder finnischsprachig ist und entweder Mann oder Frau ist,
sagen wir, dass Sprachgruppe und Geschlecht beide between-subjects-Variablen sind:
Sie variieren zwischen und nicht innerhalb der Versuchspersonen. Oft stehen uns jedoch
mehrere Messungen pro Versuchsperson zur Verfügung und für solche Fälle kann sich eine
Varianzanalyse für wiederholte Messungen anbieten.
Beispiel: Wir messen die Frequenz des ersten Formants der englischen KIT-, FLEECE- und
DRESS -Vokale bei spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden
(20 Lernende pro Gruppe). Insgesamt haben wir also 240 Datenpunkte (80 Mal KIT, 80
Mal FLEECE und 80 Mal DRESS). Nach wie vor variiert Sprachgruppe zwischen aber nicht
innerhalb von Versuchspersonen (between-subjects). Vokaltyp (KIT, FLEECE, DRESS) variiert
jedoch innerhalb von Versuchspersonen (jede Versuchsperson liefert drei Datenpunkte)
und ist somit eine within-subjects-Variable. Die Daten sind somit nicht länger unabhängig
voneinander.
Wenn wir die Abhängigkeiten in den Daten explizit in der Analyse spezifizieren, können
wir jedoch noch immer folgende Fragen beantworten: Variiert die Formantfrequenz zwischen den Sprachgruppen? Variiert die Formantfrequenz zwischen den Vokaltypen? Und
ist der Effekt von Sprachgruppe unterschiedlich je nach Vokaltyp?
Varianzanalyse mit wiederholten Messungen ist eine fortgeschrittene Methode, deren Behandlung uns in diesem Einführungskurs zu weit führen würde. In Kapitel 9 werden aber
zusätzliche Ressourcen empfohlen, um Daten mit wiederholten Messungen zu analysieren.
Tipp: Für den Moment ist das Wichtigste für Sie, zu wissen, dass es überhaupt Methoden gibt,
mit denen Daten mit wiederholten Messungen analysiert werden können. Über diese Methoden
können Sie sich dann noch schlau machen, wenn Sie Ihre Studie planen.
Dieses Kapitel ist darauf ausgerichtet, Ihnen die Logik und das Vokabular der Varianzanalyse
beizubringen. Selbst musste ich noch nie Daten mittels Varianzanalyse auswerten, da ich bisher
hauptsächlich mit binären abhängigen Variablen und umständlicheren Arten von Messwiederholungen, für die sich andere Verfahren anbieten (Kapitel 9), gearbeitet habe. Dafür enthält
jedes zweites Paper, das man liest, aber mehrere ANOVA-basierte Ergebnisse. In erster Linie
scheint es daher am sinnvollsten, das (rezeptive) Verständnis über dieses analytische Verfahren
abzusichern, und die (produktive) Anwendung einem Folgekurs zu überlassen.
2 Oder
äquivalent: Ist der Effekt von Geschlecht unterschiedlich je nach Sprachgruppe?
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
7.1
95
Einfaktorielle Varianzanalyse (one-way ANOVA)
7.1.1
Fragestellung und Daten
(Fiktives Beispiel) Die Frequenz des ersten Formantes des englischen KIT-Vokals wird bei männlichen spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden gemessen (20 Lernende
pro Gruppe). Wir möchten wissen, ob diese Frequenz je nach Muttersprache variiert.
Diese fiktiven Daten finden Sie in der Datei Formanten_1.csv; die F1-Spalte enthält die Formantmessungen in Hertz (eine kontinuierliche Variable).
dat <- read.csv("Formanten_1.csv")
summary(dat)
##
##
##
##
##
##
##
F1
Min.
:165
1st Qu.:304
Median :339
Mean
:334
3rd Qu.:367
Max.
:465
7.1.2
Sprachgruppe
Deutsch
:20
Finnisch
:20
Französisch:20
Spanisch
:20
Grafische Darstellungen
Wie immer lohnt es sich auch hier die Daten grafisch darzustellen, und zwar sowohl beim
Berichten der Ergebnisse als auch bei der Analyse.
Boxplots, violin plots und einzelne Datenpunkte
Mit dem folgenden Kode können Boxplots der Messungen für jede Sprachgruppe erzeugt werden.
Ich halte es ausserdem für sinnvoll, dieser Grafik auch die einzelnen Datenpunkte hinzuzufügen,
sodass man schnell einschätzen kann, wie viele Datenpunkte den Boxplots zu Grunde liegen
und wie sie ungefähr verteilt sind. (Vgl. Übung 5 auf Seite 21 für ein Beispiel eines täuschenden
Boxplots ohne einzelne Datenpunkte.) Aus diesem Plot wird klar, dass französischsprachige
Lernende im Schnitt niedrigere F1-Frequenzen als die drei andere Gruppen haben. (Dies deutet
darauf hin, dass sie diesen Vokal ‘geschlossener’ aussprechen, also mit der Zungenspitze höher
im Mund.) Es gibt jedoch eine erhebliche Überlappung zwischen den vier Gruppen.
par(las = 2) # siehe ?par -> las
boxplot(F1 ~ Sprachgruppe, data = dat,
xlab = "",
ylab = "Frequenz F1 (Hz)",
ylim = c(150, 500),
outline = FALSE) # damit Ausreisser nicht 2x angezeigt werden;
# Unbedingt auf 'TRUE' stellen,
# wenn der Grafik die einzelnen Datenpunkte
# nicht hinzugefügt werden!
stripchart(F1 ~ Sprachgruppe, data = dat,
method = "jitter", # Punkte nicht übereinander plotten
vertical = TRUE, # senk- statt waagerecht
pch = 1, cex = 1.1, # Form und Grösse der Punkte
add = TRUE) # dem Boxplot hinzufügen
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
96
500
Frequenz F1 (Hz)
450
400
350
300
250
200
Spanisch
Französisch
Finnisch
Deutsch
150
Eine Alternative bietet das ggplot2-Package, das Sie mit dem install.packages("ggplot2")Befehl installieren können. Mit dem folgende Kode können Sie die obige Grafik in ggplot2
zeichnen:
library(ggplot2)
ggplot(data = dat, # Daten aus 'dat' verwenden
aes(x = Sprachgruppe, y = F1)) + # Sprgrp auf x-, F1 auf y-Achse
geom_boxplot(outlier.shape = NA) + # Boxplot zeichnen; Ausreisser nicht
geom_jitter(w = 0.3, # Punkte leicht horizontal auseinander plotten
h = 0, # aber nicht vertikal
pch = 1) # anderes Symbol verwenden
F1
400
300
200
Deutsch
Finnisch
Französisch
Spanisch
Sprachgruppe
Eine verwandte Darstellungsart ist das violin plot:
library(ggplot2)
ggplot(data = dat,
aes(x = Sprachgruppe, y = F1)) +
_
geom violin() + # geom_boxplot durch geom_violin ersetzen
geom_jitter(w = 0.3, h = 0, pch = 1)
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
97
F1
400
300
200
Deutsch
Finnisch
Französisch
Spanisch
Sprachgruppe
Mehr Informationen zur Verwendung des ggplot2-Package finden Sie in Wickham (2009) (siehe
github.com/hadley/ggplot2-book) oder unter ggplot2.org oder learnr.wordpress.com/category/lattice-book/.
Tipp: Versuchen Sie, wenn immer möglich, auch die einzelnen Datenpunkte – und nicht nur die
Gruppenmittelwerte – darzustellen. Bei sowohl den obigen Boxplots als auch den Dichtenkurven
erhalten Analisten und Leserschaft Informationen über die zentrale Tendenzen, die Streuungen
und über die deren zu Grunde liegenden Verteilungen und den Grad der Überlappung. So
können sich Lesende ein realistisches Bild Ihrer Daten machen.3
7.1.3
Mittel und Standardabweichungen berechnen
Das dplyr-Package erleichtert das Berechnen von Gruppenmitteln, -standardabweichungen etc.
library(dplyr)
summary_dat <- summarise(group_by(dat, Sprachgruppe), # dat nach Sprachgruppe aufspalten
Mittel = mean(F1), # Mittel berechnen
StdAbw = sd(F1), # Standardabweichung
Median = median(F1), # Median
Anzahl = n()) # Anzahl Datenpunkte
summary_dat # Zusammenfassung zeigen
##
##
##
##
##
##
##
##
Source: local data frame [4 x 5]
1
2
3
4
Sprachgruppe
(fctr)
Deutsch
Finnisch
Französisch
Spanisch
3 Vergleichen
Mittel
(dbl)
350.30
360.40
299.05
327.95
StdAbw Median Anzahl
(dbl) (dbl) (int)
48.757 355.5
20
45.850 361.0
20
67.771 300.5
20
38.730 335.0
20
Sie dies mit einer anderen beliebten aber selten geeigneten Darstellungsart, dem Säulendiagramm:
Gruppenmittel
350
300
250
200
150
100
50
0
Dt.
Fin.
Fr.
Sp.
Ein Mittel von etwa 340 kann zahllosen Datenverteilungen entsprechen: 20 Versuchspersonen um die 340; 12 Versuchspersonen bei 400 und 8 bei 250; 19 Versuchspersonen bei 316 und 1 bei 800; usw. Das Säulendiagramm macht zwar einen
‘sauberen’, deutlichen Eindruck, aber dieser täuscht oft.
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
7.1.4
98
Signifikanztest
Mehrere t-Tests?
Unsere Forschungsfrage lautet: Unterscheiden sich die Mittel der vier Sprachgruppen voneinander? Die Nullhypothese bei diesem Vergleich von vier Mitteln lässt sich so beschreiben:
H0 : µDeutsch = µFinnisch = µFranzösisch = µSpanisch
Das heisst: Alle Mittel sind eigentlich (also auf der Ebene der Populationen) gleich.
Die Alternativhypothese schaut dann so aus:
HA : µDeutsch 6= µFinnisch 6= µFranzösisch 6= µSpanisch
Das heisst: Mindestens ein Mittel ist (auf der Ebene der Populationen) unterschiedlich. Auf
Stichprobenebene sind die Mittel natürlich immer zumindest etwas unterschiedlich, aber diese
Unterschiede dürften zufallsbedingt sein.
Es liegt jetzt auf der Hand, um H0 mittels einer Reihe von t-Tests zu überprüfen: Wir testen,
ob µDeutsch = µFinnisch , ob µDeutsch = µFranzösisch , ob µDeutsch = µSpanisch , ob µFinnisch = µFranzösisch ,
ob µFinnisch = µSpanisch , und ob µFranzösisch = µSpanisch und verwenden dazu sechs t-Tests. Wenn
mindestens ein t-Test auf einen signifikanten Unterschied hindeutet, würden wir schliessen,
dass nicht alle vier Populationen das gleiche Mittel haben, und würden wir die Nullhypothese
ablehnen.
= 6 Vergleiche,
Diese Methode ist natürlich etwas umständlich: Bei vier Gruppen gibt es 4×(4−1)
2
10×(10−1)
bei zehn wären es schon
= 45. Ausserdem gibt es mit diesem Ansatz ein weiteres
2
Problem: Wenn H0 stimmt, dann gehen wir bei jedem einzelnen t-Test ein Risiko von 5% ein,
dass wir H0 fälschlicherweise ablehnen (Typ-I-Fehler). Wenn wir sechs t-Tests berechnen, dann
erhöht sich die Wahrscheinlichkeit, dass wir irgendeinen zufälligen Unterschied. Dieses multiple
comparisons-Problem wird schlimmer, je mehr Tests wir berechnen. Eine mögliche Lösung
besteht darin, die Mittel der vier Gruppen mittels Varianzanalyse in einem Modell miteinander zu
vergleichen.
Vorsicht: Die Nullhypothese ist hier, dass sich irgendwelche Gruppenmittel voneinander unterscheiden: Wir hatten vor der Datenerhebung nicht spezifiziert, dass wir uns nur für einen
bestimmten Unterschied interessieren (etwa den Unterschied zwischen Deutsch- und Französischsprachigen). Wäre dies der Fall gewesen, dann hätten wir natürlich nur einen einzigen t-Test
ausführen können, während wir die anderen Gruppen ignoriert hätten, ohne dass wir dabei
das Risiko des erhöhten Typ-I-Fehlers in Kauf nehmen müssten. (Aber wieso hätten wir dann
Daten bei Finnisch- und Spanischsprachigen erhoben?) Wichtig ist, dass solche Entscheidungen
genommen werden, bevor man sich die Daten anschaut. Wenn man sich die Daten schon angeschaut
hat, kann man sich selbst oft davon überzeugen, dass man ohnehin nur die Unterschiede testen
wollte, die interessant scheinen – im Nachhinein ist man immer klüger. Dies erhöht jedoch
ebenfalls den Typ-I-Fehler. Interessante Artikel zu diesem m.E. weit verbreiteten Problem sind
Kerr (1998), Simmons et al. (2011) und Gelman & Loken (2013).
Streuung aufteilen
Bei Varianzanalyse wird versucht, die Streuung in den Daten in einen systematischen Teil
(Gruppenunterschiede) und in einen Restfehler (Streuung innerhalb der Gruppen, die für
unsere Zwecke uninteressant ist) aufzuteilen.
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
Streuung = Gruppenunterschiede + Restfehler
99
(7.1)
Dazu berechnen wir zuerst die Gesamtsumme der Quadrate (siehe Seite 10), also die Summe der
quadrierten Unterschiede zwischen den Daten und ihrem Gesamtmittel:
SS.total <- sum((dat$F1 - mean(dat$F1))^2)
SS.total
## [1] 245278
Welchen Anteil dieser Summe der Quadrate können wir nun mit der Variable Sprachgruppe
erklären (= systematischer Teil) und welcher Anteil bleibt noch unerklärt (= Restfehler)? Eine
ähnliche Frage haben wir uns schon einmal gestellt, und zwar im Kapitel zu Regressionsanalysen.
Tatsächlich sind sowohl ANOVA als auch lineare Regression Erscheinungsformen des gleichen
mathematischen Vorgehens, des linearen Modells. Im nächsten Schritt berechnen wir ein lineares
Modell, mit dem der Effekt von F1 auf Sprachgruppe ‘weggerechnet’ wird:
formant.mod <- lm(F1 ~ Sprachgruppe, data = dat)
formant.mod
##
##
##
##
##
##
##
##
##
Call:
lm(formula = F1 ~ Sprachgruppe, data = dat)
Coefficients:
(Intercept)
350.3
SprachgruppeFranzösisch
-51.2
SprachgruppeFinnisch
10.1
SprachgruppeSpanisch
-22.3
Vergleichen Sie die Koeffiziente mit den Gruppenmitteln, die oben mit der summarise()Funktion berechnet wurden.
Von der Gesamtsumme von 245’278 Quadraten bleiben noch 200’877 Quadrate ‘unerklärt’; dies
sind die Quadrate der Residuen des obigen Modelle. Eine äquivalente Art und Weise, diese Zahl
zu berechnen, besteht darin, die Unterschiede zwischen den Datenpunkten und ihrem jeweiligen
Gruppenmittel zu berechnen, diese zu quadrieren und beieinander aufzuzählen.
SS.rest <- sum(resid(formant.mod)^2)
SS.rest
## [1] 200877
Sprachgruppe kann also 44’401 Quadrate ‘erklären’:
SS.Gruppe <- SS.total - SS.rest
SS.Gruppe
## [1] 44401
Um diese 44’401 Quadrate zu erklären, brauchten wir drei Parameter zusätzlich zum Intercept
des Modells (siehe oben bei formant.mod). Zwar untersuchen wir in diesem Modell also nur den
Effekt einer Variable, aber dafür brauchen wir in diesem Fall drei Parameter (= Freiheitsgrade),
da diese nominale Variable vier ‘levels’ hat. Im Schnitt erbringt uns jeder Freiheitsgrad also
14’800 Quadrate. Dies ist die mean sum of squares.
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
100
meanSq.Gruppe <- SS.Gruppe / 3
meanSq.Gruppe
## [1] 14800
Damit sich die Investition von diesen drei Freiheitsgraden lohnt, müssten diese beiden im
Schnitt mehr Streuung erklären können als die restlichen 76 im Schnitt (80 Datenpunkte − 3
Freiheitsgrade für Sprachgruppe − 1 Freiheitsgrad fürs Intercept). Die mean sum of squares für
die unerklärten Quadrate ist etwa 2’643:
meanSq.rest <- SS.rest / (80 - 3 - 1)
meanSq.rest
## [1] 2643.1
F-Test
Das Ratio von Gruppe.meanSq und rest.meanSq bezeichnet man als F. Wenn die Nullhypothese
stimmt, dann wird F nahe bei 1 liegen: Die drei Freiheitsgrade erbringen im Schnitt nicht mehr
als die 76 anderen. Stimmt die Nullhypothese jedoch nicht, dann wird F > 1 gelten.
F.Gruppe <- meanSq.Gruppe / meanSq.rest
F.Gruppe
## [1] 5.5995
5.6 ist natürlich grösser als 1, aber auch wenn die Nullhypothese stimmt, wird F nur selten genau
gleich 1 sein. Aufgrund des Zufallsfaktors wird F mal grösser und mal kleiner sein. Wenn die
Nullhypothese stimmt, schaut die Verteilung von F bei 3 Freiheitsgraden im systematischen Teil
und 76 Freiheitsgraden für den Restfehler (F(3, 76)-Verteilung) so aus:
curve(df(x, 3, 76), from = 0, to = 10,
xlab = "F-Wert",
ylab = "d(F)",
main = "Verteilung der F-Werte unter\nder Nullhypothese bei 3 und 76 d.f.")
abline(v = F.Gruppe, lty = 2)
Verteilung der F−Werte unter
der Nullhypothese bei 3 und 76 d.f.
d(F)
0.6
0.4
0.2
0.0
0
2
4
6
8
10
F−Wert
Wenn die Nullhypothese stimmt, ist es also ziemlich unwahrscheinlich, hier einen F-Wert von
5.6 oder grösser anzutreffen. Mit der pf()-Funktion lässt sich die genaue Wahrscheinlichkeit
berechnen (die Fläche unter der Kurve oberhalb von F = 5.6):
1 - pf(F.Gruppe, 3, 76)
## [1] 0.0015963
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
101
Sprich etwa 0.2%, also weit unten der traditionelle 5%-Schwelle. Die ANOVA zeigt also, dass
Sprachgruppe einen signifikanten Effekt auf F1 hat: Je nach Sprachgruppe sind die F1-Mittel
anders.
Direkt in R
Sie brauchen all diese Zwischenschritte natürlich nicht auszuführen. Kürzer geht es mit folgendem Kode, mit dem Sie ein lineares Modell mit Sprachgruppe als Prädiktor aufstellen (ähnlich
wie bei linearer Regression) und dann mit der anova()-Funktion die Varianzen aufteilen und
den F-Test ausführen:
modell <- lm(F1 ~ Sprachgruppe, data = dat)
anova(modell)
##
##
##
##
##
##
Analysis of Variance Table
Response: F1
Df Sum Sq Mean Sq F value Pr(>F)
Sprachgruppe 3 44401
14800
5.6 0.0016
Residuals
76 200877
2643
Mit der aov()-Funktion kann man diese Tabelle auch erzeugen:
summary(aov(F1 ~ Sprachgruppe, data = dat))
##
Df Sum Sq Mean Sq F value Pr(>F)
## Sprachgruppe 3 44401
14800
5.6 0.0016
## Residuals
76 200877
2643
Ziel der manuellen Berechnung war es, zu zeigen, dass die Zahlen in dieser Tabelle irgendwo herkommen. Daher mag ich die lm()- + anova()-Kombination auch besser als die aov()-Funktion,
denn Erstere hebt den Zusammenhang zwischen dem linearen Modell und Varianzanalyse besser
hervor.
7.1.5
Schlussfolgerung und Bericht
Im Bericht sollte man zumindest die Grössen, Mittel und Standardabweichungen der unterschiedlichen Gruppen erwähnen, sei dies im Fliesstext oder in einer Tabelle. Eine Grafik, die
die zentralen Tendenzen und im Idealfall auch die Streuung und die einzelnen Datenpunkte
in jeder Gruppe aufzeigt, wäre auch sehr nützlich. Die Ergebnisse der ANOVA können dann
folgendermassen berichtet werden: “Die F1-Frequenzen unterscheiden sich signifikant zwischen
den Sprachgruppen (F(3, 76) = 5.6, p = 0.002).”
Ab und zu sieht man, dass die ganze ANOVA-Tabelle berichtet wird, aber in der Regel berichtet
man eben nur den F-Test.
Vorsicht: Zwischen den Klammern nach dem F werden zwei Zahlen aufgeführt (i.d.R. mit einer
Leerstelle dazwischen): die Freiheitsgrade des Gruppenfaktors und die restlichen Freiheitsgrade.
Es handelt sich also nicht um eine Dezimalzahl.
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
7.1.6
102
Annahmen
Einfaktorielle Varianzanalyse lässt sich als eine Erweiterung des t-Tests verstehen und daher
gelten hier die gleichen Annahmen wie auch beim t-Test (siehe Seite 60):
• Die Datenpunkte sollten unabhängig voneinander sein. Wenn wir im obigen Beispiel für
jede Versuchsperson statt einer Messung etwa 10 Formantmessungen für KIT gehabt hätten,
hätten wir diese 800 Messungen nicht direkt in die Analyse eintragen können (siehe Übung
5 auf Seite 63). Stattdessen müssten wir das Mittel oder den Median pro Versuchsperson
berechnen und diese 80 Mittelwerte analysieren.
Tipp: Der Mehraufwand, 10 statt nur einer Messung pro Versuchsperson zu machen,
lohnt sich trotzdem: Die Mittelwerte von jeweils 10 Messungen werden einen kleineren
Messfehler als die einzelnen Messungen haben. Dies senkt die Varianz der analysierten
Datenpunkte und erhöht somit die power der Studie.
• Die Varianz in den unterschiedlichen Gruppen sollte ungefähr gleich sein. Hier hilft
natürlich eine grafische Darstellung. In diesem Beispiel scheint die Varianz in der französischsprachigen Gruppe zwar grösser zu sein als jene in der spanischsprachigen Gruppe,
aber dieser Unterschied ist eigentlich noch eher minimal.
Die folgende Grafik zeigt ein Beispiel von einer ausgeprägteren Ungleichheit der Varianzen:
Auf dem ersten Blick wird klar, dass die Streuung in Gruppe 3 wesentlich kleiner ist als in
Gruppen 1 und 2.
ungleiche Varianzen
Gruppe 1
Gruppe 2
Gruppe 3
Ungleichheit der Varianzen (oder Heteroskedastizität) ist – nach meinen Erfahrungen – in den
Daten, mit denen wir meisten umgehen, selten ein alleinstehendes Problem. Zum Beispiel
kann eine ausgeprägte Ungleichheit der Varianzen durch Decken- (links) oder Bodeneffekte
(rechts) entstehen. In solchen Fällen ist der F-Test aufgrund der Heteroskedastizität zwar
vielleicht nicht zuverlässig; andererseits scheint er auch überflüssig zu sein, denn dass es
Unterschiede gibt, ist glasklar.
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
Heteroskedastizität wegen Deckeneffekten
Gruppe 1
Gruppe 2
103
Heteroskedastizität wegen Bodeneffekten
Gruppe 3
Gruppe 1
Gruppe 2
Gruppe 3
Manchmal kann eine gelungene Datentransformation, z.B. das Umformulieren von Reaktionszeiten als Geschwindigkeiten (siehe Übung 1 auf Seite 77), die Varianzen gleicher
machen.
Tipp: Wenn die Varianzunterschiede in den unterschiedlichen Gruppen nicht grafisch
glasklar sind, ist es unwahrscheinlich, dass die Ungleichheit der Varianzen ein Problem
darstellt. Wenn die Ungleichheit der Varianzen sehr ausgeprägt ist und nicht durch Deckenoder Bodeneffekte erklärt wird, dürfte dies unter Umständen der interessantere Befund
Ihrer Untersuchung sein. In diesem Fall dürfte ein Vergleich der Gruppenmittel mithilfe
von ANOVA unnötig sein.
• Strikte genommen sollten die Daten in jeder Gruppe aus einer Normalverteilung stammen,
denn sonst ist F unter Annahme der Nullhypothese nicht nachweisbar F-verteilt. Für
grössere Stichproben ist dies allerdings unproblematisch. Wichtig ist jedoch, dass auch hier
die Mittel miteinander verglichen werden. Wenn die Daten nicht annähernd normalverteilt
sind, besteht also das Risiko, dass das Mittel kein guter Indikator der zentralen Tendenz
ist.
7.1.7
Exkurs: Geplante Vergleiche und Post-hoc-Tests
Mit einfaktorieller ANOVA versuchen wir die folgende Frage zu beantworten: Unterscheiden sich
die Gruppenmittel (irgendwelche Gruppenmittel) voneinander? In diesem Beispiel vermuten wir
aufgrund des kleinen p-Wertes, dass dies tatsächlich der Fall ist – dabei natürlich das Risiko auf
einen Typ-I-Fehler in Kauf nehmend. Die Varianzanalyse bietet jedoch keine Antwort auf die
naheliegende Folgefrage: Welche Gruppen unterscheiden sich eigentlich genau voneinander?
Der Einfachkeit halber werden hier die Daten nochmals dargestellt.
Spanisch
Französisch
Finnisch
Deutsch
200
250
300
350
Frequenz F1 (Hz)
400
450
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
104
Die durchschnittliche Formantfrequenz der Französischsprachigen liegt zwar niedriger als bei
den Spanischsprachigen, aber ist sie auch ‘signifikant niedriger’? Und gibt es Unterschied zwischen den Spanischsprachigen einerseits und den Deutsch- und Finnischsprachigen andererseits?
Solche Fragen liegen zwar auf der Hand, sie führen aber leider rasch zu Kompliziertheiten.
Forschende bedienen sich für derartige Fragen oft nachfolgender Signifikanztests. Wenn diese
Fragen sich erst nach der Datenerhebung ergeben und eben nicht im Vorhinein aus der Theorie abgeleitet wurden (exploratorische Analyse), spricht man von Post-hoc-Tests. Wenn diese
schon vor der Untersuchung vorlagen (konfirmatorische Analyse), spricht man von geplanten
Vergleichen.
Häufig verwendete Verfahren für solche nachfolgende Tests tragen Namen wie ‘t-Tests mit
Bonferroni-Korrektur’, ‘t-Tests mit Holm–Bonferroni-Korrektur’, ‘Fishers LSD-Test’ (least significant difference), ‘Scheffé-Test’ usw. Die Idee ist, dass das aufgrund der mehrfachen Tests gestiegene
globale Risiko, einen Typ-I-Fehler zu begehen (familywise error rate), kontrolliert werden muss
(multiple comparisons adjustments). Insbesondere das Bonferroni-Verfahren wird jedoch oft dafür
kritisiert, dass es zu einem erheblichen Verlust der statistischen power führen (Nakawaga 2004;
Perneger 1998).
Zusätzliche Tests sind jedoch nicht immer nötig oder zu empfehlen. Entscheidend ist die Theorie
und die Hypothesen, die der Studie zu Grunde lagen, und welche Datenmuster man als Belege
für diese Theorie und Hypothesen betrachtet:
• Sagt die Theorie voraus, dass es irgendwelche Gruppenunterschiede (egal welche) geben
wird, dann reicht eine ANOVA aus, und berichtet man eventuelle interessante Gruppenunterschiede deskriptiv (d.h. ohne Inferenzstatistik). Diese möglichen Unterschiede überlässt
man dann einer neuen, konfirmatorischen Studie (siehe Bender & Lange 2001, S. 344). Falls
die ANOVA keine Signifikanz ergibt, sollte man in diesem Fall auch auf zusätzliche Tests
verzichten.
• Sagt die Theorie jedoch einen spezifischen Gruppenunterschied voraus, oder werden
mehrere separate Theorien überprüft, die sich auf unterschiedliche Gruppenmittel beziehen
(z.B. A vs. B und C vs. D), dann braucht man eigentlich die ANOVA nicht auszuführen
und reichen t-Tests. Allfällige interessante aber nicht vorhergesagte Gruppenunterschiede
werden deskriptiv (nicht inferenzstatistisch) berichtet und man überlasst sie wiederum
einer neuen, konfirmatorischen Studie.
• Sagt die Theorie voraus, dass sich ein bestimmter Unterschied oder ein bestimmter anderer
Unterschied zeigen wird, dann sollte man sich über die oben angesprochenen Methoden
schlau machen. Dies gilt auch wenn die Theorie komplexere Gruppenunterschiede vorhersagt, etwa ‘Das Gesamtmittel von Gruppen A und B ist niedriger als das Gesamtmittel
von Gruppen B, C und D’. Zu diesen Verfahren kann ich Ihnen leider keine detaillierten
Ratschläge machen, da ich sie selber noch nie eingesetzt habe.
• Sagt die Theorie voraus, dass sich ein bestimmter Unterschied und ein bestimmter anderer
Unterschied zeigen wird, dann reichen m.E. wiederum zwei t-Tests. Man kann in diesem
Fall einen signifikanten und einen nicht-signifikanten Unterschied natürlich nicht als
Evidenz für die Theorie betrachten: Vorhergesagt wurden ja zwei Unterschiede.
Eine kurze Einführung mit vielen Referenzen ist Bender & Lange (2001); Ruxton & Beauchamp
(2008) geben konkrete Ratschläge, denen jedoch wohl schwierig zu folgen ist, wenn man noch
keine konkrete Erfahrung mit derartigen Analysen hat. Ein Blogpost zum Thema ist On correcting
for multiple comparisons: Five scenarios.
Tipp: Aus meiner Sicht sind Post-Hoc- und geplante Vergleiche ein Problem, worüber man sich
erst Sorgen machen sollte, wenn es sich anbietet. Mit spezifischeren, aus der Theorie hergeleiteten
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
105
a priori Hypothesen ist das multiple comparisons-Problem ohnehin viel weniger schwerwiegend
als bei vagen oder ad oder post hoc Hypothesen.
Merksatz: Seien Sie vorsichtig und sparsam mit Post-Hoc-Erklärungen. Im Nachhinein gelingt
es einem oft, gewisse Muster in den Daten theoretisch zu deuten. Dabei ist es durchaus möglich,
dass diese Muster rein zufallsbedingt sind und sich bei einer neuen Studie nicht mehr ergeben.
7.1.8
Aufgaben
1. (a) Lesen Sie den Datensatz Alkohol_Sprechgeschwindigkeit.csv in R ein. Vergleichen
Sie nochmals die Sprechgeschwindigkeit der Kontroll- und Experimentalgruppe miteinander mithilfe eines t-Tests für gleiche Varianzen (Option var.equal = TRUE).
Notieren Sie sich den t-Wert, seine Anzahl Freiheitsgrade und den p-Wert.
(b) Vergleichen Sie jetzt die Sprechgeschwindigkeit der beiden Gruppen mit einer einfaktoriellen ANOVA. Notieren Sie sich den F-Wert, die beiden Freiheitsgrade und den p-Wert.
Was stellen Sie fest?
(c) Zusätzliche Aufgabe für ein mögliches Aha-Erlebnis: Quadrieren Sie den t-Wert und
vergleichen Sie das Ergebnis mit dem F-Wert.
(d) Macht es für die Schlussfolgerungen etwas aus, ob man den Vergleich zweier Gruppen
in einem t-Test oder in einer einfaktoriellen ANOVA vornimmt? Macht es für die
Leserfreundlichkeit der berichteten Ergebnisse etwas aus?
7.2
Zweifaktorielle Varianzanalyse (two-way ANOVA)
ohne Interaktionen
7.2.1
Daten und Fragestellung
(Fiktives Beispiel) Die F1-Frequenz des englischen KIT-Vokals wird diesmal bei sowohl männlichen als auch weiblichen Spanisch-, Deutsch-, Französisch- und Finnischsprachigen gemessen
(jeweil 10 Frauen und 10 Männer pro Sprachgruppe). Wir interessieren uns sowohl für Unterschiede zwischen den Sprachgruppen als auch für Unterschiede zwischen den Geschlechten.
Für den Moment lassen wir allfällige Zusammenspiele zwischen diesen beiden Variablen ausser
Betracht.
Diese fiktiven Daten finden Sie im Datensatz Formanten_2.csv. Mit der xtabs()-Funktion
können wir die Anzahl Versuchspersonen pro Zelle nachschlagen. In diesem Fall handelt es sich
um ein balanziertes Design: Jede Zelle enthält die gleiche Anzahl Datenpunkte.
dat2 <- read.csv("Formanten_2.csv")
summary(dat2)
##
##
##
##
##
##
##
F1
Min.
:194
1st Qu.:329
Median :360
Mean
:357
3rd Qu.:388
Max.
:479
Sprachgruppe Geschlecht
Deutsch
:20
Frau:40
Finnisch
:20
Mann:40
Französisch:20
Spanisch
:20
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
106
# Anzahl Beobachtungen pro 'Zelle'
xtabs(~ Geschlecht + Sprachgruppe, dat2)
##
Sprachgruppe
## Geschlecht Deutsch Finnisch Französisch Spanisch
##
Frau
10
10
10
10
##
Mann
10
10
10
10
7.2.2
Grafische Darstellung
Wie bei einfaktorieller ANOVA können wir Boxplots mit den einzelnen Datenpunkten hinzugefügt zeichnen: mal mit den Daten aufgespaltet nach Sprachgruppe und mal mit den Daten
aufgespaltet nach Geschlecht. Es ist jedoch manchmal nützlich, die Datenpunkte gleichzeitig
nach beiden Variablen aufzuspalten.
Die erste Grafik scheint insbesondere geeignet, wenn wir die Geschlechtsunterschiede betonen
möchten:
library(ggplot2)
ggplot(dat2,
aes(x = Geschlecht, y = F1)) +
_
geom boxplot(outlier.shape = NA) +
geom_jitter(h = 0, w = 0.3, pch = 1) +
facet_wrap(~ Sprachgruppe, ncol = 4)
Deutsch
Finnisch
Französisch
Spanisch
F1
400
300
200
Frau
Mann
Frau
Mann
Frau
Mann
Frau
Mann
Geschlecht
Die zweite Grafik betont eher die Unterschiede zwischen den Sprachgruppen.
ggplot(dat2,
aes(x = Sprachgruppe, y = F1)) +
geom_boxplot(outlier.shape = NA) +
geom_jitter(h = 0, w = 0.3, pch = 1) +
facet_wrap(~ Geschlecht)
Frau
Mann
F1
400
300
200
Deutsch
Finnisch Französisch Spanisch
Deutsch
Sprachgruppe
Finnisch Französisch Spanisch
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
107
Für zusätzliche Darstellungsmöglichkeiten, siehe Sarkar (2008), Wickham (2009) und Cleveland
(1993).
Tipp: Wenn man aber bereit ist, mehr Zeit und Aufwand in die Herstellung von Grafiken zu
investieren, sind die Möglichkeiten, die R bietet, nahezu unbegrenzt.
7.2.3
Mittelwerte und Standardabweichungen berechnen
Mit der summarise()-Funktion aus dem dplyr-Package können auch die Mittel und Standardabweichungen pro Zelle berechnet werden.
summary_dat2 <- summarise(group_by(dat2, Geschlecht, Sprachgruppe),
Mittel = mean(F1),
Stdabw = sd(F1),
Anzahl = n())
summary_dat2
##
##
##
##
##
##
##
##
##
##
##
##
##
Source: local data frame [8 x 5]
Groups: Geschlecht [?]
1
2
3
4
5
6
7
8
7.2.4
Geschlecht Sprachgruppe Mittel Stdabw Anzahl
(fctr)
(fctr) (dbl) (dbl) (int)
Frau
Deutsch 405.9 42.041
10
Frau
Finnisch 405.1 45.101
10
Frau Französisch 327.1 43.768
10
Frau
Spanisch 366.2 31.435
10
Mann
Deutsch 346.0 47.105
10
Mann
Finnisch 343.5 46.150
10
Mann Französisch 332.0 45.700
10
Mann
Spanisch 330.3 70.304
10
Berechnung
Wenn wir die Varianzanalyse von Hand ausführen würden, würden wir ähnlich wie bei der
einfaktoriellen ANOVA vorgehen:
1. die Gesamtsumme der Quadrate berechnen;
2. den Effekt der ersten Variable (z.B. Geschlecht) rausrechnen und berechnen, welchen
Anteil der Summe der Quadrate diese Variable erklären kann;
3. den Effekt der zweiten Variable rausrechnen und berechnen, welchen Anteil der Summe
der Quadrate diese Variable erklären kann;
4. die restliche Summe der Quadrate berechnen;
5. F-Ratios für die beiden Variablen berechnen und deren Signifikanz überprüfen.
Diese Schritte können wir einfach in R ausführen, indem wir dem linearen Modell (lm(...))
eine zweite Variable hinzufügen:
anova(lm(F1 ~ Geschlecht + Sprachgruppe, dat2))
## Analysis of Variance Table
##
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
##
##
##
##
##
108
Response: F1
Df Sum Sq Mean Sq F value Pr(>F)
Geschlecht
1 29070
29070
12.3 0.00077
Sprachgruppe 3 29769
9923
4.2 0.00839
Residuals
75 177174
2362
7.2.5
Schlussfolgerung und Bericht
Natürlich sollte man auch hier die Gruppenmittel und -standardabweichungen berichten. Die
Signifikanztests selber können etwa so berichtet werden: “Eine zweifaktorielle ANOVA wies
Unterschiede je nach dem Geschlechts der Versuchsperson (F(1, 75) = 12.3, p < 0.001) und ihrer
Muttersprache (F(3, 75) = 4.2, p = 0.008) nach.”
7.2.6
Warum nicht einfach zwei ANOVAs?
Führen Sie mit dem Datensatz Formanten_2.csv zwei einfaktorielle ANOVAs aus: eine
mit Sprachgruppe als unabhängiger Variable und eine mit Geschlecht als unabhängiger
Variable. Notieren Sie sich bei beiden Analysen folgende Werte: die Summe der Quadrate, die
von der unabhängigen Variable erklärt wird (Spalte Sum Sq); die Restsumme der Quadrate
(gleiche Spalte, Zeile Residuals); den F-Wert; und den p-Wert. Vergleichen Sie diese Zahlen
mit den entsprechenden Zahlen in der zweifaktoriellen ANOVA.
Merksatz: Wenn zwei oder mehrere Variablen zur Varianzerklärung beitragen könnten, lohnt
es sich diese im gleichen Modell zu analysieren. Dadurch sinkt die Restsumme der Quadrate,
weshalb das F-Ratio steigt und der p-Wert sinkt. Die zweifaktorielle ANOVA hat also mehr power
als die zwei einfaktoriellen ANOVAs.
Tipp: Oft versucht man die Experimental- und Kontrollgruppe gleichzuschalten, indem etwa jede
Gruppe aus der gleichen Anzahl Männer und Frauen besteht. Der technische Begriff hierfür ist
blocking. Es lohnt sich in solchen Fällen, die blocking-Variable in der ANOVA zu berücksichtigen,
auch wenn diese Variable für die Studie uninteressant ist! Der Grund ist der oben beschriebenen
Gewinn an power (siehe Imai et al. 2008). (Wenn die blocking-Variable für die Studie uninteressant
ist, muss der F-Test für ihren Effekt natürlich auch nicht berichtet oder interpretiert werden – es
handelt sich lediglich um einen Gewinn an statistischer Effizienz.)
Vorsicht: Mit zwei- bzw. mehrfaktorieller ANOVA wird der Typ-I-Fehler für jede Variable separat
kontrolliert, nicht der Typ-I-Fehler für das gesamte Experiment. Wenn es in der Population
keinen Unterschied zwischen den Sprachgruppen gibt, gibt es eine Wahrscheinlichkeit von 5%,
dass wir trotzdem einen signifikanten Unterschied finden, und wenn es in der Population keinen
Unterschied zwischen den Geschlechten gibt, gibt es auch da eine Wahrscheinlichkeit von 5%,
dass wir trotzdem einen signifikanten Unterschied finden. Wenn beide Nullhypothesen stimmen,
gibt es jedoch eine Wahrscheinlichkeit von 1 − (1 − 0.05)2 = 9.75%, dass wir trotzdem mindestens
eine der beiden Nullhypothesen zu Unrecht ablehnen. Seien Sie daher auch hier vorsichtig, mit
optimistischen Interpretationen.
7.2.7
Exkurs: Varianzaufteilung für unbalancierte Designs
Im obigen Beispiel haben wir ein balanziertes Design: Alle Zellen sind gleich gross. In solchen
Fällen macht es nicht aus, ob wir anova(lm(AV ~ UV1 + UV2)) oder anova(lm(AV ~ UV2 +
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
109
UV1)) berechnen. Sind die Zellen nicht alle gleich gross, ist dies nicht länger der Fall. Für mehr
Informationen, siehe goanna.cs.rmit.edu.au/∼fscholer/anova.php.
7.3
7.3.1
Zweifaktorielle Varianzanalyse (two-way ANOVA)
mit Interaktionen
Was sind Interaktionen?
Oft ist es nicht sosehr der Einfluss dieser oder jener Variable, der uns interessiert: Vielmehr sind
wir am Zusammenspiel von zwei oder mehreren Variablen interessiert. Zum Beispiel ist es nicht
so interessant, dass man schneller auf hochfrequente als auf seltene Wörter reagiert – dieser
Befund ist schon Gemeingut geworden. Und es ist auch nicht so interessant, dass gute Lesende
schneller auf bestehende Wörter reagieren als schlechte Lesende – auch das liegt auf der Hand.
Interessanter wäre vielleicht die Frage, ob der Effekt von Wortfrequenz unterschiedlich gross
ist je nach der Lesefähigkeit der Versuchspersonen. Dies ist eine Frage nach der Interaktion
zwischen Lesefähigkeit und Wortfrequenz.
In der folgenden Grafik werden drei (von vielen möglichen) Interaktionsmuster aufgeführt. Ihr
gemeinsames Merkmal ist, dass die gezeichneten Linien nicht parallel zueinander liegen; bei der
Absenz einer Interaktion ist dies schon der Fall.
Interaktion: stärkerer Fähigkeitseffekt
für frequente Wörter
hohe Frequenz
niedrige Frequenz
schlecht
Geschwindigkeit
Geschwindigkeit
keine Interaktion
(parallele Linien)
gut
gut
Cross−over−Interaktion
Geschwindigkeit
Interaktion: schwächerer Fähigkeitseffekt
für frequente Wörter
Geschwindigkeit
Lesefähigkeit
schlecht
gut
Lesefähigkeit
7.3.2
schlecht
Lesefähigkeit
schlecht
gut
Lesefähigkeit
Daten und Fragestellung
Wir nehmen den gleichen Datensatz wie vorher. Diesmal stellen wir uns aber die Frage, ob
Sprachgruppe und Geschlecht miteinander interagieren: Variiert der Effekt von Geschlecht
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
110
(tiefere Frequenzen für Männer) von Muttersprache zu Muttersprache? Statistisch gesehen
ist dies die gleiche Frage wie: Variiert der Effekt von Muttersprache je nach Geschlecht der
Versuchsperson.
7.3.3
Grafische Darstellung
Zusätzlich zu den obigen Grafiken wäre vielleicht eine Grafik, die die Mittel der unterschiedlichen Zellen darstellt, nützlich, um die Präsenz einer Interaktion zu illustrieren. Diese beiden
Grafiken zeigen genau die gleichen Muster, nur die ‘Betonung’ ist anders: Die erste Grafik betont
den Geschlechtseffekt, die zweite den L1-Effekt. Die zweite Grafik ist m.E. einfacher zu verdauen,
aber das ist letztendlich Geschmackssache.
# Gruppenmittel berechnen (dplyr package)
summary_F1 <- summarise(group_by(dat2, Sprachgruppe, Geschlecht),
Mittel = mean(F1),
Stdabw = sd(F1))
# eventuell anzeigen:
# summary_F1
Mittel F1 (Hz)
# Erste Grafik:
ggplot(summary_F1,
aes(x = Geschlecht, y = Mittel,
group = Sprachgruppe, linetype = Sprachgruppe)) +
geom_line() +
ylab("Mittel F1 (Hz)")
Sprachgruppe
400
Deutsch
380
Finnisch
360
Französisch
340
Spanisch
Frau
Mann
Geschlecht
# Zweite Grafik:
ggplot(summary_F1,
aes(x = Sprachgruppe, y = Mittel,
group = Geschlecht, linetype = Geschlecht)) +
geom_line() +
ylab("Mittel F1 (Hz)")
Mittel F1 (Hz)
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
111
400
Geschlecht
380
Frau
360
Mann
340
Deutsch
Finnisch Französisch Spanisch
Sprachgruppe
Es dürfte eine Interaktion vorliegen: Frauen haben in der Regel eine höhere F1-Frequenz als Männer, aber bei den Französischsprachigen haben Männer und Frauen eine ähnliche F1-Frequenz.
(Dies dürfte darauf hindeuten, dass französischsprachige Frauen den KIT-Vokal geschlossener
aussprechen, als was man sonst vermuten würde.) Auch scheint der Geschlechtsunterschied
weniger ausgeprägt zu sein bei den Spanischsprachigen.
7.3.4
Berechnung
Die Linien in der obigen Grafik laufen zwar nicht parallel zueinander, aber das könnte Zufall
sein: Die Linien werden in einer Stichprobe nie perfekt parallel zueinander laufen. Die Nullhypothese, die in einer zweifaktoriellen ANOVA mit Interaktion getestet wird, ist, dass es irgendeine
Interaktion zwischen Sprachgruppe und Geschlecht gibt – nicht spezifisch, dass die Interaktion
sich bei den Französischsprachigen zeigt.
Das Vorgehen der Varianzaufteilung ist ähnlich wie bei einer zweifaktoriellen ANOVA, nur
werden dem Modell noch (in diesem Fall: drei) Interaktionsparameter hinzugefügt. Mit : wird
die Interaktion zwischen zwei Variablen modelliert:
mod.interaktion <- lm(F1 ~ Geschlecht + Sprachgruppe + Geschlecht:Sprachgruppe,
dat2)
mod.interaktion
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Call:
lm(formula = F1 ~ Geschlecht + Sprachgruppe + Geschlecht:Sprachgruppe,
data = dat2)
Coefficients:
(Intercept)
405.9
GeschlechtMann
-59.9
SprachgruppeFinnisch
-0.8
SprachgruppeFranzösisch
-78.8
SprachgruppeSpanisch
-39.7
GeschlechtMann:SprachgruppeFinnisch
-1.7
GeschlechtMann:SprachgruppeFranzösisch
64.8
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
##
##
112
GeschlechtMann:SprachgruppeSpanisch
24.0
Versuchen Sie, diese 8 Parameter in Verbindung mit der Tabelle mit den Zellenmitteln zu
bringen. Welcher Koeffizient entspricht dem Zellenmittel für deutsche Frauen (405.9)? Wie
findet man das Zellenmittel für finnische Frauen (405.1) zurück? Und das Zellenmittel für
deutsche Männer (346.0)? Und für französische Männer (332.0)?
Mit der anova()-Funktion berechnen wir den F-Test für die Interaktion:
anova(mod.interaktion)
##
##
##
##
##
##
##
##
Analysis of Variance Table
Response: F1
Df Sum Sq Mean Sq F value Pr(>F)
Geschlecht
1 29070
29070
12.86 0.00061
Sprachgruppe
3 29769
9923
4.39 0.00680
Geschlecht:Sprachgruppe 3 14407
4802
2.12 0.10462
Residuals
72 162767
2261
Statt A + B + A:B kann man auch einfach A * B schreiben (empfohlen).
mod.interaktion <- lm(F1 ~ Geschlecht * Sprachgruppe, dat2)
anova(mod.interaktion)
Vorsicht: Beim Testen einer Interaktion müssen (mit wenigen Ausnahmen, die hier nicht der
Rede wert sind) auch die Haupteffekte mitmodelliert werden – auch wenn sie nicht von Interesse
sind. Meines Erachtens müssen uninteressante Haupteffekte jedoch nicht unbedingt berichtet
oder interpretiert werden.
7.3.5
Schlussfolgerung und Bericht
“Die Interaktion zwischen dem Geschlecht der Versuchspersonen und ihrer Muttersprache war
nicht signifikant (F(3, 72) = 2.1, p = 0.10).”
Dies heisst natürlich nicht unbedingt, dass es keine Interaktion gibt: Es besteht ja die Gefahr
eines Typ-II-Fehlers.
7.3.6
Zur Interpretation von Interaktionen und Haupteffekten
Noch zur Interpretation von Haupteffekten, wenn eine Interaktion vorliegt: Solche Interpretationen sind oft suspekt, und am besten basiert man sich hierbei auf einer Grafik. Bei etwa
folgendem Datenmuster wäre es vorschnell zu sagen, dass die abhängige Variable höher ist bei
A als bei B (Haupteffekt von A vs. B) oder dass sie höher ist bei Y als bei X (Haupteffekt von X
vs. Y), auch wenn die ANOVA diese Haupteffekte als signifikant aufzeigen wird: Der Punkt ist ja,
dass es nur einen Unterschied gibt, wenn A und Y gleichzeitig vorkommen!
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
113
X
Y
abhängige Variable
100
75
50
25
0
−25
A
B
A
B
Kondition
Zur Interpretation von non-cross-over interactions, siehe Wagenmakers et al. (2012). Zusammengefasst: Eine Interaktion in der gemessenen Variable (z.B. Reaktionsgeschwindigkeit) muss nicht
zwingend darauf hindeuten, dass eine Interaktion im hinterliegenden Konstrukt (z.B. kognitiver
Kontrolle) vorliegt.
7.4
Varianzanalyse mit wiederholten Messungen
(repeated-measures ANOVA)
Wenn jede Versuchsperson in mehreren Konditionen getestet wird, spricht man von einem
within-subjects-Design. Solche Designs sind in der Regel effizienter (mehr power) als betweensubjects-Designs, da sie uninteressante personenspezifische Varianz ausgeklammern können.
Im einfachen Fall, wo alle Versuchspersonen in zwei Konditionen getestet werden und man
sich nur für Unterschiede zwischen den zwei Konditionen interessiert, bietet sich der t-Test
für gepaarte Stichproben als Analyseverfahren an. In komplexeren Fällen bedient man sich
häufig der Varianzanalyse mit wiederholten Messungen oder flexiblerer Verfahren wie sog. ‘gemischter Modelle’. Mit diesen Verfahren wird man der Abhängigkeit der Datenpunkte (mehrere
Datenpunkte pro Versuchsperson) gerecht. Sie zu besprechen würde uns hier jedoch zu weit
führen.
7.5
Artikel mit ANOVA lesen
Gefühlte neun von zehn Studien, in denen ANOVA verwendet wird, werden unnötig kompliziert
analysiert oder interpretiert. Artikel mit mehr als zwanzig F-Tests sind leider keine Ausnahme.
Mithilfe dieses Leitfadens können Sie sich aber hoffentlich einen Weg durch solche ANOVADschungel bahnen.
1. Identifizieren Sie die zentrale, genuine4 Forschungsfrage und die Hypothese der Forschende. Zeichnen Sie (schnell von Hand) eine Grafik, die zeigt, wie sich die Gruppen- bzw.
Zellenmittel verhalten sollten, falls die Hypothese der Forschenden stimmt. Zeichnen Sie
auch eine Grafik, die zeigt, wie sich die Mittel verhalten würden, falls eine andere plausible
Hypothese zuträfe. Solche Grafiken helfen zumindest mir bei der Lektüre schwieriger
Studien.
4 Oft
liegt einer Studie eine genuine Forschungsfrage zu Grunde und werden in der Einleitung noch ein paar
zusätzliche, weniger interessante Fragen gestellt. (Die magische Anzahl Forschungsfragen scheint drei zu sein.) Typische
‘Polsterungsfragen’ sind: ‘Gibt es einen Unterschied zwischen den Pre- und Posttest-Ergebnissen?’ (trivial), ‘Unterscheidet
sich die Übersetzungsfähigkeit zwischen Jungs und Mädchen?’ (selten theoretisch fundiert) oder ‘Haben ältere Kinder
einen umfangreicheren Wortschatz als jüngere Kinder?’ (fast tautologisch).
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
114
• Ignorieren Sie alle Tests, die nicht mit der zentralen Forschungsfrage zu tun haben.
Neben Tests für die nicht-genuine Forschungsfragen handelt es sich dabei oft um
‘kontrollierende’ Tests, z.B. um zu schauen, ob die zwei Stichproben ungefähr gleich
alt sind. Solche Tests sind, insbesondere bei randomisierten Experimenten, komplett
überflüssig (Vanhove 2015a); bei nicht-randomisierten Experimenten gibt es bessere Methoden, um solche Variablen auszuwerten (siehe Huitema 2011, Kapitel 27).
Wenn Sie wissen wollen, inwiefern sich die Gruppen bei den Hintergrundsvariablen
unterscheiden, schauen Sie sich am besten einfach die Tabelle mit den deskriptiven
Informationen an.
2. Handelt es sich bei der zentralen Forschungsfrage um eine Frage nach einem Haupteffekt
oder nach einer Interaktion?
• Wenn es sich um eine Frage nach einer Interaktion handelt: Ignorieren Sie der Einfachkeit halber die Tests für die Haupteffekte – sie sind uninteressant und können
ohnehin nicht ohne Weiteres interpretiert werden.5
• Wenn es sich um eine Frage nach einem Haupteffekt handelt und trotzdem Interaktionen berechnet wurden: Ignorieren Sie gleich alle Tests, insbesondere wenn die
Interaktion sich als signifikant herausstellt – aufgrund der Interaktion können die
Haupteffekte nicht ohne Weiteres interpretiert werden.
3. In psycholinguistischen Studien werden oft sog. F1- und F2-Tests berechnet, insbesondere
bei etwas älteren Studien. Es handelt sich dabei nicht etwa um Formantmessungen, sondern um Folgendes: Jede Versuchsperson hat auf mehrere sprachliche Stimuli reagiert.
Um zu erproben, ob die Ergebnisse sich über die einzelnen Versuchspersonen hinweg
generalisieren lassen, hat man dann die Reaktionszeiten pro Versuchsperson gemittelt und
diese Mittel in einer ANOVA analysiert (F1-Analyse). Um zu erproben, ob die Ergebnisse
sich auch über die verwendeten Stimuli hinweg generalisieren lassen, hat man zudem auch
die Reaktionszeiten pro Stimulus gemittelt und diese in einer anderen ANOVA analysiert
(F2-Analyse). Die hinterliegende Logik bei solchen Analysen ist, dass es ein Befund nur
dann zuverlässig ist, wenn beide Analysen Signifikanz ergeben.
Das Anliegen, sowohl über Versuchspersonen als auch über Stimuli hinweg generalisieren
zu wollen, ist berechtigt (Clark 1973), aber heutzutage gibt es hierfür bessere Methoden als
F1- und F2-Analysen (siehe Baayen et al. 2008; Baayen 2008).
4. Suchen Sie eine Grafik, die die zentralen Tendenzen der Gruppen bzw. Zellen darstellt.
Wenn es keine Grafik gibt: Suchen Sie eine Tabelle mit Mittelwerten und zeichnen Sie
(auch gerne einfach von Hand) eine Grafik, die die Mittelwerte pro Gruppe oder Kondition
darstellt. Wenn es keine Tabelle mit Mittelwerten gibt, sollten Sie diese Mittelwerte im Text
finden. Was können Sie dieser Grafik entnehmen?
• Konsistente Gruppenunterschiede (A immer grösser als B, egal ob X oder Y, und
der Unterschied ist – Handgelenk mal pi – überall gleich gross) sprechen für einen
Haupteffekt ohne Interaktion.
• Inkonsistente Gruppenunterschiede (Unterschied zwischen A und B variiert je nach
X oder Y) sprechen für eine Interaktion. Ob es auch einen Haupteffekt gibt, hängt
davon ab, ob A immer grösser ist als B (Haupteffekt) oder nicht (kein deutlicher
Haupteffekt).
5. Wurden Post-Hoc-Tests berechnet? In der Regel sind dies Tests, die zwar mit der Forschungsfrage zu tun haben, aber eine spezifischere Form annehmen. Insbesondere dürfte
es sich um Unterschiede handeln, die Sie nicht in Ihrer Grafik mit den vorhergesagten
5 Bei einer ANOVA mit Interaktionen müssen die Haupteffekte zwar mitmodelliert werden, aber nur deswegen sind
sie noch nicht interessant.
KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN
115
Mittelwerten zurückfinden. Zum Beispiel kann die Ausgangshypothese sein, dass es
Unterschiede zwischen vier Lernergruppen gibt; ein Post-Hoc-Test könnte dann der spezifischeren Frage nachgehen, ob es einen Unterschied zwischen Lernergruppe A und C gibt.
Nehmen Sie das Ergebnis eines mit der zentralen, genuinen Forschungsfrage verknüpften
Post-Hoc-Tests zur Kenntnis, aber halten Sie nicht zu fest an ihm. Betrachten Sie diese
Frage vorübergehend als ‘work in progress’, das einer Replikationsstudie bedarf.
6. Und zu guter Letzt noch einige kritische Fragen, die man sich stellen kann, wenn man mit
ANOVA s konfrontiert wird:
• Gibt es Abhängigkeiten in den Daten (z.B. mehrere Messungen pro Versuchsperson)
und wurden diese bei der Analyse berücksichtigt (etwa mit repeated-measures ANOVA
oder gemischten Modellen oder indem die Messungen pro Versuchsperson gemittelt
wurden)?
• Sind die Gruppenmittel gute Indikatoren der zentralen Tendenzen? (Oft kann man
dies leider nicht einschätzen.)
• Handelt es sich um echte Gruppen oder wurde irgendeine kontinuierliche Variable
in Gruppen aufgespaltet? Ein typisches Beispiel ist das Aufspalten von Alter in
Altersgruppen. In solchen Fällen sind Regressionsverfahren oft besser geeignet.
• Ist die abhängige Variable eine kontinuierliche Variable? Likertskalen können wohl
oft mit ANOVA ausgewertet werden, aber öfters sieht man auch, dass binäre Daten
(z.B. richtig vs. falsch) oder multinomiale Daten (z.B. Nominativ vs. Genitiv vs. Dativ
vs. Akkusativ) irgendwie mit ANOVA analysiert werden. Bei binären Daten könnte
man sog. logistische Modelle (siehe Kapitel 9) in Betracht ziehen; multinomiale Daten
sind zugegebenermassen schwieriger zu analysieren, wenn das Design der Studie
etwas anspruchsvoll ist (siehe Faraway 2006, Kapitel 5).
• Wie grosszügig sind die Autoren beim Interpretieren ihrer Ergebnisse?
– Leiten sie aus nicht-signifikanten Unterschieden ab, dass es eigentlich keinen
Unterschied gibt, insbesondere bei einer relativ kleinen Stichprobe?
– Schliessen sie aus einem nicht-signikanten Unterschied in einer Gruppe und
einem signifikanten Unterschied in einer anderen Gruppe, dass sich das Ausmass
des Unterschieds zwischen den Gruppen unterscheidet (siehe Gelman & Stern
2006)?
– Wie gross schätzen Sie die Gefahr ein, dass es sich bei den Ergebnissen um
Post-Hoc-Befunde handelt?
Kapitel 8
Mit kategorialen abhängigen
Variablen arbeiten
8.1
Kreuztabellen analysieren
8.1.1
Daten und Fragestellung
Kaiser & Peyer (2011) untersuchten, welche deutschen syntaktischen Strukturen beginnenden
Germanistikstudierenden mit französischer oder italienischer Muttersprache beim Lesen besondere Schwierigkeiten bereiten. Insgesamt sieben syntaktische Strukturen wurden getestet,
darunter etwa die OVS-Satzstruktur und der Passivsatz. Für jede Struktur gab es zwei Erscheinungsformen: eine schwierigere Alternative (OVS, Passiv) und eine einfache Alternative (SVO,
Aktiv) (Problemstruktur “ja” bzw. “nein”).
Jede Versuchsperson hat der Studie mehrere Datenpunkte beigetragen, sodass die Daten von
Kaiser & Peyer (2011) von gegenseitigen Abhängigkeiten geprägt sind. Ich habe ihren Datensatz
jedoch so reduziert, dass für jede Versuchsperson nur einen Datenpunkt übrig bleibt, damit wir
diese Daten mit einfacheren Methoden auswerten können. Diesen angepassten Datensatz finden
Sie in der Datei rezgram.csv.
rezgram <- read.csv("rezgram.csv")
summary(rezgram)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Muttersprache
Deutsch
Englisch
FR:190
Min.
:1.000
Min.
:1.00
IT:307
1st Qu.:2.000
1st Qu.:3.00
Median :3.000
Median :4.00
Mean
:2.626
Mean
:3.83
3rd Qu.:3.000
3rd Qu.:4.00
Max.
:6.000
Max.
:6.00
NA's
:3
NA's
:3
Kategorie Problemstruktur Korrekt
Konditionalsatz:71
ja :234
ja :408
Linksattribut :71
nein:263
nein: 89
OVS
:71
Passiv
:71
Satzklammer
:71
116
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
##
##
Subjektsatz
VSO
117
:71
:71
In dieser angepassten Version ist für 497 Versuchspersonen die Richtigkeit der Antwort auf
jeweils eine Verständnisfrage gespeichert (Korrekt) sowie auch die Muttersprache der Versuchsperson und ihre selbst eingeschätzten Deutsch- und Englischkenntnisse (6er-Skala).
Eine mögliche Frage, die wir uns stellen können, lautet: Sind die syntaktischen Strukturen mit
der Problemstruktur alle gleich schwierig?1
8.1.2
Eine Kreuztabelle erzeugen und grafisch darstellen
Die Fragestellung bezieht sich nur auf die Datenpunkte, für die die Problemstruktur vorlag.
Schaffen wir also einen neuen Datensatz, in dem nur die Antworten auf Sätze mit einer Problemstruktur vorkommen:
rezgram_prob <- subset(rezgram, Problemstruktur == "ja")
# Die 'filter()'-Funktion aus dem 'dplyr'-Package
# funktioniert ähnlich wie 'subset()'.
summary(rezgram_prob)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Muttersprache
Deutsch
FR: 89
Min.
:1.000
IT:145
1st Qu.:2.000
Median :3.000
Mean
:2.662
3rd Qu.:3.000
Max.
:6.000
Kategorie
Konditionalsatz:27
Linksattribut :32
OVS
:38
Passiv
:36
Satzklammer
:36
Subjektsatz
:36
VSO
:29
Englisch
Min.
:1.000
1st Qu.:3.000
Median :4.000
Mean
:3.863
3rd Qu.:4.000
Max.
:6.000
NA's
:1
Problemstruktur Korrekt
ja :234
ja :185
nein: 0
nein: 49
Es bleiben 234 Beobachtungen übrig (nrow(rezgram_prob)). Wir können einfach eine Kreuztabelle (contingency table) aufstellen, in der wir die Anzahl richtige und falsche Antworten für jede
syntaktische Struktur auflisten:
xtabs(~ Korrekt + Kategorie, rezgram_prob)
##
Kategorie
## Korrekt Konditionalsatz Linksattribut OVS Passiv
##
ja
11
31 31
33
##
nein
16
1
7
3
##
Kategorie
## Korrekt Satzklammer Subjektsatz VSO
##
ja
22
31 26
##
nein
14
5
3
1 Dies ist nicht gerade eine sehr sinnvolle Frage, da die Strukturen unterschiedliche semantische Inhalte vermittelten.
Die Idee ist hier aber, die Mechanik des entsprechenden Signifikanztests zu erläutern.
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
118
Diese Kreuztabelle können wir mithilfe eines Säulendiagramms darstellen. (Säulendiagramme
können auch in ggplot2 hergestellt werden. Siehe dazu docs.ggplot2.org/0.9.3.1/geom_bar.html.)
struktur.tab <- xtabs(~ Korrekt + Kategorie, rezgram_prob)
barplot(struktur.tab,
ylab = "Anzahl Antworten",
beside = TRUE, legend.text = TRUE)
Anzahl Antworten
30
ja
nein
25
20
15
10
5
0
Konditionalsatz
Linksattribut
OVS
Passiv
Satzklammer
Subjektsatz
VSO
Die Interpretation wird dadurch erschwert, dass die Anzahl Antworten in den verschiedenen
Kategorien unterschiedlich gross ist (etwa 29 für VSO und 38 für OVS). Hier ist es nützlich,
stattdessen die relativen Antwortfrequenzen darzustellen (siehe ?prop.table):
barplot(prop.table(struktur.tab, margin = 2),
ylab = "Proportion der Antworten", legend.text = FALSE)
Proportion der Antworten
1.0
0.8
0.6
0.4
0.2
0.0
Konditionalsatz
Linksattribut
OVS
Passiv
Satzklammer
Subjektsatz
VSO
Oder in einem Cleveland dotplot (mit [1,] wird nur die obere Zeile der Kreuztabelle dargestellt):
dotchart(sort(prop.table(struktur.tab, margin = 2)[1,]),
xlab = "Proportion richtig",
xlim = c(0,1))
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
119
Linksattribut
Passiv
VSO
Subjektsatz
OVS
Satzklammer
Konditionalsatz
0.0
0.2
0.4
0.6
0.8
1.0
Proportion richtig
Tipp: Stellen Sie Säulendiagramme, die mehr als zwei Antwortkategorien darstellen, nebenund nicht aufeinander. Dies macht es einfacher, verschiedene Kategorien visuell miteinander
zu vergleichen. Verwenden Sie keine Kreisdiagramme oder dreidimensionale Säulendiagramme.
(Siehe ?pie > Note.)
Die Grafiken lassen stark vermuten, dass die Sätze mit bestimmten syntaktischen Strukturen wie
dem Konditionalsatz und der Satzklammer erheblich schwieriger als die anderen Sätze waren.
Dies können wir auch numerisch überprüfen anhand des χ2 -Tests.
8.1.3
Berechnung des χ2 -Tests
Die Nullhypothese ist hier, dass die Proportion der richtigen vs. falschen Antworten nicht von
Kategorie abhängt. Um diese Hypothese zu testen werden in einem χ2 -Test die empirisch
beobachteten Frequenzen in der Kreuztabelle mit den Frequenzen, die laut der Nullhypothese
zu erwarten sind, verglichen. Stellen wir nochmals die beobachteten Frequenzen dar:
Kond.satz
Linksattr.
OVS
Passiv
Satzkl.
S.satz
VSO
Summe
richtig
falsch
11
16
31
1
31
7
33
3
22
14
31
5
26
3
185
49
Summe
27
32
38
36
36
36
29
234
185 der 234 (79%) Antworten waren richtig. Wenn nun Sätze mit einem Linksattribut gleich
schwierig wären wie die anderen Sätze, dann würden wir erwarten, dass 79% (oder 25.30) der
ingesamt 32 Sätze mit Linksattribut richtig verstanden würden ( 32×185
= 25.30) und 21% (oder
234
6.70) falsch ( 32×49
=
6.70).
Dies
sind
die
erwarteten
Frequenzen,
die
der
folgenden Kreuztabelle
234
zu entnehmen sind.
richtig
falsch
Summe
Kond.satz
Linksattr.
OVS
Passiv
Satzkl.
S.satz
VSO
Summe
185
27 × 234
= 21.35
49
27 × 234
= 5.65
25.30
6.70
30.04
7.96
28.46
7.54
28.46
7.54
28.46
7.54
22.93
6.07
185
49
27
32
38
36
36
36
29
234
Wir können die Unterschiede zwischen den beobachteten Frequenzen (o, für observed) und
den erwarteten Frequenzen (e, für expected) berechnen : o − e. Allerdings ist die Summe dieser
Unterschiede immer 0, weshalb wir die Unterschiede zuerst quadrieren: (o − e)2 . Wir teilen
jeden Unterschied ausserdem durch die erwartete Frequenz, sodass wir mit relativen statt mit
absoluten Unterschieden rechnen können, und zählen dann alle Unterschiede beieinander auf:
Dies ergibt die χ2 -Statistik:
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
χ2 =
(o1 − e1 )2 (o2 − e2 )2
+
+ ...
e1
e2
120
(8.1)
In diesem Beispiel beträgt der relative quadrierte Unterschied bei den richtigen Antworten bei
2
2
Konditionalsätzen (11−21.35)
= 5.02. Bei den falschen Antworten: (16−5.65)
= 18.96. Tun wir dies
21.35
5.65
für alle Zellen und zählen wir diese Unterschiede beieinander auf, dann bekommen wir einen
χ2 -Wert von 43.74. Die Wahrscheinlichkeit dieses Wertes unter Annahme der Nullhypothese
können wir mit der χ2 -Verteilung berechnen. Dazu müssen wir aber zuerst wissen, wie viele
Freiheitsgrade diese Verteilung hat: die Anzahl Spalten minus 1 mal die Anzahl Zeilen minus 1:
(7 − 1)(2 − 1) = 6. Die Wahrscheinlichkeit, bei 6 Freiheitsgraden einen χ2 -Wert von 43.74 oder
grösser anzutreffen, ist verschwindend gering, wie der Grafik entnommen werden kann:
curve(dchisq(x, 6), from = 0, to = 50,
xlab = expression(chi^2),
ylab = expression(d(chi^2)),
main = expression(paste("Verteilung von ", chi^2, " laut Nullhypothese (6 d.f.)")))
abline(v = 43.74, lty = 2)
Verteilung von χ2 laut Nullhypothese (6 d.f.)
d(χ2)
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0
10
20
30
40
50
χ2
Mit pchisq() berechnen wir wie gehabt die genaue Wahrscheinlichkeit.
pchisq(43.74, df = 6, lower.tail = FALSE)
## [1] 8.323607e-08
Weit unten 0.001 also. Schneller geht dies alles mit der chisq.test()-Funktion. Dieser müssen
wir die Kreuztabelle mit den beobachteten Frequenzen pro Zelle füttern.
chisq.test(struktur.tab)
##
## Pearson's Chi-squared test
##
## data: struktur.tab
## X-squared = 43.737, df = 6, p-value = 8.335e-08
8.1.4
Schlussfolgerung und Bericht
“Die Proportion richtige Antworten unterscheidet sich signifikant je nach der getesteten grammatischen Struktur (n = 234, χ2 (6) = 44, p < 0.001).” Eine Kreuztabelle und/oder eine Grafik mit
der Anzahl richtige und falsche Antworten pro Struktur wäre hier natürlich unerlässlich, sodass
die Lesenden selbst sehen können, wie sich die Proportion richtige Antworten je nach Struktur
unterscheidet.
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
121
Die Anzahl Datenpunkte, die der Kreuztabelle zu Grunde liegt, können Sie übrigens schnell so
berechnen:
sum(struktur.tab)
## [1] 234
8.1.5
Komplikationen
Yates’ Korrektur für 2 × 2-Kreuztabellen?
Kaiser & Peyer (2011) wollten vor allem untersuchen, ob Sätze mit vermuteten ‘Problemstrukturen’ wie der Satzklammer für Deutschlernende tatsächlich schwierig zu verstehen sind als
inhaltlich sehr ähnlichen Sätze ohne diese Strukturen. Um diese Frage zu beantworten, schauen
wir uns nur die Daten für die Kategorie Satzklammer an:
rezgram_sklam <- subset(rezgram, Kategorie == "Satzklammer")
summary(rezgram_sklam)
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
Muttersprache
Deutsch
FR:30
Min.
:1.000
IT:41
1st Qu.:2.000
Median :3.000
Mean
:2.535
3rd Qu.:3.000
Max.
:4.000
Kategorie
Konditionalsatz: 0
Linksattribut : 0
OVS
: 0
Passiv
: 0
Satzklammer
:71
Subjektsatz
: 0
VSO
: 0
Englisch
Min.
:1.000
1st Qu.:3.000
Median :4.000
Mean
:3.775
3rd Qu.:4.000
Max.
:6.000
Problemstruktur Korrekt
ja :36
ja :41
nein:35
nein:30
Insgesamt 71 relevante Datenpunkte liegen vor, darunter 36 mit und 35 ohne Problemstruktur
und 41 richtige und 30 falsche Antworten. Die richtigen und falschen Antworten verteilen sich
folgendermassen je nach Vorkommen der Problemstruktur:
sklam.tab <- xtabs(~ Korrekt + Problemstruktur, rezgram_sklam)
sklam.tab
##
Problemstruktur
## Korrekt ja nein
##
ja
22
19
##
nein 14
16
Diese Kreuztabelle kann auch grafisch dargestellt werden:
# Zahlen in sklam.tab per Spalte zu Proportionen konvertieren ('margin = 2')
# und erste Zeile darstellen ('[1,]')
dotchart(prop.table(sklam.tab, margin = 2)[1,],
xlab = "Proportion richtig", xlim = c(0,1),
ylab = "Problemstruktur?")
122
Problemstruktur?
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
nein
ja
0.0
0.2
0.4
0.6
0.8
1.0
Proportion richtig
(Im Widerspruch zu der Hypothese werden in diesem Datensatz Sätze mit Satzklammer also
häufiger richtig verstanden als die entsprechenden Sätze ohne Satzklammer.)
Füttern Sie nun die Kreuztabelle sklam.tab der chisq.test()-Funktion, dann stellen Sie fest,
dass sich der Output etwas vom vorigen unterscheidet:
chisq.test(sklam.tab)
##
## Pearson's Chi-squared test with Yates' continuity
## correction
##
## data: sklam.tab
## X-squared = 0.11683, df = 1, p-value = 0.7325
Bei 2 × 2-Kreuztabellen (also Kreuztabellen, wo die beiden Variablen zwei ‘levels’ haben) wird
automatisch Yates’ Korrektur angewandt, weil die χ2 -Statistik sonst überschätzt wird. Diese
Korrektur führt jedoch zu zu kleinen χ2 -Werten, weshalb der Gebrauch nicht empfohlen wird
(siehe etwa Camilli & Hopkins 1978). Um die Korrektur auszuschalten, verwenden Sie einfach
correct = FALSE:
##
## Pearson's Chi-squared test
##
## data: sklam.tab
## X-squared = 0.33883, df = 1, p-value = 0.5605
Exakter Test nach Fisher
Oft liest man, dass Forschende keinen χ2 -Test sondern einen exakten Test nach Fischer ausgeführt
haben. Dies tun sie in der Regel, weil die erwarteten Frequenzen in gewissen Zellen der Kreuztabelle kleiner als 5 sind. Betrachten wir als Beispiel die Sätze mit und ohne Problemstruktur
OVS:
rezgram_ovs <- subset(rezgram, Kategorie == "OVS")
summary(rezgram_ovs)
##
##
##
##
##
Muttersprache
Deutsch
FR:29
Min.
:1.000
IT:42
1st Qu.:2.000
Median :3.000
Mean
:2.704
Englisch
Min.
:1.0
1st Qu.:3.5
Median :4.0
Mean
:4.0
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
##
##
##
##
##
##
##
##
##
##
##
3rd Qu.:3.000
Max.
:5.000
Kategorie
Konditionalsatz: 0
Linksattribut : 0
OVS
:71
Passiv
: 0
Satzklammer
: 0
Subjektsatz
: 0
VSO
: 0
123
3rd Qu.:4.0
Max.
:6.0
Problemstruktur Korrekt
ja :38
ja :62
nein:33
nein: 9
xtabs(~ Korrekt + Problemstruktur, rezgram_ovs)
##
Problemstruktur
## Korrekt ja nein
##
ja
31
31
##
nein 7
2
Von den 71 Antworten sind nur 9 falsch. Wenn wir für diese Kreuztabelle einen χ2 -Test berechnen,
ergibt sich eine Warnung:
ovs.tab <- xtabs(~ Korrekt + Problemstruktur, rezgram_ovs)
chisq.test(ovs.tab, correct = FALSE)
## Warning in chisq.test(ovs.tab, correct = FALSE): Chi-squared approximation may
be incorrect
##
## Pearson's Chi-squared test
##
## data: ovs.tab
## X-squared = 2.4378, df = 1, p-value = 0.1184
Mit dem nachgestellten Befehl $expected finden Sie den Auslöser dieser Fehlermeldung: Es
gibt zwei Zellen, für die die erwarteten Frequenzen unter 5 liegen:
chisq.test(ovs.tab, correct = FALSE)$expected
##
Problemstruktur
## Korrekt
ja
nein
##
ja
33.183099 28.816901
##
nein 4.816901 4.183099
Die traditionelle Lösung für dieses Problem ist der exakte Test nach Fisher:
fisher.test(ovs.tab)
##
##
##
##
##
##
##
##
##
Fisher's Exact Test for Count Data
data: ovs.tab
p-value = 0.1613
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.027397 1.688792
sample estimates:
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
124
## odds ratio
## 0.2903896
Eine andere Möglichkeit ist, den p-Wert mit einem Randomisierungstest zu berechnen:
chisq.test(ovs.tab, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value
## (based on 2000 replicates)
##
## data: ovs.tab
## X-squared = 2.4378, df = NA, p-value = 0.1634
Ludbrook (2008) bespricht noch einige feinere Punkte zur Analyse von 2 × 2-Kreuztabellen.
McNemars Test für gepaarte Daten
Der χ2 -Test nimmt an, dass die Datenpunkte unabhängig voneinander sind. Im einfachen Fall,
wo für jede Versuchsperson zwei Datenpunkte vorliegen (z.B. das binäre Ergebnis bei sowohl
einem Pre- als auch einem Posttest), bietet McNemars Test eine Alternative.
Als fiktives Beispiel betrachten wir die Ergebnisse 36 Studierender bei einem Pre- und einem
Posttest. Elf der 36 Studierenden (31%) bestanden den Pretest, während 19 (53%) den Posttest
bestanden. Kann diese Zunahme als signifikant betrachtet werden oder ist es zu wahrscheinlich,
solche Unterschiede rein durch Zufall zu beobachten? Um diese Frage zu beantworten müssen
wir wissen, wie sich diese Zahlen genau zusammensetzten. Die folgende Tabelle zeigt, wie sich
das Ergebnis der Versuchspersonen zwischen dem Pre- und Posttest geändert hat:
erste Erhebung
zweite Erhebung
nicht bestanden bestanden
nicht bestanden
bestanden
15
2
10
9
25
11
Summe
17
19
36
Summe
Die Zahl derer, die den Pretest bestanden (11), setzt sich also aus 9, die auch den Posttest
bestanden, und 2, die den Posttest nicht bestanden, zusammen, während die Zahl derer, die
den Posttest bestanden (19), sich aus 9 (Pretest bestanden) und 10 (Pretest nicht bestanden)
zusammensetzt. Wenn wir einfach die Zahlen 11 und 19 miteinander vergleichen würden,
würden wir also 9 Versuchspersonen doppelt mitzählen. McNemars Test vergleicht daher nur
die 10 und 2 Versuchspersonen, deren Ergebnis sich zwischen den beiden Tests geändert hat.2
In R:
# Tabelle eintragen
prepost.tab <- rbind(c(15, 10),
c(2 , 9))
# Anzeigen
prepost.tab
2 Um
dies zu überprüfen, können Sie einen χ2 -Test mit nur den Zahlen 10 und 2 durchführen: chisq.test(c(10,
2)). Das Ergebnis wird jenem von McNemars Test gleich sein.
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
125
##
[,1] [,2]
## [1,]
15
10
## [2,]
2
9
# McNemars Test ausführen
mcnemar.test(prepost.tab, correct = FALSE)
##
## McNemar's Chi-squared test
##
## data: prepost.tab
## McNemar's chi-squared = 5.3333, df = 1, p-value =
## 0.02092
McNemars Test weist einen signifikanten Unterschied zwischen der Proportion der Studierenden,
die den Posttest bestanden, vs. jener, die den Pretest bestanden, auf (χ2 (1) = 5.3, p = 0.02). Der
correct-Parameter wurde auf FALSE gestellt, um die zu strenge Yates-Korrektur auszuschalten.
Andere Arten von Abhängigkeiten in den Daten müssten wohl mit fortgeschritteneren Verfahren
berücksichtigt werden, siehe Abschnitt 9.2.
8.1.6
Aufgaben (und ein zusätzlicher Test)
1. Auf Seite 118 wurde die Kreuztabelle mit dem Befehl xtabs(~Korrekt + Kategorie,
rezgram_prob) erzeugt. Führen Sie jetzt einen χ2 -Test für die Kreuztabelle, die mit dem
Befehl xtabs(~Kategorie + Korrekt, rezgram_prob) (andere Reihenfolge der Variablen) erzeugt wird, aus. Macht es für die Analyse etwas aus, welche Variable in den Zeilen
und welche in den Spalten steht?
2. Das Many Labs-Projekt (Klein et al. 2014) untersuchte, inwiefern dreizehn ausgewählte
‘klassische’ Befunde aus der Sozialpsychologie empirisch repliziert werden konnten. Die
Daten dieses Projekts sind frei zugänglich unter osf.io/wx7ck/; eine für diese Aufgaben
gekürzte Version dieser Daten finden Sie in manyLabs_gekuerzt.csv.
Die Daten, die wir zunächst analysieren, stammen aus einer Replikation eines Experiments
von Tversky & Kahneman (1981). Sie legten den Versuchspersonen folgendes Szenario
vor: Eine seltene tödliche Krankheit bedroht 600 Menschen in den USA. Der Regierung
stehen zwei Möglichkeiten zur Auswahl: Die erste Möglichkeit (A) wird 200 Leben retten
(400 sterben), während die zweite Möglichkeit (B) zu einer Wahrscheinlichkeit von 1/3 alle
600 Menschen retten wird (keiner stirbt) und zu einer Wahrscheinlichkeit von 2/3 keinen
retten wird (alle sterben). (Mathematisch sind beide Möglichkeiten gleichwertig.) Die
Versuchspersonen mussten ihre präferierte Möglichkeit auswählen, wurden aber ohne es
zu wissen einer von zwei Konditionen zugeteilt: Je nach Kondition wurden die Möglichkeit
als ‘Gewinne’(also ‘200 werden gerettet’ bzw. ‘zu einer Wahrscheinlichkeit von 1/3 werden
alle 600 gerettet’) oder als ‘Verluste’ (also ‘400 sterben’ bzw. ‘zu einer Wahrscheinlichkeit
von 2/3 sterben alle 600’) formuliert.
Trotz mathematischer Äquivalenz der Möglichkeiten und Formulierungen fanden Tversky
& Kahneman (1981), dass Versuchspersonen in der ‘Gewinn’-Kondition eher Möglichkeit
A wählten und Versuchspersonen in der ‘Verlust’-Kondition eher Möglichkeit B wählten.
(a) Lesen Sie den gekürzten Datensatz ein.
(b) Die Daten wurden an verschiedenen Universitäten erhoben. Für diese Analyse beschränken wir uns auf die Daten, die an der Texas A&M University (tamu) erhoben
wurden:
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
126
manyLabs_tamu <- subset(manyLabs, sample == "tamu")
(c) Die Kondition (Gewinn vs. Verlust) steht in der Spalte gainlossgroup, die bevorzugte
Vorgehensweise der Versuchspersonen in der Spalte gainlossDV. Erzeugen Sie eine
Kreuztabelle mit diesen beiden Variablen und zeigen Sie diese an.
(d) Sie werden feststellen, dass es sich nicht um eine 2 × 2-Kreuztabelle handelt: Zwei
Versuchspersonen haben keine Antwort gegeben; diese Antworten wurden durch
eine Leertaste ersetzt. Entfernen Sie diese aus der Analyse. Dazu gibt es ein paar
Möglichkeiten. Am einfachsten ist wohl, den Datensatz nochmals einzulesen, aber
dabei zu spezifizieren, dass fehlende Werte in diesem Datensatz nicht als NA sondern
mit einer Leertaste kodiert wurden (siehe ?read.csv und dann na.strings):
manyLabs <- read.csv("manyLabs_gekuerzt.csv", na.strings = " ")
(e) Stellen Sie die Ergebnisse in einer sinnvollen Grafik dar. Werden die Befunde von
Tversky & Kahneman (1981) (rein deskriptiv) bestätigt?
(f) Erste Frage: Wählen Versuchspersonen in der ‘Gewinn’-Kondition eher die sichere
Möglichkeit als die unsichere Möglichkeit?
• Wie viele Versuchspersonen gibt es in der ‘Gewinn’-Kondition?
• Welche Proportion der Versuchsperson in der ‘Gewinn’-Kondition wählt Möglichkeit A vs. B?
• Der geeignete Test für diese Fragestellung ist der Binomialtest:
binom.test(c(A, B))
wo A und B die Anzahl Entscheidungen für Alternativen A bzw. B sind.3 Bevorzügen Versuchspersonen in der ‘Gewinn’-Kondition signifikant Möglichkeit A?
(g) Zweite Frage: Wählen Versuchspersonen in der ‘Verlust’-Kondition eher die unsichere
als die sichere Möglichkeit?
• Wie viele Versuchspersonen gibt es in der ‘Verlust’-Kondition?
• Welche Proportion der Versuchsperson in der ‘Verlust’-Kondition wählt Möglichkeit B vs. A?
• Bevorzügen Versuchspersonen in der ‘Verlust’-Kondition signifikant Möglichkeit
B?
(h) Dritte Frage: Wählen Versuchspersonen in der ‘Gewinn’-Kondition eher die sichere als
die unsichere Möglichkeit verglichen mit Versuchspersonen in der ‘Verlust’-Kondition?
• Wie unterscheidet sich diese Forschungsfrage von den vorigen zwei?
• Um diese Frage zu beantworten können Sie einen χ2 -Test auf die ganze Kreuztabelle ausführen. Tun Sie dies und berichten Sie das Ergebnis.
Merksatz: Je nach konkreter Fragestellung sind andere Tests angebracht: Fragen 1 und
2 beziehen sich auf absolute Unterschiede: Bevorzügen die Versuchspersonen in einer
bestimmten Gruppe (zu mehr als 50%) diese oder jene Alternative? Frage 3 bezieht sich
auf den relativen Unterschied zwischen den Gruppen: Bevorzügen die Versuchspersonen
in der einen Gruppe Alternative A öfter als die in der anderen Gruppe? Die Antwort auf
3 chisq.test(c(A, B)) ergibt ungefähr das gleiche Ergebnis (annähernder Test), ist aber auf den Fall mit mehr als
zwei Gruppen generalisierbar (z.B. chisq.test(c(A, B, C, D)), wenn es vier Antwortmöglichkeiten gegeben hätte).
Die Nullhypothese ist hier, dass alle vier Möglichkeiten gleich oft vorkommen.
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
127
die dritte Frage kann durchaus ‘ja’ sein, auch wenn beide Gruppen sich eher für B als für A
entscheiden, z.B. wenn die Kreuztabelle so aussähe:
‘Gewinn’-Kondition
‘Verlust’-Kondition
18
30
5
62
Möglichkeit A
Möglichkeit B
Tipp: Berechnen bzw. berichten Sie nicht alle Tests, die Sie mit Ihren Daten ausführen
können, sondern nur die, die auch für Ihre Forschungsfrage relevant sind. (Es ist übrigens
nicht unbedingt klar, welcher der entscheidene Test in diesem Beispiel ist: Sowohl Fragen 1
und 2 einerseits und Frage 3 andererseits scheinen mir sinnvoll, heben aber andere Aspekte
der Studie hervor.)
3. Ein anderer Befund, den Klein et al. (2014) zu replizieren versuchten, geht auf Rugg (1941)
zurück. Etwa die Hälfte der Versuchspersonen wurde gefragt, ob ihr Land Reden gegen
die Demokratie erlauben soll (‘erlauben’-Kondition), währen die andere Hälfte gefragt
wurde, ob ihr Land Reden gegen die Demokratie untersagen soll (‘untersagen’-Kondition).
Rugg (1941) fand (in politisch besonders heiklen Zeiten), dass 62% der Befragten in der
‘erlauben’-Kondition ‘nein’ antworteten und somit die Repression anti-demokratischer
Reden unterstützten, während nur 46% der Befragten in der ‘untersagen’-Kondition ‘ja’
antworteten und somit Repression unterstützten.
(a) Lesen Sie die Many Labs-Daten ein und beschränken Sie die Analyse auf die Daten,
die am Abington-Campus der Penn State University erhoben wurden (sample ==
”abington”).
(b) Die Kondition, in der die Versuchspersonen befragt wurden, steht in der Spalte
allowedforbiddenGroup; die Antwort auf die Frage, die ihnen gestellt wurde, in
der Spalte allowedforbidden. Erzeugen Sie eine Kreuztabelle mit diesen Variablen.
(c) Wie viele Versuchspersonen enthält diese Stichprobe? Wie viele unter ihnen unterstützen die Repression anti-demokratischer Reden? (Welche Zahlen müssen dazu
beieinander aufgezählt werden?)4
(d) Unterscheidet sich die Proportion der Befragten, die Repression unterstützen würden,
je nach der Form der Frage? Stellen Sie die Daten sinnvoll grafisch dar und führen Sie
den geeigneten Test aus.5
8.2
8.2.1
Logistische Regression
Warum logistische Regression?
Wollen wir den Zusammenhang zwischen einer kontinuierlichen unabhängigen und einer
nominalen abhängigen Variable untersuchen, dann bringt uns der χ2 -Test nichts. Ausserdem
für Repression
gegen Repression
3
43
9
27
‘untersagen’-Kondition
‘erlauben’-Kondition
Die Kreuztabelle, die Sie vorher erzeugten, würde Sie auf die falsche Spur bringen: Diese zeigt ja, wie sich die Anzahl
‘yes’- und ‘no’-Antworten je nach Kondition unterscheidet – was hier nicht von Interesse ist. Am besten gestalten Sie die
Tabelle so um (siehe Seite 124):
5
Die Bedeutung von ‘yes’ und ‘no’ unterscheidet sich je nach Kondition: Insgesamt unterstützen 12 der 82 Befragten die
Repression anti-demokratischer Reden (9 würden solche Reden nicht erlauben und 3 würden sie verbieten).
4
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
128
lässt sich mit einem χ2 -Test nur der Effekt einer unabhängigen Variable untersuchen, während
ANOVA s und lineare Regressionen mehrere Prädiktoren aufnehmen können.
Auf den ersten Blick könnte man dieses Problem einfach lösen, indem man die abhängige
Variable zu Proportionen oder Prozentsätzen konvertiert. Mit diesem Ansatz gibt es ein paar
Probleme, die detaillierter von Jaeger (2008) besprochen werden:
• Proportionen und Prozentsätze liegen zwischen 0 und 1 bzw. zwischen 0 und 100. ANOVAs
und lineare Regressionen ‘wissen’ aber nicht, dass Werte über 1 (100) oder unter 0 nicht
sinnvoll sind. Deshalb ergeben sie manchmal sinnlose Resultate.
• Bei 50% richtigen Antworten gibt es erheblich mehr Unsicherheit darüber, ob eine willkürliche Antwort jetzt richtig oder falsch war, als dies bei 95% richtigen Antworten der Fall ist.
Dies ist eine Verletzung der Annahme der gleichen Varianzen, die von ANOVAs und auch
von linearen Regression gemacht wird.
• Eine wichtige Information geht verloren: Auf wie vielen Beobachtungen basiert die Proportion? Ein Prozentsätz von 60% kann sowohl einer Datenverteilung von zwei falschen vs.
drei richtigen Antworten als einer Verteilung von 200 falschen und 300 richtigen Antworten
entsprechen. Die 60% sind aber viel zuverlässiger im letzteren Fall.
Aus diesen drei Gründen sind ANOVAs und lineare Regressionen nicht optimal, wenn die
abhängige Variable eigentlich eine binäre Variable ist. Die Lösung heisst logistische Regression.
Die Logik hinter logistischer Regression wird beschrieben von Jaeger (2008); hier gehen wir
anhand eines Beispiels nur auf das Wichtigste ein.6
8.2.2
Odds und log-odds
In Abschnitt 8.1.5 verglichen wir bereits das Verständnis von deutschen Sätzen mit Satzklammer
verglichen mit semantisch ähnlichen Sätzen ohne Satzklammer durch beginnende Germanistikstudierende (basierend auf den Daten von Kaiser & Peyer 2011) mithilfe eines χ2 -Tests. Die
Ergebnisse werden hier nochmals zusammengefasst:
richtig verstanden
falsch verstanden
mit Satzklammer
ohne Satzklammer
22
14
19
16
22
Wir können sagen, dass 22+14
= 61% der Sätze mit Satzklammer richtig verstanden wurden,
19
verglichen mit nur 19+16 = 54% der Sätze ohne Satzklammer. Wir können dies aber auch anders
formulieren: Eine richtige Antwort ist bei den Sätzen mit Satzklammer 22
14 = 1.57 Mal wahrscheinlicher als eine falsche Antwort. Bei den Sätzen ohne Satzklammer ist eine richtige Antwort
nur 19
16 = 1.19 Mal wahrscheinlicher als eine falsche Antwort. Ausserdem können wir auch sagen,
dass es 1.19
1.57 = 0.76 Mal wahrscheinlicher (also weniger wahrscheinlich) ist, eine richtige Antwort
zu beobachten bei den Sätzen mit Satzklammer als bei den Sätzen ohne Satzklammer. Diese
Darstellung von Wahrscheinlichkeiten nennt man odds.
Aus Gründen der mathematischen Effizienz wird in logistischer Regression nicht direkt mit
diesen odds gearbeitet, sondern werden diese logarithmisch transformiert, was log-odds ergibt.
Beispiel: ln 1.57 = 0.45, das heisst, die log-odds, dass die Sätze mit Satzklammer richtig verstanden
werden, liegt bei 0.45. Der Zusammenhang zwischen log-odds und Proportionen schaut so aus:
6 Die Art logistische Regression, die wir hier besprechen, eignet sich nur für den Fall, wo die abhängige Variable binär
(ja–nein, richtig–falsch, vorhanden–nicht vorhanden) ist. Es gibt auch ähnliche Verfahren für ordinalskalierte Daten und
multinomiale Daten, siehe dazu Baayen (2008, Abschnitt 6.3.2) und Faraway (2006, Kapitel 5).
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
129
Proportion
1.0
0.8
0.6
0.4
0.2
0.0
−6
−4
−2
0
2
4
6
log−odds
Prozentsätze, odds und log-odds können so zueinander konvertiert werden:
Prozentsätze zu odds
Anzahl richtig
Anzahl falsch
Prozentsatz richtig
=
Prozentsatz falsch
odds richtig =
Also:
22
14
=
61%
39%
(8.2)
(8.3)
= 1.57
Odds zu Proportionen
Proportion richtig =
Also:
1.57
1+1.57
odds richtig
1 + odds richtig
(8.4)
= 61%
log-odds zu odds
odds richtig = exp(log-odds)
≈ 2.72log-odds
(8.5)
(8.6)
Also: 2.720.45 ≈ 1.57
log-odds zu Proportionen
exp(log-odds)
exp(log-odds) + 1
1
=
1 + exp(−log-odds)
Proportion richtig =
Also:
2.720.45
2.720.45 +1
= 61%. Oder kürzer in R:
plogis(0.45)
## [1] 0.6106392
(8.7)
(8.8)
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
8.2.3
130
Logistische Regression mit einem kategorischen Prädiktor
Daten einlesen
Die obige Kreuztabelle können wir, neben in einem χ2 -Test, auch in einer logistischen Regression
analysieren. Dazu lesen wir die aggregierten Daten nochmals ein:
richtig <- c(22, 19)
falsch <- c(14, 16)
Problemstruktur <- c("ja", "nein")
Der Sicherheit halber kontrollieren wir diese Einträge nochmals:
cbind(Problemstruktur, richtig, falsch)
##
Problemstruktur richtig falsch
## [1,] "ja"
"22"
"14"
## [2,] "nein"
"19"
"16"
Modell berechnen (erste Möglichkeit)
Mit der glm()-Funktion führen wir Problemstruktur ist die unabhängige Variable, während
die abhängige Variable aus der Anzahl richtige vs. falsche Antworten besteht. Diese werden mit
cbind() zusammengeknüpft. Da es sich um eine binäre abhängige Variable handelt, wird der
family-Parameter als "binomial" spezifiziert:
sklam.glm <- glm(cbind(richtig, falsch) ~ Problemstruktur,
family = "binomial")
Koeffiziente interpretieren
Schauen wir uns die Koeffiziente dieses Modells an:
# Koeffiziente des Modells anschauen
summary(sklam.glm)$coefficients
##
Estimate Std. Error z value Pr(>|z|)
## (Intercept)
0.4520
0.3419 1.3221
0.1862
## Problemstrukturnein -0.2801
0.4817 -0.5816
0.5608
• Das (Intercept) stellt die Wahrscheinlichkeit einer richtigen Antwort, wenn die Problemstruktur vorliegt (Problemstruktur == "ja"), in log-odds dar. Die Anzahl richtige
Antworten, denn in der glm()-Funktion wurde zuerst die Spalte mit der Anzahl richtige
Antworten eingetragen, und die Fälle mit Problemstruktur, denn Problemstruktur ==
"ja" kommt alphabetisch vor Problemstruktur == "nein". 0.452 log-odds entspricht
= 1.57 odds richtig = 61% richtig, was wir alles bereits oben selber berechnet hatten.
• Der p-Wert wurde anhand des z-Werts für diese Schätzung (Estimate geteilt durch Std.
Error) berechnet und bezieht sich auf die Nullhypothese, dass der wahre Parameter
eigentlich 0 log-odds ist. Dies entspricht einer Wahrscheinlichkeit von 50%.
• Die Schätzung für Problemstrukturnein sagt uns, um wie viel log-odds die Wahrscheinlichkeit einer richtigen Antwort ändert, wenn die Problemstruktur nicht vorliegt. Die
Änderung von −0.280 log-odds sagt uns, dass eine richtige Antwort 2.72−0.280 ≈ 0.76 Mal
wahrscheinlicher (also unwahrscheinlicher) ist, wenn die Problemstruktur nicht vorliegt
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
131
als wenn sie vorliegt. Diese Änderung ist nach dem z-Test jedoch nicht signifikant (z = 0.58,
p = 0.56.)
• Um die log-odds einer richtigen Antwort bei Sätzen ohne Problemstruktur zu erhalten,
müssen wir die Schätzung des Intercepts und die Schätzung für Problemstrukturnein
addieren: 0.45 − 0.28 = 0.17. Konvertiert zu einem Prozentsatz heisst dies 54% – was wir
ebenfalls oben schon berechnet hatten.
Vergleichen Sie den p-Wert der Schätzung für Problemstrukturnein mit jenem des χ2 -Tests
in Abschnitt 8.1.5.
Modell berechnen (zweite Möglichkeit)
Das Regressionsmodell können wir auch ohne Kreuztabelle berechnen. Die Spalte Korrekt im
Datensatz rezgram_sklam enthält eine binäre Variable (‘ja’ und ‘nein’). Da ‘ja’ alphabetisch vor
‘nein’ kommt, gilt ‘ja’ als ‘Referenzlevel’ dieser Variable:
summary(rezgram_sklam$Korrekt)
##
##
ja nein
41
30
Wenn wir diese Daten so analysieren würden, würden wir die Wahrscheinlichkeit einer falschen
Antwort modellieren. Unter dem Strich macht dies nichts aus, aber ich finde es einfacher, wenn
die Wahrscheinlichkeit einer richtigen Antwort modelliert wird. Daher ändere ich hier das
Referenzlevel:
rezgram_sklam$Korrekt <- factor(rezgram_sklam$Korrekt,
levels = c("nein", "ja"))
_
summary(rezgram sklam$Korrekt)
## nein
##
30
ja
41
Jetzt gilt ‘nein’ als Referenzlevel (steht zuerst). Die Analyse verläuft jetzt recht ähnlich wie bei
einer linearen Regression, nur wird statt lm() die glm()-Funktion verwendet:
sklam.glm <- glm(Korrekt ~ Problemstruktur,
data = rezgram_sklam,
family = "binomial")
summary(sklam.glm)$coefficients
##
Estimate Std. Error z value Pr(>|z|)
## (Intercept)
0.4520
0.3419 1.3221
0.1862
## Problemstrukturnein -0.2801
0.4817 -0.5816
0.5608
Die Koeffiziente und ihre Signifikanz sind nach wie vor die gleichen.
Grafische Darstellung des Modells
Mit dem effects-Package können die Ergebnisse eines logistischen Modells verständlich dargestellt werden. Die in log-odds modellierten Wahrscheinlichkeiten werden automatisch zu
Proportionen zwischen 0 und 1 konvertiert und von ihrem 95%-Konfidenzintervall begleitet.
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
132
library(effects)
plot(allEffects(sklam.glm),
type = "response",
main = "Satzklammer",
ylab = "Wahrscheinlichkeit richtige Antwort",
ylim = c(0, 1))
Wahrscheinlichkeit richtige Antwort
Satzklammer
1.0
0.8
0.6
0.4
0.2
0.0
ja
nein
Problemstruktur
8.2.4
Logistische Regression mit Interaktionen
The difference between “significant” and “not significant” is not itself statistically significant
Wenn eine binäre abhängige Variable auch mit einem relativ einfachen χ2 -Test analysiert werden kann, ist der Reiz zur Verwendung eines logistischen Modells natürlich nicht sehr gross.
Der Vorteil von logistischer Regression besteht darin, dass sie mehrere Prädiktoren gleichzeitig
berücksichtigen kann, darunter auch kontinuierliche Prädiktoren. Interaktionen können ebenso
berücksichtigt werden.
Keysar et al. (2012) untersuchten, ob Versuchspersonen, die mit einem Dilemma in einer Fremdsprache konfrontiert werden, rationaler an diesem Problem herangehen als in ihrer Erstsprache.
Dazu legten sie in ihrem Experiment 1a 121 englischsprachigen Studierenden mit Japanischkenntnissen das klassische Szenario von Tversky & Kahneman (1981), dem wir bereits in Übung
2 auf Seite 125 begegnet sind, vor. Zusätzlich zu der Formulierung (Gewinn–Verlust) wurde in
diesem Experiment die Sprache des Problems manipuliert: 61 Versuchspersonen erledigten die
Aufgabe auf Englisch, 60 auf Japanisch. Die Ergebnisse habe ich auf der Basis des Berichtes hier
rekonstruiert:
sichere Möglichkeit
unsichere Möglichkeit
englische Version
japanische Version
Gewinn
Verlust
Gewinn
Verlust
24
7
14
16
13
17
12
18
Keysar et al. (2012) berichteten, dass sich in der englischen Fassung einen signifikanten Effekt der
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
133
Formulierungsart nachweisen lässt, in der japanischen Version jedoch nicht. Der Vollständigkeit
halber können wir dies überprüfen:
# englische Version
chisq.test(rbind(c(24, 14),
c(7, 16)), correct = FALSE)
##
## Pearson's Chi-squared test
##
## data: rbind(c(24, 14), c(7, 16))
## X-squared = 6.1, df = 1, p-value = 0.01
# japanische Version
chisq.test(rbind(c(13, 12),
c(17, 18)), correct = FALSE)
##
## Pearson's Chi-squared test
##
## data: rbind(c(13, 12), c(17, 18))
## X-squared = 0.069, df = 1, p-value = 0.8
Dies sind die genauen Ergebnisse, die von Keysar et al. (2012) berichtet werden.7 Aber: Aus
einem signifikanten Ergebnis in der einen Kondition und einem nicht-signifikanten Ergebnis
in der anderen kann man nicht unbedingt schlussfolgern, dass es einen Unterschied zwischen
den beiden Konditionen gibt (Gelman & Stern 2006). Vielmehr soll hier die Interaktion von
Formulierung und Sprache untersucht werden; dazu eignet sich eine logistische Regression.
Grafische Darstellung
In Keysar2012_Exp1a.csv stehen die rekonstruierten Daten von Keysar et al. (2012) zur Verfügung. Wir lesen ein und stellen diese grafisch dar, um sicher zu sein, dass die Einträge stimmen,
zum Beispiel in einem Mosaikplot. In einem solchen Plot ist die Fläche einer Zelle proportional
zu der Anzahl Datenpunkte in dieser Zelle; man muss allerdings ein bisschen mit der Reihenfolge
der Variablen herumspielen, bis man eine informative Darstellungsart findet:
keysar <- read.csv("Keysar2012_Exp1a.csv")
summary(keysar)
##
##
##
Sprache
Englisch :61
Japanisch:60
Formulierung
Wahl
Gewinn :61
sicher :63
Verlust:60
unsicher:58
plot(xtabs(~ Sprache + Wahl + Formulierung, keysar),
main = "Keysar et al. (2012, Exp. 1a)")
7 Keysar
et al. (2012) berichten allerdings den konservativeren p-Wert für den χ2 -Wert mit Yates-Korrektur.
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
134
Keysar et al. (2012, Exp. 1a)
Englisch
Verlust
Gewinn
Japanisch
Verlust
Gewinn
Wahl
sicher
unsicher
Sprache
Wiederum ist ein Cleveland dotchart eine geeignete Alternative. Zuerst berechnen wir die
Proportion ‘sichere’ Wahlen pro Zelle (Sprache Formulierung):
library(dplyr)
summary_keysar <- summarise(group_by(keysar, Sprache, Formulierung),
ProportionSicher = mean(Wahl == "sicher"))
summary_keysar
##
##
##
##
##
##
##
##
##
Source: local data frame [4 x 3]
Groups: Sprache [?]
1
2
3
4
Sprache Formulierung ProportionSicher
(fctr)
(fctr)
(dbl)
Englisch
Gewinn
0.7742
Englisch
Verlust
0.4667
Japanisch
Gewinn
0.4333
Japanisch
Verlust
0.4000
Der folgende Kode illustriert ein paar Möglichkeiten, die das ggplot2-Package bietet.
library(ggplot2)
ggplot(summary_keysar,
aes(x = ProportionSicher,
y = Formulierung,
shape = Sprache, # unterschiedliche Symbole pro Sprache
colour = Sprache, # Farben pro Sprache (optional)
group = Sprache)) + # gleiche Sprache mit Linie verbinden
geom_point() + # Punkte zeichnen
geom_line() + # Linien zeichnen; kann auch weggelassen werden
xlab("Proportion 'sichere' Wahlen") +
xlim(0, 1) + # Länge x-Achse
ggtitle("Keysar et al. (2012, Exp. 1a)") +
theme(legend.position = "top") # Beschriftung oben
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
135
Keysar et al. (2012, Exp. 1a)
Formulierung
Sprache
Englisch
Japanisch
Verlust
Gewinn
0.00
0.25
0.50
0.75
1.00
Proportion 'sichere' Wahlen
Modell mit Interaktion
Mit der glm()-Funktion berechnen wir jetzt ein logistisches Modell mit Formulierung und
Sprache als Prädiktoren sowie auch ihrer Interaktion (kürzere Möglichkeit: Formulierung *
Sprache).
keysar.glm <- glm(Wahl ~ Formulierung + Sprache + Formulierung:Sprache,
data = keysar,
family = "binomial")
# Nur zwei Spalten aus Platzgründen:
summary(keysar.glm)$coefficients[,c(1:2)]
##
##
##
##
##
Estimate Std. Error
(Intercept)
-1.232
0.4296
FormulierungVerlust
1.366
0.5643
SpracheJapanisch
1.500
0.5659
FormulierungVerlust:SpracheJapanisch
-1.228
0.7701
# Sie können gerne den ganzen Output anzeigen:
# summary(keysar.glm)
Das (Intercept) stellt die Wahrscheinlichkeit einer Wahl für die unsichere Möglichkeit in der
englischen Version für die ‘Gewinn’-Formulierung dar, und zwar in log-odds (−1.23 log-odds ≈
7
23% = 30
aus der obigen Tabelle). Die anderen Proportionen aus der obigen Tabelle lassen sich
ebenfalls aus diesen Koeffizienten herleiten, etwa dass 18 der 30 Versuchspersonen (60%) in der
japanischsprachigen ‘Verlust’-Kondition die unsichere Option wählen: −1.23 + 1.37 (Haupteffekt
Verlust) +1.50 (Haupteffekt Japanisch) −1.23 (Interaktionseffekt, wenn sowohl Verlust und
Japanisch) = 0.41 log-odds = 60%.
Die Signifikanz der Interaktion ist, was uns hier eigentlich interessiert. Der z-Test aus dem
summary()-Output deutet schon darauf hin, dass der Interaktionsterm nicht signifikant ist
(z = 1.6, p = 0.11). Eine allgemeiner gültige Methode, eine solche Signifikanz zu berechnen, ist
mithilfe der anova()-Funktion:
anova(keysar.glm, test = "Chisq")
## Analysis of Deviance Table
##
## Model: binomial, link: logit
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
136
Response: Wahl
Terms added sequentially (first to last)
NULL
Formulierung
Sprache
Formulierung:Sprache
NULL
Formulierung
Sprache
Formulierung:Sprache
Df Deviance Resid. Df Resid. Dev
120
168
1
3.66
119
164
1
5.29
118
159
1
2.59
117
156
Pr(>Chi)
0.056
0.022
0.108
Vorsicht: Die anova()-Funktion führt hier keine Varianzanalyse im traditionellen Sinne aus,
sondern teilt hier die Devianzen je nach Variable auf und führt dann einen χ2 -Test aus. So wichtig
sind die Details für unsere Zwecke nicht.
Die Haupteffekt von Formulierung und Sprache interessieren uns hier nicht. Nur die Interaktion ist relevant und nach einem χ2 -Test ist diese nicht signifikant (χ2 (1) = 2.6 (= Deviance),
p = 0.11 (= sehr ähnlich wie jener vom z-Test)). Dies heisst natürlich nicht, dass es keine Interaktion gibt, aber ich halte es für eine sinnvolle Illustration des Prinzips, dass der Unterschied
zwischen ‘signifikant’ und ‘nicht signifikant’ selber nicht signifikant zu sein braucht – auch wenn
die p-Werte sich massiv voneinander unterscheiden (hier: p = 0.01 und p = 0.80). Die Befunde
von Keysar et al. (2012) wurden andererorts übrigens, so viel ich weiss, weitgehend repliziert
und erweitert (etwa Costa et al. 2014a,b) – obwohl auch diese Forschenden nicht die Signifikanz
der Interaktion überprüften.
8.2.5
Logistische Regression mit kontinuierlichen Prädiktoren
Vanhove & Berthele (2013) legt etwa 100 deutschsprachigen Probanden eine Liste mit dänischen,
friesischen, niederländischen und schwedischen Wörtern vor, die sie ins Deutsche zu übersetzen
hatten. Diese Übersetzungen wurden als richtig oder falsch beurteilt. 181 der insgesamt 200
Wörter hatten verwandte deutsche, englische oder französische Wörter mit der grundsätzlich
gleichen Bedeutung (Kognaten). Für jedes Wort berechneten Vanhove & Berthele (2013) den Grad
seiner orthographischen Überlappung mit dem nächstverwandten Kognat. Für diese Übung
wird diese Grad der orthographischen Überlappung als eine Zahl zwischen 0 (keine Überlappung) und 10 (komplette Überlappung) dargestellt. Ziel dieser Übung ist es, den Zusammenhang
zwischen dem Grad der orthographischen Überlappung und der Wahrscheinlichkeit einer richtigen Antwort zu modellieren. Dazu schauen wir uns die Daten einer einzigen Versuchsperson an,
die in VanhoveBerthele2013_eineVpn.csv gespeichert sind; um die Daten mehrerer Versuchspersonen gleichzeitig zu modellieren, wären Verfahren wie gemischte Modelle (siehe Baayen
2008; Jaeger 2008) wegen der Abhängigkeiten in den Daten besser geeignet.
# Daten einlesen und zeigen
dat <- read.csv("VanhoveBerthele2013_eineVpn.csv")
# summary(dat)
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
137
Grafische Darstellung
Es liegt nicht ganz auf der Hand, welche Grafik sich am besten eignet, um den Zusammenhang
zwischen einem kontinuierlichen Prädiktor und einem binären Ergebnis darzustellen.
Eine Möglichkeit ist es, die binäre Variable (‘falsch’ vs. ‘richtig’) zu Zahlen zu konvertieren
(0 vs. 1), dann ein Streudiagramm zu zeichnen, und diesem Streudiagramm eine Trendlinie
(‘smoother’) hinzuzufügen.
# neue Variable mit 1 (wenn Korrekt == richtig) und 0 (sonst):
dat$Korrekt.zahl <- ifelse(dat$Korrekt == "richtig",
yes = 1,
no = 0)
# Streudiagramm mit smoother
library(ggplot2)
ggplot(dat,
aes(x = OrthOverlap,
y = Korrekt.zahl)) +
geom_jitter(h = 0.1, w = 0, pch = 1) +
geom_smooth(se = FALSE) + # ohne Konfidenzband
xlab("orthografische Überlappung") +
xlim(0, 10) +
ylab("richtig (1) vs. falsch (0)")
richtig (1) vs. falsch (0)
1.00
0.75
0.50
0.25
0.00
0.0
2.5
5.0
7.5
10.0
orthografische Überlappung
Diese Grafik zeigt, dass mit zunehmender orthografischer Überlappung Kognate häufiger richtig
übersetzt werden und dass keine starken nicht-linearen Muster vorliegen (z.B. zuerst Zunahme
und dann wieder Abnahme). Daher ist es berechtigt, orthografische Überlappung als kontinuierlichen linearen Prädiktor ins Modell aufzunehmen.
Modell
Der kontinuierliche Prädiktor kann einfach mit glm() modelliert werden:
dat.glm <- glm(Korrekt ~ OrthOverlap,
data = dat,
family = "binomial")
summary(dat.glm)$coefficients
KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN
138
##
Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.3132
0.7340 -4.514 6.366e-06
## OrthOverlap
0.5944
0.1144
5.198 2.014e-07
Das (Intercept) ist hier nicht so wichtig, stellt wie gehabt aber dar, wie wahrscheinlich eine
richtige Antwort ist, wenn OrthOverlap 0 ist, und zwar in log-odds. Wichtiger ist die Schätzung
für OrthOverlap. Diese zeigt, wie viel wahrscheinlicher (in log-odds) eine richtige Antwort wird,
wenn OrthOverlap um eine Einheit steigt. Wenn OrthOverlap = 1, dann ist die modellierte
Wahrscheinlichkeit einer richtigen Antwort: −3.31 + 1 × 0.59 = −2.72 log-odds, oder etwa 6%.
Wenn OrthOverlap = 4.6, dann: −3.31 + 2 × 0.59 = −2.13 log-odds, oder etwa 11%. Oder
auch: Wenn OrthOverlap um 1 steigt, dann wird eine richtige Antwort 2.720.59 ≈ 1.8 Mal
wahrscheinlicher.
Der modellierte Effekt grafisch dargestellt mit dem effects-Package:
Wahrscheinlichkeit richtig
library(effects)
plot(allEffects(dat.glm),
type = "response",
ylab = "Wahrscheinlichkeit richtig",
ylim = c(0, 1),
xlab = "Orthographische Überlappung",
main = "")
1.0
0.8
0.6
0.4
0.2
0.0
2
3
4
5
6
7
8
9 10
Orthographische Überlappung
Hier ergibt sich eine Kurve (und keine Gerade), da das Modell in log-odds berechnet wird,
während für diese Grafik die modellierten Wahrscheinlichkeit zu Proportionen konvertiert
werden.
Teil III
Empfehlungen
139
Kapitel 9
Literaturempfehlungen
9.1
Wiederholung und Vertiefung von Gelerntem
Die folgenden Texte behandeln hauptsächlich Themen, die in diesem Kurs bereits besprochen
wurden, aber deren Wiederholung und Vertiefung sinnvoll wären. Ich denke, dass Sie sich diese
Referenzen am sinnvollsten in der Reihenfolge, in der Sie aufgeführt werden, anschauen.
• Huff (1954), How to lie with statistics: Kurz und gut verständlich. Behandelt Themen wie
täuschende Mittelwerte und Grafiken und selektives Berichten von Studien.
• Johnson (2013), Descriptive statistics: Wiederholung von Mittelwerten, Varianz und Verteilungen.
• Quené (2010), How to design and analyze language acquisition studies: Nützliche Wiederholung
von Konzepten wie Nullhypothesen, Typ-I-Fehler, power, Effektgrössen und benötigten
Stichprobengrössen. Quenés Ratschlag, “[y]ou should really think about how the data will
be analyzed before the data are collected”, kann ich nur lautstark zustimmen.
• Goodman (2008), A dirty dozen: Twelve p-value misconceptions: p-Werte werden oft falsch bzw.
überinterpretiert; dieser Artikel fasst die schwerwiegendsten Trugschlüsse zusammen.
• Cohen (1990), Things I have learned (so far); Cohen (1994), The Earth is round (p < .05):
Nützliche allgemeine Hinweise für den Umgang mit quantitativen Daten sowie auch
verständliche Einwände gegen p-Werte.
• Gelman & Stern (2006), The difference between “significant” and “not significant” is not itself
statistically significant: Sie stellen fest, dass ein Prädiktor in der einen Stichprobe oder
Experimentalgruppe einen signifikanten Effekt hat, in der anderen jedoch nicht. Bevor Sie
auf der Basis dieses Unterschieds Schlussfolgerungen ziehen, lohnt sich eine Lektüre dieses
Artikels. Ergänzend dazu habe ich noch den Blogeintrag Assessing differences of significance
geschrieben.
• Johnson (2008), Quantitative methods in linguistics: Wiederholung von den häufigsten Testverfahren (t-Test, Korrelation, Regression, ANOVA, χ2 -Test) sowie auch eine Einführung in
fortgeschrittenere Methoden (repeated-measures ANOVA, gemischte Modelle, Hauptkomponentenanalyse, logistische Regression).
140
KAPITEL 9. LITERATUREMPFEHLUNGEN
9.2
141
Fortgeschrittenere Methoden
In diesem Kurs haben wir uns mit den Grundlagen der quantitativen Analyse befasst. Dabei
mussten wir uns leider hauptsächlich mit eher einfachen Forschungsfragen und fiktiven Datensätzen zufriedengeben. Der Grund ist naheliegend: Echte Fragenstellungen bedingen oft
kompliziertere Designs mit etwa mehreren Messungen pro Versuchsperson oder sonstigen Abhängigkeiten (z.B. SchülerInnen aus unterschiedlichen Klassen). Um die Daten solcher Studien
auszuwerten, sind oft fortgeschrittenere Verfahren angebracht. Diese Verfahren kann man sich
aus meiner Sicht nach dem Need-to-know-Prinzip aneignen, aber zunächst ist es natürlich nötig
zu wissen, welche Möglichkeiten es alles gibt. Die folgenden Texte besprechen Verfahren, die
sich bei der Auswertung linguistischer und psychologischer Daten oft als nützlich erweisen, und
werden ihrer empfohlenen Lesereihenfolge nach aufgeführt:
• Winter (2013), Linear models and linear mixed effects models in R with linguistic applications:
Eine Anleitung zu Regressionsmodellen, inkl. gemischte Modelle (siehe unten).
• Baayen (2008), Analyzing linguistic data: A practical introduction to statistics using R: Nimmt
schon an, dass man mit den Basisbegriffen vertraut ist. Illustriert viele nützliche fortgeschrittenere Methoden und grafische Darstellungen mit R. Insbesondere die Kapitel
zu Regressionmodellen und gemischten Modellen sind empfehlenswert. Draftversion
verfügbar unter www.sfs.uni-tuebingen.de/ hbaayen/publications/baayenCUPstats.pdf.
• Baayen et al. (2008), Mixed-effects modeling with crossed random effects for subjects and items;
Jaeger (2008), Categorical data analysis: Away from ANOVAs (transformation or not) and towards
logit mixed models; Quené & van den Bergh (2008), Examples of mixed-effects modeling with
crossed random effects and with binomial data: Gemischte Modelle bieten sich an, wenn jede
Versuchsperson mehrere Datenpunkte beiträgt, wie es in psycholinguistischen Experimenten oder in Korpusstudien üblich ist, und auch in anderen Fällen können sie nützlich sein.
Diese drei Artikel besprechen die Logik dieser gemischten Modelle und illustrieren ihren
Mehrwert anhand (psycho)linguistischer Daten.
• Johnson (2009), Getting off the GoldVarb standard: Introducing Rbrul for mixed-effects variable
rule analysis; Tagliamonte & Baayen (2012), Models, forests, and trees of York English: Was/were
variation as a case study for statistical practice: Wenn Ihre Forschung eher in der Dialektologie
oder variationistischen Soziolinguistik angesiedelt ist, lohnt sich die Lektüre dieser beiden
Artikel als Einstieg in die statistische Auswertung komplexerer Datensätze. Beide Artikel
besprechen Alternativen zu dem, was man in der variationistischen Soziolinguistik als
VARBRUL kennt.
• Crawley (2007), The R book; Everitt & Hothorn (2010), A handbook of statistical analyses using
R; Levshina (2015), How to do linguistics with R: Diese Bücher (wie auch viele andere) bieten
eine Übersicht fortgeschrittenere Verfahren und ihre Implementierung in R.
9.3
Informative Grafiken erzeugen
• Das ggplot2-Package (Wickham 2009) bietet fast unlimierte Möglichkeiten für die Herstellung informativer Grafiken. Seine Dokumentationswebseite ist dank der vielen Beispiele
besonders nützlich.
• Chang (2013), R graphics cookbook: Verwendet auch das ggplot2-Package.
Kapitel 10
Praktische Empfehlungen
10.1
Planung
• Machen Sie sich über bewährte Forschungsdesigns und Erhebungsmethoden schlau. Siehe
hierzu etwa Blom & Unsworth (2010), Mackey & Gass (2012), Dörnyei (2003) und auch
Porte (2002). Allgemeinere Referenzen sind etwa Krosnick & Presser (2010) zu Fragebogen
und – technischer – Oehlert (2010) zu experimentellen Anordnungen.
• Überlegen Sie sich die Analyse bereits bei der Planung der Studie. Manchmal kann das
Design der Studie noch minimal geändert werden, um die Analyse zu vereinfachern. Wenn
trotzdem eine schwierigere Analyse angesagt ist, sollten Sie sich genügend Zeit gönnen,
sich über die benötigten Verfahren schlau zu machen.
• Überlegen Sie sich im Vorhinein gut, für welche Vergleiche und Zusammenhänge Sie
sich genau interessieren. Die Analyse ist bei einer deutlichen Forschungsfrage erheblich
einfacher als bei einer vagen Vorstellung.
• Pilotieren Sie unbedingt Ihre Studie. Wenn sich bei der Pilotierung etwa herausstellt, dass
mit Boden- oder Deckeneffekten zu rechnen ist, können Sie dann hoffentlich das Design
noch anpassen.
• Überlegen Sie sich die power Ihrer Studie, auch wenn es schwierig ist, sie in einer genauen
Zahl zu fassen. Die power könnte erhöht werden, indem mehr Versuchspersonen rekrutiert werden, genauere, zuversichtliche Messungen erhoben werden (z.B. Sprachtest statt
Selbsteinschätzung), die Studie als ein within-subjects-Design gestaltet wird (aber hieran
sind auch Nachteile verknüpft), mehrere Messungen pro Versuchsperson erhoben werden
und für die Studie uninteressante Quellen von Varianz ausgeschlossen oder im Design
und in der Analyse berücksichtigt werden (siehe Seiten 90 und 108).
10.2
Analyse
• Tippen Sie Ihre Befehle nicht direkt in R ein, sondern schreiben Sie diese zuerst in ein Skript.
Kommentieren Sie die Schritte in Ihrer Analyse: Jetzt sind diese nachvollziehbar, aber in
vier Monaten werden Sie nicht mehr wissen, was welcher Befehl genau bewirken soll.
• Zeichnen Sie beim Analysieren reichlich Grafiken: Nie blind herumrechnen! Kodierungsfehler, Fehler beim Einlesen, problematische Ausreisser und sonstige relevante Muster
142
KAPITEL 10. PRAKTISCHE EMPFEHLUNGEN
143
werden so am schnellsten ersichtlich.
• Stellen Sie sich bei jedem Signifikanztest die Fragen: “Was macht dieser Test eigentlich?
Und interessiert mich das?” So vergleicht man mit t-Tests und Varianzanalyse Mittel; bei
deutlich schief- oder bimodalverteilten Daten dürften die Mittel weniger interessant sein.
Ähnlich schaut man sich bei Korrelationen und Regression den linearen Zusammenhang
an; bei stark nicht-linearen Zusammenhängen dürften diese Verfahren nicht so relevant
sein. Die Frage nach den Annahmen der Tests erübrigt sich oft so: Wenn Sie feststellen,
dass die Daten stark schief statt ungefähr normalverteilt sind, können Sie zwar oft noch
einen t-Test ausführen, wollen dies aber nicht mehr unbedingt.
10.3
Bericht
• Nehmen Sie Rücksicht auf Ihre Leserschaft. Viele LinguistInnen, geschweige denn Laien,
sind nicht stark quantitativ ausgebildet. Wenn Sie vor ein paar Monaten bei gewissen
Verfahren Verständnisschwierigkeiten hatten, wird dies für einen Teil Ihrer Leserschaft
wohl auch zutreffen. Dazu noch:
– Artikel voller ANOVAs sind schlicht unlesbar: Nicht jede quantitative Aussage muss
mit einem Test belegt werden. Sparen Sie die Tests für Ihre zentralen Forschungsfragen
auf und nehmen Sie sich die Mühe, diese auch zu erklären.
– Sie brauchen nicht jede Dezimalzahl, die R Ihnen ausspuckt, zu berichten. Es ist
schwierig, hierzu einfache Ratschläge zu machen (siehe aber Ehrenberg 1981). Wenn
aber etwa Reaktionszeiten in Millisekunden gemessen wurden, ist ein berichtetes
Mittel von 873.54 ms nicht ‘wissenschaftlicher’ oder ‘genauer’ als ein berichtetes
Mittel von 874 ms. Ähnlich enthält ein t-Wert von 2.7654 nicht mehr sinnvolle Informationen als ein berichteter t-Wert von 2.8. Und wenn Sie für Ihre Altersvariable eine
Standardabweichung von 2.83 Monaten berichten, berichten Sie eigentlich, dass die
Standardabweichung 2 Monaten, 24 Tage, 6 Stunden und 36 Minuten beträgt.
– Stellen Sie die zentralen Befunde Ihrer Studie im Bericht grafisch dar und stellen
Sie die Befunde anhand der Grafiken (und nicht anhand der Inferenzstatistik) der
Leserschaft vor. In eine gute Grafik sollte man gerne Zeit und Aufwand investieren.
• Sagen Sie ehrlich und deutlich, welche Analysen Post-Hoc-Analysen sind – auch wenn
diese im Nachhinein betrachtet theoretisch Sinn ergeben.
• Bleiben Sie sich der Tatsache bewusst, dass bei einer grossen Anzahl Analysen einige davon
rein zufällig Signifikanz ergeben dürften. Siehe noch Simmons et al. (2011) und Gelman &
Loken (2013).
• Überlegen Sie sich, ob Sie nicht vielleicht Ihren Datensatz und Ihren R-Kode – wie einfach
dieser auch sein mag – im Geiste der wissenschaftlicen Transparenz online stellen können.
Ich stelle meine Daten und Kode meistens auf FigShare.
• Der Unterschied zwischen p = 0.04 und p = 0.06 ist minimal – und dies gilt in beiden
Richtungen: Ein p-Wert von 0.06 kann man zwar noch optimistisch als ‘fast signifikant’
betrachten, aber genauso gilt, dass ein p-Wert von 0.04 nicht gerade die überzeugendste
Evidenz gegen die Nullhypothese darstellt. Letzten Endes sind Signifikanztests nur ein
Hilfsmittel – der wahre Nachweis einer Theorie liegt in ihrer wiederholten empirischen
Bestätigung.
Gelman & Hill (2007, Anhänge A und B) geben weitere praktische Tipps für die Analyse und
das Berichten.
KAPITEL 10. PRAKTISCHE EMPFEHLUNGEN
10.4
144
Probleme lösen
• Eine Übersicht über die häufigsten Fehlermeldungen in R und mögliche Lösungen finden
Sie unter www.wcsmalaysia.org/analysis/R_ commonErrors.htm.
• Die Mailingliste ling-r-lang-L ist eine Art Selbsthilfegruppe für LinguistInnen, die Fragen
zu R oder Statistik im Allgemeinen haben.
• Für Fragen zu Statistik kann man sich auch an die Cross Validated-BenützerInnen wenden;
für R-Fragen an Stack Overflow.
• Wen Sie auch um Hilfe bitten: Stellen Sie konkrete Fragen und nehmen Sie sich die Mühe,
ein minimal working example mitzuliefern. (Oft findet man beim Erzeugen eines solchen
MWE selbst das Problem.) Zeigen Sie auch den Output der Funktion sessionInfo().
Literaturverzeichnis
Abbuhl, Rebekha, Susan Gass & Alison Mackey. 2013. Experimental research design. In Podesva
& Sharma (2013) 116–134.
Abrahamsson, Niclas & Kenneth Hyltenstam. 2009. Age of onset and nativelikeness in a second
language: Listener perception versus linguistic scrutiny. Language Learning 59. 249–306.
Altman, Douglas G. & Patrick Royston. 2006. The cost of dichotomising continuous variables.
BMJ 332. 1080. doi:10.1136/bmj.332.7549.1080.
Baayen, R. H., D. J. Davidson & D. M. Bates. 2008. Mixed-effects modeling with crossed random
effects for subjects and items. Journal of Memory and Language 59. 390–412.
Baayen, R. Harald. 2008. Analyzing linguistic data: A practical introduction to statistics using R.
Cambridge: Cambridge University Press.
Baguley, Thom. 2009. Standardized or simple effect size: What should be reported? British Journal
of Psychology 100. 603–617.
Bender, Ralf & Stefan Lange. 2001. Adjusting for multiple testing: when and how? Journal of
Clinical Epidemiology 54. 343–349.
Bland, J. Martin & Douglas G. Altman. 1994. One and two sided tests of significance. BMJ 309.
248.
Blom, Elma & Sharon Unsworth (eds.). 2010. Experimental methods in language acquisition research.
Amsterdam: John Benjamins.
Camilli, Gregory & Kenneth D. Hopkins. 1978. Applicability of chi-square to 2 × 2 contingency
tables with small expected cell frequencies. Psychological Bulletin 85(1). 163–167.
Carifio, James & Rocco Perla. 2008. Resolving the 50-year debate around using and misusing
Likert scales. Medical Education 42. 1150–1152.
Chang, Winston. 2013. R graphics cookbook: Practical recipes for visualizing data. Beijing: O’Reilly.
Clark, Herbert H. 1973. The language-as-fixed-effect fallacy: A critique of language statistics in
psychological research. Journal of Verbal Learning and Verbal Behavior 12. 335–359.
Cleveland, William S. 1993. Visualizing data. Murray Hill, NJ: AT&T Bell Laboratories.
Cohen, Jacob. 1983. The cost of dichotomization. Applied Psychological Measurement 7. 249–253.
Cohen, Jacob. 1990. Things I have learned (so far). American Psychologist 45. 1304–1312.
Cohen, Jacob. 1992. A power primer. Psychological Bulletin 112. 155–159.
Cohen, Jacob. 1994. The Earth is round (p < .05). American Psychologist 49. 997–1003.
Costa, Albert, Alice Foucart, Inbal Arnon, Melina Aparici & Jose Apesteguia. 2014a. ‘Piensa’
twice: On the foreign language effect in decision making. Cognition 130(2). 236–254.
145
LITERATURVERZEICHNIS
146
Costa, Albert, Alice Foucart, Sayuri Hayakawa, Melina Aparici, Jose Apesteguia, Joy Heafner
& Boaz Keysar. 2014b. Your morals depend on language. PLOS ONE 9. e94842. doi:10.1371/
journal.pone.0094842.
Crawley, Michael J. 2007. The R book. Chichester: Wiley.
DeKeyser, Robert, Iris Alfi-Shabtay & Dorit Ravid. 2010. Cross-linguistic evidence for the nature
of age effects in second language acquisition. Applied Psycholinguistics 31. 413–438.
Dienes, Zoltan. 2011. Bayesian versus orthodox statistics: Which side are you on? Perspectives on
Psychological Science 6. 274–290.
Dörnyei, Zoltán. 2003. Questionnaires in second language research: Construction, administration, and
processing. Mahwah, NJ: Lawrence Erlbaum.
Ehrenberg, A. S. C. 1981. The problem of numeracy. The American Statistician 35(2). 67–71.
Ehrenberg, A. S. C. 1982. A primer in data reduction: An introductory statistics textbook. Chichester:
Wiley.
Eisenhauer, Joseph G. 2008. Degrees of freedom. Teaching Statistics 30. 75–78.
Ernst, Michael D. 2004. Permutation methods: A basis for exact inference. Statistical Science 19.
676–685.
Everitt, Brian S. & Torsten Hothorn. 2010. A handbook of statistical analyses using r. Boca Raton, FL:
Chapman & Hall/CRC 2nd edn.
Faraway, Julian J. 2006. Extending the linear model with r: Generalized linear, mixed effects and
nonparametric regression models. Boca Raton, FL: Chapman & Hall/CRC.
Ferragne, Emmanuel & François Pellegrino. 2010. Formant frequencies of vowels in 13 accents of
the British Isles. Journal of the International Phonetic Association 40. 1–34.
Gelman, Andrew & John Carlin. 2014. Beyond power calculations: Assessing Type S (sign) and
Type M (magnitude) errors. Perspectives on Psychological Science 9(6). 641–651.
Gelman, Andrew & Jennifer Hill. 2007. Data analysis using regression and multilevel/hierarchical
models. New York: Cambridge University Press.
Gelman, Andrew & Eric Loken. 2013. The garden of forking paths: Why multiple comparisons
can be a problem, even when there is no ‘fishing expedition’ or ‘p-hacking’ and the research hypothesis was posited ahead of time. http://www.stat.columbia.edu/~gelman/research/
unpublished/p_hacking.pdf.
Gelman, Andrew & Hal Stern. 2006. The difference between “significant” and “not significant”
is not itself statistically significant. The American Statistician 60. 328–331.
Goodman, Steven. 2008. A dirty dozen: Twelve p-value misconceptions. Seminars in Hematology
45. 135–140.
Green, Donald P. & Elizabeth Levy Paluck. 2004. Double-blind procedure. In Michael S. LewisBeck, Alan Bryman & Tim Futing Liao (eds.), The SAGE encyclopedia of social science research
methods, 285–286. Thousand Oaks, CA: Sage.
Guiora, Alexander Z., Benjamin Beit-Hallahmi, Robert C. L. Brannon, Cecelia Y. Dull & Thomas
Scovel. 1972. The effects of experimentally induced changes in ego state on pronunciation
ability in a second language: An exploratory study. Comprehensive Psychiatry 13(5). 421–428.
Hoekstra, Rink, Richard D. Morey, Jeffrey N. Rouder & Eric-Jan Wagenmakers. 2014. Robust
misinterpretation of confidence intervals. Psychonomic Bulletin & Review 21(5). 1157–1164.
LITERATURVERZEICHNIS
147
Honaker, James, Gary King & Matthew Blackwell. 2012. Amelia: Amelia II: A program for
missing data. R package, version 1.6.4. http://cran.r-project.org/package=Amelia.
Huff, Darrell. 1954. How to lie with statistics. New York: Norton.
Huitema, Bradley E. 2011. The analysis of covariance and alternatives: Statistical methods for experiments, quasi-experiments, and single-case studies. Hoboken, NJ: Wiley.
Imai, Kosuke, Gary King & Elizabeth A. Stuart. 2008. Misunderstandings between experimentalists and observationalists about causal inference. Journal of the Royal Statistical Society: Series A
(Statistics in Society) 171. 481–502.
Jaeger, T. Florian. 2008. Categorical data analysis: Away from ANOVAs (transformation or not)
and towards logit mixed models. Journal of Memory and Language 59. 434–446.
Jaeger, T. Florian, Peter Graff, William Croft & Daniel Pontillo. 2011. Mixed effect models for
genetic and areal dependencies in linguistic typology. Linguistic Typology 15. 281–320.
Johnson, Daniel Ezra. 2009. Getting off the GoldVarb standard: Introducing Rbrul for mixedeffects variable rule analysis. Language and Linguistics Compass 3(1). 359–383.
Johnson, Daniel Ezra. 2013. Descriptive statistics. In Podesva & Sharma (2013) 288–315.
Johnson, Jacqueline S. & Elissa L. Newport. 1989. Critical period effects in second language
learning: The influence of maturational state on the acquisition of English as a second language.
Cognitive Psychology 21. 60–99.
Johnson, Keith. 2008. Quantitative methods in linguistics. Malden, MA: Blackwell.
Kaiser, Irmtraud & Elisabeth Peyer. 2011. Grammatikalische Schwierigkeiten beim Lesen in Deutsch
als Fremdsprache: eine empirische Studie. Hohengehren: Schneider Verlag.
Kerr, Norbert L. 1998. HARKing: Hypothesizing after the results are known. Personality and
Social Psychology Review 2. 196–217.
Keysar, Boas, Sayuri L. Hayakawa & Sun Gyu An. 2012. The foreign-language effect: Thinking
in a foreign tongue reduces decision biases. Psychological Science 23(6). 661–668.
Klein, Richard A, Kate A Ratliff, Michelangelo Vianello, Reginald B Adams Jr, Štěpán Bahník,
Michael J Bernstein, Konrad Bocian, Mark J Brandt, Beach Brooks, Claudia Chloe Brumbaugh
et al. 2014. Investigating variation in replicability: A “many labs” replication project. Social
Psychology 45(3). 142–152.
Krosnick, Jon A. & Stanley Presser. 2010. Question and questionnaire design. In Peter V. Marsden
& James D. Wright (eds.), Handbook of survey research, 263–313. Bingley: Emerald 2nd edn.
Kruschke, John K. 2011. Doing Bayesian data analysis. A tutorial with R and BUGS. Burlington, MA:
Academic Press.
Levshina, Natalia. 2015. How to do linguistics with R: Data exploration and statistical analysis.
Amsterdam: John Benjamins.
Ludbrook, John. 2008. Analysis of 2 × 2 tables of frequencies: matching test to experimental
design. International Journal of Epidemiology 37. 1430–1435.
Mackey, Alison & Susan M. Gass (eds.). 2012. Research methods in second language acquisition: A
practical guide. Chichester: Wiley-Blackwell.
Mook, Douglas G. 1983. In defense of external invalidity. American Psychologist 38. 379–387.
Morey, Richard D., Rink Hoekstra, Jeffrey N. Rouder, Michael D. Lee & Eric-Jan Wagenmakers. 2015. The fallacy of placing confidence in confidence intervals. Psychonomic Bulletin &
LITERATURVERZEICHNIS
148
Review 23(1). 103–123. doi:10.3758/s13423-015-0947-8. https://learnbayes.org/papers/
confidenceIntervalsFallacy/.
Nakawaga, Shinichi. 2004. A farewell to Bonferroni: the problems of low statistical power and
publication bias. Behavioral Ecology 15. 1044–1045.
Norman, Geoff. 2010. Likert scales, levels of measurement and the “laws” of statistics. Advances
in Health Science Education 15. 625–632.
Oehlert, Gary W. 2010. A first course in the design and analysis of experiments. http://users.stat.
umn.edu/~gary/book/fcdae.pdf.
Perneger, Thomas V. 1998. What’s wrong with Bonferroni adjustments. BMJ 316. 1236–1238.
Plonsky, Luke & Frederick L. Oswald. 2014. How big is “big”? Interpreting effect sizes in L2
research. Language Learning 64. 878–912.
Podesva, Robert J. & Devyani Sharma (eds.). 2013. Research methods in linguistics. Cambridge:
Cambridge University Press.
Porte, Graeme Keith. 2002. Appraising research in second language learning: A practical approach to
critical analysis of quantitative research. Amsterdam: John Benjamins.
Quené, Hugo. 2010. How to design and analyze language acquisition studies. In Elma Blom &
Sharon Unsworth (eds.), Experimental methods in language acquisition research, 269–284. Amsterdam: John Benjamins.
Quené, Hugo & Huub van den Bergh. 2008. Examples of mixed-effects modeling with crossed
random effects and with binomial data. Journal of Memory and Language 59. 413–425.
Rugg, D. 1941. Experiments in wording questions: II. Public Opinion Quarterly 5. 91–92.
Ruxton, Graeme D. 2006. The unequal variance t-test is an underused alternative to Student’s
t-test and the Mann–Whitney u test. Behavioral Ecology 17. 688–690.
Ruxton, Graeme D. & Guy Beauchamp. 2008. Time for some a priori thinking about post hoc
testing. Behavioral Ecology 19(3). 690–693.
Sarkar, Deepayan. 2008. Lattice: Multivariate data visualization with R. New York: Springer.
Schmidt, Frank L. 1996. Statistical significance testing and cumulative knowledge in psychology:
Implications for training of researchers. Psychological Methods 1. 115–129.
Simmons, Joseph P., Leif D. Nelson & Uri Simonsohn. 2011. False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant.
Psychological Science 22. 1359–1366.
Stevens, S. S. 1946. On the theory of scales of measurement. Science 103. 677–680.
Stocker, Ladina. 2014. The impact of foreign accent on credibility: An analysis of cognitive statement
ratings at the crossroads of sociolinguistic and psycholinguistic approaches. Freiburg (CH) Universität
Freiburg Schweiz MA thesis.
Tagliamonte, Sali A. & R. Harald Baayen. 2012. Models, forests, and trees of York English:
Was/were variation as a case study for statistical practice. Language Variation and Change 24.
135–178.
Tversky, A. & D. Kahneman. 1981. The framing of decisions and the psychology of choice. Science
211. 453–458.
Vanhove, Jan. 2013. The critical period hypothesis in second language acquisition: A statistical
critique and a reanalysis. PLOS ONE 8. e69172.
LITERATURVERZEICHNIS
149
Vanhove, Jan. 2014. Receptive multilingualism across the lifespan: Cognitive and linguistic factors in
cognate guessing: University of Fribourg dissertation. http://ethesis.unifr.ch/theses/
downloads.php?file=VanhoveJ.pdf.
Vanhove, Jan. 2015a. Analyzing randomized controlled interventions: Three notes for applied
linguists. Studies in Second Language Learning and Teaching 5. 135–152.
Vanhove, Jan. 2015b. The early learning of interlingual correspondence rules in receptive
multilingualism. International Journal of Bilingualism OnlineFirst.
Vanhove, Jan & Raphael Berthele. 2013. Factoren bij het herkennen van cognaten in onbekende
talen: algemeen of taalspecifiek? Taal & Tongval 65. 171–210.
Velleman, Paul F. & Leland Wilkinson. 1993. Nominal, ordinal, interval, and ratio typologies are
misleading. The American Statistician 47. 65–72.
Wagenmakers, Eric-Jan, Angelos-Miltiadis Krypotos, Amy H. Criss & Geoff Iverson. 2012. On the
interpretation of removable interactions: A survey of the field 33 years after Loftus. Memory &
Cognition 40. 145–160.
Wickham, Hadley. 2009. ggplot2: Elegant graphics for data analysis. Dordrecht: Springer.
Wickham, Hadley. 2014. Tidy data. Journal of Statistical Software 59.
Winter, Bodo. 2013. Linear models and linear mixed effects models in R with linguistic applications. arXiV. http://arxiv.org/abs/1308.5499.