Statistische Grundlagen - Université de Fribourg
Transcription
Statistische Grundlagen - Université de Fribourg
Statistische Grundlagen Eine Einführung mit Beispielen aus der Sprachforschung Jan Vanhove Universität Freiburg/Fribourg Departement für Sprachen und Literaturen Studienbereich für Mehrsprachigkeitsforschung und Fremdsprachendidaktik [email protected] http://janhove.github.io Letzte Überarbeitung: Mai 2016 Vorwort Anders als in anderen Geisteswissenschaften wie der Psychologie oder Pädagogik gehören Statistikkurse eher selten zur Grundausbildung von Forschenden in Bereichen wie den einzelsprachigen Philologien (Anglistik, Germanistik, Romanistik usw.), der theoretischen oder angewandten Linguistik oder der Mehrsprachigkeitsforschung. Das Ziel des vorliegenden Skriptes ist es daher, Forschenden in diesen Bereichen statistische Grundkenntnisse zu vermitteln, die ihnen sowohl bei der Lektüre quantitativer Forschungsberichte als auch bei der Gestaltung und Auswertung eigener Studien nützlich sein werden. Ursprunglich diente dieses Skript als Grundlage eines Wahlfaches, das ich seit 2012 regelmässig am Studienbereich für Mehrsprachigkeitsforschung und Fremdsprachendidaktik der Universität Freiburg (Schweiz) unterrichte. Ich denke jedoch, dass es auch als selbstständige Lektüre geeignet sein dürfte – auch wenn es noch verbesserungsfähig ist. Dieses Skript hat aber nicht zum Ziel, ein ‘Schema F’ für die Datenanalyse zu bieten. Vielmehr versucht es, Ihnen die zentralen Konzepten der quantitativen Analyse beizubringen, sodass Sie diese Verfahren selbst überlegt einsetzen können oder auch ihre Anwendung in anderen Studien reflektieren können – nicht ‘Wann darf ich diesen Test benutzen?’ sondern ‘Was nutzt mir dieser Test überhaupt?’ Wichtig ist also, dass zumindest die am häufigsten verwendeteten statistischen Verfahren nicht als Orakel betrachtet werden, sondern dass sie weitgehend demystifiziert werden. Dies ist natürlich – sowohl für Sie als auch für mich – am Anfang erheblich schwieriger als ein Schema F. Aber der Mehraufwand zahlt sich aus, wenn Sie am Ende nicht nur im Stande sind, statistischen Ratschlägen (oder manchmal besser: ‘Befehlen’) zu folgen, sondern diese auch kritisch reflektieren können. Auch wird Ihnen hoffentlich klar, dass viele ‘Orakel’ (z.B. t-Tests, ANOVAs und Regressionen) im Grunde alle nur Erscheinungsformen der gleichen Logik sind. Die Verfahren, die in diesem Skript besprochen werden, sind in der Tradition der sog. frequentistischen Inferenzstatistik angesiedelt. Es gibt aber andere statistische Traditionen – und die dürften für viele Fragestellungen durchaus angemessener sein (siehe etwa Dienes 2011). Aber beim Gestalten eines Einführungskurses in die Statistik muss eine Abwägung zwischen dem ist- und dem soll-Zustand gemacht werden. Fürs Erste habe ich dafür gewählt, jene Verfahren zu präsentieren, die Sie in Forschungsberichten am häufigsten antreffen werden. Ich möchte Sie aber dazu anhalten, sich auch mit Methoden, die nicht detailliert in diesem Skript behandelt werden, auseinanderzusetzen. Literaturempfehlungen dazu finden Sie in Kapitel 9 sowie auch an den relevanten Stellen im Skript. Zuletzt möchte ich auf meinen Blog unter http://janhove.github.io verweisen, wo ich quasi-regelmässig die statistische Praxis in der angewandten Linguistik und Mehrsprachigkeitsforschung unter die Lupe nehme und diese konstruktiv zu kritisieren versuche. In diesem Skript wird die Programmiersprache bzw. das Programm R verwendet – kostenlos herunterzuladen unter http://www.r-project.org/. R hat eine steile Lernkurve, aber auch dieser Aufwand wird sich auszahlen, denn das Programm zwingt seine BenutzerInnen über die Analyse nachzudenken. Ausserdem ist R gratis und quasi unbegrenzt erweiterbar (siehe die ‘Packages’ unter http://cran.r-project.org/web/packages/available_packages_by_name.html). Als i ii graphical user interface ist RStudio zu empfehlen: http://www.rstudio.com/. Zu guter Letzt möchte ich darauf hinweisen, dass dieses Skript sich als ein work-in-progress versteht. Ich bin von meiner Ausbildung her kein Statistiker und mein Verständnis der besprochenen Verfahren entwickelt sich ständig. Ausserdem bin ich kein deutscher Muttersprachler und daher ist der Text auch in dieser Hinsicht verbesserungsfähig. Für jegliche Hinweise, sowohl technisch als auch sprachlich, bin ich natürlich dankbar. Jan Vanhove Freiburg/Fribourg, Mai 2015 http://janhove.github.io Bei der Überarbeitung vom Mai 2016 habe ich ein paar Sprach- und Tippfehler durch andere ersetzt und ein paar Abschnitte ergänzt oder zu vereinfachen versucht. Zudem habe ich versucht, den Gebrauch der sehr nützlichen ggplot2- und dplyr-Packages zu illustrieren. Jan Vanhove Freiburg/Fribourg, Mai 2016 Inhaltsverzeichnis I Grundlagen 1 Daten beschreiben 1.1 Messniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Daten einlesen und anzeigen in R . . . . . . . . . . . . . . . . . 1.2.1 Struktur von Datensätzen . . . . . . . . . . . . . . . . . 1.2.2 Daten einlesen in R . . . . . . . . . . . . . . . . . . . . . 1.2.3 Daten anzeigen in R . . . . . . . . . . . . . . . . . . . . 1.3 Einzelne Variablen numerisch beschreiben . . . . . . . . . . . 1.3.1 Mittelwerte (‘zentrale Tendenz’) . . . . . . . . . . . . . 1.3.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Grafische Darstellung einer Population von univariaten Daten 1.4.1 Cleveland dotchart . . . . . . . . . . . . . . . . . . . . . 1.4.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.3 Säulendiagramm . . . . . . . . . . . . . . . . . . . . . . 1.4.4 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.5 Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . . 1.5 Klassische (idealisierte) Datenverteilungen . . . . . . . . . . . 1.5.1 Gleichverteilung oder Uniformverteilung . . . . . . . . 1.5.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . 1.5.3 Bimodale Verteilung . . . . . . . . . . . . . . . . . . . . 1.5.4 Schiefe Verteilungen . . . . . . . . . . . . . . . . . . . . 1.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 3 4 5 6 6 10 12 13 13 14 15 16 18 18 18 20 20 20 Wahrscheinlichkeitsaussagen über neue Beobachtungen 2.1 Beispiel: kontinuierliche Gleichverteilung . . . . . . . . . . . . . . . . . . 2.1.1 Wahrscheinlichkeit = Fläche unter der Wahrscheinlichkeitsdichte 2.1.2 Kumulative Verteilungsfunktion . . . . . . . . . . . . . . . . . . . 2.2 Beispiel Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 22 23 23 24 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitsaussagen über Stichproben 3.1 Zentrale Tendenz und Streuung der Population anhand einer Stichprobe schätzen 3.1.1 Stichprobenmittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Stichprobenvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Stichprobenstandardabweichung . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Verteilung von Stichprobenmitteln . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Simulation: Verteilung der Stichprobenmittel aus einer rechtsschiefen Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Simulation: Verteilung der Stichprobenmittel aus einer Gleichverteilung . 3.2.3 Fazit: Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . iii 28 29 29 29 31 32 32 33 34 INHALTSVERZEICHNIS 3.3 4 II 5 6 iv 3.2.4 Wahrscheinlichkeitsaussagen über neue Stichproben . . . . . . . . . . . . Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Logik des Signifikanztests 4.1 Einstichproben-Gauss-Test . . . . 4.1.1 Fragestellung und Daten . 4.1.2 Lösung . . . . . . . . . . . 4.1.3 Schlussfolgerungen . . . . 4.1.4 Anmerkungen . . . . . . . 4.1.5 Power berechnen . . . . . 4.1.6 Relative Effektgrössen . . 4.1.7 Übungen . . . . . . . . . . 4.2 Konfidenzintervalle . . . . . . . . 4.3 Einstichproben-t-Test . . . . . . . 4.3.1 Die t-Verteilungen . . . . 4.3.2 Hypothesen testen . . . . 4.3.3 t- oder Gauss-Test? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die weitverbreitesten Tests und Modelle 34 35 36 36 36 37 38 39 41 43 43 44 45 45 46 49 50 Zwei Stichproben vergleichen 5.1 Exkurs: Randomisierung als Inferenzbasis . . . . . . . . . . . . . . . . . . . . . 5.1.1 Ein einfaches Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Warum randomisieren? . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Die Nullhypothese und Re-Randomisierung . . . . . . . . . . . . . . . 5.1.4 Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.5 Die Holzhammermethode: Permutationstest für grössere Stichproben 5.2 Zweistichproben-t-Test für unabhängige Stichproben . . . . . . . . . . . . . . 5.2.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.5 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.6 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.7 Welch-Test für Stichproben mit ungleichen Varianzen . . . . . . . . . . 5.2.8 Alternativ für nicht-normalverteilte Daten . . . . . . . . . . . . . . . . 5.2.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Zweistichproben-t-Test für abhängige Stichproben . . . . . . . . . . . . . . . . 5.3.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.3 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.4 Schlussfolgerungen und Bemerkungen . . . . . . . . . . . . . . . . . . 5.3.5 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.6 Alternativ für nicht-normalverteilte Stichprobendifferenzen . . . . . . 5.3.7 Denkfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.8 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 52 52 52 53 55 55 55 56 56 57 57 60 60 60 61 62 64 64 64 65 67 67 67 68 68 Zusammenhänge zwischen kontinuierlichen Variablen 6.1 Frage 1: Kovarianz und Korrelation . . . . . . . . . . 6.1.1 Grafische Darstellung: das Streudiagramm . 6.1.2 Kovarianz . . . . . . . . . . . . . . . . . . . . 6.1.3 Pearsons Produkt-Moment-Korrelation (r) . . . . . . . . . 70 71 71 72 73 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . INHALTSVERZEICHNIS 6.2 6.3 7 8 v 6.1.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frage 2: Einfache lineare Regression . . . . . . . . . . . . . . . . . . . 6.2.1 Regressionsgerade, ‘vorhergesagte’ Werte und Residuen . . . 6.2.2 Zusätzliche Informationen mit summary() . . . . . . . . . . . 6.2.3 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frage 2: Mehrfache lineare Regression . . . . . . . . . . . . . . . . . . 6.3.1 Mehrere kontinuierliche Prädiktoren (mehrfache Regression) 6.3.2 Kategorielle Prädiktoren . . . . . . . . . . . . . . . . . . . . . . 6.3.3 Der Nutzen von mehrfacher Regression . . . . . . . . . . . . . 6.3.4 Vorbehalte und Weiterbildung . . . . . . . . . . . . . . . . . . 6.3.5 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 79 80 81 83 84 84 88 90 91 92 Mehrere Gruppen vergleichen 7.1 Einfaktorielle Varianzanalyse (one-way ANOVA) . . . . . . . . 7.1.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . 7.1.2 Grafische Darstellungen . . . . . . . . . . . . . . . . . . . 7.1.3 Mittel und Standardabweichungen berechnen . . . . . . 7.1.4 Signifikanztest . . . . . . . . . . . . . . . . . . . . . . . . 7.1.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . . 7.1.6 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.7 Exkurs: Geplante Vergleiche und Post-hoc-Tests . . . . . 7.1.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Zweifaktorielle Varianzanalyse (two-way ANOVA) ohne Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Daten und Fragestellung . . . . . . . . . . . . . . . . . . . 7.2.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . 7.2.3 Mittelwerte und Standardabweichungen berechnen . . . 7.2.4 Berechnung . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . . 7.2.6 Warum nicht einfach zwei ANOVAs? . . . . . . . . . . . . 7.2.7 Exkurs: Varianzaufteilung für unbalancierte Designs . . 7.3 Zweifaktorielle Varianzanalyse (two-way ANOVA) mit Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Was sind Interaktionen? . . . . . . . . . . . . . . . . . . . 7.3.2 Daten und Fragestellung . . . . . . . . . . . . . . . . . . . 7.3.3 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . 7.3.4 Berechnung . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . . 7.3.6 Zur Interpretation von Interaktionen und Haupteffekten 7.4 Varianzanalyse mit wiederholten Messungen (repeated-measures ANOVA) . . . . . . . . . . . . . . . . . . . . 7.5 Artikel mit ANOVA lesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 . . . . . . . . . . 113 Mit kategorialen abhängigen Variablen arbeiten 8.1 Kreuztabellen analysieren . . . . . . . . . . . . . . . . . . . 8.1.1 Daten und Fragestellung . . . . . . . . . . . . . . . . 8.1.2 Eine Kreuztabelle erzeugen und grafisch darstellen 8.1.3 Berechnung des χ2 -Tests . . . . . . . . . . . . . . . . 8.1.4 Schlussfolgerung und Bericht . . . . . . . . . . . . . 8.1.5 Komplikationen . . . . . . . . . . . . . . . . . . . . . 8.1.6 Aufgaben (und ein zusätzlicher Test) . . . . . . . . 8.2 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 95 95 95 97 98 101 102 103 105 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 105 106 107 107 108 108 108 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 109 109 110 111 112 112 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 116 116 117 119 120 121 125 127 INHALTSVERZEICHNIS 8.2.1 8.2.2 8.2.3 8.2.4 8.2.5 III 9 vi Warum logistische Regression? . . . . . . . . . . . . . . . . Odds und log-odds . . . . . . . . . . . . . . . . . . . . . . . Logistische Regression mit einem kategorischen Prädiktor Logistische Regression mit Interaktionen . . . . . . . . . . Logistische Regression mit kontinuierlichen Prädiktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Empfehlungen 127 128 130 132 136 139 Literaturempfehlungen 140 9.1 Wiederholung und Vertiefung von Gelerntem . . . . . . . . . . . . . . . . . . . . . 140 9.2 Fortgeschrittenere Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 9.3 Informative Grafiken erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 10 Praktische Empfehlungen 10.1 Planung . . . . . . . 10.2 Analyse . . . . . . . . 10.3 Bericht . . . . . . . . 10.4 Probleme lösen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 142 142 143 144 Teil I Grundlagen 1 Kapitel 1 Daten beschreiben In diesem Kapitel befassen wir uns mit den Grundrissen der quantitativen Analyse: Was für Datenarten gibt es? Wie können wir einzelne Reihen von Daten effizient kommunizieren (Mittelwerte, Streuung, Grafiken)? Und wie können Datensätze in R eingelesen und angezeigt werden? 1.1 Messniveaus Stevens (1946) unterscheidet vier Datenarten oder Messniveaus: • nominalskalierte Daten wie Genus (männlich–weiblich–sächlich) oder Sprache (Deutsch– Englisch–Niederländisch–Französisch. . . ). Unterschiedliche Werte auf diesen Skalen schliessen einander im Prinzip aus: Zum Beispiel sind deutsche Wörter (mit wenigen Ausnahmen) entweder sächlich, männlich oder weiblich. Es gibt aber keine natürliche Reihenfolge zwischen den ‘Stufen’ solcher Nominalskalen: Sächlich ist weder ‘besser’/‘höher’ noch ‘schlechter’/‘niedriger’ als weiblich, einfach anders. • ordinalskalierte Daten wie Einschätzungen mittels Likertskalen (etwa sehr hässlich – hässlich – neutral – schön – sehr schön oder sehr dialektal – eher dialektal – eher standardnah – sehr standardnah). Man kann sagen, dass schön einen höheren Wert auf der Skala darstellt als neutral und dass neutral einen höheren Wert darstellt als hässlich. Es ist aber schwieriger zu sagen, dass der Unterschied zwischen hässlich und neutral (eine Stufe) gleich dem Unterschied zwischen neutral und schön (ebenfalls eine Stufe) ist. • intervallskalierte Daten wie Grad Celsius. Die Null solcher Skalen ist arbiträr: 0 °C heisst nicht, dass es keine Temperatur gibt. Unterschiede auf der Skala können aber sinnvoll miteinander verglichen werden: Der Unterschied zwischen 15 und 20 °C ist gleich dem Unterschied zwischen −10 und −5 °C, und beide Unterschiede sind halb so gross wie jener zwischen 50 und 60 °C. Man kann aber nicht sagen, dass 20 °C doppelt so warm ist oder doppelt so viel Temperatur entspricht wie 10 °C. • verhältnisskalierte Daten wie Reaktionszeiten, Wortfrequenzen, Vokallänge in ms oder Anzahl Sprecher einer Sprache. Hier ist die Null bedeutungsvoll: Eine Korpusfrequenz von 0 heisst, dass das Wort nicht im Korpus vorkommt. Gibt es für das eine Wort 8 Treffer und für das andere 24, dann kann man jetzt schon sagen, dass das andere Wort 3 Mal so oft vorkommt als das eine. Intervallskalierte und verhältnisskalierte Daten bezeichnet man auch als kontinuierlich, während man für nominalskalierte Daten (und manchmal auch für ordinalskalierte Daten) auch die 2 KAPITEL 1. DATEN BESCHREIBEN 3 Begriffe kategorial oder diskret verwendet. Wie wir später sehen werden, wären je nach Messniveau andere statistische Verfahren zulässig. Diese Aufteilung wurde jedoch öfters kritisiert (Carifio & Perla 2008; Velleman & Wilkinson 1993). Die aus meiner Sicht pragmatische Lösung ist, den Unterschied zwischen den unterschiedlichen Messniveaus zwar zu kennen, ihm aber nicht zu pedantisch zu folgen. Insbesondere stösst man ab und zu auf Kritiken, in denen die Verwendung geläufiger Signifikanztests auf Likertskalen bemängelt werden. Oft zeigt sich aber das gleiche Ergebnis, wenn man solche Daten mittels anderer Methoden auswertet (Norman 2010). 1.2 Daten einlesen und anzeigen in R 1.2.1 Struktur von Datensätzen Im Folgenden arbeiten wir mit Daten, die ich im Rahmen eines Lernexperimentes erhoben habe (Vanhove 2015b). Von Interesse sind hier nicht die Daten, für die ich mich hauptsächlich interessierte, sondern die Ergebnisse von 80 Versuchspersonen bei einem deutschen Wortschatztest (Wortschatz) sowie bei einem Englisch- und Französischtest. Daneben enthält der Datensatz noch Angaben zum Geschlecht und Alter der Versuchspersonen. Die Spalte VPN enthält die ID-Nummern der Versuchspersonen. Der Datensatz besteht somit aus fünf Variablen; jede Spalte enthält die Werte einer Variable. Für jede dieser fünf Variablen verfügen wir über 80 Beobachtungen; jede Zeile enthält die Beobachtungen, die miteinander assoziiert sind (gleiche Versuchsperson). Die Datei wurde als Vanhove2015_Vpn.csv gespeichert1 und kann in einem Tabellenkalkulationsprogramm wie Excel2 oder LibreOffice Calc geöffnet werden. Dies schaut dann so aus (im Gratis-Programm LibreOffice Calc): Tipp: Geben Sie Ihren Variablen (= Spalten) möglichst eindeutige und einfache Namen. So wissen Sie auch Jahre nach der Datenerhebung, worauf sich die Zahlen beziehen. Tipp: Am einfachsten für die spätere Analyse ist es, wenn alle Beobachtungen derselben Variable in derselben Spalte stehen und es eine Zeile pro ‘Beobachtungseinheit’ gibt (Wickham 2014), wie im obigen Beispiel. 1 Die Datensätze können auf meiner Website heruntergeladen werden. die Microsoft Office-Website zum Öffnen von csv-Dateien in Excel. Persönlich finde ich das Tabellenkalkulationsprogramm von LibreOffice praktischer. 2 Siehe KAPITEL 1. DATEN BESCHREIBEN 4 Tipp: Bezeichnen Sie fehlende Werte als ‘NA’ (not available) und nicht etwa als -99 oder 0. 1.2.2 Daten einlesen in R Am einfachsten können Daten in R eingelesen werden, wenn sie als comma-separated values (CSV) gespeichert wurden. Alle relevanten Tabellenkalkulationsprogramme (Excel, LibreOffice usw.) können Arbeitsblätter als CSV speichern (Speichern unter...), aber je nach lokalen Einstellungen werden die Angaben mit Kommas oder Semikolonen voneinander getrennt. In den CSV-Dateien, die in diesem Skript verwendet werden, werden die Angaben mit Kommas getrennt und werden Punkte als Dezimaltrennzeichen verwendet. Solche Dateien können dann so in R eingelesen werden. Speichern Sie die csv-Datei in Ihr Arbeitsverzeichnis. Das Arbeitsverzeichnis können Sie in RStudio unter Session > Set Working Directory > Choose Directory einstellen. Tippen Sie dann den folgenden Befehl ein: dat <- read.csv("Vanhove2015_Vpn.csv") Vergessen Sie das Pfeilchen (<-, ohne Leerstelle zwischen < und -) und die Anführungszeichen nicht! Auch Gross- vs. Kleinschreibung ist wichtig. R kennt den Datensatz jetzt als dat. In RStudio finden Sie den Datensatz jetzt unter der Registerkarte Environment (rechts oben): Tipp: Tragen Sie die R-Befehle nicht direkt auf die Konsole (links unten) ein, sondern schreiben Sie diese zuerst in ein Skript (File > New File > R Script). Wenn Sie fertig geschrieben haben, können Sie dann die getippten Zeilen in die Konsole übertragen (z.B. Zeilen selektieren und dann Code > Run Line(s)). Insbesondere bei komplizierten Befehlen oder bei häufig verwendeten Befehlen ist dies sehr nützlich, da sich Tippfehler so einfacher aufspüren lassen und da man so Befehle einfacher ‘rezyklieren’ kann. R-Skripts können auch einfach gespeichert werden (File > Save As...), sodass man die gleiche Analyse nicht jeden Tag ganz von vorne anfangen muss. Eine alternative Methode, um Dateien einzulesen, die irgendwo auf Ihrer Festplatte stehen: dat <- read.csv(file.choose()) Auch wenn die Angaben in Ihrer CSV-Datei nicht mit Kommas sondern mit Semikolonen voneinander getrennt sind, können Sie diese in R einlesen. Dazu müssen Sie den sep-Parameter KAPITEL 1. DATEN BESCHREIBEN 5 als ; einstellen. Wenn statt Punkten Kommas als Dezimaltrennzeichen verwendet werden, können Sie dies mit dem dec-Parameter einstellen. Beispiel: daten <- read.csv("IhreDatei.csv", sep = ";", dec = ",") Details zur read.csv()-Funktion können Sie abrufen, indem Sie in R ?read.csv eintippen. Mehr Infos zum Einlesen von Datensätzen aller Art (inkl. Excel- und SPSS-Format) finden Sie unter etwa www.r-tutor.com/r-introduction/data-frame/data-import. Vorsicht: Wenn Sie eine Datei mit der Import Dataset-Funktion in RStudio einlesen, gibt RStudio dem Datensatz selber einen Namen. Dieser entspricht dann nicht dem Namen, der ihm im Skript gegeben wird, was dazu führt, dass der Code in diesem Skript nicht funktionieren wird. Vorsicht: Es kann geschehen, dass beim Einlesen einer CSV-Datei, Sonderzeichen wie ö, ü oder ß falsch eingelesen werden. Dies liegt an der Zeichenkoderierung der Datei, die nicht der defaultEinstellung Ihrer R-Installation entspricht. Wenn Sie die richtige Zeichenkodierung kennen, können Sie diese beim Einlesen spezifizieren: dat <- read.csv(file.choose(), encoding = "UTF-8") UTF-8 ist die Kodierung, die ich für all meine Dateien verwende. Gegebenenfalls können Sie in Ihrem Spreadsheet-Programm die Datei mit einer anderen Kodierung speichern. In Excel ist dies etwas umständlich; im Gratis-Programm LibreOffice geht dies einfach über File > Save as > Text CSV, wo Sie dann Edit filter settings ankreuzen können. 1.2.3 Daten anzeigen in R Um zu kontrollieren, ob ein Datensatz richtig eingelesen wurde, können Sie die ersten Zeilen des Datensatzes anzeigen lassen: head(dat) ## ## ## ## ## ## ## 1 2 3 4 5 6 VPN Wortschatz Englisch Französisch Geschlecht Alter 2 30 0.6250 0.5268 Mann 20 3 33 0.7000 0.4732 Frau 21 4 32 0.7375 0.5357 Frau 21 5 31 0.6000 0.5536 Frau 22 6 34 0.6875 0.5446 Frau 21 7 37 0.7875 0.6518 Mann 23 Nützlich ist auch die summary()-Funktion. Die Informationen, die diese anzeigt, besprechen wir später: summary(dat) ## ## ## ## ## ## ## ## ## ## VPN Min. : 2.0 1st Qu.: 28.8 Median : 51.5 Mean : 50.5 3rd Qu.: 73.2 Max. :100.0 Französisch Min. :0.429 1st Qu.:0.533 Wortschatz Englisch Min. :25.0 Min. :0.487 1st Qu.:31.0 1st Qu.:0.613 Median :33.0 Median :0.662 Mean :32.6 Mean :0.673 3rd Qu.:34.0 3rd Qu.:0.719 Max. :38.0 Max. :0.875 Geschlecht Alter Frau:66 Min. :19.0 Mann:14 1st Qu.:21.0 KAPITEL 1. DATEN BESCHREIBEN ## ## ## ## Median :0.576 Mean :0.590 3rd Qu.:0.629 Max. :0.902 6 Median :22.0 Mean :22.1 3rd Qu.:23.0 Max. :37.0 Wenn sich hier bei einigen Variablen ein Buchstabensalat zeigt, hat dies in der Regel einen dieser Gründe: • Der sep- oder dec-Parameter in der read.csv()-Funktion wurde falsch eingestellt. Lösung: Öffnen Sie die Datei mit NotePad (oder einem anderen Texteditor) und schauen Sie, welche Charaktere die Spalten voneinander trennen und welches Zeichen als Dezimaltrennzeichen dient. Stellen Sie danach die sep- und dec-Parameter richtig ein. • Ihre Datei enthält längere Textabschnitte (z.B. ganze Sätze), in denen Kommata, Semikolonen usw. vorkommen. Lösung: Stellen Sie diesen Text zwischen doppelte Anführungszeichen ("Text"). Spezifische Daten können folgendermassen angezeigt werden: dat # Name des Datensatzes: zeigt alle Daten in der Konsole dat$Wortschatz # Dollarzeichen: zeigt alle Werte in der Wortschatz-Spalte dat$Englisch[8] # zeigt den Englisch-Wert in der 8. Zeile dat[8:12, ] # zeigt Zeilen 8 bis 12 des Datensatzes dat[20:27, 2] # zeigt Zeilen 20 bis 27 in der 2. Spalte dat[20:27, -2] # zeigt die Zeilen 20 bis 27 für alle Spalten ausser der 2. dat[, c("Geschlecht", "Alter")] # zeigt alle Zeilen # für die Spalten namens 'Geschlecht' und 'Alter' # (Beachten Sie die 'c(...)'-Struktur.) Zeigen Sie alle Daten in der Alter-Spalte an. Zeigen Sie jetzt nur die 42. Beobachtung in der Alter-Spalte an. Zeigen Sie die 4. Zeile für die Spalten VPN und Geschlecht (beide zusammen). (Es sind jeweils mehrere Lösungsansätze möglich.) 1.3 1.3.1 Einzelne Variablen numerisch beschreiben Mittelwerte (‘zentrale Tendenz’) Wenn wir etwa über die Wortschatz-Ergebnisse berichten möchten, ist es umständlich, alle 80 Werte zu aufzulisten. Lieber berichten wir eine Zahl, die möglichst typisch für die 80 Beobachtungen ist. Die Wortschatz-Ergebnisse, über die wir berichten möchten, nennen wir unsere Population von Daten; die zentrale Tendenz ist ein Wert, der am typischsten, am repräsentativsten für diese Population ist (Mittelwert). Je nachdem wir ‘typisch’/‘repräsentativ’ verstehen, können wir diese Zahl numerisch anders erfassen: Es gibt also mehrere Arten von Mittelwerten. Welcher Mittelwert am geeignetsten ist, ist abhängig von (a) dem Messniveau, (b) der Verteilung der Daten, (c) dem Zweck der Studie bzw. des Berichtes. KAPITEL 1. DATEN BESCHREIBEN 7 Modus Dies ist der Wert, der am meisten vorkommt und den man daher als typisch betrachten kann. Manchmal gibt es mehr als einen Moduswert. Bei feinkörnigen Skalen (z.B. Reaktionszeiten in ms) ist es kaum sinnvoll einen Modus zu berechnen, da jeder Wert vermutlich sowieso nur einmal vorkommt. Mit table() tabulieren wir, wie oft jeder Wert vorkommt: table(dat$Wortschatz) ## ## 25 26 27 28 29 30 31 32 33 34 35 36 37 38 ## 1 1 3 1 5 5 5 12 16 14 10 3 3 1 Der Wert 33 kommt 16 Mal vor und ist somit der Modus der Wortschatz-Variable. Bespiel mit der Variable Geschlecht: table(dat$Geschlecht) ## ## Frau Mann ## 66 14 Es gibt deutlich mehr Frauen als Männer: Frauen sind gewissermassen also ‘typischere’ Versuchspersonen in diesem Datensatz. Median Dies ist der mittlere Wert, wenn die beobachteten Werte von klein nach gross geordnet werden. Bei einer geradzahligen Anzahl Beobachtungen nimmt man das Mittel der zwei mittleren Werte. R-Funktion: median() # Daten von klein nach gross ordnen und Werte 40 und 41 anzeigen sort(dat$Wortschatz)[40:41] ## [1] 33 33 # Mittel von 33 und 33 = 33 # Kürzer: median(dat$Wortschatz) ## [1] 33 Beispiel mit den Französisch-Daten: sort(dat$Französisch)[40:41] ## [1] 0.5714 0.5804 # Mittel von 0.5714 und 0.5804 = 0.576 median(dat$Französisch) ## [1] 0.5759 (Wenn Sie mit den letzten Befehlen Probleme haben sollten, liegt dies vermutlich daran, dass das ö in Französisch nicht richtig eingelesen wurde. Lesen Sie in diesem Fall den Datensatz nochmals in R ein, aber stellen Sie diesmal bei encoding “UTF-8” ein.) KAPITEL 1. DATEN BESCHREIBEN 8 Mediane sind sinnvoll bei Ordinalskalen und kontinuierlichen Daten. Bei der Variable Geschlecht, einer nominalskalierten Variable, wäre es nicht sinnvoll, über das ‘mittlere Geschlecht’ zu reden. Arithmetisches Mittel Dies ist der bekannteste Mittelwert und wird auch einfach ‘Mittel’ genannt. Es ist die Summe aller beobachteten Werte (x1 + x2 + x3 + · · · + xN , wobei N die Anzahl Beobachtungen ist) geteilt durch die Anzahl Beobachtungen. Symbol: µ. µ= x1 + x2 + x3 + x4 + · · · + xN N (1.1) R-Funktion: mean() # Summe aller Werte: sum(dat$Wortschatz) ## [1] 2605 # Anzahl Werte: length(dat$Wortschatz) ## [1] 80 # Summe geteilt durch Anzahl sum(dat$Wortschatz) / length(dat$Wortschatz) ## [1] 32.56 # Kürzer mean(dat$Wortschatz) ## [1] 32.56 In diesem Datensatz liegen Modus, Median und Mittel sehr nahe beieinander. Dies ist aber längst nicht immer der Fall. Oft wird gesagt, dass Mittel sei nur sinnvoll bei kontinuierlichen Datentypen. Für etwa LikertSkalen sei das Mittel dann ungeeignet. Hier sollten Sie meiner Meinung nach aber nicht zu pedantisch sein (siehe Abschnitt 1.1). Das Mittel gilt als der ‘normale’ Mittelwert, ist aber sehr ausreisserempfindlich. Ausreisser Extremwerte, denen möglicherweise ein technischer Fehler oder irgendeine sonstige Art von unerwünschtem externem Einfluss zu Grunde liegt. Ab wann ein Wert als Ausreisser betrachtet werden kann, ist nicht strikte definiert. Eine grafische Darstellung der Daten ist aber oft einleuchtend. Einfaches Beispiel: Dezimalstelle an falscher Stelle wegen eines Tippfehlers: # fiktive Daten eintragen ausreisser <- c(1.35, 2.54, 27.6, 1.75, 1.98, 2.09, 2.43) # grafisch darstellen plot(ausreisser) KAPITEL 1. DATEN BESCHREIBEN 9 ausreisser 25 20 15 10 5 1 2 3 4 5 6 7 Index Die Grafik zeigt deutlich, dass der 3. Wert weit von den anderen entfernt ist. Das Mittel ist daher kaum repräsentativ für diese Daten (es gibt keine Werte um 5.7): mean(ausreisser) ## [1] 5.677 In diesem Fall ist der Median besser geeignet: median(ausreisser) ## [1] 2.09 Wenn der Ausreisser eindeutig auf einen Tippfehler zurückzuführen ist, soll der Wert natürlich einfach korrigiert werden. Aber nicht jeder Ausreisser ist ein invalider Datenpunkt und Ausreisser sollten nicht automatisch gelöscht werden. Andere Mittelwerte In manchen Forschungsbereichen sind noch einige andere Mittelwerte geläufig, z.B. das harmonische und das geometrische Mittel. Diese Mittelwerte behandeln wir nicht. Tipp: Der Begriff Mittelwert (average) ist nicht eindeutig definiert, denn es gibt unterschiedliche Arten von Mittelwerten. Wählen Sie in Ihren eigenen Arbeiten daher den passenden eindeutigen Begriff. Sehr lesenswert zu diesem Thema ist noch How to lie with statistics (spezifisch Kapitel 2, aber eigentlich das ganze Buch) von Huff (1954). Tipp: Sie müssen bzw. sollten beim Berichten Ihrer Ergebnisse nicht alle Dezimalstellen berichten, die Ihnen Ihr Software ausspuckt. Es ist schwierig, hier spezifische Vorgaben zu machen. Eine Faustregel, die ich versuche zu hantieren, lautet: Berichte die Dezimalstellen, die nötig sind, um die Ergebnisse sinnvoll interpretieren zu können. Wenn etwa eine Gruppe von Lernenden Texte von im Schnitt (Mittel) 865.022 Wörtern produziert und eine andere Gruppe Texte mit im Schnitt 739.947 Wörtern schreibt, verlieren Sie keine sinnvollen Informationen, wenn Sie diese Mittel auf 865 bzw. 740 abrunden. Im Gegenteil: Die Ergebnisse sind für die Leserschaft einfacher zu verstehen. Siehe auch Ehrenberg (1981). KAPITEL 1. DATEN BESCHREIBEN 1.3.2 10 Streuung Schauen Sie sich diese zwei Zahlenreihen an: 2, 5, 5, 8, 8, 8, 8, 11, 11, 14 −58, −25, −25, 8, 8, 8, 8, 41, 41, 74 Beide Zahlenreihen haben den gleichen Modus, den gleichen Median und das gleiche Mittel (alle 8), unterscheiden sich trotzdem deutlich voneinander: Die Werte der zweiten Reihe liegen viel weiter auseinander, d.h. ihre Streuung ist grösser. Um diesen Aspekt der Daten numerisch zu erfassen, brauchen wir ein Streuungsmass. Von denen gibt es wiederum einige. Spannweite Einfach der Unterschied zwischen dem höchsten (max()) und dem niedrigsten Wert (min()). # Maximum max(dat$Wortschatz) ## [1] 38 # Minimum min(dat$Wortschatz) ## [1] 25 # Minimum und Maximum range(dat$Wortschatz) ## [1] 25 38 # Unterschied diff(range(dat$Wortschatz)) ## [1] 13 Die Spannweite basiert aber auf nur zwei Beobachtungen und ist folglich äusserst ausreisserempfindlich. Ihre Anwendung ist daher beschränkt. Summe der Quadrate Wenn wir alle Beobachtungen ins Streuungsmass einfliessen lassen wollen, scheint es auf den ersten Blick sinnvoll, die Unterschiede zwischen den beobachteten Werten und dem Mittel zu berechnen und diese Unterschiede beieinander aufzuzählen: (x1 − µ) + (x2 − µ) + . . . . Diese Summe ist aber immer 0: sum(dat$Wortschatz - mean(dat$Wortschatz)) ## [1] 0 Die häufigste Lösung besteht darin, diese Unterschiede zuerst zu quadrieren, sodass alle beieinander aufgezählten Zahlen positiv sind, und dann deren Summe zu berechnen. Dieses Streuungsmass nennt man die Summe der Quadrate (sum of squares). Symbol: S.S. oder d2 : d2 = (x1 − µ)2 + (x2 − µ)2 + · · · + (xN − µ)2 (1.2) KAPITEL 1. DATEN BESCHREIBEN 11 sum((dat$Wortschatz - mean(dat$Wortschatz))^2) ## [1] 541.7 Varianz Ein Problem mit d2 ist, dass Datensätze unterschiedlicher Grösse nicht vergleichbar sind: Je mehr Beobachtungen es gibt, desto grösser ist d2 . d2 misst also sowohl die Grösse des Datensatzes als die Streuung der Daten, und dies ist unerwünscht. Lösung: d2 teilen durch die Anzahl Beobachtungen. Dies ergibt die Varianz der Population. Symbol: σ2 : σ2 = 1 d2 = (x1 − µ)2 + (x2 − µ)2 + · · · + (xN − µ)2 N N (1.3) sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / length(dat$Wortschatz) ## [1] 6.771 Vorsicht: In der Regel müssen wir die Varianz einer Stichprobe, nicht jene einer Population berechnen. Diese Masse werden leicht unterschiedlich berechnet (siehe Kapitel 3). Standardabweichung Varianzen sind nicht einfach zu interpretieren, da sie, aufgrund der Quadrierung in der Berechnung, in quadrierten Einheiten ausgedrückt werden (z.B. quadrierte Sprecher per Sprache oder, wie hier, quadrierte Testergebnisse). Wir können aber ihren Wurzel nehmen, was die Standardabweichung der Population ergibt. Symbol: σ: √ σ = σ2 = r 1 ((x1 − µ)2 + (x2 − µ)2 + · · · + (xN − µ)2 ) N (1.4) Oder in R: sqrt(sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / length(dat$Wortschatz)) ## [1] 2.602 Diese Formeln werden schon ziemlich komplex. Wir können diese Berechnungen auch mit Zwischenschritten ausführen und die Zwischenergebnisse im Arbeitsspeicher speichern. Dazu verwenden wir den assignment operator <- (oder =; ich verwende selber lieber <-): d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz))^2) d2 ## [1] 541.7 sigma2 <- d2 / length(dat$Wortschatz) sigma2 ## [1] 6.771 sigma <- sqrt(sigma2) sigma KAPITEL 1. DATEN BESCHREIBEN 12 ## [1] 2.602 Standardabweichungen und Varianzen kann man nicht absolut interpretieren: Eine Standardabweichung von 0.4 ist je nach der Art von Daten klein, gross oder unauffällig, und dies gilt auch für Standardabweichungen von 8’000. Vorsicht: In der Regel müssen wir die Standardabweichung einer Stichprobe, nicht jene einer Population berechnen. Den Unterschied besprechen wir in Kapitel 3. Tipp: Tippen Sie zu Hause die Befehle in diesem Skript auch mal selber ein (nicht kopieren und kleben, denn dabei lernen Sie nichts!). Dabei werden Sie feststellen, dass die Anzahl und Position der Klammern sowie auch Gross- und Kleinschreibung in R wichtig sind. Tipp: Wenn ein Befehl aus diesem Skript bei Ihnen nicht funktioniert, liegt dies in gefühlten 9 von 10 Fällen daran, dass eine Klammer oder Komma vergessen wurde. Achten Sie darauf, dass Sie den Befehl auf eine neue Zeile, die mit ‘>’ anfängt, eintippen. Wenn Sie in der ersten Zeile des obigen Kodes eine Klammer vergessen haben, fängt die zweite Zeile mit einem ‘+’ statt mit einem ‘>’ an, zum Beispiel: > d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2) + d2 Error: unexpected symbol in: "d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2) d2" unexpected symbol, unexpected ’)’ oder unexpected ’,’ heissen meistens, dass eine Klammer oder eine Komma vergessen wurde oder überflüssig ist. R nimmt hier an, dass die Funktion in der ersten Zeile noch nicht abgeschlossen wurde und dass die zweite Zeile eine Fortsetzung der ersten ist (‘+’). Wenn Sie die erste Zeile richtig eintippen, weiss R, dass die Funktion abgeschlossen wurde, und interpretiert es die zweite Zeile als einen neuen Befehl (‘>’): > d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz))^2) > d2 [1] 541.7 Übrigens spielt auch die Position der Klammern eine Rolle. Wieso gibt es bei diesem Befehl zwar keine Fehlermeldung, dafür aber eine sinnlose Zahl (d2 sollte immer positiv sein)? d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2)) d2 ## [1] -82220 Tipp: Tippen Sie die Befehle nicht direkt in R ein, sondern zuerst in ein eigenes Skript (in RStudio: File → New File → R Script). Wenn Sie irgendwo eine Klammer ausgelassen haben, müssen Sie dann nicht alles erneut eintippen. 1.4 Grafische Darstellung einer Population von univariaten Daten Bevor man überhaupt anfängt, mit Daten herumzurechnen, lohnt es sich, sich diese grafisch anzuschauen. Dies kann bestimmte Muster, wie etwa Ausreisser, direkt hervorheben und für die Leserschaft ist eine einfache Grafik oft einfacher zu interpretieren als Mittelwerte und Standardabweichungen. KAPITEL 1. DATEN BESCHREIBEN 1.4.1 13 Cleveland dotchart Der Cleveland dotchart oder dotplot stellt die einzelnen Datenpunkte, oft von klein nach gross sortiert, dar. Ausreisser fallen hierdurch schnell auf; in dieser Grafik kann man nicht von Ausreissern sprechen. dotchart(sort(dat$Wortschatz), # sort() ordnet die Datenpunkte xlab = "Wortschatzergebnis") 26 28 30 32 34 36 38 Wortschatzergebnis Zum Vergleich: Wenn eine Versuchsperson ein Ergebnis von 10 gehabt hätte, hätte die Grafik so ausgesehen: Ausreisser 10 15 20 25 30 35 Wortschatzergebnis 1.4.2 Boxplot Der Boxplot oder box-and-whisker-plot ist eine beliebte Methode, um die Streuung und zentrale Tendenz einer Variable darzustellen. Mittlere, dickere Linie: Median; untere und obere Linie der Box: 25%- bzw. 75%-Quantile; Füsschen: Maximum- und Minimumwerte. Die 25%- und 75%-Quantile nennt man auch Quartile. (Den Text habe ich manuell hinzugefügt.) boxplot(dat$Wortschatz, ylab = "Wortschatzergebnis", main = "Boxplot von Wortschatz") KAPITEL 1. DATEN BESCHREIBEN 14 Boxplot von Wortschatz Maximum 38 Wortschatzergebnis 36 75. Quantil 34 Median 32 25. Quantil 30 28 'Minimum' 26 Mögliche Ausreisser? Für die Wortschatz-Variable sind die 25%- und 75%-Quantile 31 bzw. 34: quantile(dat$Wortschatz, probs = c(0.25, 0.75)) ## 25% 75% ## 31 34 Das heisst, dass 25% der Daten einen Wert von 31 oder niedriger haben, und 75% der Daten einen Wert haben, der 34 oder niedriger ist. Zwischen den 25%- und 75%-Quantilen (interquartile range, IRQ) befindet sich m.a.W. etwa die Hälfte der Datenpunkte. Manchmal (wie hier) gibt es auch Kreischen in einem Boxplot. Dies sind Extremwerte, die mehr als 1.5 × das IRQ vom nächsten Quartil entfernt liegen (siehe ?boxplot → Arguments → range). Diese Extremwerte sind mögliche Ausreisser, aber überprüfen Sie mit etwa einem Dotplot, ob es sich tatsächlich um Ausreisser handelt. 1.4.3 Säulendiagramm Insbesondere kategoriale Daten können mithilfe eines Säulendiagramms dargestellt werden. Zunächst müssen die Daten in eine Tabelle, die zeigt, wie viele Beobachtungen es für jeden Wert gibt, gegossen werden: geschlecht.tab <- table(dat$Geschlecht) geschlecht.tab ## ## Frau Mann ## 66 14 Diese Tabelle können wir dann mit barplot() darstellen; auch ein Cleveland dotchart funktioniert hier gut: par(mfrow = c(1, 2)) # 2 Grafiken nebeneinander barplot(geschlecht.tab, xlab = "Geschlecht", ylab = "absolute Anzahl", main = "Säulendiagramm") KAPITEL 1. DATEN BESCHREIBEN 15 dotchart(geschlecht.tab, xlab = "absolute Anzahl", xlim = c(0, 80), ylab = "Geschlecht", main = "Cleveland dotchart") par(mfrow = c(1, 1)) # wieder 1 Grafik aufs Mal Säulendiagramm Cleveland dotchart 50 Geschlecht absolute Anzahl 60 40 30 20 Mann Frau 10 0 Frau Mann 0 20 40 60 80 Tipp: Vermeiden Sie Kuchendiagramme (siehe ?pie → Note). Weiter sind auch dreidimensionale Säulendiagramme zu vermeiden: Sie erschweren die Interpretation. 1.4.4 Histogramm Im obigen Beispiel gibt es nur zwei mögliche Ergebnisse (Mann oder Frau) und können wir die Anzahl Beobachtungen pro Wert sinnvoll darstellen. Wenn die Anzahl möglicher Ergebnisse aber grösser ist, wie bei kontinuierlichen Variablen, ist dies weniger sinnvoll, da jeder einzelne Wert eh nur selten vorkommt. In solchen Fällen ist es sinnvoller, die Ergebnisse in sog. bins zu gruppieren und darzustellen, wie viele Werte in jedem bin beobachtet wurden. In den folgenden Grafiken werden die Englisch-Ergebnisse in bins von 0.45 bis 0.50, 0.50 bis 0.55 usw. aufgeteilt und dargestellt. Eine solche Grafik nennt man ein Histogramm. Links wird dargestellt, wie viele Beobachtungen (absolute Anzahl) es in jedem bin gibt; rechts werden die Frequenzen skaliert, sodass die Gesamtfläche des Histogramms (die Summe der Breite jedes bins multipliziert mit ihrer Höhe) 1 (oder 100%) beträgt. Dies erlaubt es, Datensätze unterschiedlicher Grösse miteinander zu vergleichen. par(mfrow = c(1, 2)) hist(dat$Englisch, freq = TRUE, col = "grey", xlab = "Englisch-Wert", ylab = "absolute Frequenz", main = "Englischergebnisse") hist(dat$Englisch, freq = FALSE, col = "grey", xlab = "Englisch-Wert", ylab = "relative Frequenz", main = "Englischergebnisse") par(mfrow = c(1, 1)) KAPITEL 1. DATEN BESCHREIBEN 16 Englischergebnisse 4 15 relative Frequenz absolute Frequenz Englischergebnisse 10 5 0 3 2 1 0 0.5 0.6 0.7 0.8 0.9 0.5 Englisch−Wert 0.6 0.7 0.8 0.9 Englisch−Wert Die Breite der bins wählt R in diesem Beispiel automatisch. Sie kann jedoch auch mit dem breaks-Parameter manuell spezifiziert werden. 1.4.5 Wahrscheinlichkeitsdichte Was passiert, wenn wir äusserst feinkörnige Messungen (d.h. mit sehr vielen möglichen Ergebnissen und höchstens einem Beleg pro möglichen Wert) haben und die Anzahl bins immer vergrössern? Je mehr bins es gibt, desto kleiner sind sie und desto weniger Beobachtungen beinhalten sie, wie die nächsten Grafiken illustrieren. (Diese Grafiken beziehen sich nicht auf Daten in Vanhove2015_Vpn.csv.) 10 bins 25 bins 0.15 0.15 0.10 0.10 0.05 0.05 0.00 0.00 0 5 10 20 0 50 bins 0.15 0.10 0.10 0.05 0.05 0.00 0.00 5 10 10 20 100 bins 0.15 0 5 20 0 5 10 20 Wenn die bins verschwindend klein sind, sprechen wir von einer Wahrscheinlichkeitsdichte, wie in diesem Beispiel: KAPITEL 1. DATEN BESCHREIBEN 17 Feinkörniges Histogramm (grau) und Wahrscheinlichkeitsdichte (rot) 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 −5 0 5 10 15 20 25 Ähnlich wie bei den skalierten Histogrammen repräsentiert die Fläche unter der Kurve hier 100% der Daten, d.h. die Fläche zwischen Kurve und x-Achse beträgt 1. Vorsicht: In dieser Abbildung ist die Wahrscheinlichkeit, dass ein Wert von 10 beobachtet wird, nicht etwa 13%, sondern verschwindend gering. Wenn man bloss genügend Dezimalstellen in Betracht nimmt (z.B. 10,000001 oder 9,999999), ist jeder einzelne Wert ja verschwindend unwahrscheinlich. Wir können deswegen keine sinnvollen Wahrscheinlichkeitsaussagen über spezifische Werte machen sondern nur über Intervalle. Dies machen wir in den nächsten Kapiteln. Mit dem Befehl plot(density(...)) können Sie eine Wahrscheinlichkeitsdichte einer Variable zeichnen (links); mit dem Befehl lines(density(...)) können Sie etwa einem Histogramm eine Wahrscheinlichkeitsdichte hinzufügen (rechts): par(mfrow = c(1, 2)) # Links: nur Wahrscheinlichkeitsdichte plot(density(dat$Englisch), xlab = "Englischergebnis", ylab = "Dichte", main = "Wahrscheinlichkeitsdichte\nfür Englisch") # Rechts: Histogramm + Wahrscheinlichkeitsdichte # zuerst Histogramm: hist(dat$Englisch, freq = FALSE, xlab = "Englischergebnis", ylab = "Dichte (relative Frequenz)", main = "Histogramm (grau) +\nDichte (blau)", col = "grey") lines(density(dat$Englisch), col = "blue", lwd = 2) # etwas dickere Linie par(mfrow = c(1, 1)) KAPITEL 1. DATEN BESCHREIBEN 18 Histogramm (grau) + Dichte (blau) Dichte (relative Frequenz) Wahrscheinlichkeitsdichte für Englisch Dichte 4 3 2 1 0 0.4 0.6 4 3 2 1 0 0.8 0.5 Englischergebnis 0.6 0.7 0.8 0.9 Englischergebnis Mit dem Befehl colors() finden Sie übrigens alle Farbennamen, die R kennt. 1.5 Klassische (idealisierte) Datenverteilungen Es lassen sich ein paar klassische Arten von Datenverteilungen unterscheiden. In ihrer ‘puren’ Form trifft man diese Verteilungen zwar selten an, aber viele Datenverteilungen können als Annäherungen dieser idealisierten Verteilungen betrachtet werden. 1.5.1 Gleichverteilung oder Uniformverteilung In einer Uniformverteilung ist jeder mögliche Wert gleich wahrscheinlich. Das typische Beispiel ist das Würfeln eines fairen Würfels (‘diskrete Uniformverteilung’): Die Wahrscheinlichkeit, eine 6 zu würfeln, ist gleich gross wie jene, eine 1 usw. zu würfeln. Wenn die möglichen Ergebnisse feinkörniger sind, spricht man von einer ‘kontinuierlichen Uniformverteilung’. Die folgende Grafik zeigt drei kontinuierliche Uniformverteilungen mit Bereichen [-2.5, 2.5], [0, 1] und [0.5, 1]: 1.5 1.0 0.5 0.0 2.0 Dichte (f(x)) 2.0 Dichte (f(x)) Dichte (f(x)) 2.0 1.5 1.0 0.5 0.0 −3 −2 −1 0 1 2 3 x 1.5 1.0 0.5 0.0 −3 −2 −1 0 x 1 2 3 −3 −2 −1 0 1 2 3 x Erklären Sie, warum die Wahrscheinlichkeitsdichte höher als 1 sein kann. (Tipp: Berechnen Sie die Flächen unter den Kurven!)3 1.5.2 Normalverteilung Die Normalverteilung ist die typische ‘Glockenkurve’. Ihre Wahrscheinlichkeitsdichte wird durch eine kompliziert aussehende Gleichung definiert, die für unsere Zwecke nicht so wichtig ist. Wichtig ist nur, dass die Form der Glockenkurve von zwei Faktoren bestimmt wird: dem Das entscheidende Merkmal einer Wahrscheinlichkeitsdichte ist, dass die Fläche unter der Kurve immer 1 beträgt. Bei Uniformverteilungen ist die Fläche unter der Kurve einfach ein Rechteck mit Fläche 1. In der 1. Grafik ist die Breite dieses Rechtecks 5 (von -2.5 bis 2.5) und die Höhe daher 51 = 0.20 (denn 5 × 51 = 1). Für die 3. Grafik ist die Breite 0.5, 1 die Höhe dementsprechend 0.5 = 2, und somit grösser als 1. 3 KAPITEL 1. DATEN BESCHREIBEN 19 Mittel der Datenverteilung (µ) und ihrer Standardabweichung (σ). µ bestimmt, um welchen Wert sich die Kurve zentriert; σ wie ‘breit’ und ‘hoch’ die Kurve ist: µ = 2; σ = 1 f(x) f(x) µ = 0; σ = 1 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 −4 0 2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 4 −4 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 −4 0 2 0 2 4 x µ = 0; σ = 0.7 f(x) f(x) x µ = 0; σ = 2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 4 x −4 0 2 4 x Eine Standardnormalverteilung ist eine Normalverteilung mit µ = 0 und σ = 1. Normalität überprüfen und Datentransformationen Bei einer Normalverteilung sind Modus, Mittel und Median gleich, d.h. es gibt eine eindeutige zentrale Tendenz. Mit vielen statistischen Verfahren kann man Aussagen über das Mittel einer Population oder Stichprobe machen. Wenn Mittel, Median und Modus alle (mehr oder weniger) gleich sind – wie bei Normalverteilungen –, kann man mit diesen Verfahren die zentrale Tendenz also völlig erfassen. Wenn die Daten stark von einer Normalverteilung abweichen, gelten die Aussagen, die solche Verfahren übers Mittel machen, zwar (oft) noch immer, aber sind diese eben weniger relevant fürs Erfassen der zentralen Tendenz. (Das Mittel ist bloss ein Versuch, die zentrale Tendenz zu erfassen.) Wie wir in den nächsten Kapiteln sehen werden, ist die Normalverteilung auch aus anderen Gründen in der Statistik von zentraler Bedeutung. Es ist aus diesen Gründen praktisch, überprüfen zu können, ob Daten annähernd normalverteilt sind. Manchmal werden zu diesem Zweck statistische Tests verwendet, aber diese würde ich nicht empfehlen.4 Vielmehr sollte man sich auf eine visuelle Dateninspektion verlassen: Zeichnen Sie Histogramme und Wahrscheinlichkeitsdichten. Manchmal sind Daten zwar nicht-normalverteilt, können aber einfach zu annähernd normalverteilten Daten transformiert werden. Solche Datentransformationen werden in diesem Skript nur oberflächlich behandelt. Mehr Informationen dazu finden Sie in den weiterführenden Ressourcen (siehe Kapitel 9). 4 Beispiele sind der Shapiro–Wilk-Test (?shapiro.test) und der Kolmogorov–Smirnov-Test (?ks.test). Ein erster Grund, weshalb ich solche numerischen Tests nicht empfehle, ist, dass sie sehr von der Stichprobengrösse abhängig sind: Grobe Verletzungen gegen Normalität werden in kleinen Stichproben nicht identifiziert, während in grossen Stichproben sogar die kleinsten Verletzungen als problematisch bezeichnet werden. Dabei ist es für die häufigsten statistischen Verfahren gerade bei grösseren Stichproben weniger wichtig, dass die Daten normalverteilt sind. Der zweite Grund ist, dass Ihre Leserschaft sich vermutlich weniger gut mit solchen Tests auskennt. Ich erwähne diese Tests nur, weil man sie in Forschungsartikeln öfters antrifft und nicht weil man sich selber auf sie verlassen sollte. KAPITEL 1. DATEN BESCHREIBEN 1.5.3 20 Bimodale Verteilung Eine bimodale Verteilung ist eine Verteilung mit zwei ‘Höckern’. Bei einer Befragung zu einem gesellschaftlichen Thema etwa würde eine solche Verteilung darauf hindeuten, dass die Bevölkerung stark zwischen Befürworter und Gegner polarisiert ist und dass relativ wenige Leute eine Zwischenposition vertreten. Eine bimodale Verteilung kann auch darauf hindeuten, dass eigentlich zwei Populationen statt nur einer gemessen wurden. Zum Beispiel ist (in der akustischen Phonetik) die Verteilung der Grundfrequenz in der ganzen Population bimodal verteilt: Männerstimmen haben eine tiefere Grundfrequenz als Frauenstimmen. Manchmal trifft man auch multimodale Verteilungen, also Verteilungen mit mehreren Höckern, an. 1.5.4 Schiefe Verteilungen Eine rechtsschiefe Verteilung (oder: Verteilung mit positiver Schiefe) ist eine nicht-symmetrische Verteilung, die nach rechts neight. Etwa Reaktionszeiten, Wortfrequenzen und die Anzahl tip-ofthe-tongue-Probleme pro Aufnahme sind oft rechtsschief verteilt. Eine linksschiefe Verteilung (oder: Verteilung mit negativer Schiefe) ist nicht-symmetrisch und neigt nach links. Bei Testergebnissen könnte dies darauf hindeuten, dass der Test zu einfach war (Deckeneffekt). Zu schwierigen Tests führen zu rechtsschiefen Verteilungen (Bodeneffekt). Die folgende Grafik zeigt eine bimodale, eine rechtsschiefe und eine linksschiefe Verteilung. bimodale Verteilung rechtsschiefe Verteilung f(x) f(x) 0.15 0.10 0.05 0.00 −6 −4 −2 0 2 x 1.6 4 6 linksschiefe Verteilung 8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 6 f(x) 0.20 4 2 0 0 1 2 3 x 4 5 6 0.65 0.75 0.85 0.95 x Aufgaben 1. Einkommensniveaus nach Land, Region oder Gemeinde werden üblicherweise in Medianen statt in Mitteln ausgedrückt. Warum? 2. Zeichnen Sie ein Histogramm und eine Wahrscheinlichkeitsdichte der Variable Französisch. Sind die Daten normalverteilt? Ist das Mittel ein sinnvoller Indikator der zentralen Tendenz in diesen Daten oder wäre der Median geeigneter? 3. 80 willkürlich ausgewählte Schweizer Staatsbürger werden gebeten, auf einer 10er-Skala anzudeuten, inwieweit sie mit der Aussage Privater Waffenbesitz sollte verboten werden einverstanden sind (1 = gar nicht einverstanden; 10 = völlig einverstanden). Würde diese Befragung annähernd normalverteilte Daten liefern? Wenn nicht, welcher Datenverteilung würden sie am ehesten entsprechen? 4. M&Ms können sechs Farben haben: blau, braun, gelb, grün, orange und rot. Wie schätzen Sie die relativen Frequenzen dieser Farben ein? Gibt es z.B. Ihrer Erfahrung nach eine KAPITEL 1. DATEN BESCHREIBEN 21 ähnlich Anzahl blaue als rote M&Ms? Entspricht diese Verteilung einer der Verteilungen, die wir oben kennengelernt haben? 5. Die Datei Stocker_Deutsch.csv enthält einen Teil der Daten aus der Masterarbeit von Stocker (2014). 160 Versuchspersonen wurden gebeten, die Glaubwürdigkeit von Aussagen von SprecherInnen mit unterschiedlichen Akzenten (Englisch, Französisch, Deutsch und Italienisch) auf einer Skala von 0 bis 100 zu bewerten. Diese Daten stehen in der scoreSpalte. (a) Lesen Sie diese Datei in R ein und kontrollieren Sie, ob die Datei richtig eingelesen wurde. (b) Berechnen Sie das Mittel und den Median der score-Daten. Sind sich diese Mittelwerte ähnlich? (c) Zeichnen Sie ein Boxplot der score-Daten. Was schliessen Sie aus diesem Boxplot? (d) Zeichnen Sie jetzt ein Histogramm der score-Daten (mit den default-Einstellungen). Welcher klassischen Verteilung entspricht diese am ehesten? (e) Zeichnen Sie ein Histogramm mit 20 bins (breaks = 19 in der hist()-Funktion). Beschreiben Sie dieses Histogramm. Sind das Mittel und der Median repräsentativ für diese Daten? Merksatz: Immer zuerst die Daten grafisch darstellen! Kapitel 2 Wahrscheinlichkeitsaussagen über neue Beobachtungen Dieses Kapitel dient als Auffrischung der Wahrscheinlichkeitsrechnung. Konkret besprechen wir, wie wir Wahrscheinlichkeitsaussagen über Zufallsvariablen machen können, wenn wir schon wissen, aus welcher Verteilung diese Variable stammt. Was Zufallsvariablen sind, wird aus den Beispielen klar. Die Fähigkeit, Wahrscheinlichkeitsaussagen über Zufallsvariablen zu machen, ist an sich schon praktisch, aber zudem muss man die hinterliegende Logik kennen, wenn man Inferenzstatistik verstehen will. 2.1 Beispiel: kontinuierliche Gleichverteilung Die Kreislinie eines Rads ist folgendermassen mit Zahlen von 0 bis 360 vermerkt: Jedes Mal, wenn der Pfeil gedreht wird, bleibt er an einer zufälligen Stelle auf der Kreislinie stehen. Dies entspricht einer kontinuierlichen Gleichverteilung mit dem Bereich von 0 bis 360. Mit folgendem Kode können wir diese Verteilung in R zeichnen. Da die Verteilung von 0 bis 360 geht und die Fläche zwischen der Wahrscheinlichkeitsdichte und der x-Achse 1 betragen muss, 1 1 liegt die Linie bei 360 ≈ 0.0028 (denn (360 − 0) × 360 = 1). # Zeichne f(x) = Uniformverteilung von 0 bis 360 plot(function(x) dunif(x, min = 0, max = 360), from = 0, to = 360, xlab = "x", ylab = "f(x)") 22 KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 23 f(x) 0.0035 0.0030 0.0025 0.0020 0 2.1.1 45 90 135 180 225 270 315 360 Wahrscheinlichkeit = Fläche unter der Wahrscheinlichkeitsdichte Wie wahrscheinlich ist es, dass wir den Pfeil drehen und er irgendwo zwischen 45 und 93 stehen bleibt? Zwischen den Werten 45 und 93 liegt etwa 13.3% der ganzen Wahrscheinlichkeitsvertei48 = 0.133. Die Wahrscheinlichkeit liegt also bei 13.3%. lung: 93 − 45 = 48 und 360 Diese Berechnungsmethode lässt sich aber nur bei Gleichverteilungen anwenden – also bei Verteilungen, bei denen jeder Wert genau so wahrscheinlich ist. Eine Methode, die auch für andere Verteilungen gilt, besteht darin, die Fläche unter der Wahrscheinlichkeitsdichte zwischen den beiden Werten – das ‘Integral’ aus dem Gymnasium – zu berechnen. Diese Fläche wurde in der obigen Grafik grau eingefärbt. Bei einer Gleichverteilung ist dies ein Rechteck, sodass wir sie 1 einfach berechnen können: (93 − 45) × 360 = 0.133. 2.1.2 Kumulative Verteilungsfunktion Mit der dunif()-Funktion haben wir die Wahrscheinlichkeitsdichte (d für density) gezeichnet; mit der punif()-Funktion können wir eine Grafik zeichnen, die zeigt, wie wahrscheinlich es ist, einen Wert kleiner als x zu beobachten (p für probability). Die resultierende Grafik nennt man eine kumulative Verteilungsfunktion. Die kumulative Wahrscheinlichkeit wird mit F(x) (grosses F) dargestellt und variiert von 0 bis 1. kumulative Verteilungsfunktion 1.0 F(x) 0.8 0.6 0.4 0.2 0.0 0 100 200 300 x Mit der punif()-Funktion können wir einfach die Wahrscheinlichkeit, einen Wert zwischen 45 und 93 zu beobachten, berechnen. Zuerst berechnen wir die Wahrscheinlichkeit, einen Wert kleiner als 93 zu beobachten. Diese Wahrscheinlichkeit entspricht dem roten F(x)-Wert in der oben stehenden Grafik (Handgelenk mal Pi: etwa 25%). Mit punif() berechnen wir den genauen Wert: punif(93, min = 0, max = 360) ## [1] 0.2583 KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 24 Und dann die Wahrscheinlichkeit, einen Wert kleiner als 45 zu beobachten (blauer F(x)-Wert; etwa 15%): punif(45, min = 0, max = 360) ## [1] 0.125 Der Unterschied ist die Wahrscheinlichkeit, einen Wert zwischen 45 und 93 zu beobachten: 0.2583 - 0.125 ## [1] 0.1333 # oder kürzer: punif(93, min = 0, max = 360) - punif(45, min = 0, max = 360) ## [1] 0.1333 2.2 Beispiel Normalverteilung IQ-Werte sind normalverteilt mit – per Definition – Mittel 100 und Standardabweichung 15. Die linke Grafik ist die Wahrscheinlichkeitsdichte einer normalverteilten Variable mit Mittel 100 und Standardabweichung 15 (dnorm()). par(mfrow = c(1, 2)) # erlaubt es, 2 Grafiken nebeneinander zu zeichnen # Zeichne f(x) = Normalverteilung mit Mittel 100 und sd 15 plot(function(x) dnorm(x, mean = 100, sd = 15), from = 40, to = 160, xlab = "x", ylab = "f(x)") # Zeichne F(x) dieser Normalverteilung plot(function(x) pnorm(x, mean = 100, sd = 15), from = 40, to = 160, xlab = "x", ylab = "F(x)") par(mfrow = c(1, 1)) # wieder 1 Grafik aufs Mal 1.0 0.025 0.8 0.020 f(x) F(x) 0.015 0.6 0.010 0.4 0.005 0.2 0.000 0.0 40 60 80 120 x 160 40 60 80 120 160 x Wenn wir zufällig eine Person aus der Gesamtpopulation wählen, wie wahrscheinlich ist es dann, dass ihr IQ niedriger als 115 ist? Diese Wahrscheinlichkeit entspricht der Fläche unter der Wahrscheinlichkeitsdichte zwischen −∞ und 115; diese Fläche wurde in der linken Grafik rötlich eingefärbt. Mit der pnorm()-Funktion können wir diesen Wert genau berechnen (roter F(x)-Wert in der rechten Grafik; visuell geschätzt: 85%): KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 25 pnorm(115, mean = 100, sd = 15) ## [1] 0.8413 Die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person einen IQ von 115 oder niedriger hat liegt also bei 84%. Mit der Option lower.tail = FALSE können wir das Komplement dieses Werts berechnen, d.h., die Wahrscheinlichkeit, einen Wert höher als 115 anzutreffen: pnorm(115, mean = 100, sd = 15, lower.tail = FALSE) ## [1] 0.1587 # oder: 1 - pnorm(115, mean = 100, sd = 15) ## [1] 0.1587 Wir können die Frage auch andersherum stellen, z.B.: Für welchen IQ-Wert gilt, dass 38% der Population einen niedrigeren IQ hat? Hierzu verwenden wir die qnorm()-Funktion (q für quantile) (blauer x-Wert in der obigen Grafik): qnorm(0.38, mean = 100, sd = 15) ## [1] 95.42 38% der Population hat also einen IQ niedriger als 95.4. Anders gesagt: Das 38. Quantil der IQ-Verteilung (einer Normalverteilung mit Mittel 100 und einer Standardabweichung von 15) ist 95.4. Eine andere Frage könnte sein: Zwischen welchen zwei Werten, die symmetrisch um das Mittel liegen, befinden sich 80% der IQ-Werte in der Population? Symmetrisch ums Mittel liegen 80% der Daten zwischen dem 10. und 90. Quantil, daher: qnorm(0.10, mean = 100, sd = 15) ## [1] 80.78 qnorm(0.90, mean = 100, sd = 15) ## [1] 119.2 Oder auf einmal mithilfe der c()-Funktion (combine): qnorm(c(0.10, 0.90), mean = 100, sd = 15) ## [1] 2.3 80.78 119.22 Aufgaben 1. M&Ms kommen in sechs Farben vor; unten werden ihre relativen Frequenzen dargestellt: braun 0.12 blau 0.23 relative Frequenz 0.25 0.15 0.20 0.23 grün 0.15 orange 0.10 0.12 0.05 0.15 rot 0.00 gelb 26 0.30 KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN (a) Wie wahrscheinlich ist es, dass ein zufällig ausgewähltes M&M rot oder orange ist? (b) Wie wahrscheinlich ist es, dass zwei zufällig ausgewählte M&M beide rot oder orange (also zwei rote, zwei orange oder ein rotes und ein oranges) sind? (c) Wie wahrscheinlich ist es, dass von zwei zufällig ausgewählten M&Ms ein rotes und ein oranges dabei sind? (d) Wie wahrscheinlich ist es, dass wenn 5 M&Ms zufällig ausgewählt werden, alle blau sind? (e) Wie wahrscheinlich ist es, dass wenn 5 M&Ms zufällig ausgewählt werden, kein einziges blaues dabei ist? (Tipp: Wie wahrscheinlich ist es, dass Sie ein einziges M&M nehmen und es nicht blau ist?) 2. (a) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ niedriger als 90 hat? (Siehe vorige Seiten für die IQ-Verteilung) (b) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ grösser als 85 hat? (c) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ zwischen 110 und 120 hat? (d) Wie wahrscheinlich ist es, dass eine willkürlich ausgewählte Person einen IQ hat, der mehr als zwei Standardabweichungen vom Populationsmittel entfernt liegt? (e) Durchschnittliche Intelligenz ist definiert als der IQ der mittleren 45% der Bevölkerung. Zwischen welchen zwei Werten liegt er? (f) Die folgenden Übungen sind etwas schwieriger und haben als Ziel, Sie über kombinierte Wahrscheinlichkeiten nachdenken zu lassen. Wie wahrscheinlich ist es, dass, wenn zwei Personen zufällig ausgewählt werden, keine der beiden einen IQ niedriger als 105 hat? (Tipp: Wie wahrscheinlich ist es, dass eine einzige Person einen IQ höher als 105 hat?) (g) Wie wahrscheinlich ist es, dass, wenn drei Personen zufällig ausgewählt werden, genau eine Person einen IQ niedriger als 90 hat? (Tipp: Wie wahrscheinlich ist es, dass die erste Person einen IQ niedriger als 90 hat, die zweite und die dritte aber nicht? Was ist nun die Wahrscheinlichkeit, dass die zweite Person einen IQ niedriger als 90 hat, die erste und die dritte aber nicht? Und wie wahrscheinlich ist es, dass die dritte Person einen IQ niedriger als 90 hat, die ersten zwei aber nicht.) KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 27 (h) Wie wahrscheinlich ist es, dass, wenn drei Personen zufällig ausgewählt werden, mindestens eine Person einen IQ niedriger als 90 hat? (Tipp: Wie wahrscheinlich ist es, dass keine einzige Person einen IQ niedriger als 90 hat?) 3. Wie gross ist bei einer normalverteilten Variable (egal welcher!) die Wahrscheinlichkeit, einen zufällig ausgewählten Wert, der weniger als 1; 1,5; und 2 Standardabweichungen vom Mittel entfernt ist, anzutreffen? (Tipp: Zeichnen Sie ein paar Normalverteilungen mit anderen Mitteln und Standardabweichungen und beantworten Sie diese Frage für jede Verteilung separat.) Kapitel 3 Wahrscheinlichkeitsaussagen über Stichproben Oft möchten wir zwei Populationen in einer bestimmten Hinsicht miteinander vergleichen. Zum Beispiel könnten wir uns für die Frage interessieren, ob Berner OberländerInnen und ZürcherInnen eine unterschiedliche durchschnittliche Sprechgeschwindigkeit haben. Aus praktischen Gründen ist es meistens nicht möglich, Daten bei der ganzen Population – also bei allen Berner OberländerInnen und ZürcherInnen – zu erheben, um den relevanten Mittelwert festzustellen. Daher arbeiten wir fast immer mit Stichproben. Von Interesse sind aber nicht an erster Stelle die zentrale Tendenz der Stichprobe und die Streuung in der Stichprobe, sondern die zentrale Tendenz der Population und die Streuung in der Population. Mit Inferenzstatistik versuchen wir, mit einer Stichprobe Aussagen über die ganze Population zu machen. Dies setzt aber voraus, dass wir über eine gute Stichprobe verfügen: • Im Prinzip muss die Stichprobe zufällig ausgewählt werden, was (in der Regel) heisst, dass jedes Element in der relevanten Population die gleiche Wahrscheinlichkeit haben muss, ausgewählt zu werden: Möchten wir Aussagen über alle Berner OberländerInnen machen, dann müsste unsere Stichprobe aus nach dem Zufallsprinzip ausgewählten Berner OberländerInnen bestehen und müsste jede(r) OberländerIn die gleiche Wahrscheinlichkeit haben, ausgewählt zu werden. Aus praktischen Gründen ist dies meistens unmöglich und muss man sich mit einem pragmatischeren Ansatz versöhnen, z.B. eine nicht-zufällige aber möglichst repräsentative Stichprobe, oder eine Stichprobe, von der man annimmt, dass sie die Tendenzen in der Population aufzeigt. • Die Stichprobe muss gross genug sein, damit man mit genugend Sicherheit Schlussfolgerungen über die relevante Population machen kann. Wie gross ‘gross genug’ ist, werden wir im Laufe des Kurses ausführlicher diskutieren, ohne dabei aber auf eine allgemein gültige Regel zu stossen. In diesem Kapitel befassen wir uns mit folgenden Fragen: (1) Wie können wir anhand einer Stichprobe am besten die zentrale Tendenz (insbesondere das Mittel) und die Streuung (insbesondere die Varianz und Standardabweichung) der Population schätzen? (2) Wenn wir zufällige Stichproben aus der gleichen Verteilung ziehen, wie stark unterscheiden sich diese Stichproben dann im Schnitt? 28 KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 3.1 29 Zentrale Tendenz und Streuung der Population anhand einer Stichprobe schätzen 3.1.1 Stichprobenmittel Die beste Schätzung des Mittels der Population (µ), die uns in der Regel zur Verfügung steht, ist das Mittel der Stichprobe (x̄). Etwas kompliziert ausgedrückt ist der Grund, dass der Erwartungswert von x̄, E(x̄), gleich µ ist: Wenn wir eine grosse Anzahl zufällige Stichproben aus der gleichen Population ziehen, dann wird das Mittel der Stichprobenmittel gleich dem Populationsmittel sein. Das Stichprobenmittel wird analog zum Populationsmittel berechnet (vgl. Gleichung 1.1): x̄ = x1 + x2 + x3 + x4 + · · · + xn n (3.1) R-Funktion: mean() 3.1.2 Stichprobenvarianz Die Berechnungart des Populationsmittel und jene des Stichprobenmittels sind einander gleich, da der Erwartungswert des Letzteren gleich dem Wert des Ersteren ist: Im Schnitt (jedoch nicht im Einzelfall) haben Stichproben aus der gleichen Population ein Mittel, das gleich dem Populationsmittel ist. Gilt dies auch für die Populationsvarianz und die Stichprobenvarianz? Wenn wir die Stichprobenvarianz analog zur Populationsvarianz berechnen (Formel 1.3 auf Seite 11), gilt dann auch, dass die Stichprobenvarianz im Durchschnitt gleich der Populationsvarianz ist? Derartige Fragen kann man im Prinzip algebraisch lösen,1 aber auch ohne Algebra kann man eine ungefähre Lösung finden. Im Folgenden versuchen wir diese Frage mittels einer Simulation zu beantworten. Das heisst, dass wir (in R) ein Computerskript schreiben, das eine grosse Anzahl ‘Daten’ generiert, deren Eigenschaften wir untersuchen können. Ein zusätzliches Ziel dieser Übung ist es, Ihnen zu zeigen, wie man in R auch eigene Funktionen schreiben kann. Simulation Eine bestimmte Variable lässt sich als eine kontinuierliche Gleichverteilung mit x ∈ [−4, 15] beschreiben. Diese Gleichverteilung hat eine Varianz von σ2 = 30.083.2 Zunächst schreiben wir selbst eine Funktion, sim.spvar.fnc(), mit der wir eine einzige Stichprobe aus einer Gleichverteilung ziehen können. Die Funktion hat drei Parameter: minimum (das Minimum der Gleichverteilung, also a), maximum (das Maximum, b) und groesse (die Stichprobengrösse). Von dieser Stichprobe wird die Varianz mittels Formel 1.3 berechnet, als spvar gespeichert und ausgespuckt. 1 Siehe 2 Die lernen. en.wikipedia.org/wiki/Variance#Sample_variance. Varianz einer kontinuierlichen Gleichverteilung mit Bereich [a, b] ist gleich 1 2 12 (b − a) . Bitte nicht auswendig KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 30 # sim.spvar.fnc ist eine selbstgeschriebene Funktion, # die eine zufällige Stichprobe aus einer Gleichverteilung # generiert, und ihre Varianz berechnet und ausspuckt. sim.spvar.fnc <- function(minimum, maximum, groesse) { # Stichprobe generieren aus einer Gleichverteilung mit # n = groesse, # min = minimum, # max = maximum stichprobe <- runif(n = groesse, min = minimum, max = maximum) # Stichprobenvarianz analog zur Populationsvarianz berechnen spvar <- sum((mean(stichprobe) - stichprobe)^2) / groesse # Und ausspucken return(spvar) } # Diese Funktion 1 Mal ausführen: sim.spvar.fnc(minimum = -4, maximum = 15, groesse = 10) ## [1] 36.06 # Wenn Sie diese Funktion selber ausführen, # werden Sie ein anderes Ergebnis bekommen, # denn die Stichprobe wird immer wieder neu, zufällig generiert. Jetzt, wo wir diese Funktion definiert haben, können wir sie einfach Tausende Male laufen lassen. Jedes Mal wird eine neue Stichprobe generiert und ihre Varianz berechnet und ausgespuckt. Dazu verwenden wir die replicate()-Funktion; die Ergebnisse speichern wir als sp.vars.3 # sim.spvar.fnc 10'000 laufen lassen sp.vars <- replicate(10000, sim.spvar.fnc(minimum = -4, maximum = 15, groesse = 10)) Zeichnen Sie jetzt ein Histogramm der Werte in sp.vars und berechnen Sie zudem ihr Mittel. hist(sp.vars) mean(sp.vars) ## [1] 27.22 Histogram of sp.vars Frequency 2000 1500 1000 500 0 0 10 20 30 40 50 60 sp.vars Vergleichen Sie das Mittel Ihrer Varianzmessungen mit der Populationsvarianz (30.083). Was 3 Für diejenigen, die sich für die technische Seite interessieren: Es ist natürlich auch möglich, diese Simulation als ein for-loop zu schreiben. replicate() ist aber übersichtlicher. KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 31 stellen Sie fest? Ist es grösser, kleiner oder ungefähr gleich der Populationsvarianz? Haben Ihre KurskollegInnen Ähnliches festgestellt? Generieren Sie jetzt 10’000 Stichproben von jeweils 8 Elementen und vergleichen Sie das Mittel der Varianzen wieder mit der Populationsvarianz. Wie schaut es aus für 5, 3 und 2 Elementen pro Stichprobe? Für ein Element pro Stichprobe? Fazit Wie Sie selber feststellen konnten, liefert Formel 1.3, wenn sie auf Stichproben angewandt wird, im Schnitt eine zu niedrige Schätzung der Populationsvarianz σ2 . Würden wir Formel 1.3 anwenden, um anhand einer Stichprobe die Varianz der Population zu charakterisieren, dann würden wir diese systematisch unterschätzen. Ausserdem konnten wir feststellen: Je kleiner die Stichprobe, desto grösser die Unterschätzung. Wie Sie anhand Ihrer Simulationen überprüfen können, ist das Bias n−1 n . Anders gesagt liefert die Formel für Stichproben mit 10 Beobachtungen im Schnitt einen Wert, der nur 10−1 10 = 90% so gross ist wie die eigentliche Populationsvarianz. Für Stichproben mit Grösse 5 ist dieser Wert im Schnitt nur 80% so gross wie die eigentliche Populationsvarianz. Die Stichprobenvarianz s2 wird daher nicht mit Formel 1.3 berechnet. Stattdessen wird d2 durch n − 1 statt durch n geteilt: s2 = d2 1 = (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 n−1 n−1 (3.2) Nur wenn s2 auf diese Art berechnet wird, haben Stichproben aus der gleichen Population im Schnitt die gleiche Varianz wie die Population. Schreiben Sie eine Funktion sim.spvar2.fnc(), indem Sie die Funktion sim.spvar.fnc() kopieren und diese Zeile: spvar <- sum((mean(stichprobe) - stichprobe)^2) / groesse durch spvar <- sum((mean(stichprobe) - stichprobe)^2) / (groesse - 1) ersetzen. Führen Sie jetzt erneut die Simulationsschritte aus. R-Funktion Die R-Funktion, um s2 zu berechnen, ist var(). Beispiel: sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / (length(dat$Wortschatz)-1) ## [1] 6.857 var(dat$Wortschatz) ## [1] 6.857 vgl. Populationsvarianz auf S. 11! 3.1.3 Stichprobenstandardabweichung Die Stichprobenstandardabweichung s wird von der Stichprobenvarianz s2 abgeleitet:4 4 Obwohl die Stichprobenvarianz im Schnitt eine richtige Schätzung der Populationsvarianz ergibt, unterschätzt die Stichprobenstandardabweichung die Populationsstandardabweichung trotzdem immer noch ein bisschen. Dieses Bias zu korrigieren stellt sich aber als schwierig heraus. KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN √ s = s2 = r 1 ((x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 ) n−1 32 (3.3) R-Funktion: sd() sqrt(sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / (length(dat$Wortschatz)-1)) ## [1] 2.619 sd(dat$Wortschatz) ## [1] 2.619 Tipp: Wenn Varianzen oder Standardabweichungen berichtet werden, handelt es sich fast ausnahmslos um Stichprobenvarianzen oder -standardabweichungen. Hier wollte ich Ihnen vor allem zeigen, warum in Gleichung 3.1.2 durch n − 1 und nicht durch das naheliegendere n geteilt wird. Ausserdem war es eine gute Gelegenheit, Sie etwas vertrauter mit Simulationen zu machen. 3.2 Verteilung von Stichprobenmitteln Stichproben aus der gleichen Population haben im Schnitt zwar ein Mittel, das dem Mittel der Population gleich ist, aber einzeln betrachtet wird das Mittel einer Stichprobe natürlich selten genau gleich dem Mittel der Population sein: Mal wird es grösser, mal wird es kleiner sein. Wie stark weichen einzelne Stichprobenmittel nun vom Populationsmittel ab? Diese Frage versuchen wir wiederum anhand einiger Simulationen zu beantworten. 3.2.1 Simulation: Verteilung der Stichprobenmittel aus einer rechtsschiefen Verteilung Eine bestimmte Variable ist rechtsschief verteilt mit µ = 1.2 und σ2 = 1.26 (F-Verteilung mit Freiheitsgraden 4 und 12; was eine F-Verteilung ist, ist im Moment nicht wichtig): f(x) plot(function(x) df(x, 4, 12), from = 0, to = 6, xlab = "x", ylab = "f(x)") 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 x Was geschieht, wenn wir Stichproben von je n Beobachtungen aus dieser schiefen Population ziehen, das Mittel jeder Stichprobe berechnen und in einem Histogramm darstellen? Wiederum können wir versuchen, diese Frage mit einer Simulation zu beantworten. Zuerst schreiben wir eine Funktion sim.spmean.f.fnc(), die eine Stichprobe mit Grösse groesse aus einer F(4, 12)-Verteilung zieht und ihr Mittel berechnet und ausspuckt. KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 33 # sim.spmean.f.fnc ist eine selbstgeschriebene Funktion, # die eine zufällige Stichprobe aus einer F(4, 12)-Verteilung # generiert, und ihr Mittel berechnet und ausspuckt. sim.spmean.f.fnc <- function(groesse) { # Stichprobe generieren aus einer F(4, 12)-Verteilung mit # n = groesse stichprobe <- rf(n = groesse, 4, 12) # Stichprobenvarianz analog zur Populationsvarianz berechnen spmean <- mean(stichprobe) # Und ausspucken return(spmean) } # Diese Funktion 1 Mal ausführen: sim.spmean.f.fnc(groesse = 5) ## [1] 1.581 # Wenn Sie diese Funktion selber ausführen, # werden Sie ein anderes Ergebnis bekommen, # denn die Stichprobe wurde zufällig generiert. Generieren wir jetzt 10’000 solche Stichproben mit Grösse 5 und berechnen wir ihr Mittel: # sim.spmean.f.fnc 10'000 laufen lassen sp.means <- replicate(10000, sim.spmean.f.fnc(groesse = 5)) Schauen Sie sich jetzt das Histogramm dieser Stichprobenmittel an: hist(sp.means) Wie schaut es aus? Was ist ungefähr das Mittel der Verteilung der Stichprobenmittel (mean(sp.means))? Was mit 10’000 Stichproben von Grösse 20? Und Grösse 100? Nimmt die Streuung zu oder ab, je grösser die Stichproben werden? Grösse 5 Grösse 20 Grösse 100 4000 1500 Frequency 1500 Frequency Frequency 3000 1000 2000 1000 500 1000 0 500 0 0 1 2 3 4 0 0 Stichprobenmittel 3.2.2 1 2 3 Stichprobenmittel 4 0 1 2 3 4 Stichprobenmittel Simulation: Verteilung der Stichprobenmittel aus einer Gleichverteilung Eine Variable ist uniform verteilt mit µ = −1 und σ2 = 12 (Gleichverteilung von −7 bis 5): plot(function(x) dunif(x, -7, 5), from = -7, to = 5) KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 34 Was würde jetzt geschehen, wenn wir auch aus dieser Distribution 10’000 Stichproben von je n Beobachtungen nehmen und ihre Mittel grafisch darstellen? (a) Schreiben Sie eine neue Funktion, sim.spmean.unif.fnc(), die ähnlich funktioniert wie sim.spmean.f.fnc(), aber die Daten aus einer uniformen Verteilung statt einer F-Verteilung generiert. Tipp: Sie müssen die folgende Zeile anpassen: stichprobe <- rf(n = groesse, 4, 12) (b) Zeichnen Sie mithilfe dieser Funktion wieder das Histogramm der Stichprobenmittel für jeweils 10’000 Stichproben von 5, 20 und 100 Beobachtungen. (c) Wie schauen diese Histogramme aus? (d) Was ist ungefähr ihr Mittel? (e) Wie ändert sich ihre Varianz mit unterschiedlichen Werten für n? (f) Vergleichen Sie die Form dieser Histogramme mit derjenigen aus der letzten Aufgabe. 3.2.3 Fazit: Zentraler Grenzwertsatz Wenn Stichproben mit n Beobachtungen aus einer Population mit Mittel µ und Varianz σ2 gezogen werden, sind die Stichprobenmittel ungefähr normalverteilt, wenn n gross genug ist—auch wenn die Population selber nicht normalverteilt ist.5 Das Mittel der Verteilung der Stichprobenmittel (µx̄ ) nähert sich µ, je mehr Stichproben genommen werden. Die Varianz der Stichprobenmittel, σ2x̄ , wird kleiner, je grösser die Stichproben sind: σ2x̄ = σ2 n (3.4) Die Standardabweichung der Verteilung der Stichprobenmittel, Standardfehler (S.E.) genannt, ist demnach: r S.E. = σx̄ = Beispiel σ2 σ =√ n n (3.5) Die Verteilung der Mittel von Stichproben mit Grösse 36 aus einer Normalverteilung q mit µ = 1.2 und σ2 = 1.26 hat ein Mittel von 1.2 und einen Standardfehler von 1.26 ≈ 0.19. Mit q q 36 1.26 Stichprobengrössen von 50 bzw. 100 ist der Standardfehler 1.26 50 ≈ 0.16 bzw. 100 ≈ 0.11. (Ggf. können Sie dies mit einer Simulation überprüfen.) 3.2.4 Wahrscheinlichkeitsaussagen über neue Stichproben Jetzt können wir nicht nur Wahrscheinlichkeitsaussagen über neue einzelne Beobachtungen machen, wenn wir die Datenverteilung kennen, sondern auch über neue Stichproben: Wenn 5 Was ‘gross genug’ ist, ist von Population zu Population unterschiedlich. Die Mittel vieler Verteilungen sind bei n = 30 annähernd normalverteilt; Normalverteilungen und einige andere symmetrische Verteilungen konvergieren schon viel schneller. KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 35 wir die Varianz und das Mittel der Datenverteilung kennen, wissen wir dank des Zentralen Grenzwertsatzes auch (oft), was die Varianz und das Mittel der Stichproben aus dieser Verteilung sind! 3.3 Aufgaben 1. Sie möchten wissen, wie viele Bücher in Schweizer Wohnzimmern vorhanden sind. Sie wählen acht Haushalte nach dem Zufallsprinzip aus und zählen die Anzahl Bücher pro Haushalt. Dies sind Ihre Ergebnisse: 18, 10, 7, 142, 48, 27, 257, 14 Tragen Sie diese Daten in R ein und beantworten Sie danach folgende Fragen. (a) Stellen Sie die Verteilung dieser Daten grafisch da und beschreiben Sie diese.6 (b) Was ist Ihre beste Schätzung des Mittels der Population? (c) Was ist Ihre beste Schätzung der Varianz und der Standardabweichung der Population? (d) Erklären Sie sich, warum wir hier mit Schätzungen zu tun haben. Warum sind wir uns nicht sicher, was das Mittel bzw. die Streuung der Population betrifft? 2. Aus einer Normalverteilung mit µ = 10 und σ2 = 36 wird eine Stichprobe mit Grösse n gezogen. (a) Wie wahrscheinlich ist es, dass eine Stichprobe mit 4 Beobachtungen ein Mittel von 5 oder weniger hat? (Gehen Sie davon aus, dass der Zentrale Grenzwertsatz zutrifft – auch wenn die Stichprobe dafür eigentlich etwas zu klein ist.) (b) Idem, aber für 10 Beobachtungen und für 50 Beobachtungen. (c) Wie viel Prozent der Stichprobenmittel liegen mehr als 4 Einheiten von µ entfernt bei n = 8? (d) Zwischen welchen zwei Werten liegen, symmetrisch um µ, 66.7% der Stichprobenmittel bei n = 10 und bei n = 60? Wie gross ist die Entfernung zu µ ausgedrückt in Standardfehlern? (e) Idem, aber 90% der Stichprobenmittel und 95% der Stichprobenmittel. 6 Noch zum Unterschied zwischen Stichproben und Populationen: Die Verteilung von Daten, die zufällig aus (etwa) einer Normalverteilung gezogen wurden, ähnelt oft annähernd dieser Verteilung. Dies ist aber nicht unbedingt der Fall. Diese drei Histogramme zeigen alle Stichproben von 25 Datenpunkten. Obwohl die Datenpunkte alle aus der gleichen Normalverteilung gezogen wurden, zeigen die Histogramme keine perfekten Normalverteilungen. Dies ist dem inhärenten Zufallsfaktor zuzuschreiben. Natürlich gilt hier: Je mehr Daten man hat, desto besser entspricht die Verteilung der Stichprobe der Verteilung der Population. 6 4 2 0 −3 −1 1 x 3 7 6 5 4 3 2 1 0 8 Frequenz Frequenz Frequenz 8 6 4 2 0 −2 0 x 1 2 −3 −1 x 1 2 Kapitel 4 Die Logik des Signifikanztests In diesem Kapitel wird die Logik des Signifikanztests anhand des Zentralen Grenzwertsatzes aus dem letzten Kapitel erklärt. Die sog. Einstichproben-Tests, anhand derer diese Logik erklärt wird, kommen in der Praxis selten vor, stellen aber den einfachsten Fall des Signifikanztests da. 4.1 4.1.1 Einstichproben-Gauss-Test Fragestellung und Daten (Fiktives Beispiel1 ) Am Ende der obligatorischen Schulzeit sollen durchschnittliche flämische GymnasialschülerInnen im Bereich Hörverstehen Französisch das B2.2-Niveau erreicht haben. Politiker befürchten allerdings, dass die Effektivität des flämischen Französischunterricht abnimmt und dass die durchschnittlichen Hörverstehenskompetenzen nicht dem B2.2-Niveau entsprechen. Bisher liegen keine Daten über das Hörverstehensniveau flämischer GymnasialschülerInnen vor, die diese Befürchtung bestätigen bzw. widerlegen können. Das flämische Bildungsministerium entscheidet, solche Daten zu sammeln. Die Forschungsfrage lautet: “Entspricht die durchschnittliche Hörverstehensleistung flämischer GymnasialschülerInnen am Ende der obligatorischen Schulzeit dem B2.2-Niveau?” Diese Forschungsfrage führt zu zwei einander ausschliessenden Hypothesen: • Die bisherige Annahme oder Nullhypothese (H0 ): Die durchschnittliche Leistung entspricht dem B2.2-Niveau. • Die neue Vermutung oder zu testende alternative Hypothese (HA ): Die durchschnittliche Leistung entspricht nicht dem B2.2-Niveau und ist also entweder höher oder niedriger. In Flandern gibt es keine dem Abitur entsprechende Abschlussprüfung, weshalb keine Daten für die ganze Population gesammelt werden können. Daher wird eine zufällige Stichprobe mit 225 SchülerInnen ausgewählt, die alle einen standardisierten Französischtest absolvieren. Der Test wird auf einer 20er-Skala benotet; eine Note von 15 entspricht dem B2.2-Niveau. Das Mittel der Testergebnisse ist x̄ = 14.67 mit einer (Stichproben-)Standardabweichung von s = 3. 1 Für Tests, die man in der Literatur nur selten antrifft, ist es schwierig, überzeugende Beispiele aus dem sprachlichen Bereich zu finden. Daher bitte ich bei diesen Beispielen um etwas willing suspension of disbelief. 36 KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 4.1.2 37 Lösung Eine zu einfache Antwort auf die Forschungsfrage wäre, dass die durchschnittliche Leistung tatsächlich dem B2.2-Niveau nicht entspricht, denn x̄ < 15. Aber x̄ wurde berechnet auf der Basis von einer Stichprobe – nicht auf der Basis der ganzen Population. Daher ist es möglich, dass die Forschenden bei der Auswahl der Stichprobe nur Pech gehabt haben und dass das Mittel der ganzen Population (µ) immerhin gleich 15 ist. Anders als sich nur x̄ anzuschauen, kann man sich fragen, wie wahrscheinlich ein solches Stichprobenmittel und noch extremere Stichprobenmittel sind, wenn die Nullhypothese stimmt. Ist diese Wahrscheinlichkeit sehr klein, dann liegt es auf der Hand, die alternative Hypothese zu bevorzugen. Dies ist die Logik, die bei allen hier besprochenen Tests gilt: Man nimmt vorübergehend an, dass es in der Population keinen ‘Effekt’ (hier: keinen Unterschied) gibt, und berechnet dann, wie erstaunlich die beobachteten Daten (Stichprobe) in diesem Fall sind. Sind die Daten unter dieser Annahme erstaunlich, dann schliesst man hieraus, dass die Annahme (‘kein Effekt’) wohl falsch war.2 Wie wahrscheinlich ist es nun, ein Stichprobenmittel von x̄ = 14.67 oder noch extremer (d.h., noch mehr von µ abweichend) zu bekommen, wenn das Populationsmittel (laut der Nullhypothese) µ0 = 15 ist? Extremere Stichprobenmittel sind hier nicht nur Mittel niedriger als 14.67, sondern auch Mittel höher als 15.33: Beide weichen 0.33 Punkte oder mehr von dem von der Nullhypothese postulierten Populationsmittel ab. Wenn wir aus der Population viele zufällige Stichproben mit 225 Beobachtungen ziehen, dann sind die Mittel dieser Stichproben laut dem Zentralen Grenzwertsatz normalverteilt. Wenn die Nullhypothese stimmt, ist das Mittel der Stichprobenmittelverteilung (µx̄ ) gleich dem Mittel der Population laut der Nullhypothese, also 15. Die Standardabweichung der Stichprobenmittelverteilung (= der Standardfehler) ist σx̄ = √σn (n = 225). σ kennen wir zwar nicht, aber wir wir können sie anhand der Stichprobenstandardabweichung schätzen: σ s 3 3 S.E. = √ ≈ √ = √ = = 0.20 15 n n 225 Wenn die Nullhypothese stimmt, schaut die Verteilung der Mittel von Stichproben mit 225 Beobachtungen aus der Population also ungefähr so aus: Stichprobenmittelverteilung unter der Nullhypothese 1.0 2.0 0.8 F(x) f(x) 1.5 1.0 0.5 0.6 0.4 0.2 0.0 0.0 14.0 14.5 15.0 15.5 Stichprobenmittel 16.0 14.0 14.5 15.0 15.5 16.0 Stichprobenmittel 2 Diese Logik kann – zu Recht – kritisiert werden (siehe etwa Cohen 1994, für eine einfache und deutliche Kritik). Sie liegt den Hypothesentests, die man in der Forschungsliteratur am häufigsten antrifft, aber zu Grunde. Alternative Logiken bestehen auch, kommen in der Praxis zur Zeit aber deutlich weniger vor, was wohl damit zusammenhängt, dass die damit verknüpften Berechnungen um Einiges komplizierter sind (siehe etwa Dienes 2011, für eine kurze Einführung in die sog. ‘bayessche’ Statistik; siehe Kruschke 2011, für eine detailliertere Behandlung). KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 38 Wenn die Nullhypothese stimmt, ist das Mittel, das tatsächlich beobachtet wurde, x̄ = 14.67, Teil dieser Verteilung. Wie wahrscheinlich ist es nun, dass eine Stichprobe von 225 Datenpunkten aus einer Population mit einem Mittel von 15 und einer Standardabweichung von 3 ein Mittel von 14.67 oder niedriger oder ein Mittel von 15.33 oder höher hat? Diese Wahrscheinlichkeit entspricht der eingefärbten Fläche under der Kurve. Die Grösse dieser Fläche kann einfach berechnet werden (siehe Kapitel 2): pnorm(q = 14.67, mean = 15, sd = 0.20) # linker Teil ## [1] 0.04947 pnorm(q = 15.33, mean = 15, sd = 0.20, lower.tail = FALSE) # rechter Teil ## [1] 0.04947 # Oder zusammen: pnorm(q = 14.67, mean = 15, sd = 0.20) + pnorm(q = 15.33, mean = 15, sd = 0.20, lower.tail = FALSE) ## [1] 0.09894 Wenn das Populationsmittel 15 ist, dann beobachten wir in etwas weniger als 10% der Fälle ein Stichprobenmittel von 14.67 oder niedriger oder von 15.33 oder höher. Dieser Wert (0.099) ist der berühmt-berüchtigte p-Wert. Meistens gilt in den Geistes- und Sozialwissenschaften, dass ein p-Wert von 0.05 oder weniger auf einen sog. signifikanten Unterschied hinweist, d.h. wenn dieser Wert 0.05 oder kleiner ist, wird die Nullhypothese abgelehnt zugunsten der alternativen Hypothese. 4.1.3 Schlussfolgerungen “Wir fanden keinen statistisch signifikanten Unterschied zwischen der durchschnittlichen Hörverstehenskompetenz im Französischen bei flämischen GymnasialschülerInnen nach Ende der obligatorischen Schulzeit (x̄ = 14.7, SD = 3, n = 225) und dem vom Lehrplan vorgeschriebenen Niveau (µ = 15; Gauss-Test: z = 1.65, p = 0.10). Zwischen Klammern kommen zunächst die deskriptiven Masse: Stichprobenmittel, Stichprobenstandardabweichung (SD) und Anzahl Datenpunkte (n). Statt x̄ wird hierbei allerdings meistens M geschrieben. Dann kommen die inferenzstatistischen Werte. z drückt die Distanz zwischen dem beobachteten Mittel und dem Mittel der Nullhypothese in Standardfehlern aus: z= x̄ − µ0 x̄ − µ0 = √s SE n (4.1) In diesem Fall: z = 14.67−15 = −1.65; dieser Wert wird in der Regel als absolute Zahl (also 1.65) 0.20 berichtet. In einer Standardnormalverteilung (einer Normalverteilung mit Mittel 0 und Standardabweichung 1) ist dieser Wert assoziert mit pnorm(-1.65) + pnorm(1.65, lower.tail = FALSE), also mit demselben Wert, den wir oben berechnet haben: KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 39 Verteilung der z−Werte unter der Nullhypothese 0.4 f(z) 0.3 0.2 0.1 pnorm(1.65, lower.tail = FALSE) pnorm(−1.65) 0.0 −3 −2 −1 0 1 2 3 z−Wert Dieser p-Wert folgt danach. Der Deutlichkeit halber können wir auch erwähnen, welchen Test wir verwendet haben, obwohl dies auch oft aus dem Kontext und den berichteten Werten deutlich wird. Allgemein gilt, dass der p-Wert bis auf zwei Stellen abgerundet wird, wenn er höher als 0.01 ist. Da ein Wert von 0.05 als Schwelle gilt, schadet es nicht noch eine dritte Stelle anzuzeigen, wenn sich der Wert zwischen 0.045 und 0.055 befindet. Werte kleiner als 0.01 werden als ‘< 0.01’ oder ggf. ‘< 0.001’ angezeigt. ‘p = 0.00’ ist eigentlich nicht sinnvoll, denn irgendeine Wahrscheinlichkeit, wie gering diese auch sein mag, gibt es eigentlich immer. Der z-Wert wird normalerweise auch auf zwei Dezimalstellen abgerundet. 4.1.4 Anmerkungen Annahmen des Gauss-Tests • Der Gauss-Test setzt nicht voraus, dass die Daten selber normalverteilt sind, sondern dass das Stichprobenmittel aus einer normalverteilten Stichprobenmittelverteilung kommt, sodass wir uns auf den Zentralen Grenzwertsatz berufen können. Sind die Daten nicht normalverteilt, dann besteht allerdings das Risiko, dass das Mittel kein guter Indikator der zentralen Tendenz ist. • s muss eine sehr gute Schätzung von σ sein, sodass wir s stellvertretend für σ in der Formel zur Berechnung des Standardfehlers verwenden können. Grössere Stichproben liefern genauere Schätzungen von σ. Wenn σ bereits bekannt ist, brauchen wir sie nicht mehr mit s zu schätzen. Dies kommt aber nur selten vor. Eine wichtige Annahme, die aber bei grösseren Stichproben nicht unbedingt erfüllt ist, ist die Unabhängigkeitsannahme: Jeder Datenpunkt muss unabhängig von jedem anderen Datenpunkt sein (z.B. entweder 40 Messungen von einem Sprecher oder eine Messung von 40 verschiedenen Sprechern). Ist diese Annahme nicht erfüllt, dann unterschätzt der Gauss-Test, wie alle anderen Tests, die wir besprechen werden, den Standardfehler. Dies führt dazu, dass die Genauigkeit, mit der wir Aussagen machen können, überschätzt wird. Die Unabhängigkeitsannahme wird oft verletzt in Studien, in denen SchülerInnen aus mehreren Klassen als Versuchspersonen dienen, oder wenn mehrere Datenpunkte pro Versuchsperson vorliegen (siehe Vanhove 2015a, Abschnitt 4, für mehr Details). Zur Nullhypothese Die Nullhypothese ist nicht unbedingt die Hypothese, die besagt, dass µ = 0. Vielmehr stellt sie die ‘uninteressante’ Erklärung dar – z.B., dass sich nichts geändert hat. Im Englischen spricht KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 40 man übrigens von der null hypothesis (von ‘to nullify’, also die aufzuhebende Hypothese) und nicht von der nil hypothesis (die Hypothese, dass ein Wert gleich 0 ist). Ein- und zweiseitige Tests Im obigen Beispiel haben wir einen zweiseitigen Gauss-Test verwendet, denn wir haben nicht nur berechnet, wie wahrscheinlich es ist, einen Mittelwert von 14.67 oder niedriger zu beobachten, wenn die Nullhypothese stimmt (linke Seite), sondern auch, wie wahrscheinlich ein Mittelwert von 15.33 oder höher in diesem Fall ist (rechte Seite). In der Literatur trifft man ab und zu auch einseitige Tests an. Bei solchen Tests schaut man sich nur eine der beiden Wahrscheinlichkeiten an. Dies ist dann sinnvoll, wenn es sachlogisch unmöglich ist, dass das Populationsmittel jenseits des von der Nullhypothese postulierten Mittels liegt. (In diesem Beispiel hätten wir dann einen einseitigen Test berechnen können, wenn es unmöglich gewesen wäre, dass das wahre Populationsmittel höher als 15 wäre.) p-Werte von einseitigen Tests sind kleiner als p-Werte von zweiseitigen Tests. Vorsicht: Man sollte sich nicht zuerst die Daten anschauen, und dann entscheiden, dass man einen einseitigen Test verwenden möchte – etwa, wenn der zweiseitige Test ein nicht-signifikantes Ergebnis produziert. Bei einem einseitigen Test sollte zudem auch im Vorhinein festgelegt werden, ob man erwartet, dass µ < µ0 oder µ > µ0 , und muss begründet werden, weshalb die Alternative sachlogisch unmöglich ist. Wenn ein einseitiger Test verwendet wird und vermutet wird, dass µ < µ0 ist es natürlich sinnlos, einen p-Wert zu berechnen, wenn x̄ > µ0 . Der p-Wert wird in diesem Fall immer nicht-signifikant sein. Hier reicht es dann einfach, die deskriptiven Masse aufzulisten. Tipp: Wenn Sie auch den geringsten Zweifel haben, ob ein ein- oder zweiseitiger Test angebracht ist, berechnen Sie dann den zweiseitigen Test: Two sided tests should be used unless there is a very good reason for doing otherwise. If one sided tests are to be used the direction of the test must be specified in advance. One sided tests should never be used simply as a device to make a conventionally non-significant difference significant. (Bland & Altman 1994) Bedeutung des p-Wertes • p ist die Wahrscheinlichkeit, dass ein Stichprobenmittel x̄ oder ein noch extremeres Mittel beobachtet wird, wenn die Nullhypothese tatsächlich stimmt. • Liegt p unter einer arbiträr festgelegten Schwelle (meistens 0.05), dann spricht man von einem ‘signifikanten’ Ergebnis. H0 wird dann zugunsten von HA abgelehnt. Der p-Wert repräsentiert nicht: • die Wahrscheinlichkeit, dass die Nullhypothese stimmt. Wir können nicht schlussfolgern, dass es eine Wahrscheinlichkeit von 10% gibt, dass H0 stimmt. • das Komplement der Wahrscheinlichkeit, dass die alternative Hypothese stimmt. Im obigen Beispiel können wir also nicht schlussfolgern, dass HA mit 1 − 0.10 = 90% Wahrscheinlichkeit zutrifft. Wenn p = 0.03, heisst dies also weder, dass die Wahrscheinlichkeit, dass H0 stimmt, 3% ist, noch, dass HA mit 97% Wahrscheinlichkeit stimmt. Solche falsche Interpretationen des p-Wertes trifft man mit grosser Regelmässigkeit in der Literatur an – manchmal sogar in Einführungen in die Statistik! KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 41 Tipp: In einem kurzen und sehr lesbaren Artikel bespricht Goodman (2008) zwölf Fehlschlüsse, die häufig aus p-Werten gezogen werden. ‘Signifikanz’ In der Statistik ist ‘Signifikanz’ ein technischer Begriff, der nicht mit dem alltäglicheren Begriff von praktischer oder theoretischer Signifikanz oder Bedeutung verwechselt werden soll. Versuchen Sie in Ihren eigenen Arbeiten, diese Zweideutigkeit zu vermeiden. Signifikanzschwelle, Fehlentscheidungen, ‘power’ und Effektgrösse Die Schwelle, die signifikante von nicht-signifikanten p-Werten trennt, bezeichnet man als α und wird im Prinzip arbiträr festgelegt. In den Sozial- und Geisteswissenschaften einigt man sich allerdings meistens implizit auf α = 0.05 (und zwar grundsätzlich aus keinem anderen Grund, als dass eine Hand fünf Fingern zählt). Signifikanztests bieten keine Sicherheit. Wenn H0 tatsächlich zutrifft, dann werden wir bei der traditionellen α-Schwelle von 5% H0 in 5% der Fälle fälschlicherweise ablehnen. Diese Art Fehler nennt man einen Typ-I-Fehler (falsch positiv: etwas finden, was nicht da ist). Wenn nun H0 nicht zutrifft (d.h., es gibt eigentlich einen Effekt), dann besteht trotzdem die Gefahr, ein nicht-signifikantes Ergebnis zu finden. Diese Art Fehler nennt man einen Typ-IIFehler (falsch negativ: etwas nicht finden, was schon da ist). Die Wahrscheinlichkeit eines Typ-II-Fehlers wird als β bezeichnet. Das Komplement von β, 1 − β, nennt man die statistische power eines Tests. p<α p>α H0 stimmt H0 stimmt nicht Typ-I-Fehler (α) OK (1 − α) OK (1 − β) Typ-II-Fehler (β) Vorsicht: Aufgrund des Typ-II-Fehlers können wir bei einem nicht-signifikanten Ergebnis weder schlussfolgern, dass es einen Unterschied gibt, noch, dass es keinen gibt. Wenn Sie irgendwo lesen, dass A und B sich nicht signifikant voneinander unterscheiden und daher einander gleich sind, ist dies in der Regel lediglich bequeme Rethorik: Absenz von Evidenz ist nicht gleich Evidenz für Absenz. Schmidt (1996) nennt diesen Fehlschluss übrigens “the most devastating of all to the research enterprise” (S. 126). 4.1.5 Power berechnen Wie wahrscheinlich ist es, dass wir mit einer Stichprobe von 225 SchülerInnen einen signifikanten Unterschied zu µ0 = 15 feststellen, wenn µ 6= 15. Zunächst müssen wir definieren, wie gross der Unterschied zwischen µA und µ0 eigentlich sein müsste, um von praktischer oder theoretischer Bedeutung zu sein. Dies ist die erwartete Effektgrösse. In diesem Beispiel könnten wir etwa annehmen, dass ein Populationsmittel von 14.5 (oder weniger) bzw. 15.5 (oder mehr) das Bildungsministerium dazu veranlassen sollte, zusätzliche Mittel in den Französischunterricht zu investieren bzw. die Lehrpläne umzuschreiben. Ein Unterschied von mindestens 0.5 Punkten auf der 20er-Skala hätte in diesem Fall also praktische Konsequenzen. (µA1 6 15 − 0.5 = 14.5; µA2 > 15 + 0.5 = 15.5). KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 42 Auch für diese alternativen Hypothesen (HA1 : µ = 14.5 und HA1 : µ = 15.5) können wir Stichprobenmittelverteilungen zeichnen. Deren Standardabweichung wird ebenfalls mithilfe 3 von s geschätzt: σ ≈ √225 = 0.2. Wenn das eigentliche Populationsmittel 15 ist (= die Nullhypothese), dann sind die Mittel der Stichproben mit 225 Beobachtungen, die zufällig aus dieser Population gezogen werden, wie die schwarze Kurve verteilt. Wenn das eigentliche Populationsmittel aber 14.5 ist (= eine der alternativen Hypothesen), dann sind die Stichprobenmittel wie die rote Kurve verteilt: H0: mu = 15 HA1: mu = 14.5 2.0 f(x) 1.5 1.0 0.5 0.0 13.5 14.0 14.5 15.0 15.5 16.0 Stichprobenmittel Bei einem zweiseitigen Test mit α = 0.05 lehnen wir in diesem Fall die Nullhypothese nur ab, wenn das Stichprobenmittel grösser als 15.39 oder kleiner als 14.61 ist: qnorm(0.025, mean = 15, sd = 0.2) # linke Grenze ## [1] 14.61 qnorm(0.975, mean = 15, sd = 0.2) # rechte Grenze ## [1] 15.39 Diese Grenzen werden in der Grafik mit senkrechten Linien dargestellt. Wenn nun die alternative Hypothese (µ = 14.5) zutrifft, dann würden wir die Nullhypothese (µ = 15) fälschlicherweise nicht ablehnen, wenn wir ein Stichprobenmittel zwischen 14.61 und 15.39 beobachten würden. Die Wahrscheinlichkeit, ein solches Stichprobenmittel anzutreffen, wenn die alternative Hypothese zutrifft, entspricht der Fläche unter der roten Kurve zwischen 14.61 und 15.39. Diese Fläche wurde oben rot eingefärbt. Die Grösse dieser Fläche lässt sich relativ einfach berechnen mit den Funktionen, die wir bereits kennen: pnorm(15.39, mean = 14.5, sd = 0.2) - pnorm(14.61, mean = 14.5, sd = 0.2) ## [1] 0.2912 Wenn die alternative Hypothese stimmt, dann stellen wir in etwa 30% der Fälle ein Stichprobenmittel zwischen 14.61 und 15.39 und somit keinen signifikanten Unterschied fest. Da wir in 30% der Fälle, in denen die alternative Hypothese stimmt, eine falsche Nullhypothese nicht ablehnen, ist unsere power bei einer Effektgrösse von 0.5 Punkten also 70%. Unter sonst gleichen Bedingungen, hat eine Studie mehr power als eine andere Studie, wenn: • sie grössere Effekte untersucht. Die schwarzen und roten Kurven liegen dann weiter auseinander, weshalb ihre Überlappung kleiner ist. • sie eine grössere Stichprobe hat. Dies reduziert den Standardfehler ( √σn wird kleiner, wenn n grösser wird), was wiederum zu einer geringeren Überlappung zwischen der schwarzen und roten Kurve führt; KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS Cohens d Interpretation 0.2 0.5 0.8 kleiner Effekt mittlerer Effekt grosser Effekt 43 Tabelle 4.1: Interpretation von Effektgrössen. Cohens d drückt die Effektgrösse aus als die Entfernung zwischen zwei Werten in Standardabweichungen. Welche Entfernung genau “gross” oder “klein” zu nennen ist, hängt selbstverständlich vom Thema und Zweck der Untersuchung ab; Cohen (1992) hält diese Werte für typisch in der Psychologie. Für L2-Forschung schlagen Plonsky & Oswald (2014) leicht andere Werte vor. Selber bin ich immer mehr skeptisch, was solche Richtlinien betrifft, da sie meiner Meinung nach alles über einen Leisten schlagen; siehe auch meinen Blog und Baguley (2009). • ihre Daten genauer bzw. zuverlässiger gemessen wurden. Auch dies reduziert den Standardfehler, denn Messfehler tragen zu σ bei ( √σn wird kleiner, wenn σ kleiner wird). Eine Studie, die Sprachkenntnisse mithilfe eines schnellen Tests erfasst, wird also wohl weniger power haben, um Unterschiede in diesen Sprachkenntnissen festzustellen, als eine Studie, in der diese Sprachkenntnisse sehr präzise gemessen wurden. • sie ein raffinierteres Design hat, welches es erlaubt, die Varianz mit statistischen Mitteln zu reduzieren (siehe Vanhove 2015a, Abschnitte 2.3 und 3, für Beispiele). Besonders nützlich für die Planung von Studien ist, dass man mithilfe der Poweranalyse berechnen kann, wie gross eine Stichprobe sein muss, damit β klein genug ist. Auch kann man im Vorhinein berechnen, wie kraftvoll ein Test ist, wenn man schon weiss, wie gross die Stichprobe sein wird, oder wie gross der Effekt sein muss, damit man ihn mit genügend power erfassen kann. Die Algebra ist aber komplex; später besprechen wir eine Familie von R-Funktionen, mit denen wir dies alles ziemlich einfach berechnen können – vorausgesetzt, man hat eine grobe Einschätzung der Effektgrösse und der Variabilität der Daten. 4.1.6 Relative Effektgrössen Effektgrössen können auch relativ statt absolut ausgedrückt werden. Anstatt zu fragen, wie gut ein statistischer Test einen Unterschied von 0.5 Punkten ermitteln kann, können wir auch fragen, wie gut er Unterschiede von 0.17 σ von µ0 ermitteln kann ( 0.5 3 = 0.17). Eine Effektgrösse ausgedrückt in Standardabweichungen bezeichnet man als Cohens d, s. Tab. 4.1. 4.1.7 Übungen 1. Ein ECTS-Punkt entspricht im Schnitt 28 Arbeitsstunden. Eine Vorlesung wird mit 2 ECTSPunkten benotet und entspricht demnach 56 Arbeitsstunden. Laut der Fachschaft brauchen die meisten Studierenden allerdings erheblich mehr als 56 Arbeitsstunden, um den Stoff zu verarbeiten. Die Kursleiterin will untersuchen, ob dies tatsächlich stimmt. Da sie aber zu viele Studierende hat, um alle Studierenden zu befragen, werden 39 willkürlich ausgewählte Studierende gebeten, einen Fragebogen auszufüllen. Sie wird eine ausführlichere Umfrage organisieren, wenn sich mit p < 0.05 ergibt, dass die Studierenden im Schnitt mehr als 56 Arbeitsstunden brauchen. Auf der Basis früherer Umfragen weiss sie bereits, dass die Standardabweichung bei derartigen Befragungen 8 Arbeitsstunden betrifft (willing suspension of disbelief gefragt). • Formulieren Sie die Null- und Alternativhypothese. KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 44 Bei der Befragung ergibt sich, dass die 39 Studierenden im Schnitt 57.8 Arbeitsstunden brauchen, um den Stoff zu verarbeiten. Die Ergebnisse sind aber eher uniform als normalverteilt. • Ist es für einen Gauss-Test ein Problem, dass die Ergebnisse nicht normalverteilt sind? Warum (nicht)? • Führen Sie einen Gauss-Test aus und berichten Sie das Ergebnis in geeigneter Form. Sollte die Kursleiterin eine ausführlichere Umfrage organisieren? 2. Ein Gauss-Test liefert einen p-Wert von 0.02. Im Vorhinein wurde beschlossen, die Nullhypothese abzulehnen, wenn der p-Wert kleiner als 0.05 ist. Welche der folgenden Aussagen stimmen und welche nicht? • Die Wahrscheinlichkeit, dass die Nullhypothese stimmt, beträgt 2%. • Wenn das Experiment 100 Mal wiederholt wird, werden wir etwa zwei Mal ein nicht-signifikantes Ergebnis finden. • Wenn die Nullhypothese tatsächlich stimmt, dann kriegen wir in nur 2% der Fälle ein Ergebnis, das mindestens so von dem Mittel, das die Nullhypothese postuliert, abweicht. • Die Nullhypothese ist endgültig widerlegt zugunsten der alternativen Hypothese. • Die Nullhypothese stimmt mit 95% Wahrscheinlichkeit. 4.2 Konfidenzintervalle Ein α%-Konfidenzintervall besteht aus zwei Werten, die um x̄ liegen und die so nach einem Verfahren bestimmt wurden, dass das Intervall das wahre Populationsmittel in α% der Fälle enthält.3 Zum Beispiel werden 95%-Konfidenzintervalle nach einem Verfahren konstruiert, das garantieren soll, dass das Populationsmittel µ in 95% der Fälle in diesem Intervall liegt. Wenn die Stichprobenmittel normalverteilt sind (Annahme des Gauss-Tests), kann man diese Konfidenzintervalle mithilfe der Stichprobenmittelverteilung folgendermassen berechnen: • Berechne den Standardfehler (S.E. = √σ n ≈ √s ). n • Suche die Werte, die in einer Standardnormalverteilung symmetrisch um das Mittel liegen und für die gilt, dass z.B. 95% aller möglichen Beobachtungen dazwischen liegen. (Konfidenzintervalle sind nicht per Definition symmetrisch, aber mit dieser Methode berechnen wir eben symmetrische Konfidenzintervalle.) # Für ein 95%-Konfidenzintervall: qnorm(0.025); qnorm(0.975) 3 Die Definition ist leider schwierig, da das Konzept schwieriger ist als was man auf den ersten Blick denken würde – auch für erfahrene Forschende (Hoekstra et al. 2014). Oft interpretiert man ein 95%-Konfidenzintervall als die zwei Werte, zwischen denen der Populationsparameter (hier: µ) mit 95% Wahrscheinlichkeit liegt. Dies stimmt strikte genommen nicht (Morey et al. 2015). Zur Interpretation von Konfidenzintervallen schreibt Ehrenberg (1982) aber Folgendes: [T]he rough-and-ready interpretation of confidence limits . . . will be close to the truth. The choice is between making a statement which is true but so complex that it is almost unactionable, and making one which is much simpler but not quite correct. Fortunately, the effective content of the two kinds of statement is generally similar. (S. 125) Statt Konfidenzintervallen empfehlen Morey et al. (2015) den Gebrauch von ‘Kredibilitätsintervallen’. Diese sind im Bereich der bayesschen Statistik angesiedelt und kommen in unserer Forschungsliteratur kaum vor. Wer mehr über Kredibilitätsintervalle erfahren möchte, kann sich bei Kruschke (2011) schlau machen. KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 45 ## [1] -1.96 ## [1] 1.96 # Für ein 90%-Konfidenzintervall: qnorm(0.05); qnorm(0.95) ## [1] -1.645 ## [1] 1.645 • Multipliziere den Standardfehler mit diesen Werten und zähle die Ergebnisse beim Stichprobenmittel auf. Beispiel: x̄ = 14.3, s = 12.1, n = 42. 90%-Konfidenzintervall? • S.E. ≈ 12.1 √ 42 = 1.87 • qnorm((1-0.90)/2); qnorm(1-(1-0.90)/2) → ±1.64 (Symbol: z0.05 bzw. z0.95 ) • x̄ ± S.E. × z0.95 = 14.3 ± 1.87 × 1.64 = {11.2, 17.4} 90%−Konfidenzintervall Wenn wir aus der gleichen Population 100 Stichproben mit Grösse 42 nehmen, ihre Mittel und Standardabweichung und dann die 90%-Konfidenzintervalle nach diesem Prinzip berechnen, dann wird das Populationsmittel in etwa 90 der berechneten Intervalle liegen. Zur Illustration habe ich 20 Stichproben mit Grösse 42 aus einer Gleichverteilung mit µ = 12.5 gezogen und jeweils die 90%-Konfidenzintervalle berechnet. Im Schnitt werden zwei dieser Konfidenzintervalle µ (gestrichelte Linie) nicht enthalten (rot). 15 14 13 12 11 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Stichprobe Unter rpsychologist.com/d3/CI/ finden Sie eine lehrreiche App zu Konfidenzintervallen. 4.3 4.3.1 Einstichproben-t-Test Die t-Verteilungen Eine Voraussetzung des Gauss-Tests ist, dass wir die Standardabweichung der Population mit grosser Genauigkeit geschätzt haben. Wie wir im vorigen Kapitel kurz angesprochen haben, unterschätzt die Standardabweichung einer Stichprobe die Standardabweichung der Population aber etwas, und dieses Bias ist grösser für kleinere Stichproben (Fussnote 4 auf Seite 31). Deshalb müssen wir die Stichprobenmittelverteilung breiter machen, je kleiner die Stichprobe ist. Die t-Verteilungen sagen uns, wie viel breiter. Dieser mathematische Trick funktioniert im Prinzip nur, wenn unsere Daten aus einer Normalverteilung stammen (= striktere Annahme). Allerdings wird diese Annahme weniger wichtig, je grösser unsere Stichproben sind. KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 46 Diese Grafik zeigt die t-Verteilungen mit 2 (violett), 5 (grün), 15 (rot) und 30 (blau) Freiheitsgraden; bei einer t-Verteilung ist diese Anzahl gleich der Anzahl Beobachtungen in der Stichprobe −1.4 Die schwarze Kurve ist die Standardnormalverteilung. 0.4 f(x) 0.3 0.2 0.1 0.0 −4 −2 0 2 4 x Konkret: Wenn die Stichprobe drei Datenpunkte umfasst, diese Datenpunkte aus einer Normalverteilung stammen und die Nullhypothese stimmt, dann ist der berechnete t-Wert Teil der t(2)-Verteilung (violett). Hat die Stichprobe 16 Datenpunkte, dann ist der berechnete t-Wert Teil der t(15)-Verteilung (rot). 4.3.2 Hypothesen testen Mithilfe der t-Verteilungen können wir jetzt auch anhand kleinerer Stichproben Hypothesen testen. Logik und Vorgehen sind identisch wie beim Gauss-Test, nur wird anstatt einer Normalverteilung eine t-Verteilung mit den angemessenen Freiheitsgraden verwendet. Die t-Statistik wird analog zur z-Statistik berechnet: t= x̄ − µ0 x̄ − µ0 = √s SE n (4.2) Beispiel 1 H0 : µ = 10, HA : µ 6= 10. Stichprobe: {9, 14, 11, 12, 13, 10}. α = 0.10. Annahme: Die Daten kommen aus einer Normalverteilung. Sollten wir die Nullhypothese ablehnen? • Daten einlesen: x <- c(9, 14, 11, 12, 13, 10) • x̄ (Mittel) berechnen: mean(x) ## [1] 11.5 • s (Standardabweichung) berechnen: sd(x) ## [1] 1.871 • t-Statistik berechnen: 4 Freiheitsgrade sind grundsätzlich ein Mass des Informationsreichtums der Stichprobe. Eisenhauer (2008) erklärt den Begriff detaillierter. KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 47 t <- abs((mean(x) - 10) / (sd(x) / sqrt (6))) t ## [1] 1.964 • Zweiseitige Wahrscheinlichkeit für t > 1.96 und t < −1.96 bei 6 − 1 = 5 Freiheitsgraden. Dies entspricht der eingefärbte Fläche in dieser Grafik: t−Verteilung mit 5 d.f. f(t) 0.3 0.2 0.1 pt(1.96, df = 5, lower.tail = FALSE pt(−1.96, df = 5) 0.0 −4 −2 0 2 4 t pt(-t, df = 5) # linke Seite ## [1] 0.05337 pt(t, df = 5, lower.tail = FALSE) # rechte Seite ## [1] 0.05337 pt(-t, df = 5) + pt(t, df = 5, lower.tail = FALSE) # zusammen ## [1] 0.1067 “Aufgrund dieser Daten lehnen wir die Nullhypothese (µ = 10) nicht ab (M = 11.5, SD = 1.87, n = 6; t(5) = 1.96, p = 0.11).” Oder schneller in R: # Daten eingeben t.test(x, mu = 10) ## ## ## ## ## ## ## ## ## ## ## One Sample t-test data: x t = 1.96, df = 5, p-value = 0.11 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 9.5367 13.4633 sample estimates: mean of x 11.5 Beispiel 2 H0 : µ = 2.4, HA : µ 6= 2.4. Stichprobe: {1.4, 2.6, 1.7, 0.9}. α = 0.05. Annahme: Die Daten stammen aus einer Normalverteilung. H0 ablehnen? • Daten einlesen: KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 48 x <- c(1.4, 2.6, 1.7, 0.9) • x̄ (Mittel) berechnen: mean(x) ## [1] 1.65 • s (Standardabweichung) berechnen: sd(x) ## [1] 0.71414 • t-Statistik berechnen: t <- abs((mean(x) - 2.4) / (sd(x) / sqrt (4))) t ## [1] 2.1004 • Zweiseitige Wahrscheinlichkeit für t < −2.1 und t > 2.1 bei 4 − 1 = 3 Freiheitsgraden berechnen. Dies entspricht der eingefärbten Fläche in dieser Grafik: t−Verteilung mit 3 d.f. f(t) 0.3 0.2 0.1 pt(2.1, df = 3, lower.tail = FALSE pt(−2.1, df = 3) 0.0 −4 −2 0 2 4 t pt(-t, df = 3) # linke Seite ## [1] 0.063257 pt(t, df = 3, lower.tail = FALSE) # rechte Seite ## [1] 0.063257 pt(-t, df = 3) + pt(t, df = 3, lower.tail = FALSE) # zusammen ## [1] 0.12651 Oder: t.test(x, mu = 2.4) ## ## ## ## ## ## ## ## One Sample t-test data: x t = -2.1, df = 3, p-value = 0.13 alternative hypothesis: true mean is not equal to 2.4 95 percent confidence interval: 0.51364 2.78636 KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 49 ## sample estimates: ## mean of x ## 1.65 “Die Nullhypothese (µ = 2.4) konnte auf Basis unserer Daten nicht abgelehnt werden (M = 1.65, SD = 0.71, n = 4; t(3) = −2.10, p = 0.13).” Beachten Sie: Wenn (zu Unrecht) ein Gauss-Test verwendet worden wäre, wäre der Unterschied signifikant gewesen: pnorm(-t) + pnorm(t, lower.tail = FALSE) ## [1] 0.035692 Vorsicht: Natürlich müssen wir beim Ziehen von Schlussfolgerungen extremst vorsichtig sein, wenn die Stichprobe bloss drei Beobachtungen zählt. Einerseits haben wir wenig power und ist ein nicht-signifikantes Ergebnis daher kaum informativ; andererseits müssten wir auch ein eventuelles signifikantes Ergebnis mit einem riesigen Salzkorn nehmen: Der Unterschied, den wir finden, dürfte zufallsbedingt sein und ist vermutlich eine Überschätzung des echten Unterschieds (siehe hierzu Gelman & Carlin 2014). Die obigen Übungen dienen also lediglich dazu, Ihnen zu zeigen, dass man auch bei kleinen Stichproben Signifikanztests einsetzen kann – nicht dass man dies regelmässig tun sollte. 4.3.3 t- oder Gauss-Test? Im Prinzip kann man für grosse Stichproben den Gauss-Test verwenden und für kleine den t-Test. Da die t-Verteilung bei einer grösseren Anzahl Freiheitsgrade aber kaum von einer Normalverteilung zu unterscheiden ist, können wir den t-Test auch für grössere Stichproben verwenden. Deshalb gibt es in R zwar eine t-Test-Funktion, aber keine Gauss-Test-Funktion. Vorsicht: Beim Konstruieren von Konfidenzintervallen sollte man die geeignete t-Verteilung statt der Normalverteilung benutzen, wenn die Stichproben relativ klein sind. Dies geht einfach mit der t.test()-Funktion. Im zweiten Beispiel oben ist das 95%-Konfidenzintervall also [0.51; 2.79]. Da Einstichproben-Tests nur äusserst selten vorkommen, gibt es in diesem Kapitel keine weiteren praktischen Aufgaben. Teil II Die weitverbreitesten Tests und Modelle 50 Kapitel 5 Zwei Stichproben vergleichen Im letzten Kapitel haben wir gesehen, wie in der sogenannten ‘frequentistischen’ Inferenzstatistik (dem am häufigsten verwendeten Inferenzparadigma) Hypothesen getestet werden: 1. Eine Null- und eine Alternativhypothese werden (meistens implizit) formuliert. 2. Es werden Daten bei einer Stichprobe erhoben. Im Idealfall stellt diese Stichprobe eine zufällige Auswahl aus der betroffenen Population dar, meistens jedoch ist dies aus praktischen Gründen nicht möglich. 3. Man stellt sich die Frage: “Wie wahrscheinlich ist es, dieses Stichprobenmittel oder ein noch extremeres Stichprobenmittel zu finden, wenn die Nullhypothese tatsächlich stimmt?” 4. Anhand der Standardabweichung der Stichprobe wird die Standardabweichung der Population geschätzt und der Standardfehler berechnet. Die Differenz zwischen dem Stichprobenmittel und dem von der Nullhypothese vorhergesagten Mittel wird geteilt durch diesen Standardfehler, was eine Teststatistik ergibt, die man als z oder als t bezeichnet. 5. Anhand einer Referenzverteilung (der Standardnormalverteilung oder der entsprechenden t-Verteilung), die die Verteilung der Teststatistik unter Annahme der Nullhypothese erfasst, wird der p-Wert berechnet. 6. Ist diese Wahrscheinlichkeit p gering (in der Regel p < 0.05), dann wird die Nullhypothese zugunsten der Alternativhypothese abgelehnt. Wenn dies nicht der Fall ist, lehnt man die Nullhypothese vorübergehend nicht ab. 7. Man versucht sich dessen bewusst zu bleiben, dass ein signifikanter p-Wert die Existenz des Unterschieds nicht unumstösslich beweist (Möglichkeit eines Typ-I-Fehlers) und dass ein nicht-signifikanter p-Wert nicht ohne Weiteres die Absenz dieses Unterschieds belegt (Möglichkeit eines Typ-II-Fehlers). Bis jetzt haben wir das Mittel einer Stichprobe mit einem postulierten Populationsmittel verglichen. In diesem Kapitel werden wir die Mittel von zwei Stichproben miteinander vergleichen. Die hinterliegende Logik der verwendeten Tests ist aber grundsätzlich die gleiche wie in Kapitel 4. In Kapitel 7 besprechen wir, wie Aussagen über mehr als zwei Stichproben gemacht werden können. Abschnitt 5.1 stellt einen mechanistischen Ansatz zur Beantwortung der Frage nach der statistischen Signifikanz vor. Dieses Abschnitt versteht sich als Exkurs, kann Ihnen dabei möglicherweise helfen, wichtige Konzepte in der Inferenzstatistik besser zu verstehen. Ausserdem wiederholt 51 KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 52 es grundlegende Konzepte des experimental designs. Die in diesem Abschnitt beschriebene Methode lässt sich in der Praxis, aus Gründen, die in Kürze besprochen werden, nur selten anwenden. Trotzdem halte ich die Logik hinter dieser Methode für didaktisch nützlich. 5.1 5.1.1 Exkurs: Randomisierung als Inferenzbasis Ein einfaches Experiment (Fiktives Beispiel, aber siehe Guiora et al. 1972.) Um den Effekt von Alkohol auf die Sprechgeschwindigkeit zu untersuchen, werden sechs Germanistikstudierende zu einem Experiment eingeladen. Nach dem Zufallsprinzip wird die Hälfte der Studierenden der Experimentalgruppe und die andere Hälfte der Kontrollgruppe zugeteilt. Die Versuchspersonen in der Experimentalgruppe müssen ein Videofragment beschreiben, nachdem sie zuerst 5 Deziliter alkoholhaltiges Bier getrunken haben. Die Versuchspersonen in der Kontrollgruppe erledigen dieselbe Aufgabe, trinken statt alkoholhaltigem aber 5 Deziliter alkoholfreies Bier. Die Versuchspersonen wissen nicht, ob das Bier, dass sie trinken, alkoholfrei oder alkoholhaltig ist. Gemessen wird die Sprechgeschwindigkeit in Silben pro Sekunde. Auch die Mitarbeitenden, die die Silben zählen, wissen nicht, welche Versuchspersonen welcher Kondition zugeteilt wurden (double-blind experiment). Wieso sollten im Idealfall weder die Versuchspersonen noch die Mitarbeitenden wissen, welche Versuchsperson welcher Kondition zugeteilt wurde? In diesem Design ist die Kondition (alkoholhaltig vs. alkoholfrei) die unabhängige Variable: Die Forschenden konnten diese Variable selber manipulieren. Ein Begriff mit einer ähnlichen Bedeutung ist ‘Prädiktor’. Die Variable ‘Sprechgeschwindigkeit’ ist die abhängige Variable, da wir davon ausgehen, dass ihr Wert teilweise von der unabhängigen Variable abhängt. Andere Begriffe sind ‘outcome variable’ und ‘response variable’. Von den sechs Studierenden wurden Sandra, Daniel und Maria nach dem Zufallsprinzip der Kontrollgruppe zugeteilt, während Nicole, Michael und Thomas der Experimentalgruppe zugeteilt wurden. Die Versuchspersonen in der Kontrollgruppe äusserten beim Beschreiben des Videofragments 4.2, 3.8 und 5.0 Silben pro Sekunde; diejenigen in der Experimentalgruppe 3.1, 3.4 und 4.2 Silben pro Sekunde. Es ist klar, dass die Versuchspersonen in der Kontrollgruppe eine höhere durchschnittliche Sprechgeschwindigkeit haben als jene in der Experimentalgruppe: Der Unterschied zwischen den Gruppenmitteln beträgt etwa 0.8 Silben pro Sekunde. Können wir daraus schliessen, dass das Trinken von alkoholhaltigem vs. alkoholfreiem Bier diesen Unterschied mitverursacht hat, oder beruht er auf reinem Zufall? 5.1.2 Warum randomisieren? Die Versuchspersonen wurden nach dem Zufallsprinzip einer der Gruppen zugeteilt. So wurde sichergestellt, dass die Ergebnisse nicht systematisch verzerrt wurden. Zum Beispiel gibt es zwar in der Kontrollgruppe zwei Frauen und in der Experimentalgruppe nur eine, aber dieser Unterschied ist rein zufällig: Wir haben die Kontrollgruppe nicht systematisch bevorteilt. Das Ziel von Randomisierung ist also nicht, perfekt äquivalente Gruppen zu generieren, sondern KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 53 eine systematische Verzerrung vorzubeugen – sowohl was bekannte als auch was unbekannte Störvariablen betrifft. (Siehe Vanhove 2015a, zu diesem Missverständnis.) Ausserdem handelt es sich in diesem Fall um ein double-blind experiment: Weder die Versuchspersonen selber noch die auswertenden Mitarbeitenden wussten, wer welcher Kondition zugeteilt wurde. Dies beugt eine Verzerrung der Ergebnisse aufgrund von Erwartungseffekten vonseiten der Versuchspersonen (subject-expectancy effect, vgl. den Placebo-Effekt) oder vonseiten der Forschenden (observer-expectancy effect) vor (siehe Green & Levy Paluck 2004). Sicher hätten wir dieses Design verfeinern können, indem wir etwa die Herkunft der Versuchspersonen in beiden Gruppen fixiert hätten (z.B. eine Bündernin, ein Zürcher und eine Bernerin in jeder Gruppe; wer sich für solche raffiniertere Designs interessiert, kann sich ausgewählte Kapitel aus Oehlert 2010, anschauen) oder indem wir die Sprechgeschwindigkeit der Versuchspersonen auch vor dem Experiment gemessen hätten (‘Pretest’) und die Unterschiede analysiert hätten, aber auch ohne solche Raffinesse erlaubt dieses Design dank der Randomisierung (und der Blindierung) gültige Aussagen. 5.1.3 Die Nullhypothese und Re-Randomisierung Der Unterschied zwischen den Mitteln der Gruppen beträgt etwa 0.8 Silben pro Sekunde. Da wir ein randomisiertes Experiment ausgeführt haben und somit eine systematische Verzerrung der Ergebnisse vorgebeugt haben, könnten wir daraus sogar schliessen, dass dieser Unterschied z.T. von unserer experimentellen Manipulation verursacht wurde: Der Konsum von 5 Deziliter alkholhaltigem Bier bremst die Sprechgeschwindigkeit. Bevor wir eine solche kausale Aussage machen, müssen wir uns mit einer trivialeren Erklärung beschäftigen: Vielleicht beruht der Unterschied auf reinem Zufall. Dies ist unsere Nullhypothese, die mit der Alternativhypothese kontrasiert: • H0 : Der Unterschied zwischen beiden Mitteln ist nur dem Zufallsfaktor zuzuschreiben. • HA : Der Unterschied ist auch teilweise der experimentellen Manipulation zuzuschreiben. In der ‘frequentistischen’ Inferenzstatistik argumentiert man kontradiktorisch: Man berechnet, wie wahrscheinlich es ist, den beobachteten Effekt oder noch extremere Effekte anzutreffen, davon ausgehend, dass die Nullhypothese stimmt. Ist diese Wahrscheinlichkeit gering (unter einer arbiträren Schwelle), dann schliessen wir daraus, dass unsere erste Annahme – die Nullhypothese stimmt – wohl nicht berechtigt war und dass auch ein systematischer Effekt im Spiel ist. Für dieses Beispiel nehmen wir 10% als arbiträre Schwelle; in der Regel ist aber 5% üblich. Wie berechnen wir nun diese Wahrscheinlichkeit? Wenn wir davon ausgehen, dass die Nullhypothese stimmt, dann ist der Unterschied zwischen den Gruppen lediglich das Ergebnis der Randomisierung, also des Zufalls. Die Gruppierung der Ergebnisse, so wie wir sie beobachtet haben, wird in diesem Cleveland dotplot dargestellt: KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 54 Ergebnisse Experiment Alkoholfrei Sandra Daniel Maria Alkoholhaltig Thomas Michael Nicole 3.5 4.0 4.5 5.0 Sprechgeschwindigkeit (Silben/Sekunde) Wenn das Zufallsverfahren aber statt Michael Sandra der Experimentalgruppe zugeteilt hätte und Alkoholkonsum die Sprechgeschwindigkeit nicht beeinflusst, wäre dies die Verteilung gewesen – und wäre der Unterschied nicht 0.8 sondern bloss 0.3 Silben pro Sekunde gewesen: Alternative Ergebnisse Alkoholfrei Michael Daniel Maria Alkoholhaltig Thomas Sandra Nicole 3.5 4.0 4.5 5.0 Sprechgeschwindigkeit (Silben/Sekunde) Um jetzt zu berechnen, wie ‘erstaunlich’ ein Unterschied von 0.8 oder mehr unter Annahme der Nullhypothese ist, können wir berechnen, wie oft das Zufallsverfahren alleine schon einen solchen Unterschied generiert. Es gibt 20 Möglichkeiten, um 6 Versuchspersonen in zwei 3erGruppen aufzuteilen (z.B. Sandra, Daniel, Maria / Thomas, Michael, Nicole; Sandra, Daniel, Thomas / Maria, Michael, Nicole; Sandra, Daniel, Michael / Thomas, Maria, Nicole; usw.).1 Für jede dieser 20 Möglichkeiten berechnen wir, wie gross der Gruppenunterschied ist. (Der R-Code ist dabei nicht so wichtig, nur die Logik.) Diese Grafik stellt für jede mögliche Re-Randomisierung den Unterschied zwischen den Gruppenmitteln dar: Gruppenunterschiede für alle Randomisierungen −1.0 −0.5 0.0 0.5 1.0 Unterschied zwischen den Mitteln der beiden Gruppen Die roten Linien stellen einen absoluten Unterschied von etwa 0.8 Silben pro Sekunde dar. Insge1 6! 3!(6−3)! = 720 6×6 = 20. Oder kurz in R: choose(6, 3). KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 55 samt 6 der 20 mögliche Re-Randomisierungen führen zu einem absoluten Gruppenunterschied von 0.8 Silben pro Sekunde oder mehr. Die Wahrscheinlichkeit, einen Unterschied zwischen den Mitteln von 0.8 oder mehr Silben pro Sekunde anzutreffen, wenn der Unterschied komplett 6 zufallsbedingt ist, liegt also bei 20 = 0.3 (also 30%). Dies ist unser p-Wert. Da 30% gar nicht so unwahrscheinlich ist und über unserer arbiträren Schwelle von 10% liegt, betrachten wir die Nullhypothese vorübergehend als nicht abgelehnt. Dies heisst nicht, dass wir die Nullhypothese bestätigt haben, sondern nur, dass keine statistische Evidenz vorliegt, dass sie abgelehnt werden sollte. (Absenz von Evidenz 6= Evidenz für Absenz!) 5.1.4 Bemerkungen • Der Gebrauch dieses Permutationstests wird durch das Forschungsdesign (genauer gesagt durch die uneingeschränkte Randomisierung) legitimiert. Dies illustriert, dass Design und Analyse unauflöslich miteinander verknüpft sind. • Wir haben unsere Versuchspersonen zufällig den experimentellen Konditionen zugeordnet, aber sie nicht zufällig aus irgendeiner Population gewählt. Wenn wir ein statistisch signifikantes Ergebnis gefunden hätten, dann hätten wir folglich daraus immer noch nicht ohne Weiteres schliessen können, dass die experimentelle Manipulation einen Effekt in einer bestimmten Population hätte. Dazu hätten wir sowohl eine zufällige Auswahl aus der Population (random sampling) und eine zufällige Zuweisung der Versuchspersonen an die Konditionen (random assignment) verwenden müssen. Ohne eine zufällige Auswahl beruht eine solche Schlussfolgerung auf einer (oft impliziten) sachlogischen Argumentation – nicht auf einer statistischen Gegebenheit. Diese Nuance entspricht dem Unterschied zwischen interner Validität (Ist der Unterschied oder der Effekt, der wir in dieser Stichprobe beobachtet haben, der experimentellen Manipulation zuzuschreiben?) und externer Validität (Lässt sich dieser Befund über die Stichprobe hinaus generalisieren?).2 Für weitere Details bzgl. Permutationstests, siehe meinen Blog. 5.1.5 Die Holzhammermethode: Permutationstest für grössere Stichproben Der oben besprochene Lösungsansatz lässt sich in der Regel nur selten anwenden, da wir meistens mit grösseren Stichproben zu tun haben. Es gibt 20 Möglichkeiten, 6 Versuchspersonen in 2 gleich grosse Gruppen aufzuspalten, aber bereits mehr als 155 Millionen Möglichkeiten, 30 Versuchspersonen in 2 gleich grosse Gruppen aufzuspalten. Die Stichprobenmittel für alle ReRandomisierungen zu vergleichen würde viel zu lange dauern. Ein alternativer Lösungsansatz besteht darin, ‘nur’ 1’000 oder 10’000 solcher Re-Randomisierungen zu generieren und die Mittel zu vergleichen. Solche Permutationstests trifft man aber ebenfalls nur selten in der Literatur an. 5.2 Zweistichproben-t-Test für unabhängige Stichproben Ein Test, den man weitaus häufiger als die oben besprochenen Permutationstests antrifft, ist der Zweistichproben-t-Test. Dieser beruht nicht auf einem machinellen Lösungsansatz, sondern lässt sich analytisch herleiten, und zwar ähnlich wie der Gauss- und Einstichproben-t-Test. 2 Wer sich für die Effizienz didaktischer Methoden interessiert ist, muss wohl die externe Validität der Untersuchung berücksichtigen. Aber für etwa experimentelle Psychologen ist externe Validität nicht unbedingt so wichtig (Mook 1983): Für sie kann es wichtiger sein, zu zeigen, dass eine Manipulation überhaupt einen Effekt erzeugen kann, ohne dass die Grenzen dieses Befunds schon erprobt werden müssen. KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 56 Dass er so oft angewandt wird, verdankt er der Tatsache, dass seine Ergebnisse mit jenen von Permutationstests konvergieren: the statistician does not carry out this very simple and very tedious process [i.e. running a permutation test, JV], but his conclusions have no justification beyond the fact that they agree with those which could have been arrived at by this elementary method. (Fischer, 1936; zitiert in Ernst 2004) Um das Inferenzproblem in den Griff zu bekommen, müssen allerdings bestimmte Annahmen gemacht werden. Auch ist die Herleitung des t-Tests umständlicher als jene des Permutationstests. Als EndbenützerInnen brauchen wir uns zwar nicht ausführlich um diese Herleitung zu kümmern, aber ich halte es für sinnvoll, zumindest zu wissen, wo die berichteten Zahlen herkommen und welche Rolle die berühmt-berüchtigten Annahmen in der Berchnung des Tests genau spielen. 5.2.1 Fragestellung und Daten (Fiktives Beispiel, aber siehe Guiora et al. 1972.) Die Fragestellung und das Design sind ähnlich wie im obigen Beispiel, nur haben wir statt 6 jetzt 36 Versuchspersonen rekrütiert. 18 werden nach dem Zufallsprinzip der Experimentalgruppe zugeordnet, die restlichen 18 dienen als Kontrollgruppe. Die Daten finden Sie in der Datei Alkohol_Sprechgeschwindigkeit.csv. # Daten einlesen; ev. file.choose() verwenden alkohol <- read.csv("Alkohol_Sprechgeschwindigkeit.csv") alkohol[c(1:3, 34:36), ] ## ## ## ## ## ## ## Gruppe Sprechgeschwindigkeit 1 Kontrollgruppe 4.0 2 Kontrollgruppe 4.2 3 Kontrollgruppe 4.4 34 Experimentalgruppe 4.4 35 Experimentalgruppe 4.0 36 Experimentalgruppe 3.9 5.2.2 Grafische Darstellung Es ist immer eine gute Idee, die Daten zunächst grafisch darzustellen. Bei einem Gruppenvergleich mit einer kontinuierlichen abhängigen Variable (und ipso facto einer nominalskalierten unabhängigen Variable) sind Boxplots mehr oder weniger der Standard. Siehe Abschnitt 7.1.2 ab Seite 95 für Alternativen. # Mit 'mar' mache ich insb. den Linkerrand breiter, # sodass die Gruppennamen reinpassen. # Mit 'las = 1' zeichne ich die Labels horizontal. # Siehe ?par für mehr Infos. par(mar = c(3, 8.5, 2, 1), las = 1) # Boxplot boxplot(Sprechgeschwindigkeit ~ Gruppe, data = alkohol, main = "Boxplot", horizontal = TRUE) KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 57 Boxplot Kontrollgruppe Experimentalgruppe 3.6 5.2.3 3.8 4.0 4.2 4.4 4.6 Beschreibende Statistik Mit der summarise()-Funktion aus dem dplyr-Package können einfach beschreibende Masse für jede Gruppe berechnet werden. Das Package können Sie mit dem Befehl install.packages("dplyr") installieren. Führen Sie dann folgende Befehle aus: library(dplyr) # Datensatz 'alkohol' nach Variable 'Gruppe' aufteilen alkohol.sum <- summarise(group_by(alkohol, Gruppe), Mittel = mean(Sprechgeschwindigkeit), # Mittel berechnen Median = median(Sprechgeschwindigkeit), # Median StdAbw = sd(Sprechgeschwindigkeit), # Standardabweichung Anzahl = n()) # Anzahl Beobachtungen alkohol.sum ## Source: local data frame [2 x 5] ## ## Gruppe Mittel Median StdAbw Anzahl ## (fctr) (dbl) (dbl) (dbl) (int) ## 1 Experimentalgruppe 4.1889 4.25 0.27842 18 ## 2 Kontrollgruppe 4.0000 4.05 0.25668 18 5.2.4 Lösung Der Nullhypothesentest für den Zweistichproben-Fall ist mit dem Vorgehen aus dem letzten Kapitel vergleichbar. Die Nullhypothese ist diesmal, dass die Mittel der Populationen, aus denen beide Stichproben gezogen wurden, gleich sind: H0 : µ1 = µ2 Die Gegenhypothese ist hier lediglich, dass dies nicht der Fall ist: HA : µ1 6= µ2 Wenn µ1 = µ2 (H0 ), dann gilt natürlich µ1 − µ2 = 0. Wir beobachteten aber einen Unterschied von 0.2 Silben pro Sekunde zwischen den Stichprobenmitteln beider Gruppen (x̄1 und x̄2 ) (4.19 vs. 4.00; siehe beschreibende Statistik). KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 58 Ähnlich wie im letzten Kapitel stellen wir uns jetzt folgende Frage: Wie wahrscheinlich ist es, dass die Mittel so voneinander abweichen, wenn H0 stimmt? Um diese Frage beantworten zu können, müssen wir wieder eine t-Statistik berechnen: Wir teilen den Unterschied durch seinen Standardfehler: t= x̄1 − x̄2 S.E.x̄1 −x̄2 (5.1) Den Unterschied zu berechnen ist einfach, beim Standardfehler ist es komplizierter. Der Standardfehler des Unterschieds ist eine Funktion der Varianzen der Populationen, aus denen die Stichproben gezogen wurden, und der Anzahl Beobachtungen in jeder Stichprobe:3 s S.E.x̄1 −x̄2 = σ21 σ2 + 2 n1 n2 (5.2) Also: Je kleiner die Varianz der Daten oder je grösser die Stichproben, desto kleiner der Standardfehler und desto grösser t. Wenn wir davon ausgehen können, dass σ21 = σ22 (Annahme!), dann vereinfacht sich die Formel: s S.E.x̄1 −x̄2 = σ2 1 1 + n1 n2 s =σ 1 1 + n1 n2 (5.3) σ ist in der Regel unbekannt, aber kann auf der Basis der Stichprobenstandardabweichungen als s12 geschätzt werden. Um s1 und s2 miteinander zu kombinieren, verwenden wir folgende Formel: s σ ≈ s12 = (n1 − 1)s21 + (n2 − 2)s22 (n1 − 1) + (n2 − 1) (5.4) Das Konzept hinter dieser Formel ist, dass zuerst die beiden Schätzungen von σ2 (s21 und s22 ) gemittelt werden, aber nach Stichprobengrösse gewichtet werden. Danach wird die Wurzel gezogen, um die Standardabweichung zu berechnen. Die Standardabweichungen innerhalb der Gruppen betragen 0.28 und 0.26 (siehe beschreibende Statistik). Daraus: 3 Dieser Schritt ist etwas schwierig. Der Grund, dass wir ihn machen können, ist, dass beide Stichprobenmittel aus normalverteilten Stichprobenmittelverteilungen kommen (Zentraler Grenzwertsatz; Annahme!). Die Standardfehler r r σ21 n1 und σ22 n2 sind die Standardabweichungen dieser Stichprobenmittelverteilungen. Ihre Quadrate σ21 n1 und σ22 n2 sind also die Varianzen. Wenn wir die entsprechenden Elemente aus zwei zufälligen Reihen (Vektoren) normalverteilter Variablen beieinander aufzählen, dann ist die daraus resultierende Reihe von Zahlen auch normalverteilt. Das Mittel der Summen µ1+2 ist dann gleich µ1 + µ2 und die Varianz der Summen σ21+2 ist gleich σ21 + σ22 . Wenn wir zwei Vektoren normalverteilter Variablen voneinander abziehen, ist das Mittel der Ergebnisse natürlich µ1 − µ2 . Die Varianz der Unterschiede ist aber noch immer die Summe der Varianzen σ21 + σ22 . (Wenn wir das Zeichen aller Werte in der zweiten Zahlenreihe umdrehen (positiv wird negativ, negativ wird positiv), dann wird das Mittel der Zahlenreihe −µ2 ; die Varianz bleibt aber gleich.) Hieraus folgt, dass die Verteilung der Unterschiede zwischen normalverteilten Stichprobenmitteln auch normalverteilt ist, und zwar mit µ = µ1 − µ2 (laut H0 : µ1 − µ2 = 0) und σ2 = Lange Rede, kurzer Sinn: Die Formel ist gar nicht so absurd. σ21 n1 + σ22 n2 ! KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN s s12 = 59 (18 − 1) × 0.282 + (18 − 1) × 0.262 = 0.27 18 + 18 − 2 r S.E.1−2 = 0.27 t= 1 1 + = 0.09 18 18 4.19 − 4.00 = 2.1 0.09 Die zweiseitige Wahrscheinlichkeit dieses t-Wertes berechnen wir anhand der t-Verteilung mit n1 + n2 − 2 Freiheitsgraden, da diese Anzahl Freiheitsgrade unsere Sicherheit in der Schätzung von s12 reflektiert. 0.4 Verteilung der t−Statistik (34 d.f.) unter der Nullhypothese f(t) 0.3 0.2 0.1 pt(−2.1, df = 34, lower.tail = TRUE) pt(2.1, df = 34, lower.tail = FALSE) 0.0 −4 −2 0 2 4 t Die rot eingefärbte Fläche entspricht folgender Wahrscheinlichkeit: pt(-2.1, df = 34, lower.tail = TRUE) + pt(2.1, df = 34, lower.tail = FALSE) ## [1] 0.043223 Dies ist unser p-Wert. Oder glücklicherweise ganz einfach in R: t.test(Sprechgeschwindigkeit ~ Gruppe, data = alkohol, var.equal = TRUE) # Varianz1 = Varianz2 ## ## ## ## ## ## ## ## ## ## ## ## ## Two Sample t-test data: Sprechgeschwindigkeit by Gruppe t = 2.12, df = 34, p-value = 0.042 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.0074993 0.3702785 sample estimates: mean in group Experimentalgruppe 4.1889 mean in group Kontrollgruppe 4.0000 Die kleinen Unterschiede zwischen dem von Hand berechneten Test und dem mit t.test() berechneten Test sind Ründungsfehlern zuzuschreiben. KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 5.2.5 60 Schlussfolgerungen “Versuchspersonen, die eine Einheit Alkohol konsumierten, sprachen im Schnitt signifikant schneller (n = 18, M = 4.2 Silben pro Sekunde, SD = 0.3) als jene in der Kontrollgruppe (n = 18, M = 4.0 Silben pro Sekunde, SD = 0.3; t(34) = 2.1, p = 0.04).” 5.2.6 Annahmen • Strikte genommen setzt der t-Test voraus, dass die Populationen, aus denen die Daten stammen, annähernd normalverteilt sind. Der Grund ist, dass die Verteilung der t-Statistik unter der Nullhypothese sonst nicht nachweisbar die relevante t-Verteilung ist (siehe Seite 45 zu dem hinterliegenden mathematischen Trick). Für grössere Stichproben ist dies unproblematisch, da t-Verteilungen mit einer hohen Anzahl Freiheitsgraden kaum von einer Normalverteilung zu unterscheiden sind. Sind die Daten nicht normalverteilt, dann besteht allerdings das Risiko, dass das Mittel kein guter Indikator der zentralen Tendenz ist. Grafiken sind also nach wie vor unerlässlich. • Die Datenpunkte sind unabhängig voneinander. Ist dies nicht der Fall, dann ergibt der Test zu viele signifikante Ergebnisse (siehe Vanhove 2015a). • Bei der Berechnung von S.E.x̄1 −x̄2 sind wir davon ausgegangen, dass die Populationen, aus denen die zwei Stichproben kamen, die gleiche Varianz σ2 haben. Daher durften wir σ2 als ‘Kompromiss’ zwischen s21 und s22 schätzen. Wenn wir nicht hiervon ausgehen wollen oder können, bietet sich Welch’ t-Test für ungleiche Varianzen als Alternative an (siehe unten). • Der t-Test vergleicht Mittel. Wenn das Mittel kein gutes Mass für die zentrale Tendenz ist, sind diese Aussagen vielleicht nicht falsch, aber vermutlich weniger relevant. 5.2.7 Welch-Test für Stichproben mit ungleichen Varianzen Beim üblichen t-Test gehen wir davon aus, dass die beiden Stichproben aus Populationen mit der gleichen Varianz σ2 kamen. Will man nicht hiervon ausgehen, dann bietet sich der Welch-t-Test an: t.test(Sprechgeschwindigkeit ~ Gruppe, data = alkohol, var.equal = FALSE) # = die Standardeinstellung ## ## ## ## ## ## ## ## ## ## ## ## ## Welch Two Sample t-test data: Sprechgeschwindigkeit by Gruppe t = 2.12, df = 33.8, p-value = 0.042 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.0074553 0.3703224 sample estimates: mean in group Experimentalgruppe 4.1889 mean in group Kontrollgruppe 4.0000 KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 61 Erwähnen Sie es immer explizit, wenn Sie einen Welch-Test verwendet haben. In diesem Fall würden wir das Testergebnis folgendermassen hinschreiben: “(Welch-t-Test: t(33.8) = 2.1, p = 0.04”. (Beim Welch-Test wird die Anzahl Freiheitsgrade angepasst, sodass diese Anzahl nicht unbedingt eine ganze Zahl ist.) In unserer Literatur trifft man diesen Test eher selten an. Wenn ein t-Test ohne Weiteres berichtet wird, können Sie davon ausgehen, dass es sich um einen normalen t-Test handelt. Manche Autoren empfehlen, immer den Welch-Test zu verwenden (Ruxton 2006), aber in der Regel ist der Unterschied zwischen einem normalen t-Test und einem Welch-Test minimal (Johnson 2008). Tipp: Es gibt wichtigere Dinge, um die man sich Sorgen machen kann, als die Frage, ob man jetzt einen normalen oder einen Welch-t-Test verwenden sollte. Wenn Sie irgendwann feststellen, dass die Ergebnisse beider Tests dramatisch unterschiedlich sind, geben Sie mir bitte Bescheid. 5.2.8 Alternativ für nicht-normalverteilte Daten Der t-Test geht strikte genommen davon aus, dass die Daten aus einer normalverteilten Population stammen. Bei grösseren Stichproben führt eine Verletzung dieser Annahme kaum zu Problemen; bei kleineren Stichproben könnte dies problematisch sein. In solchen Fällen kann man eine nicht-parametrische Alternative, wie der Permutationstest, in Betracht ziehen. Eine andere Alternative stellt der Wilcoxon-Rangsummentest (auch Wilcoxon-Mann-Whitney-Test, Mann-Whitney-Test oder U-Test genannt) dar. Dieser Test geht davon aus, dass die Populationen, aus denen beide Stichproben gezogen wurden, bis auf eine horizontale Verschiebung gleich verteilt sind (aber nicht unbedingt normal): wilcox.test(Sprechgeschwindigkeit ~ Gruppe, data = alkohol) ## Warning in wilcox.test.default(x = c(4.3, 4.1, 3.6, 4.3, 4.5, 4.6, 4.3, : cannot compute exact p-value with ties ## ## Wilcoxon rank sum test with continuity correction ## ## data: Sprechgeschwindigkeit by Gruppe ## W = 226, p-value = 0.044 ## alternative hypothesis: true location shift is not equal to 0 Vorsicht: Sowohl für den t-Test, für den Permutationstest als auch für den Wilcoxon-Rangsummentest gilt die Unabhängigkeitsannahme. Unabhängigkeit ist eine wichtigere Annahme als Normalität (Gelman & Hill 2007). Vorsicht: Manche Forschende verwenden den Wilcoxon-Rangsummentest immer dann, wenn ihre Daten nicht normalverteilt sind. Dieser Test setzt aber voraus, dass die Populationen, aus denen beide Stichproben gezogen wurden, bis auf eine horizontale Verschiebung gleich verteilt sind. Schaut man genauer hin, sieht man in der Regel, dass dies vermutlich nicht der Fall ist. Der Wilcoxon-Rangsummentest ist also kein Wundermittel, um mit nicht-normalverteilten Daten umzugehen. KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 5.2.9 62 Übungen 1. Die Datei sinergia.csv enthält eine Zusammenfassung der Daten meiner Dissertation (Vanhove 2014). 163 Deutschschweizer Versuchspersonen wurden gebeten, 45 geschriebene und 45 (andere) gesprochene schwedische Wörter ins Deutsche zu übersetzen. Die Reihenfolge der Aufgabe (zuerst geschrieben, dann gesprochen, oder zuerst gesprochen, dann geschrieben) wurde für jede Versuchsperson zufällig festgelegt (FirstBlock). Lesen Sie diese Datei in R ein und beantworten Sie danach die folgenden Fragen. (a) Können Versuchspersonen, die zuerst schwedische Wörter gehört haben (FirstBlock == Spoken), besser geschriebene schwedische Wörter verstehen, als Versuchspersonen, die mit den geschriebenen Wörtern angefangen haben? Stellen Sie die Daten im Hinblick auf diese Frage grafisch dar. Führen Sie dann einen geeigneten t-Test aus und berichten Sie diesen im geeigneten Format. (b) Können Frauen besser gesprochene schwedische Wörter verstehen als Männer? (c) Denkfrage: Handelt es sich hier in beiden Fällen um ein randomisiertes Experiment? Wurden die Versuchspersonen zufällig aus irgendeiner Population gewählt, denken Sie? Wie informativ ist der p-Wert dann? (d) Denkfrage: Die Befunde anlässlich der obigen Fragen lassen sich wohl relativ einfach erklären. Aber wir hätten die obigen Fragen auch andersherum formulieren können: Können diejenigen, die zuerst geschriebene Wörter gesehen haben, besser gesprochene Wörter verstehen? Und können Frauen besser geschriebene Wörter verstehen als Männer? Sind diese Fragen weniger sinnvoll als die obigen? Halten Sie es für eine gute Idee, mehrere Vergleiche auszuprobieren, und dann nur jene zu berichten, die einen signifikanten Unterschied ergeben? 2. In den folgenden zwei Übungen werden die Schlussfolgerungen von zwei Studien kritisch unter die Lupe genommen. Dies mag ungesittet scheinen, aber ich halte es für didaktisch nützlich, Ihnen zu zeigen, dass auch in renommierten Zeitschriften veröffentlichte Studien von namhaften Forschenden nicht frei von Kritik auf statistischer Ebene sind. Abrahamsson & Hyltenstam (2009) berichten über eine Studie zu den Zweitsprachkenntnissen von zwei Gruppen spanischer Immigranten in Schweden. Die eine Gruppe besteht aus 53 Spanischsprachigen, die im Alter von 0 bis 5 nach Schweden umgezogen sind; die zweite Gruppe aus 54, die im Alter von 6 bis 11 umgezogen sind. Die Schwedischkenntnisse dieser Versuchspersonen wurden von schwedischen raters beurteilt und diese Ergebnisse wurden statistisch analysiert. Schlussfolgerung war, dass es keinen Unterschied zwischen den beiden Gruppen gibt. (a) Installieren und laden Sie das Package pwr: install.packages("pwr") library("pwr") (b) Die Funktion pwr.t2n.test() erlaubt es, Poweranalysen auszuführen, wenn die Gruppen ungleich gross sind. Berechnen Sie die Power, die Abrahamsson & Hyltenstam (2009) gehabt hätten, um einen nach Cohen (1992) mittelgrossen Unterschied zwischen den beiden Gruppen zu detektieren.4 Gehen Sie dabei von einem zweiseitigen Test mit α = 0.05 aus: 4 Siehe Seite 43: Cohen (1992) schlägt folgende Effektgrössen vor: d = 0.2 ist klein, d = 0.5 ist mittelgross und d = 0.8 gross. Wenn Psychologen über ‘grosse’ oder ‘kleine’ Effektgrössen reden, wird normalerweise dies gemeint. Ich bin, was solche Massstäbe betrifft, aber skeptisch. Nützlich ist jedoch Kristoffer Magnussons interaktive Visualisierung von Cohens d unter rpsychologist.com/d3/cohend/. KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 63 pwr.t2n.test(n1 = 53, n2 = 54, # Stichprobengrössen d = 0.5, # standardisierte Effektgrösse sig.level = 0.05, # Signifikanzschwelle alternative = "two.sided") # zweiseitige Hypothese (c) Erklären Sie das Ergebnis in Ihren eigenen Worten. (d) Wie viel Power hatten Abrahamsson & Hyltenstam (2009), um einen nach Cohen (1992) kleinen Unterschied (d = 0.2) zu detektieren? 3. Johnson & Newport (1989) verglichen die Englischkenntnisse von 7 koreanischen und chinesischen Versuchspersonen, die im Alter von 3 bis 7 in die U.S.A. umgezogen sind, mit denen von 21 amerikanischen Versuchspersonen, die als Kontrollgruppe dienten. Sie fanden keinen signifikanten Unterschied und leiteten aus diesem Nullergebnis ab, dass sich die Gruppen nicht voneinander unterschieden. (a) Wie viel Power hatten Johnson & Newport (1989), um einen nach Cohen (1992) grossen Unterschied zu detektieren (d = 0.8)? Gehen Sie dabei von einem zweiseitigen Test mit α = 0.05 aus: pwr.t2n.test(n1 = 21, n2 = 7, d = 0.8, sig.level = 0.05, alternative = "two.sided") (b) Wie viel Power hatten sie, um einen mittelgrossen Unterschied (d = 0.5) zu detektieren? (c) Wie hoch sollte α sein, damit ein mittelgrosser Effekt mit einer Power von 0.80 detektiert werden kann? pwr.t2n.test(n1 = 21, n2 = 7, d = 0.5, sig.level = NULL, power = 0.8, alternative = "two.sided") (d) Wie gross hätte die Immigrantengruppe (n2) sein sollen, damit ein grosser Effekt (d = 0.8) mit α = 0.05 und einer Power von 0.80 hätte detektiert werden können? Was wäre mit einem mittelgrossen Effekt (d = 0.4)? (Diese Frage ist etwas fies.) 4. Sie rekrütieren 60 Versuchspersonen für ein ‘between-subjects’-Experiment mit zwei Konditionen. Ohne die erwartete Effektgrösse zu kennen: Wie viele Versuchspersonen soll es in jeder Kondition geben, damit die power möglichst gross ist? 5. (Fiktives Beispiel) Ein Forscher möchte untersuchen, ob sich die Länge des deutschen [I]Vokals unterscheidet, je nachdem ein(e) Sprecher(in) balanziert zweisprachig Französisch– Deutsch ist oder nicht. 15 balanzierte Zweisprachige und 13 Monolinguale produzieren insgesamt 840 tokens, deren Länge gemessen wird. Das Ergebnis wird folgendermassen berichtet: “Es gibt einen signifikanten Längeunterschied zwischen [I]-Lauten, die von Zweisprachigen (n = 450, M = 72 ms, SD = 29) produziert wurden einerseits, und denjenigen, die von Einsprachigen (n = 390, M = 87 ms, SD = 28) produziert wurden andererseits (t(838) = 7.39, p < 0.001).” War es überhaupt erlaubt, einen solchen t-Test durchzuführen? KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 5.3 5.3.1 64 Zweistichproben-t-Test für abhängige Stichproben Fragestellung und Daten (Fiktives Beispiel) Eine Universität veranstaltet zum ersten Mal einen Schreibkurs Französisch für anderssprachige Jurastudierende und möchte nun nachgehen, ob dieser Kurs überhaupt etwas bringt. 20 Studierende schreiben sich ein. In der ersten Sitzung schreiben sie ein Essay auf Französisch, damit ihre schon vorhandenen Fähigkeiten von einem Französischlehrer eingeschätzt werden können. Am Ende des Kurses schreiben die Studierenden ein neues Essay. Die Daten finden Sie in der Datei franzkurs.csv. franzkurs <- read.csv("franzkurs.csv") head(franzkurs) ## ## ## ## ## ## ## 1 2 3 4 5 6 vor nach 4 7 11 11 14 18 13 11 7 9 13 16 Lässt sich eine Verbesserung in den Ergebnissen feststellen? 5.3.2 Grafische Darstellung Wie immer lohnt es sich die Daten grafisch darzustellen. Hier folgen drei Beispiele von Grafiken, die einleuchtend sein können. Links: Die Pre- und Posttest-Ergebnisse jeder Versuchsperson werden in einem Streudiagramm dargestellt. Die diagonale Linie ist die x = y-Linie; Kreise unterhalb der Linie stellen Versuchspersonen dar, deren Posttest-Ergebnis niedriger als deren Pretest-Ergebnis ist; oberhalb der Linie liegen Versuchspersonen mit einem höheren Posttest- als Pretest-Ergebnis. Aus dieser Grafik wird bereits klar, dass die meisten Versuchspersonen beim Posttest besser abschneiden als beim Pretest (mehr Punkte oberhalb der Linie als unterhalb). Aber die diagonale Linie macht es schwierig, visuell einzuschätzen, wie gross der Unterschied zwischen Pre und Post ist. Mitte: Daher wird im zweiten Plot nicht das Posttest-Ergebnis gezeigt, sondern der Unterschied zwischen Pre und Post. Die horizontale Linie ist die y = 0-Linie: Punkte oberhalb der Linie stellen Versuchspersonen mit einem höheren Post- als Pretestergebnis dar. Dieser Grafik können wir einfacher entnehmen, dass ein durchschnittlicher Fortschritt um die 2 Punkte liegt. Ein weiterer Vorteil dieser Grafik ist, dass sie nicht-konstante Effekte aufdecken kann: Man könnte sich vorstellen, dass Versuchspersonen mit niedrigeren Pretest-Ergebnissen mehr vom Kurs profitieren als jene mit höheren Pretest-Ergebnissen. In diesem Fall würde man sehen, dass die Punkte links höher liegen als jene rechts. Dies wäre eine wichtige Nuance beim Berichten der Ergebnisse. Rechts: Ein Boxplot der Differenzen zeigt, dass der durchschnittliche Fortschritt (Median) bei 2 Punkten liegt und dass etwa drei Viertel der Versuchspersonen einen Fortschritt aufzeigen. Der Boxplot zeigt allerdings nicht, ob der Fortschritt je nach dem Pretest-Ergebnis unterschiedlich gross ist. KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 65 par(mfrow = c(1, 3)) # Streudiagramm vor vs. nach plot(nach ~ vor, data = franzkurs, xlab = "Testergebnis Anfang Semester", ylab = "Testergebnis Ende Semester", main = "Vor vs. Nach") abline(a = 0, b = 1, lty = 2) # Verbesserung berechnen franzkurs$Verbesserung <- franzkurs$nach - franzkurs$vor # Streudiagramm vor vs. Verbesserung plot(Verbesserung ~ vor, data = franzkurs, xlab = "Testergebnis Anfang Semester", ylab = "Fortschritt", main = "Vor vs. Fortschritt") abline(a = 0, b = 0, lty = 2) # Boxplot Verbesserung boxplot(franzkurs$Verbesserung, ylab = "Fortschritt", main = "Boxplot Fortschritte") abline(a = 0, b = 0, lty = 2) par(mfrow = c(1, 1)) Vor vs. Fortschritt 16 14 12 10 8 6 4 6 8 10 14 Testergebnis Anfang Semester 5.3.3 Boxplot Fortschritte 4 4 3 3 Fortschritt 18 Fortschritt Testergebnis Ende Semester Vor vs. Nach 2 1 0 2 1 0 −1 −1 −2 −2 4 6 8 10 14 Testergebnis Anfang Semester Lösung Von allen Studierenden haben wir zwei Beobachtungen: ein Ergebnis für den Vortest und ein Ergebnis für den Nachtest. Studierende, die beim Vortest gut abschneiden, werden in der Regel auch beim Nachtest besser abschneiden. Die Ergebnisse für den Vor- und Nachtest sind m.a.W. nicht unabhängig voneinander. Deswegen dürfen wir keinen ‘normalen’ t-Test für unabhängige Stichproben benutzen. Stattdessen bietet sich der gepaarte t-Test (oder t-Test für abhängige Stichproben) an. Die Null- und Alternativhypothesen dieser Test liegen auf der Hand: H0 : µnach = µvor KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 66 HA : µnach 6= µvor Anstatt die Mittel beider Stichproben direkt zu vergleichen (wie bei einem normalen t-Test), berechnen wir aber den Unterschied zwischen beiden Tests per Versuchsperson. Statt 2 × 20 Messungen (mit Abhängigkeiten) haben wir dann nur noch 20 Messungen ohne Abhängigkeiten. di = xnach,i − xvor,i (5.5) Die Null- und Alternativhypothese können wir nun umformulieren. Laut der Nullhypothese ist der durchschnittliche Unterschied 0, laut der Alternativhypothese ist dieser Unterschied nicht gleich 0: H0 : µd = 0 HA : µd 6= 0 Diese Nullhypothese können wir einfach mit einem Einstichproben-t-Test testen. franzkurs$Differenz <- franzkurs$nach - franzkurs$vor t.test(franzkurs$Differenz, mu = 0) ## ## ## ## ## ## ## ## ## ## ## One Sample t-test data: franzkurs$Differenz t = 3.26, df = 19, p-value = 0.0041 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 0.52046 2.37954 sample estimates: mean of x 1.45 Der gepaarte t-Test für zwei gepaarte Variablen ist äquivalent mit dem Einstichproben-t-Test für die Unterschiede zwischen diesen Paaren: t.test(franzkurs$vor, franzkurs$nach, paired = TRUE) # gepaarter t-Test ## ## ## ## ## ## ## ## ## ## ## Paired t-test data: franzkurs$vor and franzkurs$nach t = -3.26, df = 19, p-value = 0.0041 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.37954 -0.52046 sample estimates: mean of the differences -1.45 KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 5.3.4 67 Schlussfolgerungen und Bemerkungen “Die Posttest-Ergebnisse waren signifikant höher als die Pretest-Ergebnisse (Vortest: M = 9.4, SD = 3.4; Nachtest: M = 10.9, SD = 3.9; gepaarter t-Test: t(19) = 3.3, p < 0.01).” Die Freiheitsgrade der t-Verteilung: Anzahl Paare minus 1. Vorsicht: Wenn zu Unrecht ein nicht-gepaarter t-Test ausgeführt worden wäre, hätte dieser gezeigt, dass die Testergebnisse nicht signifikant unterschiedlich gewesen wären! t.test(franzkurs$nach, franzkurs$vor, var.equal = TRUE) ## ## ## ## ## ## ## ## ## ## ## Two Sample t-test data: franzkurs$nach and franzkurs$vor t = 1.26, df = 38, p-value = 0.21 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.87063 3.77063 sample estimates: mean of x mean of y 10.85 9.40 Tipp: Gepaarte t-Tests haben i.d.R. mehr Power als nicht-gepaarte t-Tests, da eine wichtige Quelle von Varianz kontrolliert wird: Interindividuelle Unterschiede in a priori-Fähigkeiten werden weggerechnet. Wenn die Forschungsfrage es erlaubt und es praktisch durchführbar ist, ist ein Forschungsdesign mit gepaarten Stichproben (‘within-subjects design’) also zu bevorzügen! Oft ist dies aufgrund von möglichen Lerneffekten aber schwierig. Für mehr Informationen bzgl. Forschungsdesigns und der Frage ‘Wie viele Versuchspersonen brauche ich?’, siehe Abbuhl et al. (2013) und Quené (2010). 5.3.5 Annahmen Der gepaarte t-Test macht die gleichen Annahmen wie der Einstichproben-t-Test, nur gelten diese für die Differenzen statt für die originellen Werte. Vorsicht: Wenn nicht alle Datenpunkte sinnvoll und nach demselben Muster (z.B. zwei Messungen per Sprache oder per Sprecher oder per Vokal usw.) gepaart sind, kann der gepaarte t-Test nicht verwendet werden. Entweder sind die Stichproben völlig unabhängig voneinander (unabhängiger t-Test) oder sie sind völlig gepaart (gepaarter t-Test); wenn sie nur z.T. gepaart sind, können die Daten nur mittels viel komplexerer Methoden analysiert werden. Versuchen Sie daher, wenn möglich, das Design der Studie möglichst einfach zu halten! Wenn die Datenpunkte nicht in Paaren sondern zu dritt usw. erscheinen, bietet sich eine ANOVA für wiederholte Messungen an (Kapitel 7), oder eben wiederum eine komplexere Methode. 5.3.6 Alternativ für nicht-normalverteilte Stichprobendifferenzen Eine nicht-parametrische Alternative ist der Wilcoxon-Vorzeichen-Rang-Test (wilcox.test() mit Option paired = TRUE); die Warnungen sind hier nicht so wichtig: KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 68 wilcox.test(franzkurs$vor, franzkurs$nach, paired = TRUE) ## Warning in wilcox.test.default(franzkurs$vor, franzkurs$nach, paired = TRUE): cannot compute exact p-value with ties ## Warning in wilcox.test.default(franzkurs$vor, franzkurs$nach, paired = TRUE): cannot compute exact p-value with zeroes ## ## Wilcoxon signed rank test with continuity correction ## ## data: franzkurs$vor and franzkurs$nach ## V = 19, p-value = 0.0065 ## alternative hypothesis: true location shift is not equal to 0 Diesen Test habe ich in der sprachwissenschaftlichen Literatur allerdings noch nie gesehen. 5.3.7 Denkfrage Wie überzeugend finden Sie die Schlussfolgerung, dass die Teilnahme am Französischkurs zu einer Verbesserung der Schreibfähigkeit führt? Verteidigen Sie Ihren Standpunkt.5 5.3.8 Übungen 1. In der Tabelle sind die durchschnittlichen (Median) F1-Frequenzen (in Hz) für 11 englische Vokale je nach Herkunft der Sprecher (Birmingham vs. Glasgow) aufgeführt; Daten von Ferragne & Pellegrino (2010). (Mehr Info zu Formanten finden Sie auf Wikipedia.) Vokal heed hid head had hard hod hoard hood who’d Hudd heard F1 (Hz) Birmingham F1 (Hz) Glasgow 289 350 502 679 639 576 454 414 318 482 491 301 446 473 636 693 530 463 327 345 480 543 Tragen Sie diese Daten selber auf irgendeine Art und Weise in R ein (direkt eintippen, zuerst in Excel speichern und dann einlesen, . . . ). Unterscheiden sich die F1-Messungen systematisch zwischen Birmingham und Glasgow? 2. Der in R eingebaute Datensatz women enthält die Körpergrössen (in inch) und Körpergewichte (Pfund) 15 amerikanischer Frauen: Um dies zu zeigen, müsste man eine Kontrollgruppe haben, denn es ist durchaus denkbar, dass die Studierenden auch ohne den Französischkurs bei der zweiten Erhebung besser abgeschlossen hätten. 5 KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 69 women ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 height weight 58 115 59 117 60 120 61 123 62 126 63 129 64 132 65 135 66 139 67 142 68 146 69 150 70 154 71 159 72 164 Sollte man einen t-Test berechnen, um den Bezug zwischen Körpergrösse und -gewicht zu erfassen? Verteidigen Sie Ihre Antwort. 3. Die Datei SimonTask.csv enthält die Ergebnisse eines sog. Simon-Tasks (siehe den Anhang von Vanhove 2014). Eine Beschreibung des Simon-Tasks finden Sie auf Wikipedia. Für jede Versuchsperson ist die durchschnittliche (Median) Reaktionszeit (in ms) für 28 kongruente (congruent) und 28 inkongruente (incongruent) Trials aufgeführt. Die Erwartung ist, dass Versuchspersonen schneller auf kongruente als auf inkongruente Trials reagieren. Lesen Sie die Daten in R ein und stellen Sie die Daten im Hinblick auf diese Hypothese grafisch dar. Was entnehmen Sie dieser Grafik? Wird die Hypothese von diesen Daten unterstützt? Kapitel 6 Zusammenhänge zwischen kontinuierlichen Variablen Oft interessieren wir uns nicht sosehr für die Mittel unterschiedlicher Gruppen, sondern für den Zusammenhang zwischen zwei oder mehreren kontinuierlichen Variablen. Zum Beispiel könnten wir uns fragen, wie der Zusammenhang zwischen dem Alter (einer kontinuierlichen Variable) und dem Ergebnis bei einem Wortschatztest (ebenso einer kontinuierlichen Variable) bei 5- bis 12-Jährigen ausschaut. Zu oft wird in unserem Fachgebiet in solchen Fällen eine der Variablen diskretisiert: Zum Beispiel werden die 5- bis 8-Jährigen zusammen als die ‘junge’ Gruppe und die 9- bis 12-Jährigen als die ‘alte’ Gruppe betrachtet, sodass die Ergebnisse beim Wortschatztest mit einem t-Test verglichen werden können. Das Problem mit dem Aufteilen kontinuierlicher Variablen ist, dass hierdurch nützliche Information verloren geht (z.B. Cohen 1983): Die Versuchspersonen innerhalb jeder Gruppe sind auch unterschiedlichen Alters, aber dies wird bei einem t-Test nicht länger berücksichtigt. Dies führt zu einem Powerverlust. Zudem kann Diskretisierung dazu führen, dass arbiträre Trennungen (Warum 5–8 und 9–12 und nicht etwa 5–7 und 8–12? Würde das Ergebnis anders aussehen?) überbetont werden und dass Schwelleneffekte zu Unrecht hineininterpretiert werden dürften (siehe Altman & Royston 2006; Vanhove 2013). In solchen Fällen ist es – mit wenigen Ausnahmen – besser, kontinuierliche Variablen auch in der Analyse als kontinuierlich zu behandeln. Dazu besprechen wir einige Methoden in diesem Kapitel. Dieses Kapitel versteht sich aber als eine Einführung; detailliertere Informationen und komplexere linguistische Beispiele finden Sie in Baayen (2008). Mit den Methoden, die wir in diesem Kapitel besprechen, können wir versuchen, eine Antwort auf eine dieser zwei Fragen zu geben: 1. Wie stark ist der Zusammenhang zwischen zwei kontinuierlichen Variablen? Anders gesagt, wenn wir den Wert einer Variable kennen, wie gut können wir dann den Wert der anderen Variable schätzen? (Korrelationsanalyse) 2. Was ist der Zusammenhang zwischen zwei (oder mehreren) kontinuierlichen Variablen? Anders gesagt, wenn wir den Wert einer Variable kennen, wie können wir dann den Wert der anderen Variable schätzen? (Regressionsanalyse) Beide Fragen werden oft miteinander verwechselt, was manchmal zu Verwirrungen führt (Vanhove 2013). Zwei Beispiele, um den Unterschied klar zu stellen: • Wenn man die Temperatur in Grad Celsius kennt, kann man die Temperatur in Grad 70 KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 71 Fahrenheit perfekt schätzen: Die Korrelation ist also äusserst stark (Frage 1). Damit wissen wir aber noch nicht, wie wir die Temperatur in Grad Fahrenheit berechnen können, wenn wir die Temperatur in Grad Celsius kennen. Eine Regressionsanalyse würde zeigen, dass wir dazu die Temperatur in Grad Celsius mit 9 multiplizieren müssen, dann teilen durch 5 und dann noch 32 Grad hinzufügen (Frage 2): ◦ Fahrenheit = 32◦ + 95 × ◦ Celsius. • Wenn man die Körpergrösse eines Menschen kennt, kann man sein Gewicht besser schätzen, als wenn man die Körpergrösse nicht kennt. Die Schätzung ist aber nicht perfekt: Die Korrelation ist positiv, aber nicht so hoch wie im letzten Beispiel (Frage 1). Um zu wissen, wie man das Gewicht am besten anhand der Grösse schätzt (z.B. Gewicht in kg = 0.6× Grösse in cm −40 kg für Frauen zwischen 145 und 185 cm), braucht es Regressionsanalyse. 6.1 Frage 1: Kovarianz und Korrelation Betrachten wir den Datensatz von DeKeyser et al. (2010), in dem Daten zum ‘age of acquisition’ (AOA) von 76 russischsprachigen Immigranten in den USA und Kanada sowie ihr Ergebnis auf einer englischen Grammatikalitätsurteilaufgabe (GJT) gespeichert wurden. Unsere Fragestellung lautet: Wie stark hängt das Alter, in dem Russischsprachige angefangen haben, vor Ort Englisch zu lernen, zusammen mit ihrem Ergebnis auf dieser Aufgabe? (DeKeyser et al. (2010) hatten übrigens eine andere Fragestellung.) # Daten einlesen dat <- read.csv("dekeyser2010.csv") # Erste sechs Fälle anzeigen head(dat) ## ## ## ## ## ## ## 1 2 3 4 5 6 6.1.1 AOA 59 9 51 58 27 11 GJT 151 182 127 113 157 188 Grafische Darstellung: das Streudiagramm Auch hier ist es immer eine gute Idee, die Daten grafisch darzustellen. Wenn man sich für den Zusammenhang zwischen zwei kontinuierlichen Variablen interessiert, sind Streudiagramme (scatterplots) einfach aber besonders effizient. plot(GJT ~ AOA, dat) # oder: plot(dat$AOA, dat$GJT) KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 72 200 180 GJT 160 140 120 10 30 50 70 AOA Auf den ersten Blick wird klar, dass es sich hier um einen negativen Zusammenhang ohne offensichtliche Ausreisser geht: Grössere AOA-Werte sind in der Regel mit kleineren GJT-Werten assoziiert. Wichtig ist auch, dass der Zusammenhang zwischen den beiden Variablen ungefähr linear ist. Die nächste Grafik zeigt in Gegensatz dazu vier Beispiele von nicht-linearen Zusammenhängen: Sinusoid logarithmische Zunahme Parabel (quadratische Funktion) Deckeneffekt Vorsicht: Ist der Zusammenhang zwischen den Variablen nicht (ungefähr) gerade, dann lohnt es sich kaum, ohne Weiteres Korrelations- und Regressionsanalysen durchzuführen. Manchmal kann man die Daten aber sinnvoll transformieren, sodass der Zusammenhang linear wird (Beispiele in etwa Baayen 2008; Gelman & Hill 2007). 6.1.2 Kovarianz Um numerisch zu beschreiben, wie stark zwei Variablen miteinander zusammenhängen (Frage 1), brauchen wir ein Mass, dessen absoluter Wert gross ist, wenn kleine Unterschiede in x mit kleinen Unterschieden in y zusammenhängen und grosse Unterschiede in x mit grossen Unterschieden in y, und dessen absoluter Wert klein ist, wenn grosse Unterschiede in der einen Variable mit nur kleinen Unterschieden in der anderen Variable zusammenhängen. Ein solches Mass ist die Kovarianz: KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN Cov(x, y) = 1 ((x̄ − x1 )(ȳ − y1 ) + (x̄ − x2 )(ȳ − y2 ) + · · · + (x̄ − xn )(ȳ − yn )) n−1 73 (6.1) Die Summe der Produkte wird durch n−1 statt durch n geteilt aus dem gleichen Grund, weshalb dies bei der Varianzberechnung der Fall ist. sum((mean(dat$AOA) - dat$AOA) * (mean(dat$GJT) - dat$GJT)) / (nrow(dat) - 1) ## [1] -394.93 # einfacher: cov(dat$AOA, dat$GJT) ## [1] -394.93 Ist die Kovarianz positiv, dann besteht ein positiver Zusammenhang zwischen den beiden Variablen (je grösser x, desto grösser y); ist die Kovarianz negativ, dann gibt es einen negativen Zusammenhang (je grösser x, desto kleiner y). Abgesehen von diesen zwei Richtschnuren ist das Kovarianzmass schwierig zu interpretieren, weshalb Sie es in der Literatur nur selten antreffen werden. Aber Kovarianz ist ein wichtiges Konzept in der Mathe hinter komplexeren Verfahren, weshalb es sich trotzdem lohnt, zumindest zu wissen, dass es besteht. 6.1.3 Pearsons Produkt-Moment-Korrelation (r) Da das Kovarianzmass nicht einfach zu interpretieren ist, wird meistens Pearsons ProduktMoment-Korrelationskoeffizient (r) (oder einfach Pearsons Korrelation) verwendet. Diese Zahl drückt aus, wie gut der Zusammenhang durch eine gerade Linie beschrieben werden kann. Es wird ähnlich wie das Kovarianzmass berechnet, aber die Variablen werden in Standardabweichungen zum Stichprobemittel ausgedrückt. Dies ergibt dann immer eine Zahl zwischen −1 und 1. rxy = Cov(x, y) sx sy (6.2) cov(dat$AOA, dat$GJT) / (sd(dat$AOA) * sd(dat$GJT)) ## [1] -0.80285 # einfacher: cor(dat$AOA, dat$GJT) ## [1] -0.80285 Ist r = 1, dann liegen alle Datenpunkte perfekt auf einer geraden, steigenden Linie. Dies deutet fast ausnahmslos auf eine Tautologie hin. Zum Beispiel sind Körpergrössen in Zentimetern und in Inches perfekt korreliert, aber dieser Zusammenhang ist nicht spektakulär sondern höchst langweilig. Ist r = −1, dann liegen alle Datenpunkte auf einer geraden, senkenden Linie. Dies deutet wohl darauf hin, dass die beiden Variablen perfekt komplementär sind. Zum Beispiel wird die Anzahl richtige Antworten oft mit r = −1 mit der Anzahl falsche Antworten korrelieren; auch dies ist wenig spektakulär. Ist r = 0, dann ist die Linie perfekt senkrecht, d.h. es gibt überhaupt keinen linearen Zusammenhang zwischen den beiden Variablen. Je grösser der absolute Wert von r, desto näher befinden sich die Datenpunkte bei der geraden Linie. Anders ausgedrückt: Je grösser der absolute r-Wert, desto präziser kann man y bestimmen, wenn man x schon kennt (und umgekehrt). KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN kleiner Effekt mittlerer Effekt grosser Effekt Cohens d Pearsons r 0.2 0.5 0.8 0.1 0.3 0.5 74 Tabelle 6.1: Interpretation von Pearsons r nach Cohen (1992). (Erweiterung von Tabelle 4.1 auf Seite 43.) Plonsky & Oswald (2014) schlagen auch hier leicht andere Werte vor. Ebenso wie bei Cohens d bin ich skeptisch, was solche Massstäbe betrifft, siehe Why I don’t like standardised effect sizes und More on why I don’t like standardised effect sizes. Die Korrelation zwischen x und y ist gleich der Korrelation zwischen y und x. Es macht also nichts aus, ob man cor(dat$AOA, dat$GJT) oder cor(dat$GJT, dat$AOA) eintippt. Die unten stehende Grafik zeigt vier Zusammenhänge, um die Bedeutung von Pearsons r zu illustrieren. Oben links: Es gibt wenig Streuung entlang der y-Achse. Die Streuung, die es gibt, wird grösstenteils von einer Gerade erfasst. r ist daher sehr hoch. Oben rechts: Es gibt nun mehr Streuung entlang der y-Achse; diese wird aber weniger gut von einer Gerade erfasst, daher der niedrigere Korrelationskoeffizient. Die Form der Gerade ist zwar gleich wie in der linken Grafik, der Korrelationskoeffizient jedoch nicht. Unten links: Es gibt zwar sehr viel Streuung entlang der y-Achse, aber diese wird grösstenteils von einer Gerade erfasst. r ist daher wiederum sehr hoch. Der Korrelationskoeffizient ist zwar gleich wie in der obigen Grafik, die Form der Gerade jedoch nicht. Unten rechts: Die gleiche Gerade erfasst die Streuung entlang der y-Achse weniger gut, daher ist die Form der Gerade zwar gleich, der Korrelationskoeffizient aber niedriger. y = 15 + x, r = 0.94 y 200 150 100 50 0 −50 −100 y 200 150 100 50 0 −50 −100 y = 15 + x, r = 0.59 0 5 15 25 0 5 15 25 x x y = 15 + 5x, r = 0.94 y = 15 + 5x, r = 0.59 y 200 150 100 50 0 −50 −100 y 200 150 100 50 0 −50 −100 0 5 15 x 25 0 5 15 25 x Pearsons rs werden oft ähnlich wie Cohens d als klein, mittelgross oder gross eingestuft; siehe Tabelle 6.1. KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 75 Welche Frage beantwortet r (und welche nicht)? Pearsons r drückt aus, wie nahe die Datenpunkte auf einer geraden Linie fallen; es gibt keine direkt Antwort auf die Frage, wie denn diese Linie ausschaut (ausser: steigend oder senkend); siehe die vier obigen Beispiele. Ausserdem ist es möglich, dass es einen sehr starken (nicht-linearen) Zusammenhang zwischen zwei Variablen gibt, dieser aber in Pearsons r nicht zum Ausdruck kommt (Bspl.: untere Grafik: links). Umgekehrt kann r den Eindruck geben, dass es sich um einen ziemlich starken linearen Zusammenhang handelt, während ein solcher Zusammenhang für die meisten Datenpunkte kaum vorliegt (mittel), oder während der Zusammenhang sogar eigentlich in die umgekehrte Richtung geht (rechts: Es gibt zwei Gruppen, in denen der Zusammenhang negativ ist; der Koeffizient ist jedoch positiv, wenn die beiden Gruppen gleichzeitig betrachtet werden). r = −0.03 r = 0.96 r = 0.96 100 80 60 40 20 0 1.0 0.5 0.0 −0.5 −1.0 −6 −2 0 2 300 200 100 0 0 20 40 60 80 0 20 60 100 Tipp: Schauen Sie sich, bevor Sie Korrelationskoeffiziente berechnen, immer die Daten grafisch (Streudiagramm) an. Nehmen Sie diese Streudiagramme in Ihre Papers, Arbeiten und Vorträge auf. Wichtig ist noch: Korrelation heisst nicht unbedingt Kausation. Wenn gezeigt wird, dass zwei Variablen miteinander korrelieren, wird also noch nicht gezeigt, dass die eine Variable Unterschied in der anderen Variable verursacht. Um dies sicherer festzustellen, braucht es ein Experiment. Andere Korrelationsmasse Ab und zu trifft man Spearmans ρ-Koeffizient (oder manchmal: rs ) an. Hierfür drückt man die Daten in Rängen aus, d.h. man ordnet die Daten von klein nach gross und schaut, auf welchem Platz die einzelnen Datenpunkte stehen. Dann berechnet man einfach die Pearsonkorrelation für die Ränge statt für die Rohwerte: cor(rank(dat$AOA), rank(dat$GJT)) ## [1] -0.78877 # einfacher: cor(dat$AOA, dat$GJT, method = "spearman") ## [1] -0.78877 Spearmans ρ kann nützlich sein, wenn der Zusammenhang zwischen zwei Variablen monoton aber nicht-linear ist (Monoton heisst: Tendenziell steigend oder tendenziell senkend; nicht etwa zuerst steigend und dann senkend.) oder wenn ein Ausreisser das Globalbild zerstört, aber man ihn aus irgendwelchem Grund nicht aus dem Datensatz entfernen kann. Ein anderes Mass ist Kendalls τ (cor(..., ..., method = "kendall")). Dieses wird aber nur höchst selten verwendet. KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 76 Tipp: Die Anwendung von Spearmans ρ und Kendalls τ ist eher beschränkt. Statt automatisch auf ρ oder τ zurückzugreifen, wenn ein Zusammenhang nicht gerade linear ist oder wenn man einen Ausreisser vermutet, lohnt es sich m.E. eher, darüber nachzudenken, ob (a) man sich tatsächlich für Frage 1 (Stärke des Zusammenhangs) interessiert, (b) man eine oder beide Variablen nicht sinnvoll transformieren kann, sodass sich ein linearerer Zusammenhang ergibt, oder (c) der vermutete Ausreisser überhaupt ein legitimer Datenpunkt ist. Signifikanz und Konfidenzintervall eines Korrelationskoeffizients Mit cor.test() können p-Werte und Konfidenzintervalle um r, ρ und τ berechnet werden. Die Nullhypothese ist in der Regel, dass es keinen (linearen/monotonen) Zusammenhang zwischen den zwei Variablen gibt. Der p-Wert gibt m.a.W. wieder, wie wahrscheinlich die beobachtete (Stichproben)Korrelation wäre, wenn es in der Population keine Korrelation gäbe. Der t-Wert, und somit auch der p-Wert und das Konfidenzintervall um einen Korrelationskoeffizient, hängt nur vom Wert des Korrelationskoeffizientes und der Anzahl Datenpunkte ab: t= q r 1−r2 n−2 (6.3) Mit cor.test() ist die Berechnung ganz einfach: cor.test(dat$AOA, dat$GJT) ## ## ## ## ## ## ## ## ## ## ## Pearson's product-moment correlation data: dat$AOA and dat$GJT t = -11.6, df = 74, p-value <2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.87070 -0.70501 sample estimates: cor -0.80285 Der p-Wert ist hier dermassen klein, dass er in wissenschaftlicher Notation dargestellt wird. ‘2e-16’ ist eine 2, der 16 Nulle vorgestellt werden: 0.0000000000000002. Dies ist die kleinste Zahl, die R kennt. Berichten tut man diesen Wert meistens als “r = −0.80, t(74) = 12, p < 0.001”. Randomisierungstest Um die Signifikanz eines Korrelationskoeffizients zu berechnen, könnten wir auch hier die Randomisierungslogik (siehe Kapitel 5.1 auf Seite 52) anwenden. Laut der Nullhypothese wäre der Zusammenhang zwischen den Variablen AOA und GJT rein zufallsbedingt. Um zu schauen, ob man oft ähnlich grosse oder grössere Korrelationskoeffiziente beobachten würde, wenn die Nullhypothese stimmt, kann man eine der beiden Variablen willkürlich permutieren und den Korrelationskoeffizient berechnen. Bei 76 Beobachtungen gibt es allerdings eine riesige Anzahl mögliche Permutationen (76! ≈ 1.9 × 10111 ), weshalb wir uns hier ’nur’ 100’000 willkürliche Permutationen anschauen: # 100'000 Mal Korrelation zwischen AOA und permutierter Variable GJT berechnen cors <- replicate(100000, cor(dat$AOA, sample(dat$GJT))) # In Histogramm darstellen KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 77 hist(cors, col = "grey", xlim = c(-1, 1), main = "Korrelationskoeffiziente\nunter Nullhypothese", xlab = "Pearsons r", ylab = "Anzahl") abline(v = cor(dat$AOA, dat$GJT), lty = 2, col = "red") Korrelationskoeffiziente unter Nullhypothese Anzahl 15000 10000 5000 0 −1.0 −0.5 0.0 0.5 1.0 Pearsons r Von 100’000 willkürlichen Permutationen ergibt keine einzige einen Korrelationskoeffizient von 1 |0.80| oder grösser. Laut dem Randomisierungstest ist der p-Wert also kleiner als 100000 ; wir kommen zum gleichen Schluss wie beim analytischen Test. Unterschiede zwischen zwei Korrelationskoeffizienten Manchmal möchte man der Frage nachgehen, ob der Zusammenhang zwischen diesen zwei Variablen stärker ist als der zwischen jenen zwei Variablen (Variation auf Frage 1). Oder ob Variable A stärker mit B korreliert als mit C. Was Sie in solchen Fällen nicht tun können, ist etwa zu sagen, dass A und B signifikant miteinander korrelieren, A und C aber nicht, und daraus schliessen, dass A stärker mit B zusammenhängt als mit C. Der Grund ist, kurz gesagt, dass “der Unterschied zwischen ‘signifikant’ und ‘nicht signifikant’ selber nicht signifikant ist” (siehe Gelman & Stern 2006, für Beispiele; siehe auch Vanhove 2013, für Belege dieses Irrtums im sprachlichen Kontext). Für Informationen über wie man Unterschiede zwischen Korrelationskoeffizienten hinsichtlich ihrer Signifikanz überprüfen kann, siehe Assessing differences of significance. Es sei aber darauf hingewiesen, dass eine sinnvolle Antwort auf die Frage nach dem Unterschied zwischen Korrelationskoeffizienten grössere Stichproben bedingt als was man zuerst denken würde. So hat man bei Stichprobengrössen von 20 Beobachtungen nur etwa 18% power, um den Unterschied zwischen r = 0.2 und r = 0.5 zu erfassen; für 80% power bräuchte man in diesem Fall etwa 140 Beobachtungen pro Stichprobe, siehe Power simulations for comparing independent correlations. 6.1.4 Übungen 1. Lesen Sie den Datensatz SimonTask.csv ein und stellen Sie den Zusammenhang zwischen den durchschnittlichen (Median) Reaktionszeiten in der kongruenten Kondition und jenen in der inkongruenten Kondition grafisch dar. Geben Sie den Achsen dabei sinnvolle Bezeichnungen. (a) Ist der Zusammenhang annähernd linear? (b) Gemessen wurden Zeiten (ms pro Stimulus), aber eigentlich interessieren wir uns für Geschwindigkeiten (z.B. Anzahl Stimuli pro Sekunde). Transformieren Sie die Daten, KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 78 sodass Sie direkt Geschwindigkeiten ausdrücken (Stimuli pro Sekunde): simon$congruent.speed <- 1000 / simon$congruent simon$incongruent.speed <- 1000 / simon$incongruent Stellen Sie jetzt den Zusammenhang zwischen diesen beiden Variablen grafisch dar. Ist dieser annähernd linear? Welchen Ausdrucksform (Zeiten oder Geschwindigkeiten) finden Sie am sinnvollsten? (c) Ist es sinnvoll einen Pearsons r-Koeffizient zu berechnen? Warum (nicht)? Wenn ja, berechnen Sie ihn sowie seine Signifikanz. 2. Die Datei diss_hintergrundvars.csv enthält einige Hintergrundsvariablen der Teilnehmenden an meinem Dissertationsprojekt. Lesen Sie diese Datei ein. Stellen Sie den Zusammenhang zwischen dem Alter der Versuchspersonen (Age) und ihrem Ergebnis bei einem L1-Wortschatztest (WST.Right) grafisch dar. Geben Sie den Achsen sinnvolle Bezeichnungen und beantworten Sie nachher folgende Fragen. (a) Ist es sinnvoll, einen r-Koeffizient zu berechnen für den Zusammenhang beider Variablen? Warum (nicht)? Wenn ja, berechnen Sie r und seine Signifikanz. (b) Fällt Ihnen sonst bei dieser Grafik noch etwas auf?1 Woran könnte dies liegen? Versuchen Sie, das Problem zu lösen. 3. Auch mit diss_hintergrundvars.csv. (a) Berechnen Sie Pearsons r für den Zusammenhang zwischen WST.Right und dem Ergebnis bei einem Englischtest (English.Overall). (b) Stellen Sie nun den Zusammenhang zwischen WST.Right und English.Overall grafisch dar. Was fällt Ihnen auf? Woran könnte dies liegen? Wie könnte man es lösen? (c) Lösen Sie das Problem, stellen Sie die Daten erneut grafisch dar und berechnen Sie, falls sinnvoll, Pearsons r. 4. Wie viel Power hat man, um in einer Stichprobe mit jeweils 40 Beobachtungen von zwei Variablen einen signifikanten Korrelationskoeffizient (α = 0.05) zu finden, wenn es in der Population eine mittlere bis starke Korrelation (r = 0.4)2 zwischen den beiden Variablen gibt? library(pwr) pwr.r.test(n = 40, r = 0.4, sig.level = 0.05) 5. Sie möchten eine Hypothese testen, die besagt, dass es einen mittelstarken Zusammenhang (r = 0.3) zwischen zwei Variablen gibt.3 Wie gross muss Ihre Stichprobe sein, damit Sie die Nullhypothese (r = 0) mit α = 0.05 und einer Power von 0.80 widerlegen können? Es gibt einen massiven Ausreisser bei einer Versuchsperson von 72 Jahren. Diesen Ausreisser können wir nur in diesem Streudiagramm finden; in einem Histogramm würde er nicht auffallen. 1 2 Die Korrelation in der Population wird eigentlich mit dem griechischen Buchstaben ρ dargestellt. Da dieser aber auch oft verwendet wird, um Spearmans Rangkorrelationskoeffizient darzustellen, verwende ich hier einfach den römischen Buchstaben. 3 Ich halte es allerdings für wenig wahrscheinlich, dass man in unserem Forschungsgebiet sinnvoll solche Voraussagen machen kann. KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 6.2 79 Frage 2: Einfache lineare Regression Es ist klar, dass es im Datensatz dekeyser2010.csv einen Zusammenhang zwischen AOA und GJT gibt. Eine senkende gerade Linie erfasst die GJT-Daten schon ziemlich gut. Aber wie schaut diese Linie genau aus? Mit der Hand könnten wir zwar eine gerade Linie durch die Punktwolke ziehen, aber jeder zieht die Linie wohl an einem etwas anderen Ort: 200 180 GJT 160 140 120 10 30 50 70 AOA Welche der vier Geraden beschreibt die Daten am besten? Es ist klar, dass wir ein Kriterium brauchen, um die am besten passende Gerade zu finden. Eine gerade Linie wird definiert durch einen Schnittpunkt (α; dies ist der y-Wert, wenn x = 0) und eine Steigung (β; diese sagt, um wie viele Punkte y steigt, wenn x um eine Einheit erhöht wird). Egal, wie wir α und β wählen: Die Linie y = α + βx wird die Daten nicht perfekt beschreiben: Es gibt noch Unterschiede zwischen der Linie und den individuellen Datenpunkten. Dieser Unterschied wird als Restfehler (ε) bezeichnet. Jeder y-Wert (y1 , y2 etc.) kann also umschrieben werden als die Kombination eines systematischen Teils (α + βxi ) und eines Restfehlers: yi = α + βxi + εi (6.4) Diese mathematische Beschreibung ist ein einfaches lineares Regressionsmodell: ‘einfach’, weil y nur eine Funktion einer Variable (x) ist, und ‘linear’, weil y als eine Summe (und nicht etwa ein Produkt oder etwas Komplexeres) verschiedener Terme modelliert wird. Um die α- und β-Werte der ‘optimalen’ Gerade zu finden, müssen wir definieren, was ‘optimal’ in diesem Kontext heisst. Das Optimalisierungskriterium, das meistens verwendet wird, ist, dass die optimale Linie jene Gerade ist, die Summe der Quadrate der Restfehler minimiert.4 Wenn dies unser Optimalisierungskriterium ist, können wir die Parameter der optimalen Linie folgendermassen berechnen (Der Beweis dafür wird hier nicht reproduziert.)–die Hütchen über dem α und β stellen dar, dass es sich hierbei um datenbasierte Schätzungen handelt: β̂ = rxy sy sx α̂ = ȳ − β̂x̄ (6.5) (6.6) Wenn α und β aus Gleichung 6.4 so geschätzt werden, dann ist die Summe der Quadrate von ε am geringsten. Für dekeyser2010.csv: 4 Die Methode wird daher auch die ‘Methode der kleinsten Quadrate’ (least-squares) genannt. Andere Kriterien bestehen jedoch auch, z.B. die Methode der kleinsten Abweichungen (wo die Summe der absoluten Werte der Restfehler minimiert wird) oder orthogonale Regression (wo der Restfehler anders definiert wird), um nur zwei zu nennen. Die hier beschriebene Methode ist die Methode, die in der Forschungsliteratur am häufigsten vorkommt. KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 80 beta <- cor(dat$AOA, dat$GJT) * sd(dat$GJT) / sd(dat$AOA) beta ## [1] -1.218 alpha <- mean(dat$GJT) - beta * mean(dat$AOA) alpha ## [1] 190.41 Einfacher geht es mit der lm()-Funktion (linear model): lm(GJT ~ AOA, data = dat) ## ## ## ## ## ## ## Call: lm(formula = GJT ~ AOA, data = dat) Coefficients: (Intercept) 190.41 AOA -1.22 Vorsicht: Können die Daten nicht von einer geraden Linie erfasst werden, dann kann man zwar noch immer Regressionskoeffiziente berechnen, ist dies aber weniger sinnvoll. 6.2.1 Regressionsgerade, ‘vorhergesagte’ Werte und Residuen Was ist nun der von unserem Modell vorhergesagte GJT-Wert (ŷ) für eine Versuchsperson mit AOA = 15? Die Regressionsgleichung für diese Daten haben wir oben berechnet und schaut so aus: ŷi = α̂ + β̂xi + εi = 190.41 + (−1.22) × xi + εi In dieser Gleichung ersetzen wir xi durch 15. Den Restfehler εi kennen wir nicht, aber wir wissen, dass das Mittel aller Restfehler 0 ist. Wir lassen ihn daher ausser Betracht. Der ‘vorhergesagte’ Wert (unsere beste Einschätzung für yi ) wird als ŷ bezeichnet und ist 172, wenn x = 15: ŷAOA=15 = 190.41 + (−1.22) × 15 = 172 Diese ‘vorhergesagten’ Werte können wir dem Streudiagramm hinzufügen, um das Modell besser zu veranschaulichen: plot(GJT ~ AOA, data = dat) mod.lm <- lm(GJT ~ AOA, data = dat) abline(mod.lm, col = "red", lwd = 2) KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 81 200 180 GJT 160 140 120 10 30 50 70 AOA Die Regressionsgerade beschreibt die beobachteten Daten jedoch nicht perfekt. Die Restfehler (oder Residuen) sind die Unterschiede zwischen den vom Modell ‘vorhergesagten’ Werten und den tatsächlich beobachteten Werten. Die nächste Grafik plottet die Residuen, deren Mittel immer 0 ist, gegen die AOA-Werte. dat$Residue <- resid(mod.lm) plot(Residue ~ AOA, dat) abline(h = 0, lty = 2) Residue 20 0 −20 −40 10 30 50 70 AOA 6.2.2 Zusätzliche Informationen mit summary() Mit der summary()-Funktion können wir zusätzliche Details über das Modell abfragen: summary(mod.lm) ## ## ## ## ## ## ## ## ## ## ## ## ## Call: lm(formula = GJT ~ AOA, data = dat) Residuals: Min 1Q Median -44.70 -9.54 -0.26 3Q 13.02 Max 32.45 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 190.409 3.904 48.8 <2e-16 AOA -1.218 0.105 -11.6 <2e-16 KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 82 ## Residual standard error: 16.4 on 74 degrees of freedom ## Multiple R-squared: 0.645,Adjusted R-squared: 0.64 ## F-statistic: 134 on 1 and 74 DF, p-value: <2e-16 Zuerst wird der ‘call’ wiederholt. Danach kommen folgende Informationen. Verteilung der Residuen Die Residuen können weiter analysiert werden, sodass das Modell verfeinert werden kann. Für eine Einführung, siehe Baayen (2008). Regressionskoeffiziente Unter Estimate stehen die Regressionskoeffiziente, die wir vorher berechnet haben. Std. Error zeigt die Standardfehler dieser Koeffiziente; t value die dazu Estimate gehörigen t-Werte (= Std. Error ); Pr(>|t|) zeigt die p-Werte, die mit den t-Werten assoziiert sind (hier mit 74 Freiheitsgraden, siehe Residual standard error). Die standard gelieferten t-Werte und Signifikanzwerte beziehen sich auf die Nullhypothese, dass diese Parameter in der Population gleich 0 sind.5 Die Signifikanz des Intercepts (ȳ-Wert für x = 0) ist übrigens selten von Interesse. Restfehler Neben Residual standard error finden Sie eine Schätzung der Streuung des Restfehlers (also von ε). Diese Schätzung ist konzeptuell vergleichbar mit der Standardabweichung der Residuen. Diese Schätzung hat n − p Freiheitsgrade (hier 74), wo n die Anzahl Datenpunkte (76) ist und p die Anzahl geschätzter Koeffiziente (in unserem Fall: Intercept und AOA, also p = 2).6 Den Restfehler des Modells bespricht man in Artikeln selten, aber die berichteten Signifikanztests sind von ihm abhängig. ‘Erklärte’ Varianz Multiple R-squared zeigt, wie viel Prozent der Varianz in der abhängigen Variable (hier: GJT) mithilfe des Modells ‘erklärt’ (oder besser: beschrieben) werden kann. Die Varianz der GJT-Werte liegt bei: var(dat$GJT) ## [1] 746.26 Wenn der lineare Effekt von AOA aus den GJT-Werten ‘weggerechnet’ wird, liegt die Varianz noch bei: var(dat$Residue) ## [1] 265.24 Der lineare Effekt von AOA ‘erklärt’ also fast 65% der Varianz in GJT: 1 - var(dat$Residue)/var(dat$GJT) ## [1] 0.64457 Bei einem einfachen Regressionsmodell ist diese Zahl gleich Pearsons r2 : −0.80292 = 0.645. 5 Vergleichen Sie den t- und p-Wert der AOA-Variable in diesem Regressionsmodell mit dem t- und p-Wert für den Korrelationstest. Welche Schlussfolgerung würden Sie hieraus schliessen? (Nur für einfache Regressionen (also mit einem Prädiktor).) 6 Was diese Anzahl Freiheitsgrade genau heisst, ist weniger wichtig. Es ist ein schwieriges Konzept, dass die wenigsten Hobbystatistiker (zu denen ich mich selber zähle) wirklich verstehen. KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 83 Adjusted R-squared passt diese Zahl leicht an, um zu verhindern, dass Modelle mit vielen Va- riablen quasi-automatisch hohe R2 -Werte haben. Dieser Wert wird allerdings nur selten berichtet. Die Wichtigkeit von R2 wird m.E. vollkommen überschätzt. Genau so wie pauschale Einstüfungen von Pearsons r in klein, mittel und gross in der Regel wenig sinnvoll sind, gibt es keinen universell sinnvollen Massstab, R2 zu interpretieren. R2 ist m.E. hauptsächlich nützlich, um zu wissen, wie viel Variation in der abhängigen Variable vielleicht noch mit irgendwelchen anderen Faktoren beschrieben werden könnte. F-Test Mit dem F-Test wird die Nullhypothese getestet, dass das Gesamtmodell keine Varianz in der abhängigen Variable erklärt. Bei einfacher Regression spielt dies keine Rolle, denn der tTest liefert das gleiche Ergebnis. Bei mehrfacher Regression könnte dies interessant sein. Meistens kann der F-Test m.E. jedoch ignoriert werden. 6.2.3 Übungen 1. Führen Sie folgende Analyse auf die dekeyser2010.csv-Daten aus: plot(AOA ~ GJT, data = dat) mod2.lm <- lm(AOA ~ GJT, data = dat) summary(mod2.lm) (a) Erklären Sie, was Sie gerade berechnet haben. Was bedeuten die geschätzten Parameter? Wieso ist das Intercept so gross? Was bedeutet das Intercept? (b) Welche Zahlen haben sich geändert, welche nicht? Können Sie sich dies erklären? (c) Welches Modell finden Sie am sinnvollsten: mod.lm oder mod2.lm? Warum? 2. (a) Lesen Sie sowohl die Dateien sinergia.csv und diss_hintergrundvars.csv ein. (In den Übungen auf Seite 78 mussten Sie falsch kodierte Einträge korrigieren. Lesen Sie bitte die korrigierten Dateien ein – oder nehmen Sie die Korrekturen nochmals vor.) sinergia <- read.csv("sinergia.csv") head(sinergia) hintergrundvars <- read.csv("diss_hintergrundvars.csv") head(hintergrundvars) Beide Dateien enthalten Variablen zu den gleichen Versuchspersonen. Die Identifikation der Versuchspersonen steht in beiden Datensätzen in der Spalte Subject. zusammen <- merge(x = sinergia, y = hintergrundvars, by = "Subject") head(zusammen) Was haben Sie gerade mit der merge()-Funktion bewirkt? (b) Stellen Sie den Zusammenhang zwischen der Anzahl richtiger Antworten in der gesprochenen Modalität (Correct.Spoken) und dem Ergebnis bei einem IQ-Test (Raven.Right) grafisch dar. Führen Sie, falls Sie es für sinnvoll halten, eine Regressionsanalyse aus und erläutern Sie diese kurz. KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 6.3 6.3.1 84 Frage 2: Mehrfache lineare Regression Mehrere kontinuierliche Prädiktoren (mehrfache Regression) Mit folgendem Kode werden die Datensätze sinergia.csv und diss_hintergrundvars.csv eingelesen. Danach werden die Kodierungsfehler (siehe Seite 78) korrigiert (falls Sie dies noch nicht gemacht haben) und die beiden Datensätze miteinander kombiniert: ### Datensätze einlesen und anzeigen sinergia <- read.csv("sinergia.csv") # head(sinergia) hintergrundvars <- read.csv("diss_hintergrundvars.csv") # head(hintergrundvars) ### Fehler korrigieren: ### 'NA' ist R für 'not available' hintergrundvars$WST.Right[hintergrundvars$WST.Right == 0] <- NA hintergrundvars$English.Overall[hintergrundvars$English.Overall == -9999] <- NA ### Datensätze kombinieren und anzeigen zusammen <- merge(x = sinergia, y = hintergrundvars, by = "Subject") # head(zusammen) In der letzten Übung interessierten wir uns für den Effekt von Raven.Right auf CorrectSpoken. Aber auch die Effekte der kontinuierlichen Variablen WST.Right, NrLang (Anzahl Fremdsprachen), DS.Span (Arbeitsgedächtnisskapazität) und English.Overall (Englischtestergebnis) auf CorrectSpoken würden uns interessieren!7 Sollten wir daher fünf Regressionsanalysen ausführen und berichten? Nein – die fünf Prädiktoren können ins gleiche Regressionsmodell eingetragen werden: mehrfache Regression. Tipp: Anstatt die Zusammenhänge zwischen einer abhängigen Variable und mehreren unabhängigen Variablen (Prädiktoren) in separaten Analysen zu untersuchen, ist es in der Regel besser, die Variablen in einem Modell zu analysieren. Dies liefert eine bessere Schätzung der Effekte der einzelnen Variablen. Grafische Darstellung Im Folgenden modellieren wir die Anzahl richtige Antworten anhand der Englisch- und der IQ-Ergebnisse. Auch hier lohnt es sich, die Daten zunächst grafisch darzustellen. Die linke und mittlere Grafik stellen die bivariaten Zusammenhänge zwischen den zwei Prädiktoren einerseits und der abhängigen Variable andererseits dar. In beiden Fällen handelt es sich um einen positiven Zusammenhang, der mehr oder weniger linear ausschaut. Die rechte Grafik zeigt, dass die IQ- und die Englischergebnisse ebenfalls miteinander korrelieren. In keiner der drei Grafiken scheint es massive Ausreisser zu geben. par(mfrow = c(1, 3)) plot(CorrectSpoken ~ Raven.Right, data = zusammen, 7 Mit ‘Effekt auf’ ist hier nicht unbedingt ein kausaler Zusammenhang gemeint. Die Frage ist lediglich: Wie können Unterschiede in CorrectSpoken mithilfe der anderen Variablen beschrieben werden. KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 85 25 20 15 10 5 0 5 15 25 IQ−Testergebnis 35 25 Ergebnis Englischtest Anzahl richtig (gesprochen) Anzahl richtig (gesprochen) xlab = "IQ-Testergebnis", ylab = "Anzahl richtig (gesprochen)") plot(CorrectSpoken ~ English.Overall, data = zusammen, xlab = "Ergebnis Englischtest", ylab = "Anzahl richtig (gesprochen)") plot(English.Overall ~ Raven.Right, data = zusammen, xlab = "IQ-Testergebnis", ylab = "Ergebnis Englischtest") par(mfrow = c(1, 1)) 20 15 10 5 −4 −2 0 2 Ergebnis Englischtest 2 0 −2 −4 0 5 15 25 35 IQ−Testergebnis Mit pairs() können alle bivariaten Zusammenhänge zwischen mehreren Variablen dargestellt werden: pairs(zusammen[ , c("CorrectSpoken", "Raven.Right", "DS.Span", "English.Overall", "WST.Right")], col = "darkgrey") KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 0 15 30 −4 0 2 25 20 15 10 5 CorrectSpoken 35 30 25 20 15 10 5 0 86 Raven.Right 8 7 6 5 4 3 2 DS.Span 2 0 −2 −4 English.Overall WST.Right 5 15 25 2 4 6 8 10 40 30 20 10 30 Wie Sie solche Streudiagrammmatrizen verbesseren können, erfahren Sie bei ?pairs unter Examples. Regressionsmodell Mit + in der lm()-Funktion können wir mehrere Prädiktoren ins Modell aufnehmen: sinergia.lm <- lm(CorrectSpoken ~ Raven.Right + English.Overall, data = zusammen) summary(sinergia.lm) ## ## ## ## ## ## ## ## ## ## ## ## Call: lm(formula = CorrectSpoken ~ Raven.Right + English.Overall, data = zusammen) Residuals: Min 1Q -10.623 -2.382 Median 0.406 3Q 2.495 Max 13.431 Coefficients: (Intercept) Raven.Right Estimate Std. Error t value Pr(>|t|) 13.0549 0.8411 15.52 < 2e-16 0.1919 0.0438 4.39 2.1e-05 KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN ## ## ## ## ## ## English.Overall 1.3682 0.1865 7.34 87 1.1e-11 Residual standard error: 4.07 on 157 degrees of freedom (3 observations deleted due to missingness) Multiple R-squared: 0.442,Adjusted R-squared: 0.435 F-statistic: 62.1 on 2 and 157 DF, p-value: <2e-16 Dieser Output ist jenem des einfachen Regressionmodells sehr ähnlich, nur wurden drei statt bloss zwei Parametern geschätzt. Die Interpretation der Parameter ist wie folgt: • (Intercept): Eine Versuchsperson mit Raven.Right- und English.Overall-Werten von 0 hätte, laut dem Modell, einen CorrectSpoken-Wert von 13. Solche Versuchspersonen dürfte es im Datensatz keine geben. Um das Intercept bedeutungsvoller zu machen, zentriert man daher oft die anderen Prädiktoren, d.h., man zieht das Mittel der Werte von den Werten ab und verwendet die neuen Werte als Prädiktoren. Das Intercept stellt nun den modellierten Wert für eine durchschnittliche Versuchsperson dar, was meistens viel informativer ist. zusammen$c.Raven.Right <- zusammen$Raven.Right - mean(zusammen$Raven.Right) zusammen$c.English.Overall <- zusammen$English.Overall - mean(zusammen$English.Overall) • Raven.Right: Bleibt English.Overall unverändert, dann steigt der modellierte CorrectSpoken-Wert um 0.2 Punkte, wenn Raven.Right um einen Punkt steigt. • English.Overall: Bleibt Raven.Right unverändert, dann steigt der modellierte CorrectSpoken-Wert um 1.4 Punkte, wenn English.Overall um einen Punkt steigt. Vorsicht: Raven.Right und English.Overall wurden natürlich auf anderen, nicht miteinander vergleichbaren Skalen gemessen. Wir können also nicht schliessen, dass English.Overall 7 × wichtiger als Raven.Right ist! Vorsicht: Drei Beobachtungen wurden aufgrund fehlender Daten aus dem Modell ausgeschlossen (‘list-wise deletion’). Eine Diskussion über Strategien, um mit fehlenden Daten umzugehen, würde den Rahmen dieses Skripts sprengen, aber siehe Honaker et al. (2012). Bei dieser niedrigen Anzahl fehlender Daten sind solche Strategien wohl überflüssig. Um dieses Modell grafisch darzustellen, können wir das effects-Package verwenden: # ggf. zuerst installieren: # install.packages("effects") library(effects) plot(allEffects(sinergia.lm), ylim = c(8, 22)) # sodass die Grafiken den gleichen Bereich haben KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN English.Overall effect plot 22 22 20 20 CorrectSpoken CorrectSpoken Raven.Right effect plot 88 18 16 14 12 10 18 16 14 12 10 8 8 0 5 10 15 20 25 30 35 Raven.Right −4 −3 −2 −1 0 1 2 English.Overall Modelldiagnose Man sollte noch kontrollieren, ob das Modell überhaupt ein gutes Modell ist. Ist ein lineares Modell geeignet oder müssen wir bestimmte Zusammenhänge nicht-linear modellieren? Können wir das Modell verbessern, indem wir ihm zusätzliche Prädiktoren hinzufügen? Gibt es einzelne Datenpunkte, die die anderen Datenpunkte ‘überstimmen’ (z.B. Ausreisser)? In Baayen (2008) finden Sie erste Ansätze, um diese Fragen zu beantworten und das Modell ggf. anzupassen. 6.3.2 Kategorielle Prädiktoren Auch kategorielle Prädiktoren, z.B. FirstBlock und Sex, können dem Modell hinzugefügt werden: sinergia.lm2 <- lm(CorrectSpoken ~ Raven.Right + English.Overall + FirstBlock + Sex, data = zusammen) summary(sinergia.lm2) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Call: lm(formula = CorrectSpoken ~ Raven.Right + English.Overall + FirstBlock + Sex, data = zusammen) Residuals: Min 1Q Median -11.11 -2.50 0.53 3Q 2.51 Max 12.74 Coefficients: (Intercept) Raven.Right English.Overall FirstBlockWritten Sexmale Estimate Std. Error t value Pr(>|t|) 13.7242 0.9644 14.23 < 2e-16 0.1840 0.0438 4.20 4.4e-05 1.3301 0.1881 7.07 4.9e-11 0.0348 0.6494 0.05 0.957 -1.2297 0.6592 -1.87 0.064 KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 89 ## ## Residual standard error: 4.06 on 155 degrees of freedom ## (3 observations deleted due to missingness) ## Multiple R-squared: 0.454,Adjusted R-squared: 0.44 ## F-statistic: 32.2 on 4 and 155 DF, p-value: <2e-16 Die Variable FirstBlock hat zwei ‘levels’: Spoken und Written. Da Spoken im Alphabet vor Written kommt, gilt es als ‘Nullwert’ und ist es im Intercept enthalten. FirstBlockWritten zeigt, um wie viele Punkte der geschätzte CorrectSpoken-Wert erhöht werden muss, wenn das level für FirstBlock Written statt Spoken ist. Die gleiche Logik gilt bei der Variable Sex, deren levels female und male sind. female gilt hier als Nullwert und ist im Intercept enthalten; der Parameter Sexmale zeigt, um wie viele Punkte CorrectSpoken-Wert ‘erhöht’ werden muss, wenn die Versuchsperson männlich ist. Die Bedeutung des Intercepts dieses Modells ist also der vorhergesagte CorrectSpoken-Wert für eine weibliche Versuchsperson, die zuerst den gesprochenen Teil der Aufgabe absolvierte und Raven.Right- und English.Overall-Werte von 0 hat. Grafisch können wir dieses Modell so darstellen: plot(allEffects(sinergia.lm2), ylim = c(8, 22)) English.Overall effect plot 22 22 20 20 CorrectSpoken CorrectSpoken Raven.Right effect plot 18 16 14 12 18 16 14 12 10 10 8 8 0 5 10 15 20 25 30 35 −4 −3 −2 −1 Raven.Right 22 20 20 CorrectSpoken CorrectSpoken 2 Sex effect plot 22 18 16 14 12 18 16 14 12 10 10 8 8 Written FirstBlock 1 English.Overall FirstBlock effect plot Spoken 0 female male Sex Übrigens hat keiner der beiden kategoriellen Prädiktoren hier einen signifikanten Effekt. Insbe- KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 90 sondere für die FirstBlock-Variable ist dies auch in der Grafik deutlich: Die Konfidenzintervalle überlappen sich fast komplett. 6.3.3 Der Nutzen von mehrfacher Regression Muttersprache und Alter. Der Datensatz readingSkills.csv (ursprunglich Teil des partyPackages) enthält (fiktive) Daten zu den Lesekenntnissen bei Kindern unterschiedlichen Alters. Lesen Sie diesen Datensatz in R ein und zeigen Sie ihn an. Wie Sie sehen können, enthält der Datensatz die Variablen nativeSpeaker (Wurde das Kind in seiner Muttersprache getestet?), age in Jahren, shoeSize in Zentimetern und score, das Ergebnis bei einem Lesetest. Erledigen Sie mit diesem Datensatz die folgenden Aufgaben. 1. Stellen Sie den Zusammenhang zwischen score und der nominalskalierten Variable nativeSpeaker grafisch dar. Beschreiben Sie, was der Grafik entnommen werden kann. 2. Führen Sie einen t-Test mit diesen Variablen aus (gehen Sie dabei davon aus, dass die Varianzen in beiden Gruppen gleich sind) und berichten Sie diesen. Unterscheiden sich die Leseverständnisergebnisse signifikant je nach Sprachgruppe? 3. Modellieren Sie jetzt dieselben Variablen in einem Regressionsmodell mit score als abhängiger Variable. # zum Beispiel: mod <- lm(score ~ nativeSpeaker, data = readingSkills) summary(mod) Vergleichen Sie den t- und p-Wert des Koeffizients für nativeSpeakeryes mit dem Ergebnis des t-Tests. Was stellen Sie fest? 4. Stellen Sie jetzt den Zusammenhang zwischen score und der kontinuierlichen Variable age grafisch dar. Beschreiben Sie die Grafik. 5. Fügen Sie dem Regressionsmodell die Altersvariable hinzu. # zum Beispiel mod2 <- lm(score ~ nativeSpeaker + age, data = readingSkills) Vergleichen Sie den Residual standard error dieses Modell mit jenem des vorigen Modells. Wie hat er sich geändert? Schauen Sie sich jetzt die Parameterschätzung sowie auch den Standardfehler von nativeSpeakeryes an und vergleichen Sie beide Zahlen mit jenen des vorigen Modells. Wie hat sich unsere ‘Sicherheit’ über diesen Parameter geändert? Wie erklären Sie sich dies? Merksatz: Der t-Test für unabhängige Stichproben mit gleichen Varianzen kann auch als ein Regressionsmodell geschrieben werden. Die Darstellungsart ist eine andere, die Ergebnisse sind aber gleich. Merksatz: Mehrfache Regression erlaubt uns, Variablen zu berücksichtigen, die uns vielleicht zwar nicht stark interessieren (in diesem Beispiel: age), die aber dennoch mit der abhängigen Variable zusammenhängen. Hierdurch wird der Restfehler kleiner, was wiederum die Standardfehler der übrigen Parameter verkleinert und zu einer grösseren power führt. Auch wenn Ihnen der Einfluss irgendeiner Variable nicht interessiert, kann es sich daher lohnen, diese Variable trotzdem mitzuerheben, wenn sie den Restfehler eingreifend reduzieren kann – aber dieses Prinzip sollte man auch nicht übertreiben. (Siehe Vanhove 2015a, zu den Vorteilen von ‘ANCOVA’, KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 91 was im Grunde genommen das Gleiche ist.) Schuhgrösse und Alter Erledigen Sie diese Aufgaben, ebenfalls mit dem Datensatz readingSkills.csv. 1. Stellen Sie den Zusammenhang zwischen score und der kontinuierlichen Variable shoeSize grafisch dar. Beschreiben Sie, was der Grafik entnommen werden kann. 2. Führen Sie eine Regressionsanalyse (mit score als abhängiger Variable) aus. Wie interpretieren Sie die Ergebnisse dieser Regressionsanalyse? 3. Fügen Sie diesem Regressionsmodell jetzt die age-Variable hinzu. Wie ändert sich der Parameter für shoeSize? Wie erklären Sie sich diese Veränderung? (Tipp: Stellen Sie auch einmal den Zusammenhang zwischen age und shoeSize grafisch dar.) Merksatz: Mehrfache Regression erlaubt es (oft), ‘direktere’ ‘Effekte’ von ‘indirekteren’ zu trennen. shoeSize und score variieren zwar zusammen, aber der Zusammenhang mit shoeSize ist durch age bedingt: Ältere Kinder haben grössere Füsse und schneiden besser beim Lesetest ab. Zugegebenermassen sind nicht alle Fälle so eindeutig wie dieser; siehe auch Controlling for confounding variables in correlational research: Four caveats. 6.3.4 Vorbehalte und Weiterbildung • Bei sowohl Korrelations- als auch Regressionsanalysen haben wir uns mit linearen Zusammenhängen befasst. Sind die Zusammenhänge nicht linear, dann sind solche Analysen natürlich weniger sinnvoll. Details zum Modellieren nicht-linearer Zusammenhänge finden Sie u.a. in Baayen (2008). • Seien Sie vorsichtig mit Extrapolation: Wenn wir eine Stichprobe von Versuchspersonen zwischen 8 und 26 Jahren haben, ist es gefährlich, Aussagen über 5- oder 40-Jährige zu machen. Dies wird in der linken Abbildung illustriert: Eine Fähigkeit, die sich im Alter zwischen 10 und 35 entwickelt, hat nicht unbedingt die gleiche Entwicklung ausserhalb dieses Bereichs. Eine Extrapolierung auf der Basis der Regressionsgerade ist hier irreführend. Auch bei Intrapolation ist Vorsicht geboten. Aus den Daten in der rechten Grafik könnte man zum Beispiel die Schlussfolgerung ziehen, dass sich Reaktionszeiten graduell verlängern im Alter. Auch diese Schlussfolgerung dürfte zu kurz greifen. Gefahr bei Extrapolation Gefahr bei Intrapolation Reaktionszeit Fähigkeit extrapolierte Schätzung für Fähigkeit echte Entwicklung von Fähigkeit intrapolierte Schätzung für Reaktionszeit echte Entwicklung von Reaktionszeit 10 20 30 40 50 60 70 80 Alter (Jahre) 10 20 30 40 50 60 70 80 Alter (Jahre) • Wie immer ist es auch hier wichtig, dass die Datenpunkte unabhängig voneinander sind. Dieser Punkt wird von Abbildung 2 in Jaeger et al. (2011) illustriert. Eine erste Ressource zur Weiterbildung ist Baayen (2008). KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 6.3.5 92 Übungen 1. Schauen Sie sich das Modell in Abschnitt 6.3.2 an. Was ist der vom Modell vorhergesagte Werte für eine weibliche Versuchsperson mit einem IQ-Testergebnis von 22, einem Englischtestergebnis von −0.3, die im ersten Block des Versuchs geschriebene Wörter übersetzen musste? 2. Mit dem gleichen Datensatz: Stellen Sie den Zusammenhang zwischen CorrectSpoken und WST.Right (= Wortschatztestergebnis) grafisch dar. Beschreiben Sie den Zusammenhang informell (also einfach in Worten, ohne irgendwelche Analysen auszuführen)? 3. Berechnen Sie ein mehrfaches Regressionsmodell für CorrectSpoken mit den Prädiktoren Raven.Right, English.Overall und WST.Right.8 (a) Vergleichen Sie die Koeffiziente dieses Modell mit denjenigen von Modell sinergia.lm (Seite 86). Wie eingreifend haben sich diese verändert? Erklären Sie, was das Intercept in beiden Fällen darstellt. (b) Auf wie vielen Beobachtungen basiert dieses Modell? (c) Stellen Sie dieses Modell mithilfe des effects-Packages grafisch dar. (d) Zeigt CorrectSpoken einen signifikanten Zusammenhang mit WST.Right auf? (e) Berechnen Sie jetzt ein einfaches Regressionmodell mit nur WST.Right als Prädiktor. Zeigt CorrectSpoken hier einen signifikanten Zusammenhang mit WST.Right auf? Wie erklären Sie sich dies? 8 In meiner Diss habe ich diese Daten übrigens anders modelliert. Wie bereits mehrmals erwähnt, ist Regressionsanalyse ein schwieriges Thema und will ich hier nur zeigen, worum es eigentlich geht. Kapitel 7 Mehrere Gruppen vergleichen Kapitel 5 besprach eine Methode, um die Mittel von zwei Stichproben miteinander zu vergleichen (t-Test), und in Kapitel 6 wurde gezeigt, dass dieser t-Test im Grunde genommen, wie auch lineare Regression, nur eine Erscheinungsform des ‘linearen Modells’ ist: Ob man die Mittel von zwei Gruppen mit einem t-Test (für gleiche Varianzen) oder in einer linearen Regression (mit der Gruppenvariable als kategorischem Prädiktor) analysiert, macht unter dem Strich nichts aus, denn das Ergebnis (der p-Wert) bleibt unverändert. In diesem Kapitel besprechen wir nun die am meisten verwendete Methode, um die Mittel von mehr als zwei Stichproben miteinander zu vergleichen oder um kompliziertere Experimente auszuwerten: Varianzanalyse oder ANOVA (analysis of variance). Auch diese Methode lässt sich als eine Erscheinungsform des linearen Modells verstehen: Vergleicht man die Mittel von zwei Gruppen in einer ANOVA statt mit dem üblicheren t-Test, dann ändert sich am Ergebnis nichts – man macht die Sachen nur komplizierter als strikte nötig. Es lassen sich drei Arten von ANOVA unterscheiden: • Einfaktorielle Varianzanalyse: Statt zwei Gruppen hinsichtlich ihres Mittels zu vergleichen (t-Test), vergleichen wir mehrere Gruppen miteinander. Beispiel: Die Frequenz des ersten Formantes des englischen KIT-Vokals (siehe Übung 1 auf Seite 68) wird bei spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden gemessen. Frage: Unterscheidet sich mindestens ein (irgendein) Gruppenmittel von den anderen? • Zwei- bzw. mehrfaktorielle Varianzanalyse: In zweifaktorieller ANOVA können die Einflüsse von zwei Variablen sowie auch ihr Zusammenspiel untersucht werden. Beispiel: Die Frequenz des ersten Formantes des englischen KIT-Vokals wird bei spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden gemessen; jede Gruppe besteht zur Hälfte aus Frauen und zur Hälfte aus Männern. Die Verteilung der Versuchspersonen könnte dann so ausschauen:1 Frauen Männer L1 Spanisch L1 Deutsch L1 Französisch L1 Finnisch 10 10 10 10 10 10 10 10 Mögliche Fragen: Unterscheidet sich die Formantfrequenz je nach Sprachgruppe? Unterscheidet sich die Formantfrequenz je nach Geschlecht? Und ist der Effekt von Sprachgruppe 1 Es ist nicht strikte nötig, dass alle Zellen gleich gross sind, aber es macht die Berechnungen schon einfacher. Mehr dazu in Abschnitt 7.2.7. 93 KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 94 unterschiedlich je nach Geschlecht?2 Diese letzte Frage betrifft die Interaktion von Sprachgruppe und Geschlecht. Da Sprachgruppe vier ‘levels’ hat und Geschlecht zwei, spricht man auch von einer 4 × 2-Interaktion. Bei mehrfaktorieller ANOVA werden mehr als zwei Variablen und ihre möglichen Interaktionen berücksichtigt, die Logik ist aber die gleiche. Hier werden wir nur zweifaktorielle ANOVA besprechen, da drei- und vierfache Interaktionen schnell unübersichtlich werden und den Lern- und Lehraufwand zu sehr erhöhen würden. • Varianzanalyse für wiederholte Messungen: In den obigen Beispielen hatten wir 80 Lernende, die alle mit einem Datenpunkt in der Analyse vertreten waren. Die Daten waren somit unabhängig voneinander. Da eine Versuchsperson (subject) entweder spanisch- oder deutsch- oder französisch- oder finnischsprachig ist und entweder Mann oder Frau ist, sagen wir, dass Sprachgruppe und Geschlecht beide between-subjects-Variablen sind: Sie variieren zwischen und nicht innerhalb der Versuchspersonen. Oft stehen uns jedoch mehrere Messungen pro Versuchsperson zur Verfügung und für solche Fälle kann sich eine Varianzanalyse für wiederholte Messungen anbieten. Beispiel: Wir messen die Frequenz des ersten Formants der englischen KIT-, FLEECE- und DRESS -Vokale bei spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden (20 Lernende pro Gruppe). Insgesamt haben wir also 240 Datenpunkte (80 Mal KIT, 80 Mal FLEECE und 80 Mal DRESS). Nach wie vor variiert Sprachgruppe zwischen aber nicht innerhalb von Versuchspersonen (between-subjects). Vokaltyp (KIT, FLEECE, DRESS) variiert jedoch innerhalb von Versuchspersonen (jede Versuchsperson liefert drei Datenpunkte) und ist somit eine within-subjects-Variable. Die Daten sind somit nicht länger unabhängig voneinander. Wenn wir die Abhängigkeiten in den Daten explizit in der Analyse spezifizieren, können wir jedoch noch immer folgende Fragen beantworten: Variiert die Formantfrequenz zwischen den Sprachgruppen? Variiert die Formantfrequenz zwischen den Vokaltypen? Und ist der Effekt von Sprachgruppe unterschiedlich je nach Vokaltyp? Varianzanalyse mit wiederholten Messungen ist eine fortgeschrittene Methode, deren Behandlung uns in diesem Einführungskurs zu weit führen würde. In Kapitel 9 werden aber zusätzliche Ressourcen empfohlen, um Daten mit wiederholten Messungen zu analysieren. Tipp: Für den Moment ist das Wichtigste für Sie, zu wissen, dass es überhaupt Methoden gibt, mit denen Daten mit wiederholten Messungen analysiert werden können. Über diese Methoden können Sie sich dann noch schlau machen, wenn Sie Ihre Studie planen. Dieses Kapitel ist darauf ausgerichtet, Ihnen die Logik und das Vokabular der Varianzanalyse beizubringen. Selbst musste ich noch nie Daten mittels Varianzanalyse auswerten, da ich bisher hauptsächlich mit binären abhängigen Variablen und umständlicheren Arten von Messwiederholungen, für die sich andere Verfahren anbieten (Kapitel 9), gearbeitet habe. Dafür enthält jedes zweites Paper, das man liest, aber mehrere ANOVA-basierte Ergebnisse. In erster Linie scheint es daher am sinnvollsten, das (rezeptive) Verständnis über dieses analytische Verfahren abzusichern, und die (produktive) Anwendung einem Folgekurs zu überlassen. 2 Oder äquivalent: Ist der Effekt von Geschlecht unterschiedlich je nach Sprachgruppe? KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 7.1 95 Einfaktorielle Varianzanalyse (one-way ANOVA) 7.1.1 Fragestellung und Daten (Fiktives Beispiel) Die Frequenz des ersten Formantes des englischen KIT-Vokals wird bei männlichen spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden gemessen (20 Lernende pro Gruppe). Wir möchten wissen, ob diese Frequenz je nach Muttersprache variiert. Diese fiktiven Daten finden Sie in der Datei Formanten_1.csv; die F1-Spalte enthält die Formantmessungen in Hertz (eine kontinuierliche Variable). dat <- read.csv("Formanten_1.csv") summary(dat) ## ## ## ## ## ## ## F1 Min. :165 1st Qu.:304 Median :339 Mean :334 3rd Qu.:367 Max. :465 7.1.2 Sprachgruppe Deutsch :20 Finnisch :20 Französisch:20 Spanisch :20 Grafische Darstellungen Wie immer lohnt es sich auch hier die Daten grafisch darzustellen, und zwar sowohl beim Berichten der Ergebnisse als auch bei der Analyse. Boxplots, violin plots und einzelne Datenpunkte Mit dem folgenden Kode können Boxplots der Messungen für jede Sprachgruppe erzeugt werden. Ich halte es ausserdem für sinnvoll, dieser Grafik auch die einzelnen Datenpunkte hinzuzufügen, sodass man schnell einschätzen kann, wie viele Datenpunkte den Boxplots zu Grunde liegen und wie sie ungefähr verteilt sind. (Vgl. Übung 5 auf Seite 21 für ein Beispiel eines täuschenden Boxplots ohne einzelne Datenpunkte.) Aus diesem Plot wird klar, dass französischsprachige Lernende im Schnitt niedrigere F1-Frequenzen als die drei andere Gruppen haben. (Dies deutet darauf hin, dass sie diesen Vokal ‘geschlossener’ aussprechen, also mit der Zungenspitze höher im Mund.) Es gibt jedoch eine erhebliche Überlappung zwischen den vier Gruppen. par(las = 2) # siehe ?par -> las boxplot(F1 ~ Sprachgruppe, data = dat, xlab = "", ylab = "Frequenz F1 (Hz)", ylim = c(150, 500), outline = FALSE) # damit Ausreisser nicht 2x angezeigt werden; # Unbedingt auf 'TRUE' stellen, # wenn der Grafik die einzelnen Datenpunkte # nicht hinzugefügt werden! stripchart(F1 ~ Sprachgruppe, data = dat, method = "jitter", # Punkte nicht übereinander plotten vertical = TRUE, # senk- statt waagerecht pch = 1, cex = 1.1, # Form und Grösse der Punkte add = TRUE) # dem Boxplot hinzufügen KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 96 500 Frequenz F1 (Hz) 450 400 350 300 250 200 Spanisch Französisch Finnisch Deutsch 150 Eine Alternative bietet das ggplot2-Package, das Sie mit dem install.packages("ggplot2")Befehl installieren können. Mit dem folgende Kode können Sie die obige Grafik in ggplot2 zeichnen: library(ggplot2) ggplot(data = dat, # Daten aus 'dat' verwenden aes(x = Sprachgruppe, y = F1)) + # Sprgrp auf x-, F1 auf y-Achse geom_boxplot(outlier.shape = NA) + # Boxplot zeichnen; Ausreisser nicht geom_jitter(w = 0.3, # Punkte leicht horizontal auseinander plotten h = 0, # aber nicht vertikal pch = 1) # anderes Symbol verwenden F1 400 300 200 Deutsch Finnisch Französisch Spanisch Sprachgruppe Eine verwandte Darstellungsart ist das violin plot: library(ggplot2) ggplot(data = dat, aes(x = Sprachgruppe, y = F1)) + _ geom violin() + # geom_boxplot durch geom_violin ersetzen geom_jitter(w = 0.3, h = 0, pch = 1) KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 97 F1 400 300 200 Deutsch Finnisch Französisch Spanisch Sprachgruppe Mehr Informationen zur Verwendung des ggplot2-Package finden Sie in Wickham (2009) (siehe github.com/hadley/ggplot2-book) oder unter ggplot2.org oder learnr.wordpress.com/category/lattice-book/. Tipp: Versuchen Sie, wenn immer möglich, auch die einzelnen Datenpunkte – und nicht nur die Gruppenmittelwerte – darzustellen. Bei sowohl den obigen Boxplots als auch den Dichtenkurven erhalten Analisten und Leserschaft Informationen über die zentrale Tendenzen, die Streuungen und über die deren zu Grunde liegenden Verteilungen und den Grad der Überlappung. So können sich Lesende ein realistisches Bild Ihrer Daten machen.3 7.1.3 Mittel und Standardabweichungen berechnen Das dplyr-Package erleichtert das Berechnen von Gruppenmitteln, -standardabweichungen etc. library(dplyr) summary_dat <- summarise(group_by(dat, Sprachgruppe), # dat nach Sprachgruppe aufspalten Mittel = mean(F1), # Mittel berechnen StdAbw = sd(F1), # Standardabweichung Median = median(F1), # Median Anzahl = n()) # Anzahl Datenpunkte summary_dat # Zusammenfassung zeigen ## ## ## ## ## ## ## ## Source: local data frame [4 x 5] 1 2 3 4 Sprachgruppe (fctr) Deutsch Finnisch Französisch Spanisch 3 Vergleichen Mittel (dbl) 350.30 360.40 299.05 327.95 StdAbw Median Anzahl (dbl) (dbl) (int) 48.757 355.5 20 45.850 361.0 20 67.771 300.5 20 38.730 335.0 20 Sie dies mit einer anderen beliebten aber selten geeigneten Darstellungsart, dem Säulendiagramm: Gruppenmittel 350 300 250 200 150 100 50 0 Dt. Fin. Fr. Sp. Ein Mittel von etwa 340 kann zahllosen Datenverteilungen entsprechen: 20 Versuchspersonen um die 340; 12 Versuchspersonen bei 400 und 8 bei 250; 19 Versuchspersonen bei 316 und 1 bei 800; usw. Das Säulendiagramm macht zwar einen ‘sauberen’, deutlichen Eindruck, aber dieser täuscht oft. KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 7.1.4 98 Signifikanztest Mehrere t-Tests? Unsere Forschungsfrage lautet: Unterscheiden sich die Mittel der vier Sprachgruppen voneinander? Die Nullhypothese bei diesem Vergleich von vier Mitteln lässt sich so beschreiben: H0 : µDeutsch = µFinnisch = µFranzösisch = µSpanisch Das heisst: Alle Mittel sind eigentlich (also auf der Ebene der Populationen) gleich. Die Alternativhypothese schaut dann so aus: HA : µDeutsch 6= µFinnisch 6= µFranzösisch 6= µSpanisch Das heisst: Mindestens ein Mittel ist (auf der Ebene der Populationen) unterschiedlich. Auf Stichprobenebene sind die Mittel natürlich immer zumindest etwas unterschiedlich, aber diese Unterschiede dürften zufallsbedingt sein. Es liegt jetzt auf der Hand, um H0 mittels einer Reihe von t-Tests zu überprüfen: Wir testen, ob µDeutsch = µFinnisch , ob µDeutsch = µFranzösisch , ob µDeutsch = µSpanisch , ob µFinnisch = µFranzösisch , ob µFinnisch = µSpanisch , und ob µFranzösisch = µSpanisch und verwenden dazu sechs t-Tests. Wenn mindestens ein t-Test auf einen signifikanten Unterschied hindeutet, würden wir schliessen, dass nicht alle vier Populationen das gleiche Mittel haben, und würden wir die Nullhypothese ablehnen. = 6 Vergleiche, Diese Methode ist natürlich etwas umständlich: Bei vier Gruppen gibt es 4×(4−1) 2 10×(10−1) bei zehn wären es schon = 45. Ausserdem gibt es mit diesem Ansatz ein weiteres 2 Problem: Wenn H0 stimmt, dann gehen wir bei jedem einzelnen t-Test ein Risiko von 5% ein, dass wir H0 fälschlicherweise ablehnen (Typ-I-Fehler). Wenn wir sechs t-Tests berechnen, dann erhöht sich die Wahrscheinlichkeit, dass wir irgendeinen zufälligen Unterschied. Dieses multiple comparisons-Problem wird schlimmer, je mehr Tests wir berechnen. Eine mögliche Lösung besteht darin, die Mittel der vier Gruppen mittels Varianzanalyse in einem Modell miteinander zu vergleichen. Vorsicht: Die Nullhypothese ist hier, dass sich irgendwelche Gruppenmittel voneinander unterscheiden: Wir hatten vor der Datenerhebung nicht spezifiziert, dass wir uns nur für einen bestimmten Unterschied interessieren (etwa den Unterschied zwischen Deutsch- und Französischsprachigen). Wäre dies der Fall gewesen, dann hätten wir natürlich nur einen einzigen t-Test ausführen können, während wir die anderen Gruppen ignoriert hätten, ohne dass wir dabei das Risiko des erhöhten Typ-I-Fehlers in Kauf nehmen müssten. (Aber wieso hätten wir dann Daten bei Finnisch- und Spanischsprachigen erhoben?) Wichtig ist, dass solche Entscheidungen genommen werden, bevor man sich die Daten anschaut. Wenn man sich die Daten schon angeschaut hat, kann man sich selbst oft davon überzeugen, dass man ohnehin nur die Unterschiede testen wollte, die interessant scheinen – im Nachhinein ist man immer klüger. Dies erhöht jedoch ebenfalls den Typ-I-Fehler. Interessante Artikel zu diesem m.E. weit verbreiteten Problem sind Kerr (1998), Simmons et al. (2011) und Gelman & Loken (2013). Streuung aufteilen Bei Varianzanalyse wird versucht, die Streuung in den Daten in einen systematischen Teil (Gruppenunterschiede) und in einen Restfehler (Streuung innerhalb der Gruppen, die für unsere Zwecke uninteressant ist) aufzuteilen. KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN Streuung = Gruppenunterschiede + Restfehler 99 (7.1) Dazu berechnen wir zuerst die Gesamtsumme der Quadrate (siehe Seite 10), also die Summe der quadrierten Unterschiede zwischen den Daten und ihrem Gesamtmittel: SS.total <- sum((dat$F1 - mean(dat$F1))^2) SS.total ## [1] 245278 Welchen Anteil dieser Summe der Quadrate können wir nun mit der Variable Sprachgruppe erklären (= systematischer Teil) und welcher Anteil bleibt noch unerklärt (= Restfehler)? Eine ähnliche Frage haben wir uns schon einmal gestellt, und zwar im Kapitel zu Regressionsanalysen. Tatsächlich sind sowohl ANOVA als auch lineare Regression Erscheinungsformen des gleichen mathematischen Vorgehens, des linearen Modells. Im nächsten Schritt berechnen wir ein lineares Modell, mit dem der Effekt von F1 auf Sprachgruppe ‘weggerechnet’ wird: formant.mod <- lm(F1 ~ Sprachgruppe, data = dat) formant.mod ## ## ## ## ## ## ## ## ## Call: lm(formula = F1 ~ Sprachgruppe, data = dat) Coefficients: (Intercept) 350.3 SprachgruppeFranzösisch -51.2 SprachgruppeFinnisch 10.1 SprachgruppeSpanisch -22.3 Vergleichen Sie die Koeffiziente mit den Gruppenmitteln, die oben mit der summarise()Funktion berechnet wurden. Von der Gesamtsumme von 245’278 Quadraten bleiben noch 200’877 Quadrate ‘unerklärt’; dies sind die Quadrate der Residuen des obigen Modelle. Eine äquivalente Art und Weise, diese Zahl zu berechnen, besteht darin, die Unterschiede zwischen den Datenpunkten und ihrem jeweiligen Gruppenmittel zu berechnen, diese zu quadrieren und beieinander aufzuzählen. SS.rest <- sum(resid(formant.mod)^2) SS.rest ## [1] 200877 Sprachgruppe kann also 44’401 Quadrate ‘erklären’: SS.Gruppe <- SS.total - SS.rest SS.Gruppe ## [1] 44401 Um diese 44’401 Quadrate zu erklären, brauchten wir drei Parameter zusätzlich zum Intercept des Modells (siehe oben bei formant.mod). Zwar untersuchen wir in diesem Modell also nur den Effekt einer Variable, aber dafür brauchen wir in diesem Fall drei Parameter (= Freiheitsgrade), da diese nominale Variable vier ‘levels’ hat. Im Schnitt erbringt uns jeder Freiheitsgrad also 14’800 Quadrate. Dies ist die mean sum of squares. KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 100 meanSq.Gruppe <- SS.Gruppe / 3 meanSq.Gruppe ## [1] 14800 Damit sich die Investition von diesen drei Freiheitsgraden lohnt, müssten diese beiden im Schnitt mehr Streuung erklären können als die restlichen 76 im Schnitt (80 Datenpunkte − 3 Freiheitsgrade für Sprachgruppe − 1 Freiheitsgrad fürs Intercept). Die mean sum of squares für die unerklärten Quadrate ist etwa 2’643: meanSq.rest <- SS.rest / (80 - 3 - 1) meanSq.rest ## [1] 2643.1 F-Test Das Ratio von Gruppe.meanSq und rest.meanSq bezeichnet man als F. Wenn die Nullhypothese stimmt, dann wird F nahe bei 1 liegen: Die drei Freiheitsgrade erbringen im Schnitt nicht mehr als die 76 anderen. Stimmt die Nullhypothese jedoch nicht, dann wird F > 1 gelten. F.Gruppe <- meanSq.Gruppe / meanSq.rest F.Gruppe ## [1] 5.5995 5.6 ist natürlich grösser als 1, aber auch wenn die Nullhypothese stimmt, wird F nur selten genau gleich 1 sein. Aufgrund des Zufallsfaktors wird F mal grösser und mal kleiner sein. Wenn die Nullhypothese stimmt, schaut die Verteilung von F bei 3 Freiheitsgraden im systematischen Teil und 76 Freiheitsgraden für den Restfehler (F(3, 76)-Verteilung) so aus: curve(df(x, 3, 76), from = 0, to = 10, xlab = "F-Wert", ylab = "d(F)", main = "Verteilung der F-Werte unter\nder Nullhypothese bei 3 und 76 d.f.") abline(v = F.Gruppe, lty = 2) Verteilung der F−Werte unter der Nullhypothese bei 3 und 76 d.f. d(F) 0.6 0.4 0.2 0.0 0 2 4 6 8 10 F−Wert Wenn die Nullhypothese stimmt, ist es also ziemlich unwahrscheinlich, hier einen F-Wert von 5.6 oder grösser anzutreffen. Mit der pf()-Funktion lässt sich die genaue Wahrscheinlichkeit berechnen (die Fläche unter der Kurve oberhalb von F = 5.6): 1 - pf(F.Gruppe, 3, 76) ## [1] 0.0015963 KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 101 Sprich etwa 0.2%, also weit unten der traditionelle 5%-Schwelle. Die ANOVA zeigt also, dass Sprachgruppe einen signifikanten Effekt auf F1 hat: Je nach Sprachgruppe sind die F1-Mittel anders. Direkt in R Sie brauchen all diese Zwischenschritte natürlich nicht auszuführen. Kürzer geht es mit folgendem Kode, mit dem Sie ein lineares Modell mit Sprachgruppe als Prädiktor aufstellen (ähnlich wie bei linearer Regression) und dann mit der anova()-Funktion die Varianzen aufteilen und den F-Test ausführen: modell <- lm(F1 ~ Sprachgruppe, data = dat) anova(modell) ## ## ## ## ## ## Analysis of Variance Table Response: F1 Df Sum Sq Mean Sq F value Pr(>F) Sprachgruppe 3 44401 14800 5.6 0.0016 Residuals 76 200877 2643 Mit der aov()-Funktion kann man diese Tabelle auch erzeugen: summary(aov(F1 ~ Sprachgruppe, data = dat)) ## Df Sum Sq Mean Sq F value Pr(>F) ## Sprachgruppe 3 44401 14800 5.6 0.0016 ## Residuals 76 200877 2643 Ziel der manuellen Berechnung war es, zu zeigen, dass die Zahlen in dieser Tabelle irgendwo herkommen. Daher mag ich die lm()- + anova()-Kombination auch besser als die aov()-Funktion, denn Erstere hebt den Zusammenhang zwischen dem linearen Modell und Varianzanalyse besser hervor. 7.1.5 Schlussfolgerung und Bericht Im Bericht sollte man zumindest die Grössen, Mittel und Standardabweichungen der unterschiedlichen Gruppen erwähnen, sei dies im Fliesstext oder in einer Tabelle. Eine Grafik, die die zentralen Tendenzen und im Idealfall auch die Streuung und die einzelnen Datenpunkte in jeder Gruppe aufzeigt, wäre auch sehr nützlich. Die Ergebnisse der ANOVA können dann folgendermassen berichtet werden: “Die F1-Frequenzen unterscheiden sich signifikant zwischen den Sprachgruppen (F(3, 76) = 5.6, p = 0.002).” Ab und zu sieht man, dass die ganze ANOVA-Tabelle berichtet wird, aber in der Regel berichtet man eben nur den F-Test. Vorsicht: Zwischen den Klammern nach dem F werden zwei Zahlen aufgeführt (i.d.R. mit einer Leerstelle dazwischen): die Freiheitsgrade des Gruppenfaktors und die restlichen Freiheitsgrade. Es handelt sich also nicht um eine Dezimalzahl. KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 7.1.6 102 Annahmen Einfaktorielle Varianzanalyse lässt sich als eine Erweiterung des t-Tests verstehen und daher gelten hier die gleichen Annahmen wie auch beim t-Test (siehe Seite 60): • Die Datenpunkte sollten unabhängig voneinander sein. Wenn wir im obigen Beispiel für jede Versuchsperson statt einer Messung etwa 10 Formantmessungen für KIT gehabt hätten, hätten wir diese 800 Messungen nicht direkt in die Analyse eintragen können (siehe Übung 5 auf Seite 63). Stattdessen müssten wir das Mittel oder den Median pro Versuchsperson berechnen und diese 80 Mittelwerte analysieren. Tipp: Der Mehraufwand, 10 statt nur einer Messung pro Versuchsperson zu machen, lohnt sich trotzdem: Die Mittelwerte von jeweils 10 Messungen werden einen kleineren Messfehler als die einzelnen Messungen haben. Dies senkt die Varianz der analysierten Datenpunkte und erhöht somit die power der Studie. • Die Varianz in den unterschiedlichen Gruppen sollte ungefähr gleich sein. Hier hilft natürlich eine grafische Darstellung. In diesem Beispiel scheint die Varianz in der französischsprachigen Gruppe zwar grösser zu sein als jene in der spanischsprachigen Gruppe, aber dieser Unterschied ist eigentlich noch eher minimal. Die folgende Grafik zeigt ein Beispiel von einer ausgeprägteren Ungleichheit der Varianzen: Auf dem ersten Blick wird klar, dass die Streuung in Gruppe 3 wesentlich kleiner ist als in Gruppen 1 und 2. ungleiche Varianzen Gruppe 1 Gruppe 2 Gruppe 3 Ungleichheit der Varianzen (oder Heteroskedastizität) ist – nach meinen Erfahrungen – in den Daten, mit denen wir meisten umgehen, selten ein alleinstehendes Problem. Zum Beispiel kann eine ausgeprägte Ungleichheit der Varianzen durch Decken- (links) oder Bodeneffekte (rechts) entstehen. In solchen Fällen ist der F-Test aufgrund der Heteroskedastizität zwar vielleicht nicht zuverlässig; andererseits scheint er auch überflüssig zu sein, denn dass es Unterschiede gibt, ist glasklar. KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN Heteroskedastizität wegen Deckeneffekten Gruppe 1 Gruppe 2 103 Heteroskedastizität wegen Bodeneffekten Gruppe 3 Gruppe 1 Gruppe 2 Gruppe 3 Manchmal kann eine gelungene Datentransformation, z.B. das Umformulieren von Reaktionszeiten als Geschwindigkeiten (siehe Übung 1 auf Seite 77), die Varianzen gleicher machen. Tipp: Wenn die Varianzunterschiede in den unterschiedlichen Gruppen nicht grafisch glasklar sind, ist es unwahrscheinlich, dass die Ungleichheit der Varianzen ein Problem darstellt. Wenn die Ungleichheit der Varianzen sehr ausgeprägt ist und nicht durch Deckenoder Bodeneffekte erklärt wird, dürfte dies unter Umständen der interessantere Befund Ihrer Untersuchung sein. In diesem Fall dürfte ein Vergleich der Gruppenmittel mithilfe von ANOVA unnötig sein. • Strikte genommen sollten die Daten in jeder Gruppe aus einer Normalverteilung stammen, denn sonst ist F unter Annahme der Nullhypothese nicht nachweisbar F-verteilt. Für grössere Stichproben ist dies allerdings unproblematisch. Wichtig ist jedoch, dass auch hier die Mittel miteinander verglichen werden. Wenn die Daten nicht annähernd normalverteilt sind, besteht also das Risiko, dass das Mittel kein guter Indikator der zentralen Tendenz ist. 7.1.7 Exkurs: Geplante Vergleiche und Post-hoc-Tests Mit einfaktorieller ANOVA versuchen wir die folgende Frage zu beantworten: Unterscheiden sich die Gruppenmittel (irgendwelche Gruppenmittel) voneinander? In diesem Beispiel vermuten wir aufgrund des kleinen p-Wertes, dass dies tatsächlich der Fall ist – dabei natürlich das Risiko auf einen Typ-I-Fehler in Kauf nehmend. Die Varianzanalyse bietet jedoch keine Antwort auf die naheliegende Folgefrage: Welche Gruppen unterscheiden sich eigentlich genau voneinander? Der Einfachkeit halber werden hier die Daten nochmals dargestellt. Spanisch Französisch Finnisch Deutsch 200 250 300 350 Frequenz F1 (Hz) 400 450 KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 104 Die durchschnittliche Formantfrequenz der Französischsprachigen liegt zwar niedriger als bei den Spanischsprachigen, aber ist sie auch ‘signifikant niedriger’? Und gibt es Unterschied zwischen den Spanischsprachigen einerseits und den Deutsch- und Finnischsprachigen andererseits? Solche Fragen liegen zwar auf der Hand, sie führen aber leider rasch zu Kompliziertheiten. Forschende bedienen sich für derartige Fragen oft nachfolgender Signifikanztests. Wenn diese Fragen sich erst nach der Datenerhebung ergeben und eben nicht im Vorhinein aus der Theorie abgeleitet wurden (exploratorische Analyse), spricht man von Post-hoc-Tests. Wenn diese schon vor der Untersuchung vorlagen (konfirmatorische Analyse), spricht man von geplanten Vergleichen. Häufig verwendete Verfahren für solche nachfolgende Tests tragen Namen wie ‘t-Tests mit Bonferroni-Korrektur’, ‘t-Tests mit Holm–Bonferroni-Korrektur’, ‘Fishers LSD-Test’ (least significant difference), ‘Scheffé-Test’ usw. Die Idee ist, dass das aufgrund der mehrfachen Tests gestiegene globale Risiko, einen Typ-I-Fehler zu begehen (familywise error rate), kontrolliert werden muss (multiple comparisons adjustments). Insbesondere das Bonferroni-Verfahren wird jedoch oft dafür kritisiert, dass es zu einem erheblichen Verlust der statistischen power führen (Nakawaga 2004; Perneger 1998). Zusätzliche Tests sind jedoch nicht immer nötig oder zu empfehlen. Entscheidend ist die Theorie und die Hypothesen, die der Studie zu Grunde lagen, und welche Datenmuster man als Belege für diese Theorie und Hypothesen betrachtet: • Sagt die Theorie voraus, dass es irgendwelche Gruppenunterschiede (egal welche) geben wird, dann reicht eine ANOVA aus, und berichtet man eventuelle interessante Gruppenunterschiede deskriptiv (d.h. ohne Inferenzstatistik). Diese möglichen Unterschiede überlässt man dann einer neuen, konfirmatorischen Studie (siehe Bender & Lange 2001, S. 344). Falls die ANOVA keine Signifikanz ergibt, sollte man in diesem Fall auch auf zusätzliche Tests verzichten. • Sagt die Theorie jedoch einen spezifischen Gruppenunterschied voraus, oder werden mehrere separate Theorien überprüft, die sich auf unterschiedliche Gruppenmittel beziehen (z.B. A vs. B und C vs. D), dann braucht man eigentlich die ANOVA nicht auszuführen und reichen t-Tests. Allfällige interessante aber nicht vorhergesagte Gruppenunterschiede werden deskriptiv (nicht inferenzstatistisch) berichtet und man überlasst sie wiederum einer neuen, konfirmatorischen Studie. • Sagt die Theorie voraus, dass sich ein bestimmter Unterschied oder ein bestimmter anderer Unterschied zeigen wird, dann sollte man sich über die oben angesprochenen Methoden schlau machen. Dies gilt auch wenn die Theorie komplexere Gruppenunterschiede vorhersagt, etwa ‘Das Gesamtmittel von Gruppen A und B ist niedriger als das Gesamtmittel von Gruppen B, C und D’. Zu diesen Verfahren kann ich Ihnen leider keine detaillierten Ratschläge machen, da ich sie selber noch nie eingesetzt habe. • Sagt die Theorie voraus, dass sich ein bestimmter Unterschied und ein bestimmter anderer Unterschied zeigen wird, dann reichen m.E. wiederum zwei t-Tests. Man kann in diesem Fall einen signifikanten und einen nicht-signifikanten Unterschied natürlich nicht als Evidenz für die Theorie betrachten: Vorhergesagt wurden ja zwei Unterschiede. Eine kurze Einführung mit vielen Referenzen ist Bender & Lange (2001); Ruxton & Beauchamp (2008) geben konkrete Ratschläge, denen jedoch wohl schwierig zu folgen ist, wenn man noch keine konkrete Erfahrung mit derartigen Analysen hat. Ein Blogpost zum Thema ist On correcting for multiple comparisons: Five scenarios. Tipp: Aus meiner Sicht sind Post-Hoc- und geplante Vergleiche ein Problem, worüber man sich erst Sorgen machen sollte, wenn es sich anbietet. Mit spezifischeren, aus der Theorie hergeleiteten KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 105 a priori Hypothesen ist das multiple comparisons-Problem ohnehin viel weniger schwerwiegend als bei vagen oder ad oder post hoc Hypothesen. Merksatz: Seien Sie vorsichtig und sparsam mit Post-Hoc-Erklärungen. Im Nachhinein gelingt es einem oft, gewisse Muster in den Daten theoretisch zu deuten. Dabei ist es durchaus möglich, dass diese Muster rein zufallsbedingt sind und sich bei einer neuen Studie nicht mehr ergeben. 7.1.8 Aufgaben 1. (a) Lesen Sie den Datensatz Alkohol_Sprechgeschwindigkeit.csv in R ein. Vergleichen Sie nochmals die Sprechgeschwindigkeit der Kontroll- und Experimentalgruppe miteinander mithilfe eines t-Tests für gleiche Varianzen (Option var.equal = TRUE). Notieren Sie sich den t-Wert, seine Anzahl Freiheitsgrade und den p-Wert. (b) Vergleichen Sie jetzt die Sprechgeschwindigkeit der beiden Gruppen mit einer einfaktoriellen ANOVA. Notieren Sie sich den F-Wert, die beiden Freiheitsgrade und den p-Wert. Was stellen Sie fest? (c) Zusätzliche Aufgabe für ein mögliches Aha-Erlebnis: Quadrieren Sie den t-Wert und vergleichen Sie das Ergebnis mit dem F-Wert. (d) Macht es für die Schlussfolgerungen etwas aus, ob man den Vergleich zweier Gruppen in einem t-Test oder in einer einfaktoriellen ANOVA vornimmt? Macht es für die Leserfreundlichkeit der berichteten Ergebnisse etwas aus? 7.2 Zweifaktorielle Varianzanalyse (two-way ANOVA) ohne Interaktionen 7.2.1 Daten und Fragestellung (Fiktives Beispiel) Die F1-Frequenz des englischen KIT-Vokals wird diesmal bei sowohl männlichen als auch weiblichen Spanisch-, Deutsch-, Französisch- und Finnischsprachigen gemessen (jeweil 10 Frauen und 10 Männer pro Sprachgruppe). Wir interessieren uns sowohl für Unterschiede zwischen den Sprachgruppen als auch für Unterschiede zwischen den Geschlechten. Für den Moment lassen wir allfällige Zusammenspiele zwischen diesen beiden Variablen ausser Betracht. Diese fiktiven Daten finden Sie im Datensatz Formanten_2.csv. Mit der xtabs()-Funktion können wir die Anzahl Versuchspersonen pro Zelle nachschlagen. In diesem Fall handelt es sich um ein balanziertes Design: Jede Zelle enthält die gleiche Anzahl Datenpunkte. dat2 <- read.csv("Formanten_2.csv") summary(dat2) ## ## ## ## ## ## ## F1 Min. :194 1st Qu.:329 Median :360 Mean :357 3rd Qu.:388 Max. :479 Sprachgruppe Geschlecht Deutsch :20 Frau:40 Finnisch :20 Mann:40 Französisch:20 Spanisch :20 KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 106 # Anzahl Beobachtungen pro 'Zelle' xtabs(~ Geschlecht + Sprachgruppe, dat2) ## Sprachgruppe ## Geschlecht Deutsch Finnisch Französisch Spanisch ## Frau 10 10 10 10 ## Mann 10 10 10 10 7.2.2 Grafische Darstellung Wie bei einfaktorieller ANOVA können wir Boxplots mit den einzelnen Datenpunkten hinzugefügt zeichnen: mal mit den Daten aufgespaltet nach Sprachgruppe und mal mit den Daten aufgespaltet nach Geschlecht. Es ist jedoch manchmal nützlich, die Datenpunkte gleichzeitig nach beiden Variablen aufzuspalten. Die erste Grafik scheint insbesondere geeignet, wenn wir die Geschlechtsunterschiede betonen möchten: library(ggplot2) ggplot(dat2, aes(x = Geschlecht, y = F1)) + _ geom boxplot(outlier.shape = NA) + geom_jitter(h = 0, w = 0.3, pch = 1) + facet_wrap(~ Sprachgruppe, ncol = 4) Deutsch Finnisch Französisch Spanisch F1 400 300 200 Frau Mann Frau Mann Frau Mann Frau Mann Geschlecht Die zweite Grafik betont eher die Unterschiede zwischen den Sprachgruppen. ggplot(dat2, aes(x = Sprachgruppe, y = F1)) + geom_boxplot(outlier.shape = NA) + geom_jitter(h = 0, w = 0.3, pch = 1) + facet_wrap(~ Geschlecht) Frau Mann F1 400 300 200 Deutsch Finnisch Französisch Spanisch Deutsch Sprachgruppe Finnisch Französisch Spanisch KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 107 Für zusätzliche Darstellungsmöglichkeiten, siehe Sarkar (2008), Wickham (2009) und Cleveland (1993). Tipp: Wenn man aber bereit ist, mehr Zeit und Aufwand in die Herstellung von Grafiken zu investieren, sind die Möglichkeiten, die R bietet, nahezu unbegrenzt. 7.2.3 Mittelwerte und Standardabweichungen berechnen Mit der summarise()-Funktion aus dem dplyr-Package können auch die Mittel und Standardabweichungen pro Zelle berechnet werden. summary_dat2 <- summarise(group_by(dat2, Geschlecht, Sprachgruppe), Mittel = mean(F1), Stdabw = sd(F1), Anzahl = n()) summary_dat2 ## ## ## ## ## ## ## ## ## ## ## ## ## Source: local data frame [8 x 5] Groups: Geschlecht [?] 1 2 3 4 5 6 7 8 7.2.4 Geschlecht Sprachgruppe Mittel Stdabw Anzahl (fctr) (fctr) (dbl) (dbl) (int) Frau Deutsch 405.9 42.041 10 Frau Finnisch 405.1 45.101 10 Frau Französisch 327.1 43.768 10 Frau Spanisch 366.2 31.435 10 Mann Deutsch 346.0 47.105 10 Mann Finnisch 343.5 46.150 10 Mann Französisch 332.0 45.700 10 Mann Spanisch 330.3 70.304 10 Berechnung Wenn wir die Varianzanalyse von Hand ausführen würden, würden wir ähnlich wie bei der einfaktoriellen ANOVA vorgehen: 1. die Gesamtsumme der Quadrate berechnen; 2. den Effekt der ersten Variable (z.B. Geschlecht) rausrechnen und berechnen, welchen Anteil der Summe der Quadrate diese Variable erklären kann; 3. den Effekt der zweiten Variable rausrechnen und berechnen, welchen Anteil der Summe der Quadrate diese Variable erklären kann; 4. die restliche Summe der Quadrate berechnen; 5. F-Ratios für die beiden Variablen berechnen und deren Signifikanz überprüfen. Diese Schritte können wir einfach in R ausführen, indem wir dem linearen Modell (lm(...)) eine zweite Variable hinzufügen: anova(lm(F1 ~ Geschlecht + Sprachgruppe, dat2)) ## Analysis of Variance Table ## KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN ## ## ## ## ## 108 Response: F1 Df Sum Sq Mean Sq F value Pr(>F) Geschlecht 1 29070 29070 12.3 0.00077 Sprachgruppe 3 29769 9923 4.2 0.00839 Residuals 75 177174 2362 7.2.5 Schlussfolgerung und Bericht Natürlich sollte man auch hier die Gruppenmittel und -standardabweichungen berichten. Die Signifikanztests selber können etwa so berichtet werden: “Eine zweifaktorielle ANOVA wies Unterschiede je nach dem Geschlechts der Versuchsperson (F(1, 75) = 12.3, p < 0.001) und ihrer Muttersprache (F(3, 75) = 4.2, p = 0.008) nach.” 7.2.6 Warum nicht einfach zwei ANOVAs? Führen Sie mit dem Datensatz Formanten_2.csv zwei einfaktorielle ANOVAs aus: eine mit Sprachgruppe als unabhängiger Variable und eine mit Geschlecht als unabhängiger Variable. Notieren Sie sich bei beiden Analysen folgende Werte: die Summe der Quadrate, die von der unabhängigen Variable erklärt wird (Spalte Sum Sq); die Restsumme der Quadrate (gleiche Spalte, Zeile Residuals); den F-Wert; und den p-Wert. Vergleichen Sie diese Zahlen mit den entsprechenden Zahlen in der zweifaktoriellen ANOVA. Merksatz: Wenn zwei oder mehrere Variablen zur Varianzerklärung beitragen könnten, lohnt es sich diese im gleichen Modell zu analysieren. Dadurch sinkt die Restsumme der Quadrate, weshalb das F-Ratio steigt und der p-Wert sinkt. Die zweifaktorielle ANOVA hat also mehr power als die zwei einfaktoriellen ANOVAs. Tipp: Oft versucht man die Experimental- und Kontrollgruppe gleichzuschalten, indem etwa jede Gruppe aus der gleichen Anzahl Männer und Frauen besteht. Der technische Begriff hierfür ist blocking. Es lohnt sich in solchen Fällen, die blocking-Variable in der ANOVA zu berücksichtigen, auch wenn diese Variable für die Studie uninteressant ist! Der Grund ist der oben beschriebenen Gewinn an power (siehe Imai et al. 2008). (Wenn die blocking-Variable für die Studie uninteressant ist, muss der F-Test für ihren Effekt natürlich auch nicht berichtet oder interpretiert werden – es handelt sich lediglich um einen Gewinn an statistischer Effizienz.) Vorsicht: Mit zwei- bzw. mehrfaktorieller ANOVA wird der Typ-I-Fehler für jede Variable separat kontrolliert, nicht der Typ-I-Fehler für das gesamte Experiment. Wenn es in der Population keinen Unterschied zwischen den Sprachgruppen gibt, gibt es eine Wahrscheinlichkeit von 5%, dass wir trotzdem einen signifikanten Unterschied finden, und wenn es in der Population keinen Unterschied zwischen den Geschlechten gibt, gibt es auch da eine Wahrscheinlichkeit von 5%, dass wir trotzdem einen signifikanten Unterschied finden. Wenn beide Nullhypothesen stimmen, gibt es jedoch eine Wahrscheinlichkeit von 1 − (1 − 0.05)2 = 9.75%, dass wir trotzdem mindestens eine der beiden Nullhypothesen zu Unrecht ablehnen. Seien Sie daher auch hier vorsichtig, mit optimistischen Interpretationen. 7.2.7 Exkurs: Varianzaufteilung für unbalancierte Designs Im obigen Beispiel haben wir ein balanziertes Design: Alle Zellen sind gleich gross. In solchen Fällen macht es nicht aus, ob wir anova(lm(AV ~ UV1 + UV2)) oder anova(lm(AV ~ UV2 + KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 109 UV1)) berechnen. Sind die Zellen nicht alle gleich gross, ist dies nicht länger der Fall. Für mehr Informationen, siehe goanna.cs.rmit.edu.au/∼fscholer/anova.php. 7.3 7.3.1 Zweifaktorielle Varianzanalyse (two-way ANOVA) mit Interaktionen Was sind Interaktionen? Oft ist es nicht sosehr der Einfluss dieser oder jener Variable, der uns interessiert: Vielmehr sind wir am Zusammenspiel von zwei oder mehreren Variablen interessiert. Zum Beispiel ist es nicht so interessant, dass man schneller auf hochfrequente als auf seltene Wörter reagiert – dieser Befund ist schon Gemeingut geworden. Und es ist auch nicht so interessant, dass gute Lesende schneller auf bestehende Wörter reagieren als schlechte Lesende – auch das liegt auf der Hand. Interessanter wäre vielleicht die Frage, ob der Effekt von Wortfrequenz unterschiedlich gross ist je nach der Lesefähigkeit der Versuchspersonen. Dies ist eine Frage nach der Interaktion zwischen Lesefähigkeit und Wortfrequenz. In der folgenden Grafik werden drei (von vielen möglichen) Interaktionsmuster aufgeführt. Ihr gemeinsames Merkmal ist, dass die gezeichneten Linien nicht parallel zueinander liegen; bei der Absenz einer Interaktion ist dies schon der Fall. Interaktion: stärkerer Fähigkeitseffekt für frequente Wörter hohe Frequenz niedrige Frequenz schlecht Geschwindigkeit Geschwindigkeit keine Interaktion (parallele Linien) gut gut Cross−over−Interaktion Geschwindigkeit Interaktion: schwächerer Fähigkeitseffekt für frequente Wörter Geschwindigkeit Lesefähigkeit schlecht gut Lesefähigkeit 7.3.2 schlecht Lesefähigkeit schlecht gut Lesefähigkeit Daten und Fragestellung Wir nehmen den gleichen Datensatz wie vorher. Diesmal stellen wir uns aber die Frage, ob Sprachgruppe und Geschlecht miteinander interagieren: Variiert der Effekt von Geschlecht KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 110 (tiefere Frequenzen für Männer) von Muttersprache zu Muttersprache? Statistisch gesehen ist dies die gleiche Frage wie: Variiert der Effekt von Muttersprache je nach Geschlecht der Versuchsperson. 7.3.3 Grafische Darstellung Zusätzlich zu den obigen Grafiken wäre vielleicht eine Grafik, die die Mittel der unterschiedlichen Zellen darstellt, nützlich, um die Präsenz einer Interaktion zu illustrieren. Diese beiden Grafiken zeigen genau die gleichen Muster, nur die ‘Betonung’ ist anders: Die erste Grafik betont den Geschlechtseffekt, die zweite den L1-Effekt. Die zweite Grafik ist m.E. einfacher zu verdauen, aber das ist letztendlich Geschmackssache. # Gruppenmittel berechnen (dplyr package) summary_F1 <- summarise(group_by(dat2, Sprachgruppe, Geschlecht), Mittel = mean(F1), Stdabw = sd(F1)) # eventuell anzeigen: # summary_F1 Mittel F1 (Hz) # Erste Grafik: ggplot(summary_F1, aes(x = Geschlecht, y = Mittel, group = Sprachgruppe, linetype = Sprachgruppe)) + geom_line() + ylab("Mittel F1 (Hz)") Sprachgruppe 400 Deutsch 380 Finnisch 360 Französisch 340 Spanisch Frau Mann Geschlecht # Zweite Grafik: ggplot(summary_F1, aes(x = Sprachgruppe, y = Mittel, group = Geschlecht, linetype = Geschlecht)) + geom_line() + ylab("Mittel F1 (Hz)") Mittel F1 (Hz) KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 111 400 Geschlecht 380 Frau 360 Mann 340 Deutsch Finnisch Französisch Spanisch Sprachgruppe Es dürfte eine Interaktion vorliegen: Frauen haben in der Regel eine höhere F1-Frequenz als Männer, aber bei den Französischsprachigen haben Männer und Frauen eine ähnliche F1-Frequenz. (Dies dürfte darauf hindeuten, dass französischsprachige Frauen den KIT-Vokal geschlossener aussprechen, als was man sonst vermuten würde.) Auch scheint der Geschlechtsunterschied weniger ausgeprägt zu sein bei den Spanischsprachigen. 7.3.4 Berechnung Die Linien in der obigen Grafik laufen zwar nicht parallel zueinander, aber das könnte Zufall sein: Die Linien werden in einer Stichprobe nie perfekt parallel zueinander laufen. Die Nullhypothese, die in einer zweifaktoriellen ANOVA mit Interaktion getestet wird, ist, dass es irgendeine Interaktion zwischen Sprachgruppe und Geschlecht gibt – nicht spezifisch, dass die Interaktion sich bei den Französischsprachigen zeigt. Das Vorgehen der Varianzaufteilung ist ähnlich wie bei einer zweifaktoriellen ANOVA, nur werden dem Modell noch (in diesem Fall: drei) Interaktionsparameter hinzugefügt. Mit : wird die Interaktion zwischen zwei Variablen modelliert: mod.interaktion <- lm(F1 ~ Geschlecht + Sprachgruppe + Geschlecht:Sprachgruppe, dat2) mod.interaktion ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Call: lm(formula = F1 ~ Geschlecht + Sprachgruppe + Geschlecht:Sprachgruppe, data = dat2) Coefficients: (Intercept) 405.9 GeschlechtMann -59.9 SprachgruppeFinnisch -0.8 SprachgruppeFranzösisch -78.8 SprachgruppeSpanisch -39.7 GeschlechtMann:SprachgruppeFinnisch -1.7 GeschlechtMann:SprachgruppeFranzösisch 64.8 KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN ## ## 112 GeschlechtMann:SprachgruppeSpanisch 24.0 Versuchen Sie, diese 8 Parameter in Verbindung mit der Tabelle mit den Zellenmitteln zu bringen. Welcher Koeffizient entspricht dem Zellenmittel für deutsche Frauen (405.9)? Wie findet man das Zellenmittel für finnische Frauen (405.1) zurück? Und das Zellenmittel für deutsche Männer (346.0)? Und für französische Männer (332.0)? Mit der anova()-Funktion berechnen wir den F-Test für die Interaktion: anova(mod.interaktion) ## ## ## ## ## ## ## ## Analysis of Variance Table Response: F1 Df Sum Sq Mean Sq F value Pr(>F) Geschlecht 1 29070 29070 12.86 0.00061 Sprachgruppe 3 29769 9923 4.39 0.00680 Geschlecht:Sprachgruppe 3 14407 4802 2.12 0.10462 Residuals 72 162767 2261 Statt A + B + A:B kann man auch einfach A * B schreiben (empfohlen). mod.interaktion <- lm(F1 ~ Geschlecht * Sprachgruppe, dat2) anova(mod.interaktion) Vorsicht: Beim Testen einer Interaktion müssen (mit wenigen Ausnahmen, die hier nicht der Rede wert sind) auch die Haupteffekte mitmodelliert werden – auch wenn sie nicht von Interesse sind. Meines Erachtens müssen uninteressante Haupteffekte jedoch nicht unbedingt berichtet oder interpretiert werden. 7.3.5 Schlussfolgerung und Bericht “Die Interaktion zwischen dem Geschlecht der Versuchspersonen und ihrer Muttersprache war nicht signifikant (F(3, 72) = 2.1, p = 0.10).” Dies heisst natürlich nicht unbedingt, dass es keine Interaktion gibt: Es besteht ja die Gefahr eines Typ-II-Fehlers. 7.3.6 Zur Interpretation von Interaktionen und Haupteffekten Noch zur Interpretation von Haupteffekten, wenn eine Interaktion vorliegt: Solche Interpretationen sind oft suspekt, und am besten basiert man sich hierbei auf einer Grafik. Bei etwa folgendem Datenmuster wäre es vorschnell zu sagen, dass die abhängige Variable höher ist bei A als bei B (Haupteffekt von A vs. B) oder dass sie höher ist bei Y als bei X (Haupteffekt von X vs. Y), auch wenn die ANOVA diese Haupteffekte als signifikant aufzeigen wird: Der Punkt ist ja, dass es nur einen Unterschied gibt, wenn A und Y gleichzeitig vorkommen! KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 113 X Y abhängige Variable 100 75 50 25 0 −25 A B A B Kondition Zur Interpretation von non-cross-over interactions, siehe Wagenmakers et al. (2012). Zusammengefasst: Eine Interaktion in der gemessenen Variable (z.B. Reaktionsgeschwindigkeit) muss nicht zwingend darauf hindeuten, dass eine Interaktion im hinterliegenden Konstrukt (z.B. kognitiver Kontrolle) vorliegt. 7.4 Varianzanalyse mit wiederholten Messungen (repeated-measures ANOVA) Wenn jede Versuchsperson in mehreren Konditionen getestet wird, spricht man von einem within-subjects-Design. Solche Designs sind in der Regel effizienter (mehr power) als betweensubjects-Designs, da sie uninteressante personenspezifische Varianz ausgeklammern können. Im einfachen Fall, wo alle Versuchspersonen in zwei Konditionen getestet werden und man sich nur für Unterschiede zwischen den zwei Konditionen interessiert, bietet sich der t-Test für gepaarte Stichproben als Analyseverfahren an. In komplexeren Fällen bedient man sich häufig der Varianzanalyse mit wiederholten Messungen oder flexiblerer Verfahren wie sog. ‘gemischter Modelle’. Mit diesen Verfahren wird man der Abhängigkeit der Datenpunkte (mehrere Datenpunkte pro Versuchsperson) gerecht. Sie zu besprechen würde uns hier jedoch zu weit führen. 7.5 Artikel mit ANOVA lesen Gefühlte neun von zehn Studien, in denen ANOVA verwendet wird, werden unnötig kompliziert analysiert oder interpretiert. Artikel mit mehr als zwanzig F-Tests sind leider keine Ausnahme. Mithilfe dieses Leitfadens können Sie sich aber hoffentlich einen Weg durch solche ANOVADschungel bahnen. 1. Identifizieren Sie die zentrale, genuine4 Forschungsfrage und die Hypothese der Forschende. Zeichnen Sie (schnell von Hand) eine Grafik, die zeigt, wie sich die Gruppen- bzw. Zellenmittel verhalten sollten, falls die Hypothese der Forschenden stimmt. Zeichnen Sie auch eine Grafik, die zeigt, wie sich die Mittel verhalten würden, falls eine andere plausible Hypothese zuträfe. Solche Grafiken helfen zumindest mir bei der Lektüre schwieriger Studien. 4 Oft liegt einer Studie eine genuine Forschungsfrage zu Grunde und werden in der Einleitung noch ein paar zusätzliche, weniger interessante Fragen gestellt. (Die magische Anzahl Forschungsfragen scheint drei zu sein.) Typische ‘Polsterungsfragen’ sind: ‘Gibt es einen Unterschied zwischen den Pre- und Posttest-Ergebnissen?’ (trivial), ‘Unterscheidet sich die Übersetzungsfähigkeit zwischen Jungs und Mädchen?’ (selten theoretisch fundiert) oder ‘Haben ältere Kinder einen umfangreicheren Wortschatz als jüngere Kinder?’ (fast tautologisch). KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 114 • Ignorieren Sie alle Tests, die nicht mit der zentralen Forschungsfrage zu tun haben. Neben Tests für die nicht-genuine Forschungsfragen handelt es sich dabei oft um ‘kontrollierende’ Tests, z.B. um zu schauen, ob die zwei Stichproben ungefähr gleich alt sind. Solche Tests sind, insbesondere bei randomisierten Experimenten, komplett überflüssig (Vanhove 2015a); bei nicht-randomisierten Experimenten gibt es bessere Methoden, um solche Variablen auszuwerten (siehe Huitema 2011, Kapitel 27). Wenn Sie wissen wollen, inwiefern sich die Gruppen bei den Hintergrundsvariablen unterscheiden, schauen Sie sich am besten einfach die Tabelle mit den deskriptiven Informationen an. 2. Handelt es sich bei der zentralen Forschungsfrage um eine Frage nach einem Haupteffekt oder nach einer Interaktion? • Wenn es sich um eine Frage nach einer Interaktion handelt: Ignorieren Sie der Einfachkeit halber die Tests für die Haupteffekte – sie sind uninteressant und können ohnehin nicht ohne Weiteres interpretiert werden.5 • Wenn es sich um eine Frage nach einem Haupteffekt handelt und trotzdem Interaktionen berechnet wurden: Ignorieren Sie gleich alle Tests, insbesondere wenn die Interaktion sich als signifikant herausstellt – aufgrund der Interaktion können die Haupteffekte nicht ohne Weiteres interpretiert werden. 3. In psycholinguistischen Studien werden oft sog. F1- und F2-Tests berechnet, insbesondere bei etwas älteren Studien. Es handelt sich dabei nicht etwa um Formantmessungen, sondern um Folgendes: Jede Versuchsperson hat auf mehrere sprachliche Stimuli reagiert. Um zu erproben, ob die Ergebnisse sich über die einzelnen Versuchspersonen hinweg generalisieren lassen, hat man dann die Reaktionszeiten pro Versuchsperson gemittelt und diese Mittel in einer ANOVA analysiert (F1-Analyse). Um zu erproben, ob die Ergebnisse sich auch über die verwendeten Stimuli hinweg generalisieren lassen, hat man zudem auch die Reaktionszeiten pro Stimulus gemittelt und diese in einer anderen ANOVA analysiert (F2-Analyse). Die hinterliegende Logik bei solchen Analysen ist, dass es ein Befund nur dann zuverlässig ist, wenn beide Analysen Signifikanz ergeben. Das Anliegen, sowohl über Versuchspersonen als auch über Stimuli hinweg generalisieren zu wollen, ist berechtigt (Clark 1973), aber heutzutage gibt es hierfür bessere Methoden als F1- und F2-Analysen (siehe Baayen et al. 2008; Baayen 2008). 4. Suchen Sie eine Grafik, die die zentralen Tendenzen der Gruppen bzw. Zellen darstellt. Wenn es keine Grafik gibt: Suchen Sie eine Tabelle mit Mittelwerten und zeichnen Sie (auch gerne einfach von Hand) eine Grafik, die die Mittelwerte pro Gruppe oder Kondition darstellt. Wenn es keine Tabelle mit Mittelwerten gibt, sollten Sie diese Mittelwerte im Text finden. Was können Sie dieser Grafik entnehmen? • Konsistente Gruppenunterschiede (A immer grösser als B, egal ob X oder Y, und der Unterschied ist – Handgelenk mal pi – überall gleich gross) sprechen für einen Haupteffekt ohne Interaktion. • Inkonsistente Gruppenunterschiede (Unterschied zwischen A und B variiert je nach X oder Y) sprechen für eine Interaktion. Ob es auch einen Haupteffekt gibt, hängt davon ab, ob A immer grösser ist als B (Haupteffekt) oder nicht (kein deutlicher Haupteffekt). 5. Wurden Post-Hoc-Tests berechnet? In der Regel sind dies Tests, die zwar mit der Forschungsfrage zu tun haben, aber eine spezifischere Form annehmen. Insbesondere dürfte es sich um Unterschiede handeln, die Sie nicht in Ihrer Grafik mit den vorhergesagten 5 Bei einer ANOVA mit Interaktionen müssen die Haupteffekte zwar mitmodelliert werden, aber nur deswegen sind sie noch nicht interessant. KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 115 Mittelwerten zurückfinden. Zum Beispiel kann die Ausgangshypothese sein, dass es Unterschiede zwischen vier Lernergruppen gibt; ein Post-Hoc-Test könnte dann der spezifischeren Frage nachgehen, ob es einen Unterschied zwischen Lernergruppe A und C gibt. Nehmen Sie das Ergebnis eines mit der zentralen, genuinen Forschungsfrage verknüpften Post-Hoc-Tests zur Kenntnis, aber halten Sie nicht zu fest an ihm. Betrachten Sie diese Frage vorübergehend als ‘work in progress’, das einer Replikationsstudie bedarf. 6. Und zu guter Letzt noch einige kritische Fragen, die man sich stellen kann, wenn man mit ANOVA s konfrontiert wird: • Gibt es Abhängigkeiten in den Daten (z.B. mehrere Messungen pro Versuchsperson) und wurden diese bei der Analyse berücksichtigt (etwa mit repeated-measures ANOVA oder gemischten Modellen oder indem die Messungen pro Versuchsperson gemittelt wurden)? • Sind die Gruppenmittel gute Indikatoren der zentralen Tendenzen? (Oft kann man dies leider nicht einschätzen.) • Handelt es sich um echte Gruppen oder wurde irgendeine kontinuierliche Variable in Gruppen aufgespaltet? Ein typisches Beispiel ist das Aufspalten von Alter in Altersgruppen. In solchen Fällen sind Regressionsverfahren oft besser geeignet. • Ist die abhängige Variable eine kontinuierliche Variable? Likertskalen können wohl oft mit ANOVA ausgewertet werden, aber öfters sieht man auch, dass binäre Daten (z.B. richtig vs. falsch) oder multinomiale Daten (z.B. Nominativ vs. Genitiv vs. Dativ vs. Akkusativ) irgendwie mit ANOVA analysiert werden. Bei binären Daten könnte man sog. logistische Modelle (siehe Kapitel 9) in Betracht ziehen; multinomiale Daten sind zugegebenermassen schwieriger zu analysieren, wenn das Design der Studie etwas anspruchsvoll ist (siehe Faraway 2006, Kapitel 5). • Wie grosszügig sind die Autoren beim Interpretieren ihrer Ergebnisse? – Leiten sie aus nicht-signifikanten Unterschieden ab, dass es eigentlich keinen Unterschied gibt, insbesondere bei einer relativ kleinen Stichprobe? – Schliessen sie aus einem nicht-signikanten Unterschied in einer Gruppe und einem signifikanten Unterschied in einer anderen Gruppe, dass sich das Ausmass des Unterschieds zwischen den Gruppen unterscheidet (siehe Gelman & Stern 2006)? – Wie gross schätzen Sie die Gefahr ein, dass es sich bei den Ergebnissen um Post-Hoc-Befunde handelt? Kapitel 8 Mit kategorialen abhängigen Variablen arbeiten 8.1 Kreuztabellen analysieren 8.1.1 Daten und Fragestellung Kaiser & Peyer (2011) untersuchten, welche deutschen syntaktischen Strukturen beginnenden Germanistikstudierenden mit französischer oder italienischer Muttersprache beim Lesen besondere Schwierigkeiten bereiten. Insgesamt sieben syntaktische Strukturen wurden getestet, darunter etwa die OVS-Satzstruktur und der Passivsatz. Für jede Struktur gab es zwei Erscheinungsformen: eine schwierigere Alternative (OVS, Passiv) und eine einfache Alternative (SVO, Aktiv) (Problemstruktur “ja” bzw. “nein”). Jede Versuchsperson hat der Studie mehrere Datenpunkte beigetragen, sodass die Daten von Kaiser & Peyer (2011) von gegenseitigen Abhängigkeiten geprägt sind. Ich habe ihren Datensatz jedoch so reduziert, dass für jede Versuchsperson nur einen Datenpunkt übrig bleibt, damit wir diese Daten mit einfacheren Methoden auswerten können. Diesen angepassten Datensatz finden Sie in der Datei rezgram.csv. rezgram <- read.csv("rezgram.csv") summary(rezgram) ## ## ## ## ## ## ## ## ## ## ## ## ## ## Muttersprache Deutsch Englisch FR:190 Min. :1.000 Min. :1.00 IT:307 1st Qu.:2.000 1st Qu.:3.00 Median :3.000 Median :4.00 Mean :2.626 Mean :3.83 3rd Qu.:3.000 3rd Qu.:4.00 Max. :6.000 Max. :6.00 NA's :3 NA's :3 Kategorie Problemstruktur Korrekt Konditionalsatz:71 ja :234 ja :408 Linksattribut :71 nein:263 nein: 89 OVS :71 Passiv :71 Satzklammer :71 116 KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN ## ## Subjektsatz VSO 117 :71 :71 In dieser angepassten Version ist für 497 Versuchspersonen die Richtigkeit der Antwort auf jeweils eine Verständnisfrage gespeichert (Korrekt) sowie auch die Muttersprache der Versuchsperson und ihre selbst eingeschätzten Deutsch- und Englischkenntnisse (6er-Skala). Eine mögliche Frage, die wir uns stellen können, lautet: Sind die syntaktischen Strukturen mit der Problemstruktur alle gleich schwierig?1 8.1.2 Eine Kreuztabelle erzeugen und grafisch darstellen Die Fragestellung bezieht sich nur auf die Datenpunkte, für die die Problemstruktur vorlag. Schaffen wir also einen neuen Datensatz, in dem nur die Antworten auf Sätze mit einer Problemstruktur vorkommen: rezgram_prob <- subset(rezgram, Problemstruktur == "ja") # Die 'filter()'-Funktion aus dem 'dplyr'-Package # funktioniert ähnlich wie 'subset()'. summary(rezgram_prob) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Muttersprache Deutsch FR: 89 Min. :1.000 IT:145 1st Qu.:2.000 Median :3.000 Mean :2.662 3rd Qu.:3.000 Max. :6.000 Kategorie Konditionalsatz:27 Linksattribut :32 OVS :38 Passiv :36 Satzklammer :36 Subjektsatz :36 VSO :29 Englisch Min. :1.000 1st Qu.:3.000 Median :4.000 Mean :3.863 3rd Qu.:4.000 Max. :6.000 NA's :1 Problemstruktur Korrekt ja :234 ja :185 nein: 0 nein: 49 Es bleiben 234 Beobachtungen übrig (nrow(rezgram_prob)). Wir können einfach eine Kreuztabelle (contingency table) aufstellen, in der wir die Anzahl richtige und falsche Antworten für jede syntaktische Struktur auflisten: xtabs(~ Korrekt + Kategorie, rezgram_prob) ## Kategorie ## Korrekt Konditionalsatz Linksattribut OVS Passiv ## ja 11 31 31 33 ## nein 16 1 7 3 ## Kategorie ## Korrekt Satzklammer Subjektsatz VSO ## ja 22 31 26 ## nein 14 5 3 1 Dies ist nicht gerade eine sehr sinnvolle Frage, da die Strukturen unterschiedliche semantische Inhalte vermittelten. Die Idee ist hier aber, die Mechanik des entsprechenden Signifikanztests zu erläutern. KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 118 Diese Kreuztabelle können wir mithilfe eines Säulendiagramms darstellen. (Säulendiagramme können auch in ggplot2 hergestellt werden. Siehe dazu docs.ggplot2.org/0.9.3.1/geom_bar.html.) struktur.tab <- xtabs(~ Korrekt + Kategorie, rezgram_prob) barplot(struktur.tab, ylab = "Anzahl Antworten", beside = TRUE, legend.text = TRUE) Anzahl Antworten 30 ja nein 25 20 15 10 5 0 Konditionalsatz Linksattribut OVS Passiv Satzklammer Subjektsatz VSO Die Interpretation wird dadurch erschwert, dass die Anzahl Antworten in den verschiedenen Kategorien unterschiedlich gross ist (etwa 29 für VSO und 38 für OVS). Hier ist es nützlich, stattdessen die relativen Antwortfrequenzen darzustellen (siehe ?prop.table): barplot(prop.table(struktur.tab, margin = 2), ylab = "Proportion der Antworten", legend.text = FALSE) Proportion der Antworten 1.0 0.8 0.6 0.4 0.2 0.0 Konditionalsatz Linksattribut OVS Passiv Satzklammer Subjektsatz VSO Oder in einem Cleveland dotplot (mit [1,] wird nur die obere Zeile der Kreuztabelle dargestellt): dotchart(sort(prop.table(struktur.tab, margin = 2)[1,]), xlab = "Proportion richtig", xlim = c(0,1)) KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 119 Linksattribut Passiv VSO Subjektsatz OVS Satzklammer Konditionalsatz 0.0 0.2 0.4 0.6 0.8 1.0 Proportion richtig Tipp: Stellen Sie Säulendiagramme, die mehr als zwei Antwortkategorien darstellen, nebenund nicht aufeinander. Dies macht es einfacher, verschiedene Kategorien visuell miteinander zu vergleichen. Verwenden Sie keine Kreisdiagramme oder dreidimensionale Säulendiagramme. (Siehe ?pie > Note.) Die Grafiken lassen stark vermuten, dass die Sätze mit bestimmten syntaktischen Strukturen wie dem Konditionalsatz und der Satzklammer erheblich schwieriger als die anderen Sätze waren. Dies können wir auch numerisch überprüfen anhand des χ2 -Tests. 8.1.3 Berechnung des χ2 -Tests Die Nullhypothese ist hier, dass die Proportion der richtigen vs. falschen Antworten nicht von Kategorie abhängt. Um diese Hypothese zu testen werden in einem χ2 -Test die empirisch beobachteten Frequenzen in der Kreuztabelle mit den Frequenzen, die laut der Nullhypothese zu erwarten sind, verglichen. Stellen wir nochmals die beobachteten Frequenzen dar: Kond.satz Linksattr. OVS Passiv Satzkl. S.satz VSO Summe richtig falsch 11 16 31 1 31 7 33 3 22 14 31 5 26 3 185 49 Summe 27 32 38 36 36 36 29 234 185 der 234 (79%) Antworten waren richtig. Wenn nun Sätze mit einem Linksattribut gleich schwierig wären wie die anderen Sätze, dann würden wir erwarten, dass 79% (oder 25.30) der ingesamt 32 Sätze mit Linksattribut richtig verstanden würden ( 32×185 = 25.30) und 21% (oder 234 6.70) falsch ( 32×49 = 6.70). Dies sind die erwarteten Frequenzen, die der folgenden Kreuztabelle 234 zu entnehmen sind. richtig falsch Summe Kond.satz Linksattr. OVS Passiv Satzkl. S.satz VSO Summe 185 27 × 234 = 21.35 49 27 × 234 = 5.65 25.30 6.70 30.04 7.96 28.46 7.54 28.46 7.54 28.46 7.54 22.93 6.07 185 49 27 32 38 36 36 36 29 234 Wir können die Unterschiede zwischen den beobachteten Frequenzen (o, für observed) und den erwarteten Frequenzen (e, für expected) berechnen : o − e. Allerdings ist die Summe dieser Unterschiede immer 0, weshalb wir die Unterschiede zuerst quadrieren: (o − e)2 . Wir teilen jeden Unterschied ausserdem durch die erwartete Frequenz, sodass wir mit relativen statt mit absoluten Unterschieden rechnen können, und zählen dann alle Unterschiede beieinander auf: Dies ergibt die χ2 -Statistik: KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN χ2 = (o1 − e1 )2 (o2 − e2 )2 + + ... e1 e2 120 (8.1) In diesem Beispiel beträgt der relative quadrierte Unterschied bei den richtigen Antworten bei 2 2 Konditionalsätzen (11−21.35) = 5.02. Bei den falschen Antworten: (16−5.65) = 18.96. Tun wir dies 21.35 5.65 für alle Zellen und zählen wir diese Unterschiede beieinander auf, dann bekommen wir einen χ2 -Wert von 43.74. Die Wahrscheinlichkeit dieses Wertes unter Annahme der Nullhypothese können wir mit der χ2 -Verteilung berechnen. Dazu müssen wir aber zuerst wissen, wie viele Freiheitsgrade diese Verteilung hat: die Anzahl Spalten minus 1 mal die Anzahl Zeilen minus 1: (7 − 1)(2 − 1) = 6. Die Wahrscheinlichkeit, bei 6 Freiheitsgraden einen χ2 -Wert von 43.74 oder grösser anzutreffen, ist verschwindend gering, wie der Grafik entnommen werden kann: curve(dchisq(x, 6), from = 0, to = 50, xlab = expression(chi^2), ylab = expression(d(chi^2)), main = expression(paste("Verteilung von ", chi^2, " laut Nullhypothese (6 d.f.)"))) abline(v = 43.74, lty = 2) Verteilung von χ2 laut Nullhypothese (6 d.f.) d(χ2) 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 10 20 30 40 50 χ2 Mit pchisq() berechnen wir wie gehabt die genaue Wahrscheinlichkeit. pchisq(43.74, df = 6, lower.tail = FALSE) ## [1] 8.323607e-08 Weit unten 0.001 also. Schneller geht dies alles mit der chisq.test()-Funktion. Dieser müssen wir die Kreuztabelle mit den beobachteten Frequenzen pro Zelle füttern. chisq.test(struktur.tab) ## ## Pearson's Chi-squared test ## ## data: struktur.tab ## X-squared = 43.737, df = 6, p-value = 8.335e-08 8.1.4 Schlussfolgerung und Bericht “Die Proportion richtige Antworten unterscheidet sich signifikant je nach der getesteten grammatischen Struktur (n = 234, χ2 (6) = 44, p < 0.001).” Eine Kreuztabelle und/oder eine Grafik mit der Anzahl richtige und falsche Antworten pro Struktur wäre hier natürlich unerlässlich, sodass die Lesenden selbst sehen können, wie sich die Proportion richtige Antworten je nach Struktur unterscheidet. KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 121 Die Anzahl Datenpunkte, die der Kreuztabelle zu Grunde liegt, können Sie übrigens schnell so berechnen: sum(struktur.tab) ## [1] 234 8.1.5 Komplikationen Yates’ Korrektur für 2 × 2-Kreuztabellen? Kaiser & Peyer (2011) wollten vor allem untersuchen, ob Sätze mit vermuteten ‘Problemstrukturen’ wie der Satzklammer für Deutschlernende tatsächlich schwierig zu verstehen sind als inhaltlich sehr ähnlichen Sätze ohne diese Strukturen. Um diese Frage zu beantworten, schauen wir uns nur die Daten für die Kategorie Satzklammer an: rezgram_sklam <- subset(rezgram, Kategorie == "Satzklammer") summary(rezgram_sklam) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Muttersprache Deutsch FR:30 Min. :1.000 IT:41 1st Qu.:2.000 Median :3.000 Mean :2.535 3rd Qu.:3.000 Max. :4.000 Kategorie Konditionalsatz: 0 Linksattribut : 0 OVS : 0 Passiv : 0 Satzklammer :71 Subjektsatz : 0 VSO : 0 Englisch Min. :1.000 1st Qu.:3.000 Median :4.000 Mean :3.775 3rd Qu.:4.000 Max. :6.000 Problemstruktur Korrekt ja :36 ja :41 nein:35 nein:30 Insgesamt 71 relevante Datenpunkte liegen vor, darunter 36 mit und 35 ohne Problemstruktur und 41 richtige und 30 falsche Antworten. Die richtigen und falschen Antworten verteilen sich folgendermassen je nach Vorkommen der Problemstruktur: sklam.tab <- xtabs(~ Korrekt + Problemstruktur, rezgram_sklam) sklam.tab ## Problemstruktur ## Korrekt ja nein ## ja 22 19 ## nein 14 16 Diese Kreuztabelle kann auch grafisch dargestellt werden: # Zahlen in sklam.tab per Spalte zu Proportionen konvertieren ('margin = 2') # und erste Zeile darstellen ('[1,]') dotchart(prop.table(sklam.tab, margin = 2)[1,], xlab = "Proportion richtig", xlim = c(0,1), ylab = "Problemstruktur?") 122 Problemstruktur? KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN nein ja 0.0 0.2 0.4 0.6 0.8 1.0 Proportion richtig (Im Widerspruch zu der Hypothese werden in diesem Datensatz Sätze mit Satzklammer also häufiger richtig verstanden als die entsprechenden Sätze ohne Satzklammer.) Füttern Sie nun die Kreuztabelle sklam.tab der chisq.test()-Funktion, dann stellen Sie fest, dass sich der Output etwas vom vorigen unterscheidet: chisq.test(sklam.tab) ## ## Pearson's Chi-squared test with Yates' continuity ## correction ## ## data: sklam.tab ## X-squared = 0.11683, df = 1, p-value = 0.7325 Bei 2 × 2-Kreuztabellen (also Kreuztabellen, wo die beiden Variablen zwei ‘levels’ haben) wird automatisch Yates’ Korrektur angewandt, weil die χ2 -Statistik sonst überschätzt wird. Diese Korrektur führt jedoch zu zu kleinen χ2 -Werten, weshalb der Gebrauch nicht empfohlen wird (siehe etwa Camilli & Hopkins 1978). Um die Korrektur auszuschalten, verwenden Sie einfach correct = FALSE: ## ## Pearson's Chi-squared test ## ## data: sklam.tab ## X-squared = 0.33883, df = 1, p-value = 0.5605 Exakter Test nach Fisher Oft liest man, dass Forschende keinen χ2 -Test sondern einen exakten Test nach Fischer ausgeführt haben. Dies tun sie in der Regel, weil die erwarteten Frequenzen in gewissen Zellen der Kreuztabelle kleiner als 5 sind. Betrachten wir als Beispiel die Sätze mit und ohne Problemstruktur OVS: rezgram_ovs <- subset(rezgram, Kategorie == "OVS") summary(rezgram_ovs) ## ## ## ## ## Muttersprache Deutsch FR:29 Min. :1.000 IT:42 1st Qu.:2.000 Median :3.000 Mean :2.704 Englisch Min. :1.0 1st Qu.:3.5 Median :4.0 Mean :4.0 KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN ## ## ## ## ## ## ## ## ## ## ## 3rd Qu.:3.000 Max. :5.000 Kategorie Konditionalsatz: 0 Linksattribut : 0 OVS :71 Passiv : 0 Satzklammer : 0 Subjektsatz : 0 VSO : 0 123 3rd Qu.:4.0 Max. :6.0 Problemstruktur Korrekt ja :38 ja :62 nein:33 nein: 9 xtabs(~ Korrekt + Problemstruktur, rezgram_ovs) ## Problemstruktur ## Korrekt ja nein ## ja 31 31 ## nein 7 2 Von den 71 Antworten sind nur 9 falsch. Wenn wir für diese Kreuztabelle einen χ2 -Test berechnen, ergibt sich eine Warnung: ovs.tab <- xtabs(~ Korrekt + Problemstruktur, rezgram_ovs) chisq.test(ovs.tab, correct = FALSE) ## Warning in chisq.test(ovs.tab, correct = FALSE): Chi-squared approximation may be incorrect ## ## Pearson's Chi-squared test ## ## data: ovs.tab ## X-squared = 2.4378, df = 1, p-value = 0.1184 Mit dem nachgestellten Befehl $expected finden Sie den Auslöser dieser Fehlermeldung: Es gibt zwei Zellen, für die die erwarteten Frequenzen unter 5 liegen: chisq.test(ovs.tab, correct = FALSE)$expected ## Problemstruktur ## Korrekt ja nein ## ja 33.183099 28.816901 ## nein 4.816901 4.183099 Die traditionelle Lösung für dieses Problem ist der exakte Test nach Fisher: fisher.test(ovs.tab) ## ## ## ## ## ## ## ## ## Fisher's Exact Test for Count Data data: ovs.tab p-value = 0.1613 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.027397 1.688792 sample estimates: KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 124 ## odds ratio ## 0.2903896 Eine andere Möglichkeit ist, den p-Wert mit einem Randomisierungstest zu berechnen: chisq.test(ovs.tab, simulate.p.value = TRUE) ## ## Pearson's Chi-squared test with simulated p-value ## (based on 2000 replicates) ## ## data: ovs.tab ## X-squared = 2.4378, df = NA, p-value = 0.1634 Ludbrook (2008) bespricht noch einige feinere Punkte zur Analyse von 2 × 2-Kreuztabellen. McNemars Test für gepaarte Daten Der χ2 -Test nimmt an, dass die Datenpunkte unabhängig voneinander sind. Im einfachen Fall, wo für jede Versuchsperson zwei Datenpunkte vorliegen (z.B. das binäre Ergebnis bei sowohl einem Pre- als auch einem Posttest), bietet McNemars Test eine Alternative. Als fiktives Beispiel betrachten wir die Ergebnisse 36 Studierender bei einem Pre- und einem Posttest. Elf der 36 Studierenden (31%) bestanden den Pretest, während 19 (53%) den Posttest bestanden. Kann diese Zunahme als signifikant betrachtet werden oder ist es zu wahrscheinlich, solche Unterschiede rein durch Zufall zu beobachten? Um diese Frage zu beantworten müssen wir wissen, wie sich diese Zahlen genau zusammensetzten. Die folgende Tabelle zeigt, wie sich das Ergebnis der Versuchspersonen zwischen dem Pre- und Posttest geändert hat: erste Erhebung zweite Erhebung nicht bestanden bestanden nicht bestanden bestanden 15 2 10 9 25 11 Summe 17 19 36 Summe Die Zahl derer, die den Pretest bestanden (11), setzt sich also aus 9, die auch den Posttest bestanden, und 2, die den Posttest nicht bestanden, zusammen, während die Zahl derer, die den Posttest bestanden (19), sich aus 9 (Pretest bestanden) und 10 (Pretest nicht bestanden) zusammensetzt. Wenn wir einfach die Zahlen 11 und 19 miteinander vergleichen würden, würden wir also 9 Versuchspersonen doppelt mitzählen. McNemars Test vergleicht daher nur die 10 und 2 Versuchspersonen, deren Ergebnis sich zwischen den beiden Tests geändert hat.2 In R: # Tabelle eintragen prepost.tab <- rbind(c(15, 10), c(2 , 9)) # Anzeigen prepost.tab 2 Um dies zu überprüfen, können Sie einen χ2 -Test mit nur den Zahlen 10 und 2 durchführen: chisq.test(c(10, 2)). Das Ergebnis wird jenem von McNemars Test gleich sein. KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 125 ## [,1] [,2] ## [1,] 15 10 ## [2,] 2 9 # McNemars Test ausführen mcnemar.test(prepost.tab, correct = FALSE) ## ## McNemar's Chi-squared test ## ## data: prepost.tab ## McNemar's chi-squared = 5.3333, df = 1, p-value = ## 0.02092 McNemars Test weist einen signifikanten Unterschied zwischen der Proportion der Studierenden, die den Posttest bestanden, vs. jener, die den Pretest bestanden, auf (χ2 (1) = 5.3, p = 0.02). Der correct-Parameter wurde auf FALSE gestellt, um die zu strenge Yates-Korrektur auszuschalten. Andere Arten von Abhängigkeiten in den Daten müssten wohl mit fortgeschritteneren Verfahren berücksichtigt werden, siehe Abschnitt 9.2. 8.1.6 Aufgaben (und ein zusätzlicher Test) 1. Auf Seite 118 wurde die Kreuztabelle mit dem Befehl xtabs(~Korrekt + Kategorie, rezgram_prob) erzeugt. Führen Sie jetzt einen χ2 -Test für die Kreuztabelle, die mit dem Befehl xtabs(~Kategorie + Korrekt, rezgram_prob) (andere Reihenfolge der Variablen) erzeugt wird, aus. Macht es für die Analyse etwas aus, welche Variable in den Zeilen und welche in den Spalten steht? 2. Das Many Labs-Projekt (Klein et al. 2014) untersuchte, inwiefern dreizehn ausgewählte ‘klassische’ Befunde aus der Sozialpsychologie empirisch repliziert werden konnten. Die Daten dieses Projekts sind frei zugänglich unter osf.io/wx7ck/; eine für diese Aufgaben gekürzte Version dieser Daten finden Sie in manyLabs_gekuerzt.csv. Die Daten, die wir zunächst analysieren, stammen aus einer Replikation eines Experiments von Tversky & Kahneman (1981). Sie legten den Versuchspersonen folgendes Szenario vor: Eine seltene tödliche Krankheit bedroht 600 Menschen in den USA. Der Regierung stehen zwei Möglichkeiten zur Auswahl: Die erste Möglichkeit (A) wird 200 Leben retten (400 sterben), während die zweite Möglichkeit (B) zu einer Wahrscheinlichkeit von 1/3 alle 600 Menschen retten wird (keiner stirbt) und zu einer Wahrscheinlichkeit von 2/3 keinen retten wird (alle sterben). (Mathematisch sind beide Möglichkeiten gleichwertig.) Die Versuchspersonen mussten ihre präferierte Möglichkeit auswählen, wurden aber ohne es zu wissen einer von zwei Konditionen zugeteilt: Je nach Kondition wurden die Möglichkeit als ‘Gewinne’(also ‘200 werden gerettet’ bzw. ‘zu einer Wahrscheinlichkeit von 1/3 werden alle 600 gerettet’) oder als ‘Verluste’ (also ‘400 sterben’ bzw. ‘zu einer Wahrscheinlichkeit von 2/3 sterben alle 600’) formuliert. Trotz mathematischer Äquivalenz der Möglichkeiten und Formulierungen fanden Tversky & Kahneman (1981), dass Versuchspersonen in der ‘Gewinn’-Kondition eher Möglichkeit A wählten und Versuchspersonen in der ‘Verlust’-Kondition eher Möglichkeit B wählten. (a) Lesen Sie den gekürzten Datensatz ein. (b) Die Daten wurden an verschiedenen Universitäten erhoben. Für diese Analyse beschränken wir uns auf die Daten, die an der Texas A&M University (tamu) erhoben wurden: KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 126 manyLabs_tamu <- subset(manyLabs, sample == "tamu") (c) Die Kondition (Gewinn vs. Verlust) steht in der Spalte gainlossgroup, die bevorzugte Vorgehensweise der Versuchspersonen in der Spalte gainlossDV. Erzeugen Sie eine Kreuztabelle mit diesen beiden Variablen und zeigen Sie diese an. (d) Sie werden feststellen, dass es sich nicht um eine 2 × 2-Kreuztabelle handelt: Zwei Versuchspersonen haben keine Antwort gegeben; diese Antworten wurden durch eine Leertaste ersetzt. Entfernen Sie diese aus der Analyse. Dazu gibt es ein paar Möglichkeiten. Am einfachsten ist wohl, den Datensatz nochmals einzulesen, aber dabei zu spezifizieren, dass fehlende Werte in diesem Datensatz nicht als NA sondern mit einer Leertaste kodiert wurden (siehe ?read.csv und dann na.strings): manyLabs <- read.csv("manyLabs_gekuerzt.csv", na.strings = " ") (e) Stellen Sie die Ergebnisse in einer sinnvollen Grafik dar. Werden die Befunde von Tversky & Kahneman (1981) (rein deskriptiv) bestätigt? (f) Erste Frage: Wählen Versuchspersonen in der ‘Gewinn’-Kondition eher die sichere Möglichkeit als die unsichere Möglichkeit? • Wie viele Versuchspersonen gibt es in der ‘Gewinn’-Kondition? • Welche Proportion der Versuchsperson in der ‘Gewinn’-Kondition wählt Möglichkeit A vs. B? • Der geeignete Test für diese Fragestellung ist der Binomialtest: binom.test(c(A, B)) wo A und B die Anzahl Entscheidungen für Alternativen A bzw. B sind.3 Bevorzügen Versuchspersonen in der ‘Gewinn’-Kondition signifikant Möglichkeit A? (g) Zweite Frage: Wählen Versuchspersonen in der ‘Verlust’-Kondition eher die unsichere als die sichere Möglichkeit? • Wie viele Versuchspersonen gibt es in der ‘Verlust’-Kondition? • Welche Proportion der Versuchsperson in der ‘Verlust’-Kondition wählt Möglichkeit B vs. A? • Bevorzügen Versuchspersonen in der ‘Verlust’-Kondition signifikant Möglichkeit B? (h) Dritte Frage: Wählen Versuchspersonen in der ‘Gewinn’-Kondition eher die sichere als die unsichere Möglichkeit verglichen mit Versuchspersonen in der ‘Verlust’-Kondition? • Wie unterscheidet sich diese Forschungsfrage von den vorigen zwei? • Um diese Frage zu beantworten können Sie einen χ2 -Test auf die ganze Kreuztabelle ausführen. Tun Sie dies und berichten Sie das Ergebnis. Merksatz: Je nach konkreter Fragestellung sind andere Tests angebracht: Fragen 1 und 2 beziehen sich auf absolute Unterschiede: Bevorzügen die Versuchspersonen in einer bestimmten Gruppe (zu mehr als 50%) diese oder jene Alternative? Frage 3 bezieht sich auf den relativen Unterschied zwischen den Gruppen: Bevorzügen die Versuchspersonen in der einen Gruppe Alternative A öfter als die in der anderen Gruppe? Die Antwort auf 3 chisq.test(c(A, B)) ergibt ungefähr das gleiche Ergebnis (annähernder Test), ist aber auf den Fall mit mehr als zwei Gruppen generalisierbar (z.B. chisq.test(c(A, B, C, D)), wenn es vier Antwortmöglichkeiten gegeben hätte). Die Nullhypothese ist hier, dass alle vier Möglichkeiten gleich oft vorkommen. KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 127 die dritte Frage kann durchaus ‘ja’ sein, auch wenn beide Gruppen sich eher für B als für A entscheiden, z.B. wenn die Kreuztabelle so aussähe: ‘Gewinn’-Kondition ‘Verlust’-Kondition 18 30 5 62 Möglichkeit A Möglichkeit B Tipp: Berechnen bzw. berichten Sie nicht alle Tests, die Sie mit Ihren Daten ausführen können, sondern nur die, die auch für Ihre Forschungsfrage relevant sind. (Es ist übrigens nicht unbedingt klar, welcher der entscheidene Test in diesem Beispiel ist: Sowohl Fragen 1 und 2 einerseits und Frage 3 andererseits scheinen mir sinnvoll, heben aber andere Aspekte der Studie hervor.) 3. Ein anderer Befund, den Klein et al. (2014) zu replizieren versuchten, geht auf Rugg (1941) zurück. Etwa die Hälfte der Versuchspersonen wurde gefragt, ob ihr Land Reden gegen die Demokratie erlauben soll (‘erlauben’-Kondition), währen die andere Hälfte gefragt wurde, ob ihr Land Reden gegen die Demokratie untersagen soll (‘untersagen’-Kondition). Rugg (1941) fand (in politisch besonders heiklen Zeiten), dass 62% der Befragten in der ‘erlauben’-Kondition ‘nein’ antworteten und somit die Repression anti-demokratischer Reden unterstützten, während nur 46% der Befragten in der ‘untersagen’-Kondition ‘ja’ antworteten und somit Repression unterstützten. (a) Lesen Sie die Many Labs-Daten ein und beschränken Sie die Analyse auf die Daten, die am Abington-Campus der Penn State University erhoben wurden (sample == ”abington”). (b) Die Kondition, in der die Versuchspersonen befragt wurden, steht in der Spalte allowedforbiddenGroup; die Antwort auf die Frage, die ihnen gestellt wurde, in der Spalte allowedforbidden. Erzeugen Sie eine Kreuztabelle mit diesen Variablen. (c) Wie viele Versuchspersonen enthält diese Stichprobe? Wie viele unter ihnen unterstützen die Repression anti-demokratischer Reden? (Welche Zahlen müssen dazu beieinander aufgezählt werden?)4 (d) Unterscheidet sich die Proportion der Befragten, die Repression unterstützen würden, je nach der Form der Frage? Stellen Sie die Daten sinnvoll grafisch dar und führen Sie den geeigneten Test aus.5 8.2 8.2.1 Logistische Regression Warum logistische Regression? Wollen wir den Zusammenhang zwischen einer kontinuierlichen unabhängigen und einer nominalen abhängigen Variable untersuchen, dann bringt uns der χ2 -Test nichts. Ausserdem für Repression gegen Repression 3 43 9 27 ‘untersagen’-Kondition ‘erlauben’-Kondition Die Kreuztabelle, die Sie vorher erzeugten, würde Sie auf die falsche Spur bringen: Diese zeigt ja, wie sich die Anzahl ‘yes’- und ‘no’-Antworten je nach Kondition unterscheidet – was hier nicht von Interesse ist. Am besten gestalten Sie die Tabelle so um (siehe Seite 124): 5 Die Bedeutung von ‘yes’ und ‘no’ unterscheidet sich je nach Kondition: Insgesamt unterstützen 12 der 82 Befragten die Repression anti-demokratischer Reden (9 würden solche Reden nicht erlauben und 3 würden sie verbieten). 4 KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 128 lässt sich mit einem χ2 -Test nur der Effekt einer unabhängigen Variable untersuchen, während ANOVA s und lineare Regressionen mehrere Prädiktoren aufnehmen können. Auf den ersten Blick könnte man dieses Problem einfach lösen, indem man die abhängige Variable zu Proportionen oder Prozentsätzen konvertiert. Mit diesem Ansatz gibt es ein paar Probleme, die detaillierter von Jaeger (2008) besprochen werden: • Proportionen und Prozentsätze liegen zwischen 0 und 1 bzw. zwischen 0 und 100. ANOVAs und lineare Regressionen ‘wissen’ aber nicht, dass Werte über 1 (100) oder unter 0 nicht sinnvoll sind. Deshalb ergeben sie manchmal sinnlose Resultate. • Bei 50% richtigen Antworten gibt es erheblich mehr Unsicherheit darüber, ob eine willkürliche Antwort jetzt richtig oder falsch war, als dies bei 95% richtigen Antworten der Fall ist. Dies ist eine Verletzung der Annahme der gleichen Varianzen, die von ANOVAs und auch von linearen Regression gemacht wird. • Eine wichtige Information geht verloren: Auf wie vielen Beobachtungen basiert die Proportion? Ein Prozentsätz von 60% kann sowohl einer Datenverteilung von zwei falschen vs. drei richtigen Antworten als einer Verteilung von 200 falschen und 300 richtigen Antworten entsprechen. Die 60% sind aber viel zuverlässiger im letzteren Fall. Aus diesen drei Gründen sind ANOVAs und lineare Regressionen nicht optimal, wenn die abhängige Variable eigentlich eine binäre Variable ist. Die Lösung heisst logistische Regression. Die Logik hinter logistischer Regression wird beschrieben von Jaeger (2008); hier gehen wir anhand eines Beispiels nur auf das Wichtigste ein.6 8.2.2 Odds und log-odds In Abschnitt 8.1.5 verglichen wir bereits das Verständnis von deutschen Sätzen mit Satzklammer verglichen mit semantisch ähnlichen Sätzen ohne Satzklammer durch beginnende Germanistikstudierende (basierend auf den Daten von Kaiser & Peyer 2011) mithilfe eines χ2 -Tests. Die Ergebnisse werden hier nochmals zusammengefasst: richtig verstanden falsch verstanden mit Satzklammer ohne Satzklammer 22 14 19 16 22 Wir können sagen, dass 22+14 = 61% der Sätze mit Satzklammer richtig verstanden wurden, 19 verglichen mit nur 19+16 = 54% der Sätze ohne Satzklammer. Wir können dies aber auch anders formulieren: Eine richtige Antwort ist bei den Sätzen mit Satzklammer 22 14 = 1.57 Mal wahrscheinlicher als eine falsche Antwort. Bei den Sätzen ohne Satzklammer ist eine richtige Antwort nur 19 16 = 1.19 Mal wahrscheinlicher als eine falsche Antwort. Ausserdem können wir auch sagen, dass es 1.19 1.57 = 0.76 Mal wahrscheinlicher (also weniger wahrscheinlich) ist, eine richtige Antwort zu beobachten bei den Sätzen mit Satzklammer als bei den Sätzen ohne Satzklammer. Diese Darstellung von Wahrscheinlichkeiten nennt man odds. Aus Gründen der mathematischen Effizienz wird in logistischer Regression nicht direkt mit diesen odds gearbeitet, sondern werden diese logarithmisch transformiert, was log-odds ergibt. Beispiel: ln 1.57 = 0.45, das heisst, die log-odds, dass die Sätze mit Satzklammer richtig verstanden werden, liegt bei 0.45. Der Zusammenhang zwischen log-odds und Proportionen schaut so aus: 6 Die Art logistische Regression, die wir hier besprechen, eignet sich nur für den Fall, wo die abhängige Variable binär (ja–nein, richtig–falsch, vorhanden–nicht vorhanden) ist. Es gibt auch ähnliche Verfahren für ordinalskalierte Daten und multinomiale Daten, siehe dazu Baayen (2008, Abschnitt 6.3.2) und Faraway (2006, Kapitel 5). KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 129 Proportion 1.0 0.8 0.6 0.4 0.2 0.0 −6 −4 −2 0 2 4 6 log−odds Prozentsätze, odds und log-odds können so zueinander konvertiert werden: Prozentsätze zu odds Anzahl richtig Anzahl falsch Prozentsatz richtig = Prozentsatz falsch odds richtig = Also: 22 14 = 61% 39% (8.2) (8.3) = 1.57 Odds zu Proportionen Proportion richtig = Also: 1.57 1+1.57 odds richtig 1 + odds richtig (8.4) = 61% log-odds zu odds odds richtig = exp(log-odds) ≈ 2.72log-odds (8.5) (8.6) Also: 2.720.45 ≈ 1.57 log-odds zu Proportionen exp(log-odds) exp(log-odds) + 1 1 = 1 + exp(−log-odds) Proportion richtig = Also: 2.720.45 2.720.45 +1 = 61%. Oder kürzer in R: plogis(0.45) ## [1] 0.6106392 (8.7) (8.8) KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 8.2.3 130 Logistische Regression mit einem kategorischen Prädiktor Daten einlesen Die obige Kreuztabelle können wir, neben in einem χ2 -Test, auch in einer logistischen Regression analysieren. Dazu lesen wir die aggregierten Daten nochmals ein: richtig <- c(22, 19) falsch <- c(14, 16) Problemstruktur <- c("ja", "nein") Der Sicherheit halber kontrollieren wir diese Einträge nochmals: cbind(Problemstruktur, richtig, falsch) ## Problemstruktur richtig falsch ## [1,] "ja" "22" "14" ## [2,] "nein" "19" "16" Modell berechnen (erste Möglichkeit) Mit der glm()-Funktion führen wir Problemstruktur ist die unabhängige Variable, während die abhängige Variable aus der Anzahl richtige vs. falsche Antworten besteht. Diese werden mit cbind() zusammengeknüpft. Da es sich um eine binäre abhängige Variable handelt, wird der family-Parameter als "binomial" spezifiziert: sklam.glm <- glm(cbind(richtig, falsch) ~ Problemstruktur, family = "binomial") Koeffiziente interpretieren Schauen wir uns die Koeffiziente dieses Modells an: # Koeffiziente des Modells anschauen summary(sklam.glm)$coefficients ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) 0.4520 0.3419 1.3221 0.1862 ## Problemstrukturnein -0.2801 0.4817 -0.5816 0.5608 • Das (Intercept) stellt die Wahrscheinlichkeit einer richtigen Antwort, wenn die Problemstruktur vorliegt (Problemstruktur == "ja"), in log-odds dar. Die Anzahl richtige Antworten, denn in der glm()-Funktion wurde zuerst die Spalte mit der Anzahl richtige Antworten eingetragen, und die Fälle mit Problemstruktur, denn Problemstruktur == "ja" kommt alphabetisch vor Problemstruktur == "nein". 0.452 log-odds entspricht = 1.57 odds richtig = 61% richtig, was wir alles bereits oben selber berechnet hatten. • Der p-Wert wurde anhand des z-Werts für diese Schätzung (Estimate geteilt durch Std. Error) berechnet und bezieht sich auf die Nullhypothese, dass der wahre Parameter eigentlich 0 log-odds ist. Dies entspricht einer Wahrscheinlichkeit von 50%. • Die Schätzung für Problemstrukturnein sagt uns, um wie viel log-odds die Wahrscheinlichkeit einer richtigen Antwort ändert, wenn die Problemstruktur nicht vorliegt. Die Änderung von −0.280 log-odds sagt uns, dass eine richtige Antwort 2.72−0.280 ≈ 0.76 Mal wahrscheinlicher (also unwahrscheinlicher) ist, wenn die Problemstruktur nicht vorliegt KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 131 als wenn sie vorliegt. Diese Änderung ist nach dem z-Test jedoch nicht signifikant (z = 0.58, p = 0.56.) • Um die log-odds einer richtigen Antwort bei Sätzen ohne Problemstruktur zu erhalten, müssen wir die Schätzung des Intercepts und die Schätzung für Problemstrukturnein addieren: 0.45 − 0.28 = 0.17. Konvertiert zu einem Prozentsatz heisst dies 54% – was wir ebenfalls oben schon berechnet hatten. Vergleichen Sie den p-Wert der Schätzung für Problemstrukturnein mit jenem des χ2 -Tests in Abschnitt 8.1.5. Modell berechnen (zweite Möglichkeit) Das Regressionsmodell können wir auch ohne Kreuztabelle berechnen. Die Spalte Korrekt im Datensatz rezgram_sklam enthält eine binäre Variable (‘ja’ und ‘nein’). Da ‘ja’ alphabetisch vor ‘nein’ kommt, gilt ‘ja’ als ‘Referenzlevel’ dieser Variable: summary(rezgram_sklam$Korrekt) ## ## ja nein 41 30 Wenn wir diese Daten so analysieren würden, würden wir die Wahrscheinlichkeit einer falschen Antwort modellieren. Unter dem Strich macht dies nichts aus, aber ich finde es einfacher, wenn die Wahrscheinlichkeit einer richtigen Antwort modelliert wird. Daher ändere ich hier das Referenzlevel: rezgram_sklam$Korrekt <- factor(rezgram_sklam$Korrekt, levels = c("nein", "ja")) _ summary(rezgram sklam$Korrekt) ## nein ## 30 ja 41 Jetzt gilt ‘nein’ als Referenzlevel (steht zuerst). Die Analyse verläuft jetzt recht ähnlich wie bei einer linearen Regression, nur wird statt lm() die glm()-Funktion verwendet: sklam.glm <- glm(Korrekt ~ Problemstruktur, data = rezgram_sklam, family = "binomial") summary(sklam.glm)$coefficients ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) 0.4520 0.3419 1.3221 0.1862 ## Problemstrukturnein -0.2801 0.4817 -0.5816 0.5608 Die Koeffiziente und ihre Signifikanz sind nach wie vor die gleichen. Grafische Darstellung des Modells Mit dem effects-Package können die Ergebnisse eines logistischen Modells verständlich dargestellt werden. Die in log-odds modellierten Wahrscheinlichkeiten werden automatisch zu Proportionen zwischen 0 und 1 konvertiert und von ihrem 95%-Konfidenzintervall begleitet. KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 132 library(effects) plot(allEffects(sklam.glm), type = "response", main = "Satzklammer", ylab = "Wahrscheinlichkeit richtige Antwort", ylim = c(0, 1)) Wahrscheinlichkeit richtige Antwort Satzklammer 1.0 0.8 0.6 0.4 0.2 0.0 ja nein Problemstruktur 8.2.4 Logistische Regression mit Interaktionen The difference between “significant” and “not significant” is not itself statistically significant Wenn eine binäre abhängige Variable auch mit einem relativ einfachen χ2 -Test analysiert werden kann, ist der Reiz zur Verwendung eines logistischen Modells natürlich nicht sehr gross. Der Vorteil von logistischer Regression besteht darin, dass sie mehrere Prädiktoren gleichzeitig berücksichtigen kann, darunter auch kontinuierliche Prädiktoren. Interaktionen können ebenso berücksichtigt werden. Keysar et al. (2012) untersuchten, ob Versuchspersonen, die mit einem Dilemma in einer Fremdsprache konfrontiert werden, rationaler an diesem Problem herangehen als in ihrer Erstsprache. Dazu legten sie in ihrem Experiment 1a 121 englischsprachigen Studierenden mit Japanischkenntnissen das klassische Szenario von Tversky & Kahneman (1981), dem wir bereits in Übung 2 auf Seite 125 begegnet sind, vor. Zusätzlich zu der Formulierung (Gewinn–Verlust) wurde in diesem Experiment die Sprache des Problems manipuliert: 61 Versuchspersonen erledigten die Aufgabe auf Englisch, 60 auf Japanisch. Die Ergebnisse habe ich auf der Basis des Berichtes hier rekonstruiert: sichere Möglichkeit unsichere Möglichkeit englische Version japanische Version Gewinn Verlust Gewinn Verlust 24 7 14 16 13 17 12 18 Keysar et al. (2012) berichteten, dass sich in der englischen Fassung einen signifikanten Effekt der KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 133 Formulierungsart nachweisen lässt, in der japanischen Version jedoch nicht. Der Vollständigkeit halber können wir dies überprüfen: # englische Version chisq.test(rbind(c(24, 14), c(7, 16)), correct = FALSE) ## ## Pearson's Chi-squared test ## ## data: rbind(c(24, 14), c(7, 16)) ## X-squared = 6.1, df = 1, p-value = 0.01 # japanische Version chisq.test(rbind(c(13, 12), c(17, 18)), correct = FALSE) ## ## Pearson's Chi-squared test ## ## data: rbind(c(13, 12), c(17, 18)) ## X-squared = 0.069, df = 1, p-value = 0.8 Dies sind die genauen Ergebnisse, die von Keysar et al. (2012) berichtet werden.7 Aber: Aus einem signifikanten Ergebnis in der einen Kondition und einem nicht-signifikanten Ergebnis in der anderen kann man nicht unbedingt schlussfolgern, dass es einen Unterschied zwischen den beiden Konditionen gibt (Gelman & Stern 2006). Vielmehr soll hier die Interaktion von Formulierung und Sprache untersucht werden; dazu eignet sich eine logistische Regression. Grafische Darstellung In Keysar2012_Exp1a.csv stehen die rekonstruierten Daten von Keysar et al. (2012) zur Verfügung. Wir lesen ein und stellen diese grafisch dar, um sicher zu sein, dass die Einträge stimmen, zum Beispiel in einem Mosaikplot. In einem solchen Plot ist die Fläche einer Zelle proportional zu der Anzahl Datenpunkte in dieser Zelle; man muss allerdings ein bisschen mit der Reihenfolge der Variablen herumspielen, bis man eine informative Darstellungsart findet: keysar <- read.csv("Keysar2012_Exp1a.csv") summary(keysar) ## ## ## Sprache Englisch :61 Japanisch:60 Formulierung Wahl Gewinn :61 sicher :63 Verlust:60 unsicher:58 plot(xtabs(~ Sprache + Wahl + Formulierung, keysar), main = "Keysar et al. (2012, Exp. 1a)") 7 Keysar et al. (2012) berichten allerdings den konservativeren p-Wert für den χ2 -Wert mit Yates-Korrektur. KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 134 Keysar et al. (2012, Exp. 1a) Englisch Verlust Gewinn Japanisch Verlust Gewinn Wahl sicher unsicher Sprache Wiederum ist ein Cleveland dotchart eine geeignete Alternative. Zuerst berechnen wir die Proportion ‘sichere’ Wahlen pro Zelle (Sprache Formulierung): library(dplyr) summary_keysar <- summarise(group_by(keysar, Sprache, Formulierung), ProportionSicher = mean(Wahl == "sicher")) summary_keysar ## ## ## ## ## ## ## ## ## Source: local data frame [4 x 3] Groups: Sprache [?] 1 2 3 4 Sprache Formulierung ProportionSicher (fctr) (fctr) (dbl) Englisch Gewinn 0.7742 Englisch Verlust 0.4667 Japanisch Gewinn 0.4333 Japanisch Verlust 0.4000 Der folgende Kode illustriert ein paar Möglichkeiten, die das ggplot2-Package bietet. library(ggplot2) ggplot(summary_keysar, aes(x = ProportionSicher, y = Formulierung, shape = Sprache, # unterschiedliche Symbole pro Sprache colour = Sprache, # Farben pro Sprache (optional) group = Sprache)) + # gleiche Sprache mit Linie verbinden geom_point() + # Punkte zeichnen geom_line() + # Linien zeichnen; kann auch weggelassen werden xlab("Proportion 'sichere' Wahlen") + xlim(0, 1) + # Länge x-Achse ggtitle("Keysar et al. (2012, Exp. 1a)") + theme(legend.position = "top") # Beschriftung oben KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 135 Keysar et al. (2012, Exp. 1a) Formulierung Sprache Englisch Japanisch Verlust Gewinn 0.00 0.25 0.50 0.75 1.00 Proportion 'sichere' Wahlen Modell mit Interaktion Mit der glm()-Funktion berechnen wir jetzt ein logistisches Modell mit Formulierung und Sprache als Prädiktoren sowie auch ihrer Interaktion (kürzere Möglichkeit: Formulierung * Sprache). keysar.glm <- glm(Wahl ~ Formulierung + Sprache + Formulierung:Sprache, data = keysar, family = "binomial") # Nur zwei Spalten aus Platzgründen: summary(keysar.glm)$coefficients[,c(1:2)] ## ## ## ## ## Estimate Std. Error (Intercept) -1.232 0.4296 FormulierungVerlust 1.366 0.5643 SpracheJapanisch 1.500 0.5659 FormulierungVerlust:SpracheJapanisch -1.228 0.7701 # Sie können gerne den ganzen Output anzeigen: # summary(keysar.glm) Das (Intercept) stellt die Wahrscheinlichkeit einer Wahl für die unsichere Möglichkeit in der englischen Version für die ‘Gewinn’-Formulierung dar, und zwar in log-odds (−1.23 log-odds ≈ 7 23% = 30 aus der obigen Tabelle). Die anderen Proportionen aus der obigen Tabelle lassen sich ebenfalls aus diesen Koeffizienten herleiten, etwa dass 18 der 30 Versuchspersonen (60%) in der japanischsprachigen ‘Verlust’-Kondition die unsichere Option wählen: −1.23 + 1.37 (Haupteffekt Verlust) +1.50 (Haupteffekt Japanisch) −1.23 (Interaktionseffekt, wenn sowohl Verlust und Japanisch) = 0.41 log-odds = 60%. Die Signifikanz der Interaktion ist, was uns hier eigentlich interessiert. Der z-Test aus dem summary()-Output deutet schon darauf hin, dass der Interaktionsterm nicht signifikant ist (z = 1.6, p = 0.11). Eine allgemeiner gültige Methode, eine solche Signifikanz zu berechnen, ist mithilfe der anova()-Funktion: anova(keysar.glm, test = "Chisq") ## Analysis of Deviance Table ## ## Model: binomial, link: logit KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## 136 Response: Wahl Terms added sequentially (first to last) NULL Formulierung Sprache Formulierung:Sprache NULL Formulierung Sprache Formulierung:Sprache Df Deviance Resid. Df Resid. Dev 120 168 1 3.66 119 164 1 5.29 118 159 1 2.59 117 156 Pr(>Chi) 0.056 0.022 0.108 Vorsicht: Die anova()-Funktion führt hier keine Varianzanalyse im traditionellen Sinne aus, sondern teilt hier die Devianzen je nach Variable auf und führt dann einen χ2 -Test aus. So wichtig sind die Details für unsere Zwecke nicht. Die Haupteffekt von Formulierung und Sprache interessieren uns hier nicht. Nur die Interaktion ist relevant und nach einem χ2 -Test ist diese nicht signifikant (χ2 (1) = 2.6 (= Deviance), p = 0.11 (= sehr ähnlich wie jener vom z-Test)). Dies heisst natürlich nicht, dass es keine Interaktion gibt, aber ich halte es für eine sinnvolle Illustration des Prinzips, dass der Unterschied zwischen ‘signifikant’ und ‘nicht signifikant’ selber nicht signifikant zu sein braucht – auch wenn die p-Werte sich massiv voneinander unterscheiden (hier: p = 0.01 und p = 0.80). Die Befunde von Keysar et al. (2012) wurden andererorts übrigens, so viel ich weiss, weitgehend repliziert und erweitert (etwa Costa et al. 2014a,b) – obwohl auch diese Forschenden nicht die Signifikanz der Interaktion überprüften. 8.2.5 Logistische Regression mit kontinuierlichen Prädiktoren Vanhove & Berthele (2013) legt etwa 100 deutschsprachigen Probanden eine Liste mit dänischen, friesischen, niederländischen und schwedischen Wörtern vor, die sie ins Deutsche zu übersetzen hatten. Diese Übersetzungen wurden als richtig oder falsch beurteilt. 181 der insgesamt 200 Wörter hatten verwandte deutsche, englische oder französische Wörter mit der grundsätzlich gleichen Bedeutung (Kognaten). Für jedes Wort berechneten Vanhove & Berthele (2013) den Grad seiner orthographischen Überlappung mit dem nächstverwandten Kognat. Für diese Übung wird diese Grad der orthographischen Überlappung als eine Zahl zwischen 0 (keine Überlappung) und 10 (komplette Überlappung) dargestellt. Ziel dieser Übung ist es, den Zusammenhang zwischen dem Grad der orthographischen Überlappung und der Wahrscheinlichkeit einer richtigen Antwort zu modellieren. Dazu schauen wir uns die Daten einer einzigen Versuchsperson an, die in VanhoveBerthele2013_eineVpn.csv gespeichert sind; um die Daten mehrerer Versuchspersonen gleichzeitig zu modellieren, wären Verfahren wie gemischte Modelle (siehe Baayen 2008; Jaeger 2008) wegen der Abhängigkeiten in den Daten besser geeignet. # Daten einlesen und zeigen dat <- read.csv("VanhoveBerthele2013_eineVpn.csv") # summary(dat) KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 137 Grafische Darstellung Es liegt nicht ganz auf der Hand, welche Grafik sich am besten eignet, um den Zusammenhang zwischen einem kontinuierlichen Prädiktor und einem binären Ergebnis darzustellen. Eine Möglichkeit ist es, die binäre Variable (‘falsch’ vs. ‘richtig’) zu Zahlen zu konvertieren (0 vs. 1), dann ein Streudiagramm zu zeichnen, und diesem Streudiagramm eine Trendlinie (‘smoother’) hinzuzufügen. # neue Variable mit 1 (wenn Korrekt == richtig) und 0 (sonst): dat$Korrekt.zahl <- ifelse(dat$Korrekt == "richtig", yes = 1, no = 0) # Streudiagramm mit smoother library(ggplot2) ggplot(dat, aes(x = OrthOverlap, y = Korrekt.zahl)) + geom_jitter(h = 0.1, w = 0, pch = 1) + geom_smooth(se = FALSE) + # ohne Konfidenzband xlab("orthografische Überlappung") + xlim(0, 10) + ylab("richtig (1) vs. falsch (0)") richtig (1) vs. falsch (0) 1.00 0.75 0.50 0.25 0.00 0.0 2.5 5.0 7.5 10.0 orthografische Überlappung Diese Grafik zeigt, dass mit zunehmender orthografischer Überlappung Kognate häufiger richtig übersetzt werden und dass keine starken nicht-linearen Muster vorliegen (z.B. zuerst Zunahme und dann wieder Abnahme). Daher ist es berechtigt, orthografische Überlappung als kontinuierlichen linearen Prädiktor ins Modell aufzunehmen. Modell Der kontinuierliche Prädiktor kann einfach mit glm() modelliert werden: dat.glm <- glm(Korrekt ~ OrthOverlap, data = dat, family = "binomial") summary(dat.glm)$coefficients KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 138 ## Estimate Std. Error z value Pr(>|z|) ## (Intercept) -3.3132 0.7340 -4.514 6.366e-06 ## OrthOverlap 0.5944 0.1144 5.198 2.014e-07 Das (Intercept) ist hier nicht so wichtig, stellt wie gehabt aber dar, wie wahrscheinlich eine richtige Antwort ist, wenn OrthOverlap 0 ist, und zwar in log-odds. Wichtiger ist die Schätzung für OrthOverlap. Diese zeigt, wie viel wahrscheinlicher (in log-odds) eine richtige Antwort wird, wenn OrthOverlap um eine Einheit steigt. Wenn OrthOverlap = 1, dann ist die modellierte Wahrscheinlichkeit einer richtigen Antwort: −3.31 + 1 × 0.59 = −2.72 log-odds, oder etwa 6%. Wenn OrthOverlap = 4.6, dann: −3.31 + 2 × 0.59 = −2.13 log-odds, oder etwa 11%. Oder auch: Wenn OrthOverlap um 1 steigt, dann wird eine richtige Antwort 2.720.59 ≈ 1.8 Mal wahrscheinlicher. Der modellierte Effekt grafisch dargestellt mit dem effects-Package: Wahrscheinlichkeit richtig library(effects) plot(allEffects(dat.glm), type = "response", ylab = "Wahrscheinlichkeit richtig", ylim = c(0, 1), xlab = "Orthographische Überlappung", main = "") 1.0 0.8 0.6 0.4 0.2 0.0 2 3 4 5 6 7 8 9 10 Orthographische Überlappung Hier ergibt sich eine Kurve (und keine Gerade), da das Modell in log-odds berechnet wird, während für diese Grafik die modellierten Wahrscheinlichkeit zu Proportionen konvertiert werden. Teil III Empfehlungen 139 Kapitel 9 Literaturempfehlungen 9.1 Wiederholung und Vertiefung von Gelerntem Die folgenden Texte behandeln hauptsächlich Themen, die in diesem Kurs bereits besprochen wurden, aber deren Wiederholung und Vertiefung sinnvoll wären. Ich denke, dass Sie sich diese Referenzen am sinnvollsten in der Reihenfolge, in der Sie aufgeführt werden, anschauen. • Huff (1954), How to lie with statistics: Kurz und gut verständlich. Behandelt Themen wie täuschende Mittelwerte und Grafiken und selektives Berichten von Studien. • Johnson (2013), Descriptive statistics: Wiederholung von Mittelwerten, Varianz und Verteilungen. • Quené (2010), How to design and analyze language acquisition studies: Nützliche Wiederholung von Konzepten wie Nullhypothesen, Typ-I-Fehler, power, Effektgrössen und benötigten Stichprobengrössen. Quenés Ratschlag, “[y]ou should really think about how the data will be analyzed before the data are collected”, kann ich nur lautstark zustimmen. • Goodman (2008), A dirty dozen: Twelve p-value misconceptions: p-Werte werden oft falsch bzw. überinterpretiert; dieser Artikel fasst die schwerwiegendsten Trugschlüsse zusammen. • Cohen (1990), Things I have learned (so far); Cohen (1994), The Earth is round (p < .05): Nützliche allgemeine Hinweise für den Umgang mit quantitativen Daten sowie auch verständliche Einwände gegen p-Werte. • Gelman & Stern (2006), The difference between “significant” and “not significant” is not itself statistically significant: Sie stellen fest, dass ein Prädiktor in der einen Stichprobe oder Experimentalgruppe einen signifikanten Effekt hat, in der anderen jedoch nicht. Bevor Sie auf der Basis dieses Unterschieds Schlussfolgerungen ziehen, lohnt sich eine Lektüre dieses Artikels. Ergänzend dazu habe ich noch den Blogeintrag Assessing differences of significance geschrieben. • Johnson (2008), Quantitative methods in linguistics: Wiederholung von den häufigsten Testverfahren (t-Test, Korrelation, Regression, ANOVA, χ2 -Test) sowie auch eine Einführung in fortgeschrittenere Methoden (repeated-measures ANOVA, gemischte Modelle, Hauptkomponentenanalyse, logistische Regression). 140 KAPITEL 9. LITERATUREMPFEHLUNGEN 9.2 141 Fortgeschrittenere Methoden In diesem Kurs haben wir uns mit den Grundlagen der quantitativen Analyse befasst. Dabei mussten wir uns leider hauptsächlich mit eher einfachen Forschungsfragen und fiktiven Datensätzen zufriedengeben. Der Grund ist naheliegend: Echte Fragenstellungen bedingen oft kompliziertere Designs mit etwa mehreren Messungen pro Versuchsperson oder sonstigen Abhängigkeiten (z.B. SchülerInnen aus unterschiedlichen Klassen). Um die Daten solcher Studien auszuwerten, sind oft fortgeschrittenere Verfahren angebracht. Diese Verfahren kann man sich aus meiner Sicht nach dem Need-to-know-Prinzip aneignen, aber zunächst ist es natürlich nötig zu wissen, welche Möglichkeiten es alles gibt. Die folgenden Texte besprechen Verfahren, die sich bei der Auswertung linguistischer und psychologischer Daten oft als nützlich erweisen, und werden ihrer empfohlenen Lesereihenfolge nach aufgeführt: • Winter (2013), Linear models and linear mixed effects models in R with linguistic applications: Eine Anleitung zu Regressionsmodellen, inkl. gemischte Modelle (siehe unten). • Baayen (2008), Analyzing linguistic data: A practical introduction to statistics using R: Nimmt schon an, dass man mit den Basisbegriffen vertraut ist. Illustriert viele nützliche fortgeschrittenere Methoden und grafische Darstellungen mit R. Insbesondere die Kapitel zu Regressionmodellen und gemischten Modellen sind empfehlenswert. Draftversion verfügbar unter www.sfs.uni-tuebingen.de/ hbaayen/publications/baayenCUPstats.pdf. • Baayen et al. (2008), Mixed-effects modeling with crossed random effects for subjects and items; Jaeger (2008), Categorical data analysis: Away from ANOVAs (transformation or not) and towards logit mixed models; Quené & van den Bergh (2008), Examples of mixed-effects modeling with crossed random effects and with binomial data: Gemischte Modelle bieten sich an, wenn jede Versuchsperson mehrere Datenpunkte beiträgt, wie es in psycholinguistischen Experimenten oder in Korpusstudien üblich ist, und auch in anderen Fällen können sie nützlich sein. Diese drei Artikel besprechen die Logik dieser gemischten Modelle und illustrieren ihren Mehrwert anhand (psycho)linguistischer Daten. • Johnson (2009), Getting off the GoldVarb standard: Introducing Rbrul for mixed-effects variable rule analysis; Tagliamonte & Baayen (2012), Models, forests, and trees of York English: Was/were variation as a case study for statistical practice: Wenn Ihre Forschung eher in der Dialektologie oder variationistischen Soziolinguistik angesiedelt ist, lohnt sich die Lektüre dieser beiden Artikel als Einstieg in die statistische Auswertung komplexerer Datensätze. Beide Artikel besprechen Alternativen zu dem, was man in der variationistischen Soziolinguistik als VARBRUL kennt. • Crawley (2007), The R book; Everitt & Hothorn (2010), A handbook of statistical analyses using R; Levshina (2015), How to do linguistics with R: Diese Bücher (wie auch viele andere) bieten eine Übersicht fortgeschrittenere Verfahren und ihre Implementierung in R. 9.3 Informative Grafiken erzeugen • Das ggplot2-Package (Wickham 2009) bietet fast unlimierte Möglichkeiten für die Herstellung informativer Grafiken. Seine Dokumentationswebseite ist dank der vielen Beispiele besonders nützlich. • Chang (2013), R graphics cookbook: Verwendet auch das ggplot2-Package. Kapitel 10 Praktische Empfehlungen 10.1 Planung • Machen Sie sich über bewährte Forschungsdesigns und Erhebungsmethoden schlau. Siehe hierzu etwa Blom & Unsworth (2010), Mackey & Gass (2012), Dörnyei (2003) und auch Porte (2002). Allgemeinere Referenzen sind etwa Krosnick & Presser (2010) zu Fragebogen und – technischer – Oehlert (2010) zu experimentellen Anordnungen. • Überlegen Sie sich die Analyse bereits bei der Planung der Studie. Manchmal kann das Design der Studie noch minimal geändert werden, um die Analyse zu vereinfachern. Wenn trotzdem eine schwierigere Analyse angesagt ist, sollten Sie sich genügend Zeit gönnen, sich über die benötigten Verfahren schlau zu machen. • Überlegen Sie sich im Vorhinein gut, für welche Vergleiche und Zusammenhänge Sie sich genau interessieren. Die Analyse ist bei einer deutlichen Forschungsfrage erheblich einfacher als bei einer vagen Vorstellung. • Pilotieren Sie unbedingt Ihre Studie. Wenn sich bei der Pilotierung etwa herausstellt, dass mit Boden- oder Deckeneffekten zu rechnen ist, können Sie dann hoffentlich das Design noch anpassen. • Überlegen Sie sich die power Ihrer Studie, auch wenn es schwierig ist, sie in einer genauen Zahl zu fassen. Die power könnte erhöht werden, indem mehr Versuchspersonen rekrutiert werden, genauere, zuversichtliche Messungen erhoben werden (z.B. Sprachtest statt Selbsteinschätzung), die Studie als ein within-subjects-Design gestaltet wird (aber hieran sind auch Nachteile verknüpft), mehrere Messungen pro Versuchsperson erhoben werden und für die Studie uninteressante Quellen von Varianz ausgeschlossen oder im Design und in der Analyse berücksichtigt werden (siehe Seiten 90 und 108). 10.2 Analyse • Tippen Sie Ihre Befehle nicht direkt in R ein, sondern schreiben Sie diese zuerst in ein Skript. Kommentieren Sie die Schritte in Ihrer Analyse: Jetzt sind diese nachvollziehbar, aber in vier Monaten werden Sie nicht mehr wissen, was welcher Befehl genau bewirken soll. • Zeichnen Sie beim Analysieren reichlich Grafiken: Nie blind herumrechnen! Kodierungsfehler, Fehler beim Einlesen, problematische Ausreisser und sonstige relevante Muster 142 KAPITEL 10. PRAKTISCHE EMPFEHLUNGEN 143 werden so am schnellsten ersichtlich. • Stellen Sie sich bei jedem Signifikanztest die Fragen: “Was macht dieser Test eigentlich? Und interessiert mich das?” So vergleicht man mit t-Tests und Varianzanalyse Mittel; bei deutlich schief- oder bimodalverteilten Daten dürften die Mittel weniger interessant sein. Ähnlich schaut man sich bei Korrelationen und Regression den linearen Zusammenhang an; bei stark nicht-linearen Zusammenhängen dürften diese Verfahren nicht so relevant sein. Die Frage nach den Annahmen der Tests erübrigt sich oft so: Wenn Sie feststellen, dass die Daten stark schief statt ungefähr normalverteilt sind, können Sie zwar oft noch einen t-Test ausführen, wollen dies aber nicht mehr unbedingt. 10.3 Bericht • Nehmen Sie Rücksicht auf Ihre Leserschaft. Viele LinguistInnen, geschweige denn Laien, sind nicht stark quantitativ ausgebildet. Wenn Sie vor ein paar Monaten bei gewissen Verfahren Verständnisschwierigkeiten hatten, wird dies für einen Teil Ihrer Leserschaft wohl auch zutreffen. Dazu noch: – Artikel voller ANOVAs sind schlicht unlesbar: Nicht jede quantitative Aussage muss mit einem Test belegt werden. Sparen Sie die Tests für Ihre zentralen Forschungsfragen auf und nehmen Sie sich die Mühe, diese auch zu erklären. – Sie brauchen nicht jede Dezimalzahl, die R Ihnen ausspuckt, zu berichten. Es ist schwierig, hierzu einfache Ratschläge zu machen (siehe aber Ehrenberg 1981). Wenn aber etwa Reaktionszeiten in Millisekunden gemessen wurden, ist ein berichtetes Mittel von 873.54 ms nicht ‘wissenschaftlicher’ oder ‘genauer’ als ein berichtetes Mittel von 874 ms. Ähnlich enthält ein t-Wert von 2.7654 nicht mehr sinnvolle Informationen als ein berichteter t-Wert von 2.8. Und wenn Sie für Ihre Altersvariable eine Standardabweichung von 2.83 Monaten berichten, berichten Sie eigentlich, dass die Standardabweichung 2 Monaten, 24 Tage, 6 Stunden und 36 Minuten beträgt. – Stellen Sie die zentralen Befunde Ihrer Studie im Bericht grafisch dar und stellen Sie die Befunde anhand der Grafiken (und nicht anhand der Inferenzstatistik) der Leserschaft vor. In eine gute Grafik sollte man gerne Zeit und Aufwand investieren. • Sagen Sie ehrlich und deutlich, welche Analysen Post-Hoc-Analysen sind – auch wenn diese im Nachhinein betrachtet theoretisch Sinn ergeben. • Bleiben Sie sich der Tatsache bewusst, dass bei einer grossen Anzahl Analysen einige davon rein zufällig Signifikanz ergeben dürften. Siehe noch Simmons et al. (2011) und Gelman & Loken (2013). • Überlegen Sie sich, ob Sie nicht vielleicht Ihren Datensatz und Ihren R-Kode – wie einfach dieser auch sein mag – im Geiste der wissenschaftlicen Transparenz online stellen können. Ich stelle meine Daten und Kode meistens auf FigShare. • Der Unterschied zwischen p = 0.04 und p = 0.06 ist minimal – und dies gilt in beiden Richtungen: Ein p-Wert von 0.06 kann man zwar noch optimistisch als ‘fast signifikant’ betrachten, aber genauso gilt, dass ein p-Wert von 0.04 nicht gerade die überzeugendste Evidenz gegen die Nullhypothese darstellt. Letzten Endes sind Signifikanztests nur ein Hilfsmittel – der wahre Nachweis einer Theorie liegt in ihrer wiederholten empirischen Bestätigung. Gelman & Hill (2007, Anhänge A und B) geben weitere praktische Tipps für die Analyse und das Berichten. KAPITEL 10. PRAKTISCHE EMPFEHLUNGEN 10.4 144 Probleme lösen • Eine Übersicht über die häufigsten Fehlermeldungen in R und mögliche Lösungen finden Sie unter www.wcsmalaysia.org/analysis/R_ commonErrors.htm. • Die Mailingliste ling-r-lang-L ist eine Art Selbsthilfegruppe für LinguistInnen, die Fragen zu R oder Statistik im Allgemeinen haben. • Für Fragen zu Statistik kann man sich auch an die Cross Validated-BenützerInnen wenden; für R-Fragen an Stack Overflow. • Wen Sie auch um Hilfe bitten: Stellen Sie konkrete Fragen und nehmen Sie sich die Mühe, ein minimal working example mitzuliefern. (Oft findet man beim Erzeugen eines solchen MWE selbst das Problem.) Zeigen Sie auch den Output der Funktion sessionInfo(). Literaturverzeichnis Abbuhl, Rebekha, Susan Gass & Alison Mackey. 2013. Experimental research design. In Podesva & Sharma (2013) 116–134. Abrahamsson, Niclas & Kenneth Hyltenstam. 2009. Age of onset and nativelikeness in a second language: Listener perception versus linguistic scrutiny. Language Learning 59. 249–306. Altman, Douglas G. & Patrick Royston. 2006. The cost of dichotomising continuous variables. BMJ 332. 1080. doi:10.1136/bmj.332.7549.1080. Baayen, R. H., D. J. Davidson & D. M. Bates. 2008. Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language 59. 390–412. Baayen, R. Harald. 2008. Analyzing linguistic data: A practical introduction to statistics using R. Cambridge: Cambridge University Press. Baguley, Thom. 2009. Standardized or simple effect size: What should be reported? British Journal of Psychology 100. 603–617. Bender, Ralf & Stefan Lange. 2001. Adjusting for multiple testing: when and how? Journal of Clinical Epidemiology 54. 343–349. Bland, J. Martin & Douglas G. Altman. 1994. One and two sided tests of significance. BMJ 309. 248. Blom, Elma & Sharon Unsworth (eds.). 2010. Experimental methods in language acquisition research. Amsterdam: John Benjamins. Camilli, Gregory & Kenneth D. Hopkins. 1978. Applicability of chi-square to 2 × 2 contingency tables with small expected cell frequencies. Psychological Bulletin 85(1). 163–167. Carifio, James & Rocco Perla. 2008. Resolving the 50-year debate around using and misusing Likert scales. Medical Education 42. 1150–1152. Chang, Winston. 2013. R graphics cookbook: Practical recipes for visualizing data. Beijing: O’Reilly. Clark, Herbert H. 1973. The language-as-fixed-effect fallacy: A critique of language statistics in psychological research. Journal of Verbal Learning and Verbal Behavior 12. 335–359. Cleveland, William S. 1993. Visualizing data. Murray Hill, NJ: AT&T Bell Laboratories. Cohen, Jacob. 1983. The cost of dichotomization. Applied Psychological Measurement 7. 249–253. Cohen, Jacob. 1990. Things I have learned (so far). American Psychologist 45. 1304–1312. Cohen, Jacob. 1992. A power primer. Psychological Bulletin 112. 155–159. Cohen, Jacob. 1994. The Earth is round (p < .05). American Psychologist 49. 997–1003. Costa, Albert, Alice Foucart, Inbal Arnon, Melina Aparici & Jose Apesteguia. 2014a. ‘Piensa’ twice: On the foreign language effect in decision making. Cognition 130(2). 236–254. 145 LITERATURVERZEICHNIS 146 Costa, Albert, Alice Foucart, Sayuri Hayakawa, Melina Aparici, Jose Apesteguia, Joy Heafner & Boaz Keysar. 2014b. Your morals depend on language. PLOS ONE 9. e94842. doi:10.1371/ journal.pone.0094842. Crawley, Michael J. 2007. The R book. Chichester: Wiley. DeKeyser, Robert, Iris Alfi-Shabtay & Dorit Ravid. 2010. Cross-linguistic evidence for the nature of age effects in second language acquisition. Applied Psycholinguistics 31. 413–438. Dienes, Zoltan. 2011. Bayesian versus orthodox statistics: Which side are you on? Perspectives on Psychological Science 6. 274–290. Dörnyei, Zoltán. 2003. Questionnaires in second language research: Construction, administration, and processing. Mahwah, NJ: Lawrence Erlbaum. Ehrenberg, A. S. C. 1981. The problem of numeracy. The American Statistician 35(2). 67–71. Ehrenberg, A. S. C. 1982. A primer in data reduction: An introductory statistics textbook. Chichester: Wiley. Eisenhauer, Joseph G. 2008. Degrees of freedom. Teaching Statistics 30. 75–78. Ernst, Michael D. 2004. Permutation methods: A basis for exact inference. Statistical Science 19. 676–685. Everitt, Brian S. & Torsten Hothorn. 2010. A handbook of statistical analyses using r. Boca Raton, FL: Chapman & Hall/CRC 2nd edn. Faraway, Julian J. 2006. Extending the linear model with r: Generalized linear, mixed effects and nonparametric regression models. Boca Raton, FL: Chapman & Hall/CRC. Ferragne, Emmanuel & François Pellegrino. 2010. Formant frequencies of vowels in 13 accents of the British Isles. Journal of the International Phonetic Association 40. 1–34. Gelman, Andrew & John Carlin. 2014. Beyond power calculations: Assessing Type S (sign) and Type M (magnitude) errors. Perspectives on Psychological Science 9(6). 641–651. Gelman, Andrew & Jennifer Hill. 2007. Data analysis using regression and multilevel/hierarchical models. New York: Cambridge University Press. Gelman, Andrew & Eric Loken. 2013. The garden of forking paths: Why multiple comparisons can be a problem, even when there is no ‘fishing expedition’ or ‘p-hacking’ and the research hypothesis was posited ahead of time. http://www.stat.columbia.edu/~gelman/research/ unpublished/p_hacking.pdf. Gelman, Andrew & Hal Stern. 2006. The difference between “significant” and “not significant” is not itself statistically significant. The American Statistician 60. 328–331. Goodman, Steven. 2008. A dirty dozen: Twelve p-value misconceptions. Seminars in Hematology 45. 135–140. Green, Donald P. & Elizabeth Levy Paluck. 2004. Double-blind procedure. In Michael S. LewisBeck, Alan Bryman & Tim Futing Liao (eds.), The SAGE encyclopedia of social science research methods, 285–286. Thousand Oaks, CA: Sage. Guiora, Alexander Z., Benjamin Beit-Hallahmi, Robert C. L. Brannon, Cecelia Y. Dull & Thomas Scovel. 1972. The effects of experimentally induced changes in ego state on pronunciation ability in a second language: An exploratory study. Comprehensive Psychiatry 13(5). 421–428. Hoekstra, Rink, Richard D. Morey, Jeffrey N. Rouder & Eric-Jan Wagenmakers. 2014. Robust misinterpretation of confidence intervals. Psychonomic Bulletin & Review 21(5). 1157–1164. LITERATURVERZEICHNIS 147 Honaker, James, Gary King & Matthew Blackwell. 2012. Amelia: Amelia II: A program for missing data. R package, version 1.6.4. http://cran.r-project.org/package=Amelia. Huff, Darrell. 1954. How to lie with statistics. New York: Norton. Huitema, Bradley E. 2011. The analysis of covariance and alternatives: Statistical methods for experiments, quasi-experiments, and single-case studies. Hoboken, NJ: Wiley. Imai, Kosuke, Gary King & Elizabeth A. Stuart. 2008. Misunderstandings between experimentalists and observationalists about causal inference. Journal of the Royal Statistical Society: Series A (Statistics in Society) 171. 481–502. Jaeger, T. Florian. 2008. Categorical data analysis: Away from ANOVAs (transformation or not) and towards logit mixed models. Journal of Memory and Language 59. 434–446. Jaeger, T. Florian, Peter Graff, William Croft & Daniel Pontillo. 2011. Mixed effect models for genetic and areal dependencies in linguistic typology. Linguistic Typology 15. 281–320. Johnson, Daniel Ezra. 2009. Getting off the GoldVarb standard: Introducing Rbrul for mixedeffects variable rule analysis. Language and Linguistics Compass 3(1). 359–383. Johnson, Daniel Ezra. 2013. Descriptive statistics. In Podesva & Sharma (2013) 288–315. Johnson, Jacqueline S. & Elissa L. Newport. 1989. Critical period effects in second language learning: The influence of maturational state on the acquisition of English as a second language. Cognitive Psychology 21. 60–99. Johnson, Keith. 2008. Quantitative methods in linguistics. Malden, MA: Blackwell. Kaiser, Irmtraud & Elisabeth Peyer. 2011. Grammatikalische Schwierigkeiten beim Lesen in Deutsch als Fremdsprache: eine empirische Studie. Hohengehren: Schneider Verlag. Kerr, Norbert L. 1998. HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review 2. 196–217. Keysar, Boas, Sayuri L. Hayakawa & Sun Gyu An. 2012. The foreign-language effect: Thinking in a foreign tongue reduces decision biases. Psychological Science 23(6). 661–668. Klein, Richard A, Kate A Ratliff, Michelangelo Vianello, Reginald B Adams Jr, Štěpán Bahník, Michael J Bernstein, Konrad Bocian, Mark J Brandt, Beach Brooks, Claudia Chloe Brumbaugh et al. 2014. Investigating variation in replicability: A “many labs” replication project. Social Psychology 45(3). 142–152. Krosnick, Jon A. & Stanley Presser. 2010. Question and questionnaire design. In Peter V. Marsden & James D. Wright (eds.), Handbook of survey research, 263–313. Bingley: Emerald 2nd edn. Kruschke, John K. 2011. Doing Bayesian data analysis. A tutorial with R and BUGS. Burlington, MA: Academic Press. Levshina, Natalia. 2015. How to do linguistics with R: Data exploration and statistical analysis. Amsterdam: John Benjamins. Ludbrook, John. 2008. Analysis of 2 × 2 tables of frequencies: matching test to experimental design. International Journal of Epidemiology 37. 1430–1435. Mackey, Alison & Susan M. Gass (eds.). 2012. Research methods in second language acquisition: A practical guide. Chichester: Wiley-Blackwell. Mook, Douglas G. 1983. In defense of external invalidity. American Psychologist 38. 379–387. Morey, Richard D., Rink Hoekstra, Jeffrey N. Rouder, Michael D. Lee & Eric-Jan Wagenmakers. 2015. The fallacy of placing confidence in confidence intervals. Psychonomic Bulletin & LITERATURVERZEICHNIS 148 Review 23(1). 103–123. doi:10.3758/s13423-015-0947-8. https://learnbayes.org/papers/ confidenceIntervalsFallacy/. Nakawaga, Shinichi. 2004. A farewell to Bonferroni: the problems of low statistical power and publication bias. Behavioral Ecology 15. 1044–1045. Norman, Geoff. 2010. Likert scales, levels of measurement and the “laws” of statistics. Advances in Health Science Education 15. 625–632. Oehlert, Gary W. 2010. A first course in the design and analysis of experiments. http://users.stat. umn.edu/~gary/book/fcdae.pdf. Perneger, Thomas V. 1998. What’s wrong with Bonferroni adjustments. BMJ 316. 1236–1238. Plonsky, Luke & Frederick L. Oswald. 2014. How big is “big”? Interpreting effect sizes in L2 research. Language Learning 64. 878–912. Podesva, Robert J. & Devyani Sharma (eds.). 2013. Research methods in linguistics. Cambridge: Cambridge University Press. Porte, Graeme Keith. 2002. Appraising research in second language learning: A practical approach to critical analysis of quantitative research. Amsterdam: John Benjamins. Quené, Hugo. 2010. How to design and analyze language acquisition studies. In Elma Blom & Sharon Unsworth (eds.), Experimental methods in language acquisition research, 269–284. Amsterdam: John Benjamins. Quené, Hugo & Huub van den Bergh. 2008. Examples of mixed-effects modeling with crossed random effects and with binomial data. Journal of Memory and Language 59. 413–425. Rugg, D. 1941. Experiments in wording questions: II. Public Opinion Quarterly 5. 91–92. Ruxton, Graeme D. 2006. The unequal variance t-test is an underused alternative to Student’s t-test and the Mann–Whitney u test. Behavioral Ecology 17. 688–690. Ruxton, Graeme D. & Guy Beauchamp. 2008. Time for some a priori thinking about post hoc testing. Behavioral Ecology 19(3). 690–693. Sarkar, Deepayan. 2008. Lattice: Multivariate data visualization with R. New York: Springer. Schmidt, Frank L. 1996. Statistical significance testing and cumulative knowledge in psychology: Implications for training of researchers. Psychological Methods 1. 115–129. Simmons, Joseph P., Leif D. Nelson & Uri Simonsohn. 2011. False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science 22. 1359–1366. Stevens, S. S. 1946. On the theory of scales of measurement. Science 103. 677–680. Stocker, Ladina. 2014. The impact of foreign accent on credibility: An analysis of cognitive statement ratings at the crossroads of sociolinguistic and psycholinguistic approaches. Freiburg (CH) Universität Freiburg Schweiz MA thesis. Tagliamonte, Sali A. & R. Harald Baayen. 2012. Models, forests, and trees of York English: Was/were variation as a case study for statistical practice. Language Variation and Change 24. 135–178. Tversky, A. & D. Kahneman. 1981. The framing of decisions and the psychology of choice. Science 211. 453–458. Vanhove, Jan. 2013. The critical period hypothesis in second language acquisition: A statistical critique and a reanalysis. PLOS ONE 8. e69172. LITERATURVERZEICHNIS 149 Vanhove, Jan. 2014. Receptive multilingualism across the lifespan: Cognitive and linguistic factors in cognate guessing: University of Fribourg dissertation. http://ethesis.unifr.ch/theses/ downloads.php?file=VanhoveJ.pdf. Vanhove, Jan. 2015a. Analyzing randomized controlled interventions: Three notes for applied linguists. Studies in Second Language Learning and Teaching 5. 135–152. Vanhove, Jan. 2015b. The early learning of interlingual correspondence rules in receptive multilingualism. International Journal of Bilingualism OnlineFirst. Vanhove, Jan & Raphael Berthele. 2013. Factoren bij het herkennen van cognaten in onbekende talen: algemeen of taalspecifiek? Taal & Tongval 65. 171–210. Velleman, Paul F. & Leland Wilkinson. 1993. Nominal, ordinal, interval, and ratio typologies are misleading. The American Statistician 47. 65–72. Wagenmakers, Eric-Jan, Angelos-Miltiadis Krypotos, Amy H. Criss & Geoff Iverson. 2012. On the interpretation of removable interactions: A survey of the field 33 years after Loftus. Memory & Cognition 40. 145–160. Wickham, Hadley. 2009. ggplot2: Elegant graphics for data analysis. Dordrecht: Springer. Wickham, Hadley. 2014. Tidy data. Journal of Statistical Software 59. Winter, Bodo. 2013. Linear models and linear mixed effects models in R with linguistic applications. arXiV. http://arxiv.org/abs/1308.5499.