+x - Methodenlehre - Johannes Gutenberg
Transcription
+x - Methodenlehre - Johannes Gutenberg
Methoden der Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Forschungsstatistik I Sprechstunde jederzeit nach Vereinbarung Dr. Malte Persike [email protected] http://psymet03.sowi.uni-mainz.de/ WS 2009/2010 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz Methoden der Psychologie Nominalskala Ordinalskala Skalenniveaus Mathe Recap Skalenniveaus Wir haben bereits eine Unterscheidung von Typen von Variablen anhand der Art der Daten kennen gelernt. Intervallskala Eine diskrete Variable besitzt zumeist endlich viele und feste Ausprägungen, die man über Ganzzahlen beschreiben kann Höhere Skalenniveaus Eine kontinuierliche (stetige) Variable kann (unendlich viele) beliebige Ausprägungen annehmen, die man über reelle Zahlen beschreibt Eine andere Unterscheidung anhand der Art der Daten unterteilte Variablen in qualitative und quantitative Variablen. Methoden der Psychologie Nominalskala Ordinalskala Skalenniveaus Mathe Recap Skalenniveaus Eine statistisch sinnvolle Art der Klassifikation von Variablen ist die Einteilung in Skalenniveaus. Intervallskala Höhere Skalenniveaus • Nominalskala • Ordinalskala • Intervallskala • Verhältnisskala (Ratioskala) • Absolutskala Der Informationsgehalt nimmt von der Nominalskala zur Absolutskala hin zu Bei Messungen psychischer Merkmale kommen die Verhältnis- und die Absolutskala so gut wie nie vor Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Nominalskala – Definition Ordinalskala Bei einer Nominalskala werden den Realisationen einer Variablen Zahlen mit dem Ziel zugeordnet, Kategorien zu unterscheiden Die Zahlen selbst sind nicht interpretierbar Die Anwendung der üblichen Rechenoperationen auf die Werte einer nominalskalierten Variablen ist im Allgemeinen nicht sinnvoll Intervallskala Höhere Skalenniveaus Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Nominalskala – Beispiele Ordinalskala Konstitutionstypen Intervallskala Höhere Skalenniveaus a) Leptosomer Typ Temperamentstypen b) Athletischer Typ c) Pyknischer Typ Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Nominalskala – Zulässige Transformationen Ordinalskala Intervallskala Höhere Skalenniveaus Zulässige Transformationen sind eineindeutige Abbildungen, so dass die Unterscheidbarkeit der Werte erhalten bleibt. Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Ordinalskala – Definition Ordinalskala Bei einer Ordinalskala können die Realisationen einer Variablen geordnet werden Intervallskala Höhere Skalenniveaus Die Zuordnung der Zahlen zu den Ausprägungen spiegelt die Ordnung wieder Abstände zwischen den Zahlen können nicht interpretiert werden Die Anwendung von Rechenoperationen auf die Werte einer ordinalskalierten Variablen ist unter bestimmten Voraussetzungen erlaubt, aber im Allgemeinen eher wenig sinnvoll Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Ordinalskala – Beispiel Ordinalskala Social Penetration Theory von Altman und Taylor (1958) (I) Intervallskala Höhere Skalenniveaus (II) Orientierungsstadium: Sozial erwünschte Normen und Verhaltensschemata werden ausgetauscht (z.B. Smalltalk) Exploratorisch-affektives Stadium: Partielle Öffnung der eigenen Einstellungs- und Wahrnehmungswelt gegenüber dem Anderen im Hinblick auf private, vor allem aber berufliche und weltanschauliche Inhalte. Weiterhin vorsichtige Prüfung der Interaktionsformen („Bekanntschaftsphase“). (III) Affektives Stadium: Intensiver und möglicherweise kritischer Austausch über private und persönliche Themen. Körperliche Zuwendung wie Berühren und Küssen. (IV) Stabiles Stadium: Die Beziehung erreicht ein Plateau, (V) Depenetration: Zusammenbruch und mögliches Ende der persönliche Inhalte sind geteilt, Verhalten und Emotionen des Anderen vorhersagbar. Beziehung, Überwiegen von Kosten gegenüber dem Nutzen. Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Ordinalskala – Zulässige Transformationen Ordinalskala Intervallskala Höhere Skalenniveaus Zulässig sind alle streng monotonen Transformationen, so dass die Rangordnung der Werte erhalten bleibt. Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Intervallskala – Definition Ordinalskala Es wird eine Einheit definiert Intervallskala Höhere Skalenniveaus Es existiert kein natürlicher Nullpunkt Verhältnisse zwischen Differenzen können verglichen werden Wird am häufigsten in empirischen psychologischen Untersuchungen angenommen Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Intervallskala – Beispiel Ordinalskala Attitudes Toward Housecleaning Scale von Ogletree, Worthen, Turner & Vickers (2006). Intervallskala Höhere Skalenniveaus Ihre Aufgabe ist es, ihre Gefühle gegenüber jeder Aussage dahingehend zu kennzeichnen, ob sie (1) stark zustimmen, (2) etwas zustimmen, (3) weder zustimmen noch ablehnen, (4) etwas ablehnen oder (5) stark ablehnen. Bitte verdeutlichen Sie Ihre Meinung dadurch, dass sie entweder 1, 2, 3, 4 oder 5 auf dem Antwortblatt schwärzen. Einen Stapel dreckigen Geschirrs über Nacht im Spülbecken liegen zu lassen finde ich ekelhaft. Ich finde Staubwischen entspannend. Den Müll rauszubringen macht mir Spaß Frauen sollten die primäre Verantwortung für die Hausarbeit übernehmen. Eine unordentliche Wohnung zu haben macht mir nichts Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Intervallskala – Zulässige Transformationen Ordinalskala Intervallskala Höhere Skalenniveaus Zulässig sind alle linearen Transformationen, so dass die Verhältnisse zwischen Differenzen erhalten bleiben. Methoden der Psychologie Nominalskala Skalenniveaus Skalenniveaus Mathe Recap Intervallskala – Zulässige Transformationen Ordinalskala Intervallskala Höhere Skalenniveaus Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Intervallskala – Kritische Betrachtung Ordinalskala Die bekanntesten und am meisten verbreiteten statistischen Verfahren setzen eine Intervallskala voraus Intervallskala Der Umgang mit niedrigeren Skalenniveaus ist mathematisch oftmals weitaus komplexer Höhere Skalenniveaus Die ungeprüfte Annahme der Intervallskala in psychologischen Untersuchungen ist oft problematisch Beispiele: IQ-Skala, 7-Punkte Likert Skala, Prüfungsnoten, Becks Depressionsskala (BDI) 0 – 13: 14 – 19: 20 – 28: 29 – 63: Keine bis minimale Depression Milde Depression Moderate Depression Schwere Depression Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Verhältnisskala – Definition Ordinalskala Bei der Verhältnisskala wird eine Einheit definiert Intervallskala Höhere Skalenniveaus Es existiert ein natürlicher Nullpunkt Verhältnisse zwischen Werten können verglichen werden Wird kaum in empirischen psychologischen Untersuchungen angenommen Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Verhältnisskala – Zulässige Transformationen Ordinalskala Intervallskala Höhere Skalenniveaus Zulässig sind alle Ähnlichkeitstransformationen, so dass die Verhältnisse zwischen Werten erhalten bleiben. Methoden der Psychologie Nominalskala Skalenniveaus Mathe Recap Skalenniveaus Absolutskala – Definition Ordinalskala Bei der Absolutskala ist die Einheit natürlich vorgegeben Intervallskala Höhere Skalenniveaus Es existiert ein natürlicher Nullpunkt Werte können direkt interpretiert werden Wird kaum in empirischen psychologischen Untersuchungen angenommen Es existieren keine erlaubten Transformationen Methoden der Psychologie Nominalskala Skalenniveaus Skalenniveaus Zusammenfassung Ordinalskala Intervallskala Höhere Skalenniveaus Mathe Recap Methoden der Psychologie Nominaldaten Ordinaldaten Diskrete Variablen Notation Variablen werden mit Großbuchstaben symbolisiert, häufig verwendet man X und Y Die Ausprägung einer Variablen wird dann mit den entsprechenden Kleinbuchstaben gekennzeichnet, also x und y Kann eine diskrete Variable X genau k Ausprägungen annehmen, so ist die i-te davon xi mit i = 1…k Die Aufzählung g aller k Ausprägungen p g g wird geschrieben als X ∈ {x1, …, xk} Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: Häufigkeiten Kreuztabellen Kennwerte Grafische Darstellung Nominalskalierte Variablen sind praktisch immer diskret und endlich Die empirische beobachtete Häufigkeit des Auftretens einer Ausprägung X = x wird als h(X = x) oder vereinfacht h(x) geschrieben. h( ) bezeichnet man als absolute Häufigkeit h(x) Die relative Häufigkeit f(X = x) bzw. f(x) ist dann definiert als der Quotient aus absoluter Häufigkeit und der Anzahl n aller Beobachtungen h( x ) f ( x) = ⇔ h( x ) = f ( x ) ⋅ n n Achtung: Relative Häufigkeiten sind nicht Wahrscheinnlichkeiten Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: univariate Kreuztabellen Kreuztabellen Kennwerte Grafische Darstellung Wert von X x1 x2 … xi … xk h(X = xi) h(x1) h(x2) … h(xi) … h(xk) f(X = xi) f(x1) f(x2) … f(xi) … f(xk) Die Sammlung der Werte der h(X = xi) und f(X = xi) fü alle für ll möglichen ö li h i = 1…k 1 k wird i d als l diskrete di k t Häufigkeitsverteilung bezeichnet Tabellarische Darstellung über Kreuztabellen (oder Kontingenztabellen) Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: bivariate Kreuztabellen Kreuztabellen Oft betrachtet man Häufigkeiten für das gemeinsame Auftreten zweier Merkmale Kennwerte B i i l F Beispiel: Frauen/Männer /Mä , die di unter-/normalt / l /übergewichtig sind Grafische Darstellung In diesem Fall werden 2 Variablen betrachtet: X: Geschlecht (x1, x2) Y: Gewichtsstatus (y1, y2, y3) Die Häufigkeiten sind nun so genannte Verbundhäufigkeiten, die das Vorkommen jeder möglichen Kombination aus x und y beschreiben Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: bivariate Kreuztabellen Kreuztabellen Kennwerte Absolute Verbundhäufigkeiten werden im bivariaten Fall symbolisiert als h(X=x, Y=y) bzw. h(x, y) Relative Verbundhäufigkeiten als f(X=x, Y=y) bzw. f(x, y) Tabellarische Darstellung über bivariate Kreuztabellen Grafische Darstellung Geschlecht Männlich (x1) Weiblich (x2) U t (y Unter ( 1) f( 1,y1) f(x f( 2,y1) f(x Gewicht Normal (y2) f(x1,y2) f(x2,y2) Über (y3) f(x1,y3) f(x2,y3) Σ f( 1,●)) f(x f( 2,●)) f(x Randhäufigkeiten Σ f(● 1) f(●,y f(●,y2) f(●,y3) f( ) f(●,●) Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Rechnen mit Häufigkeiten (am bivariaten Beispiel) Kreuztabellen Anzahl Beobachtungen: kx ky n = h(•, •) = ∑∑ h( xi , y j ) i =1 j =1 Kennwerte Randhäufigkeiten für x: Grafische Darstellung analog für f(xi,●) Randhäufigkeiten g für yy: analog für f(yj,●) ky h( xi , •) = ∑ h( xi , y j ) j =1 kx h(•, y j ) = ∑ h( xi , y j ) i =1 kx Darüber hinaus gilt: ky ∑∑ f ( x , y ) = 1 i =1 j =1 i j Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: multivariate Kreuztabellen Kreuztabellen Auch das gemeinsame Vorkommen von mehr als zwei Merkmalen ist über Kreuztabellen darstellbar Kennwerte Beispiel: Frauen/Männer, die unter-/normal/übergewichtig sind und Stricken/World of Grafische Darstellung W Warcraft ft spielen i l In diesem Fall werden 3 Variablen betrachtet: X: Geschlecht (x1, x2) Y: Gewichtsstatus (y1, y2, y3) Z: Freizeitbeschäftigung g g ((z1, z2) Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: multivariate Kreuztabellen Kreuztabellen Kennwerte Grafische Darstellung Absolute Verbundhäufigkeiten werden im multivariaten Fall symbolisiert als h(X=x, Y=y, …) bzw. h(x, y, …) Relative Verbundhäufigkeiten als f(X=x, Y=y, …) bzw. f(x, y, …) Tabellarische Darstellung über geschachtelte (oder „genestete genestete“)) Kreuztabellen Geschlecht Männlich (x1) Freizeit Gewicht Stricken (z1) Weiblich (x2) WoW (z2) Stricken (z1) WoW (z2) Unter (y1) f(x1,y1,z1) f(x1,y1,z2) f(x2,y1,z1) f(x2,y1,z2) Normal (y2) f(x1,y2,z1) f(x1,y2,z2) f(x2,y2,z1) f(x2,y2,z2) Über (y3) f(x1,yy3,z1) f(x1,yy3,z2) f(x2,yy3,z1) f(x2,yy3,z2) Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: Kennwerte Kreuztabellen Kennwerte Als Kennwert Al K t bezeichnet b i h t man ein i statistisches t ti ti h Maß, das eine Menge von Beobachtungen über zumeist nur eine Zahl beschreibt Kennwerte dienen damit der Datenreduktion Grafische Darstellung Kennwerte charakterisieren lediglich bestimmte Eigenschaften der gegebenen Menge von Beobachtungen, sie bedeuten als einen Informationsverlust Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Numerische Beschreibung: Kennwerte Kreuztabellen Ein Kennwert für nominalskalierte Daten ist der Modalwert (oder „Modus“) Kennwerte Er bezeichnet die unter den Beobachtungen am häufigsten vorkommende Ausprägung Grafische Darstellung xmod : x → f ( x) = max . Wichtig: i h i Der Modalwert d l ist nicht h die d Häufigkeit, f k sondern der Wert der häufigsten Ausprägung. Bei mehreren Maxima sinkt die Aussagekraft von xmod Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Grafische Beschreibung: Kreisdiagramm Kreuztabellen Kennwerte Grafische Darstellung Das KreisKreis oder Tortendiagramm stellt die relativen oder absoluten Häufigkeiten von Klassen als Kreissegmente eines Vollkreises („Tortenstücke“) dar. Der Öffnungswinkel α eines Tortenstücks ist dabei durch den Anteil der Klassenelemente an allen Elementen definiert und wird berechnet als h( x ) α = 360°°⋅ = 360° ⋅ f ( x) n Die Summe der Öffnungswinkel aller Kreissegmente sollte wieder 360° ergeben Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Grafische Beschreibung: Kreisdiagramm Kreuztabellen Beispiel: Von den 43 43.371.190 371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: Kennwerte 5161172 11.9% Grafische Darstellung 2602271 6.0% 9975374 23.0% 4640717 10.7% 6332194 14.6% 14659462 33.8% SPD CDU/CSU FDP Grüne Linke Sonstige Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Grafische Beschreibung: Säulendiagramm Kreuztabellen Kennwerte Grafische Darstellung Das Balken- oder Säulendiagramm stellt die relativen oder absoluten Häufigkeiten von Ausprägungen als Balken (waagerecht) oder Säulen (senkrecht) dar. Die verschiedenen möglichen Ausprägungen werden auch als Klassen bezeichnet Der Länge der Säulen bzw. Balken ist dabei durch den Anteil der Klassenelemente am Ganzen bzw bzw. die absolute Anzahl definiert. Die Breite der Balken variiert i.d.R. nicht innerhalb eines Balkendiagramms Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Grafische Beschreibung: Säulendiagramm Kreuztabellen Beispiel: Von den 43 43.371.190 371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: Grafische Darstellung Wahlergebn W nis in Mio. % Kennwerte 40 16 35 14 14.66 33.8% 30 12 25 10 20 8 9.98 23.0% 15 6 6 33 6.33 14.6% 10 4 4.64 10.7% 5.16 11.9% 5 2 2.60 6.0% 0 SPD CDU/CSU FDP Grüne Linke Sonstige Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Nominaldaten Grafische Beschreibung: Säulendiagramm Kreuztabellen Warum gleiche Säulenbreiten? Kennwerte Grafische Darstellung Menschen neigen zur Größenbewertung anhand der Fläche. Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Häufigkeiten Kreuztabellen und Klassen Ordinalskalierte Variablen sind sehr häufig diskret und endlich Kennwerte Es gelten die bereits eingeführten Notationen und Berechnungsvorschriften für empirische Häufigkeiten Grafische Darstellung Neben der Häufigkeitsverteilung g g kann auch noch die empirische Verteilungsfunktion bestimmt werden. Diese g gibt an, wie viele Beobachtungen g kleiner oder gleich einer bestimmten Ausprägung x sind. Zur Berechnung der Verteilungsfunktion müssen die Ausprägungen zunächst der Größe nach geordnet werden. Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Häufigkeiten Kreuztabellen und Klassen Empirische Häufigkeitsverteilung und Verteilungsfunktion: Wert von X (geordnet) Kennwerte x1 x2 … xk f(X = xi) F(X ≤ xi) f(x1) f(x2) … f(xk) f(x1) f(x1)+f(x2) … f(x1)+f(x2)+…+f(xk) Grafische Darstellung Berechnungsvorschrift: analog für absolute Vert.funkt. H(X ≤ xi) i F ( X ≤ xi ) = ∑ f ( x j ) Für Ordinaldaten gelten die bereits eingeführten Konventionen zur Erstellung von Kreuztabellen j =1 Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Kennwerte Kreuztabellen und Klassen Kennwerte Grafische Darstellung M ß d Maße der zentralen t l Tendenz T d • Median A d Andere Lagemaße L ß • Modalwert • Extrema (Minimum, Maximum) • Quantile l Streuungsmaße (Dispersionsmaße) • Spannweite • (Halber) Interquartilsabstand Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Median Kreuztabellen und Klassen Kennwerte Mindestens Mi d t 50% der d Beobachtungen B b ht einer i Variablen V i bl sind kleiner oder gleich dem Median Mindestens 50% der Beobachtungen einer Variablen sind größer oder gleich dem Median Notation: Grafische Darstellung xmed oder x Problem: Bei einer geraden Zahl von Beobachtungen ist der Median nicht eindeutig Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Median Berechnung des Kreuztabellen und Klassen Median Daten sortieren Kennwerte n ungerade Grafische Darstellung Der n −1 +1 2 Wert n gerade Mittel zwischen te n t tem 2 und n + 1 ten 2 Wert Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Median Kreuztabellen und Klassen Kennwerte Der Median stimmt häufig mit keiner beobachteten Ausprägung überein Median (und auch der Modalwert) sind äquivariant gegenüber gewissen (z.B. linearen) Transformationen Insbesondere Grafische Darstellung 1. Addition einer Konstanten c zu allen n Beobachtungen x1 … xn xk + c = x + c 2. Multiplikation aller n Beobachtungen x1 … xn mit einer Konstanten c xk ⋅ c = x ⋅ c Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Quantile Kreuztabellen und Klassen Quantile sind Zahlen, Zahlen die einen Datensatz mit n Beobachtungen in bestimmtem Verhältnis teilen p-Quantil (0 < p < 1) besitzt folgende Eigenschaften: Kennwerte Grafische Darstellung 1. Mindestens n·p Beobachtungen sind kleiner oder gleich dem Quantil 2. Mindestens nn·(1 (1 – p) Beobachtungen sind größer oder gleich dem Quantil Notation: xp (z. B. x0.75) Je nach der Anzahl von Unterteilungen unterscheidet man Centile (100er Einteilung), Dezentile (10er Einteilung) und Quartile (4er Einteilung) Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Quantile Kreuztabellen und Klassen Kennwerte Vorgehensweise bei der Quantilbestimmung Gegeben: Beobachtungen: x1,…,xn Ordnen der Beobachtungen nach aufsteigender Größe: x(1),…,x(n) Bestimmung des Quantils xp Grafische Darstellung Fall 1: n·p ganzzahlig: xp=(xn·p+xn·p+1)/2 Fall 2: n·p nicht ganzzahlig: xp=x([n·p]+1) Hier bezeichnet [n·p] die größte ganze Zahl, welche kleiner oder gleich n·p ist, also die Abrundung von n·p. Damit beschreibt [n·p] + 1 also die Aufrundung des Wertes von n·p. Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Quantile Kreuztabellen und Klassen Wichtige Quantile sind: Minimum (0. (0 Quartial) und Maximum (4. (4 Quartil) Kennwerte Median (50% Quantil, 2. Quartil) Grafische Darstellung 25% Quantil (1. Quartil, unteres Quartil) und 75% Quantil (3. Quartil, oberes Quartil) Dezile: x.10, x.20, …, x.90 Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Quantile – A cautionary note about conventions Kreuztabellen und Klassen In Literatur und Softwarepaketen sind die Berechnungsvorschriften für Quantile häufig unterschiedlich definiert oder sogar fehlerhaft fehlerhaft. Kennwerte Grafische Darstellung Maß Unsere Formeln Excel SPSS Median 137.5 137.5 137.5 1. Quartil 130 5 130.5 132 25 132.25 128 75 128.75 3. Quartil 146 145 147 Für den Beispieldatensatz mit n n=12. 12 Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Spannweite Kreuztabellen und Klassen Die Spannweite dk ist die Differenz zwischen dem kleinsten und größten Wert aller Ausprägungen. Sie ist definiert als: Kennwerte Grafische Darstellung d k = xmax − xmin Die Spannweite ist nicht identisch mit der Anzahl unterschiedlicher Ausprägungen. Diese wäre xmax – xmin + 1. Die Spannweite ist eher uninformativ, da sie nur zwei von k Ausprägungen berücksichtigt. Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Numerische Beschreibung: Interquartilsabstand Kreuztabellen und Klassen Der Interquartilsabstand dq ist die Differenz zwischen dem 1. und 3. Quartil Er ist definiert als Kennwerte d q = x.75 75 − x.25 25 Grafische Darstellung Manchmal M h l wird i d ein i halber h lb Interquartilsabstand berechnet als dq/2. Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Grafische Beschreibung: Stamm-Blatt Diagramm Kreuztabellen und Klassen Kennwerte Grafische Darstellung Das Stamm-Blatt Diagramm stellt Häufigkeitsdaten grafisch ohne Verlust von Informationen dar. dar Es eignet sich besonders für kleine Datensätze. Das Diagramm besteht aus 2 Spalten Stamm = Äquivalenzklassen (feste Dezimalstellen) Blätter = Merkmale (variable Dezimalstellen) Die Stammbreite bezeichnet dabei die Breite der Klassen des Stamm-Blatt Diagramms Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Grafische Beschreibung: Stamm-Blatt Diagramm Kreuztabellen und Klassen Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. Kennwerte (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) Grafische Darstellung 0 1 2 3 2 0 0 0 8 1 1 2 3 4 5 7 8 9 1 1 3 3 4 4 5 5 6 7 7 8 8 9 9 2 Mit Stammbreite = 10 Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Grafische Beschreibung: Stamm-Blatt Diagramm Kreuztabellen und Klassen Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. Kennwerte (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) Grafische Darstellung 0 0 1 1 2 2 3 2 8 0 5 0 5 0 1 7 1 5 2 1 8 1 6 2 3 4 9 3 3 4 4 7 7 8 8 9 9 Mit Stammbreite = 5 Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Grafische Beschreibung: Stamm-Blatt Diagramm Kreuztabellen und Klassen Das Stamm- Blatt Diagramm eignet sich auch zum Vergleich zweier Verteilungen. Kennwerte Grafische Darstellung 0 1 5 0 1 1 1 2 3 3 5 5 6 7 8 0 2 3 6 2 7 4 9 4 7 4 9 4 9 4 0 0 1 1 2 2 3 Mit Stammbreite = 5 2 8 0 5 0 5 0 1 7 1 5 2 1 8 1 6 2 3 4 9 3 3 4 4 7 7 8 8 9 9 Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Grafische Beschreibung: Empirische Verteilungsfunktion Kreuztabellen und Klassen Die empirische p Verteilungsfunktion g ist definiert als k F ( x) = F ( X ≤ xk ) = ∑ fi i =1 Kennwerte Grafische Darstellung Note x h(x) f(x) F(x) 1 7 0.17 0.17 2 13 0.32 0.49 3 11 0 27 0.27 0 76 0.76 4 6 0.15 0.91 5 3 0 07 0.07 0 98 0.98 6 1 0.02 1.00 Zur grafischen Darstellung werden also die empirischen relativen g aufsummiert Häufigkeiten Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Kreuztabellen und Klassen Kennwerte Grafische Darstellung Mithilfe der Fünf-PunkteZusammenfassung (xmin, x.25, xmed, x.75, xmax) können Häufigkeitsdaten grafisch am Boxplot veranschaulicht werden. Diese Variante ist problematisch, weil A Ausreißer iß die di Länge Lä der d Whisker erheblich vergrößern können xmax 15 x.75 75 x x.25 25 12 9 6 3 xmin 0 Note Methoden der Psychologie Häufigkeiten Nominaldaten Ordinaldaten Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Kreuztabellen und Klassen Kennwerte Grafische Darstellung Eine zweite häufig verwendete Variante des Boxplots verwendet den 1.5fachen Interquartilsq abstand dq für die Länge der Whisker. Whisker enden am letzten Datenpunkt innerhalb ihrer Reichweite Datenpunkte außerhalb der Whisker werden explizit eingetragen. Ausreißer >3dq werden mit Sternchen (*) markiert. 15 1.5 d q x.75 75 dq x x.25 25 12 9 6 1.5 d q 3 8 0 Note < 3 dq Methoden der Psychologie Nominaldaten Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Ordinaldaten Methoden der Psychologie Nominaldaten Ordinaldaten Grafische Beschreibung: Box-Whisker-Plot Ordinaldaten Methoden der Psychologie Nominaldaten Grafische Beschreibung How-not -to Ordinaldaten Methoden der Psychologie Nominaldaten Ordinaldaten Grafische Beschreibung How-not -to „Keine Geschlechterlücke mehr beim Gehalt von Führungskräften“ Methoden der Psychologie Nominaldaten Ordinaldaten Grafische Beschreibung How-not -to Bild fragt: „Brauchen wir eine Ausländerquote an deutschen Schulen?“ als Reaktion auf PISA 2008 Methoden der Psychologie Relevante Excel Funktionen Häufigkeitsberechnungen • Grundrechenarten: + +, -, - ×, × / • Formeln für Grundrechenarten: SUMME(), PRODUKT() Häufigkeitsdarstellungen g g • • • • ANZAHL2() ZÄHLENWENN() HÄUFIGKEIT() () Diagramme: Kreisdiagramm, Säulen-/Balkendiagramm Kennwerte • • • • • MIN(), MAX() [=Modalwert] Sortieren über das Menü ABRUNDEN(), AUFRUNDEN(), RUNDEN() INDEX() Direkte Formeln: MEDIAN(), QUANTIL(), QUARTILE() Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Kreuztabellen Grafische Darstellung I Kennwerte Grafische Darstellung II Problem: Intervallskalierte Variablen können u.U. beliebige Ausprägungen besitzen, die sich nicht mehr sinnvoll in einer Tabelle darstellen lassen Beispiele: Körpergrößen, Serotoninspiegel, Reaktionszeit Lösung: Es muss eine Aggregation vieler Ausprägungen in wenige Kategorien (oder „Klassen“) stattfinden Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Klassenbildung Grafische Darstellung I Die Messwertklassen dürfen sich nicht überschneiden, sie sind also wechselseitig ausschließend. Kennwerte Die untere und obere Klassengrenze UGi und OGi gehören zur Klasse ci, die untere Grenze der nächsten Klasse UGi+1 jedoch nicht. ci = [UGi … OGi] oder ci = [UGi … UGi+1) Grafische Darstellung II Alle Klassen haben im Normalfall dieselbe Breite. Die Anzahl der Klassen ist zunächst frei wählbar. wählbar Es ist aber zu beachten: 1. Es sollte keine leeren Klassen geben 2 Es sollten keine in den Daten enthaltenen 2. wichtigen Informationen „herausggregiert“ werden (z.B. mehrere Modalwerte) Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Klassenbildung Grafische Darstellung I Kennwerte Grafische Darstellung II Zur Bestimmung g der Anzahl von Klassen gibt g es verschiedene Formeln. Als Faustregeln gelten: Anzahl der Ausprägungen k Klassenzahl c 5 bi bis 50 5 bi bis 8 50 bis 100 6 bis 10 100 bis 250 7 bis 12 >250 8 bis 25 Eine einfache Formel, die oft zu einer sinnvollen Kl Klassenanzahl hl c führt, füh t lautet l t t c = log 2 ( n ) + 1 Statt der Beobachtungen n wird manchmal auch die Anzahl der Ausprägungen k verwendet. Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Klassenbildung Grafische Darstellung I 25 Abiturienten erreichen in ihrer Abschlussarbeit folgende Punktzahlen: (11, 9, 10, 12, 11, 6, 9, 1, 7, 4, 7, 14, 10, 8 11, 8, 11 13 13, 11 11, 13 13, 11, 11 15, 15 8 8, 10, 10 8, 8 12 12, 12) Kennwerte Schreibweise der Klassengrenzen in der Tabelle? Grafische Darstellung II Klasse 4 1–3 7 4–6 10 7–9 0 – 12 13 3 10 13 – 15 h(x) 1 1 6 0 10 7 f(x) 0 04 0.04 0.08 0.28 0 0.44 0.16 F(x) 0 04 0.04 0.12 0.40 08 0.84 1.00 Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Grafische Beschreibung: Histogramm Grafische Darstellung I Das Histogramm D Hi t stellt t llt di die Hä Häufigkeiten fi k it vieler i l Kategorien in einem Säulendiagramm mit weniger Klassen als Kategorien dar Kennwerte Die Klassen müssen nicht notwendig gleich breit sein Grafische Darstellung II Für die Klassenbildung beim Histogramm gelten dieselben Faustregeln wie bei den Kreuztabellen Die Fläche einer Säule repräsentiert die Häufigkeit der Elemente in der Klasse. g können dabei entweder absolute Die Häufigkeiten Häufigkeiten (absolutes Histogramm) sein oder relative Häufigkeiten (relatives, normiertes Histogramm) Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Grafische Beschreibung: Histogramm Grafische Darstellung I Kennwerte Da die Fläche Ai einer Säule die Häufigkeit repräsentiert, gilt für eine Klasse yi A = f(xi), und damit f(xi) = ai · di (ai ist die Höhe der Säule, di die Klassenbreite) S it ist Somit i t die di Höhe Höh einer i Säule Sä l Grafische Darstellung II ai = f(x f( i) / di Dies gilt auch für die Darstellung mit absoluten Häufigkeiten h(xi) Dann ist die Höhe einer Säule ai = h(xi) / di Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Grafische Beschreibung: Histogramm Beispiel: Verteilung des IQ in diesem Raum Raum. Student Kennwerte Grafische Darstellung II → 92 Werte zwischen 89 und 140 IQ 1 103 2 110 3 117 4 118 5 125 6 115 7 117 … … 92 97 hff(IQ) h(IQ) Grafische Darstellung I Methoden der Psychologie Intervalldaten z-Standardisierung Intervalldaten Grafische Beschreibung: Histogramm Achtung: Die Wahl der Klassenanzahl kann für die Aussage entscheidend sein. Beispiel: Körpergrößen an der Geisteswissenschaftlichen Fakultät der Uni Mainz Klassenbreite: 10 f(IQ) f(IQ) Klassenbreite: 25 Methoden der Psychologie Kreuztabellen Intervalldaten Intervalldaten z-Standardisierung Verbale Beschreibung: Schiefe Grafische Darstellung I Kennwerte Grafische Darstellung II Methoden der Psychologie Intervalldaten z-Standardisierung Intervalldaten Verbale Beschreibung: Modalität Die Modalität einer Verteilung bezieht sich auf die Anzahl der lokalen Maxima in den relativen bzw. absoluten Häufigkeiten f(x) bzw. h(x). Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Grafische Beschreibung: Empirische Verteilungsfunktion Grafische Darstellung I Die empirische p Verteilungsfunktion g ist definiert als k F ( X ≤ xk ) = F ( x) = ∑ f ( xi ) i =1 Kennwerte Grafische Darstellung II Note x h(x) f(x) F(x) 1 7 0.17 0.17 2 13 0.32 0.49 3 11 0 27 0.27 0 76 0.76 4 6 0.15 0.91 5 3 0 07 0.07 0 98 0.98 6 1 0.02 1.00 Zur grafischen Darstellung werden also die empirischen relativen g aufsummiert Häufigkeiten Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Kennwerte Grafische Darstellung I Maße der zentralen Tendenz • Mittelwert Kennwerte Streuungsmaße (Dispersionsmaße) Grafische Darstellung II • Mittlere Differenz • Varianz • Sta Standardabweichung da dab e c u g Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Kennwerte Grafische Darstellung II Der Mittelwert ist bei n Beobachtungen x1 … xn definiert als 1 1 n x = ( x1 + x2 + … xN ) = ∑ xi n n i =1 Ist durch „extreme“ Werte beeinflussbar (ausreißerempfindlich) Ist der Schwerpunkt der Beobachtungen, d.h. n ∑x −x =0 i =1 i Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Kennwerte Der Mittelwert stimmt häufig mit keiner beobachteten Realisation überein Der Mittelwert ist äquivariant gegenüber gewissen (z.B. linearen) Transformationen Insbesondere Grafische Darstellung II 1. Addition einer Konstanten c zu allen n Beobachtungen x1 … xn x+c = x +c 2. Multiplikation aller n Beobachtungen x1 … xn mit einer Konstanten c c⋅x = c⋅x Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittelwert Grafische Darstellung I Lageregeln für die Maße der zentralen Tendenz Bei symmetrischen Verteilungen: Kennwerte Grafische Darstellung II x ≈ xmed ≈ xmod Bei linkssteilen Verteilungen: x > xmed ≥ xmod Bei rechtssteilen Verteilungen x < xmed ≤ xmod Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Mittlere Abweichung Grafische Darstellung I Kennwerte Grafische Darstellung II Als mittlere Abweichung g ((MD)) von n Beobachtungen g x1 … xn in einem Datensatz wird die Summe aller Abweichungsbeträge zum Median bezeichnet. 1 n MD = ∑ xi − x n i =1 Für jeden anderen Wert als für den Median ist der mittlere Abweichungsbetrag größer, d.h. 1 n 1 n xi − x ≤ ∑ xi − c ∑ n i =1 n i =1 Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Varianz Grafische Darstellung I Kennwerte Grafische Darstellung II Die Varianz ist das mittlere Abweichungsquadrat aller n Beobachtungen x1 … xn vom Mittelwert. n 1 2 2 s ( x ) = ∑ ( xi − x ) n i =1 Erfasst die Streuung um den Mittelwert Nur falls keine Streuung besteht, besteht ist ss² = 0, 0 d.h. d h alle beobachteten Werte sind gleich. Sonst: s² > 0 Je größer die Streuung um den Mittelwert, desto größer öß iist di die V Varianz i Ist anfällig gegenüber Ausreißern Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Varianz Grafische Darstellung I Kennwerte Grafische Darstellung II Für jeden anderen Wert als für den Mittelwert ist die Summe der Abweichungsquadrate höher 1 n 1 n 2 2 ( xi − x ) ≤ ∑ ( xi − c ) ∑ n i =1 n i =1 Der Mittelwert minimiert also die quadrierten Abweichungen aller Beobachtungen. Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Varianz Grafische Darstellung I Kennwerte Grafische Darstellung II Die Formel für die Varianz lässt sich leicht umformen in eine rechnerisch günstigere Variante: 1 n 1 n 2 2 2 2 2 x − x = x − x = x − x ( ) ∑ i ∑i n i =1 n i =1 Die e Varianz a a ist st a also so d die e Differenz e e des Mittelwerts tte e ts de der quadrierten Daten und dem quadrierten Mittelwert der Daten. Dies wird auch als Momentenschreibweise der Varianz bezeichnet. Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: Standardabweichung Grafische Darstellung I Problem: Die Varianz ist nicht proportional zu erlaubten Skalentransformationen s 2 (c ⋅ x ) = c 2 ⋅ s 2 ( x ) (mit c = const.) const ) Kennwerte Grafische Darstellung II Durch Wurzelziehen erhält man die Standardabweichung (SD, standard deviation) n 1 2 2 s( x) = s ( x) = ( xi − x ) ∑ n i =1 Die Standardabweichung ist proportional zu den erlaubten Skalentransformationen Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Numerische Beschreibung: s² und s Grafische Darstellung I Verhalten von Varianz und Standardabweichung bei Transformationen der n Beobachtungen x1 … xn Kennwerte 1 Die Addition einer Konstanten c zu allen Werten x 1. verändert Varianz und Standardabweichung nicht s²(x + c) = s²(x) Grafische Darstellung II s(x + c) = s(x) 2. Die e Multiplikation u t p at o a aller e Werte e te x mitt e einer e Konstanten o sta te c führt zu einer Erhöhung der Varianz um c² und der Standardabweichung um c s²(c · x) = c² · s²(x) s(c · x) = c · s(x) Methoden der Psychologie Kreuztabellen Intervalldaten z-Standardisierung Intervalldaten Grafische Beschreibung: Fehlerbalkendiagramm Grafische Darstellung I Kennwerte Das Fehlerbalkendiagramm (Error Bar) veranschaulicht Mittelwerte und die Streuung von Daten für mindestens eine Stichprobe. Für die d Länge der d Fehlerbalken hl b lk existieren verschiedene h d Konventionen (± 1·SD, ± 1.96·SD, ± 2.58·SD) Grafische Darstellung II Kö örpergröße in cm Körpergröße in c m (+/‐ cm (+/‐1.96 SD) 1 SD) 195 190 185 180 175 170 165 160 Frauen Geschlecht Männer Methoden der Psychologie Intervalldaten z-Standardisierung z Standardisierung z-Standardisierung Transformationsregel Ziel: Angabe der relativen Lage von Werten in einer Verteilung. 1. Quantile: wie bereits gesehen 2. Angabe einer normierten Differenz eines Messwertes zum Mittelwert Berechnungsvorschrift: Jede Differenz eines Messwertes wird durch die Standardabweichung g aller Messwerte geteilt. g Die erhaltenen Werte werden als z-Werte bezeichnet. x−x zx = sx Methoden der Psychologie Intervalldaten z-Standardisierung z-Standardisierung z Standardisierung Eigenschaften Der zz-Wert Wert kann auch als Differenz eines normierten Datenwertes vom normierten Mittelwert betrachtet werden, denn x−x x x = − zx = sx sx sx D Mitt Der Mittelwert l t von z-Werten W t iistt iimmer 0 Die Standardabweichung von z-Werten ist immer 1 Methoden der Psychologie Intervalldaten z-Standardisierung z-Standardisierung z Standardisierung Skalentransformation Mithilfe der zz-Transformation Transformation können Messdaten mit beliebigem Mittelwert und Standardabweichung in Daten transformiert werden, die einen definierten Mittelwert und Standardabweichung g aufweisen. Schritt 1: z-Standardisierung jedes Datenpunktes Schritt 2: Transformation jedes Datenpunktes in die neue Skala xneu = ( z ⋅ sneu ) + xneu Beispiele: Hamburg-Wechsler Hamburg Wechsler IQ IQ-Test Test (MW=100, (MW 100, s=15), IQ-Skala nach IST (MW=100, s=10), Stanine-Skala (MW=5, s=2), Methoden der Psychologie Relevante Excel Funktionen Klassenbildung • LOG() Kennwerte • • • • • ABS() ^-Operator für Quadrierung, POTENZ() WURZEL() MITTELWERT() VARIANZEN(), STABWN() Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Recap: Kontingenztabellen χχ²-Koeffizient Cramérs V Wir haben Kontingenztabellen empirischen Verbundhäufigkeiten kennen gelernt. Schreibt man statt h(xi, yj) kurz nij, so lautet die vereinfachte Notation für Kontingenztabellen: y1 y2 … ym Σ x1 n11 n12 … n1m 1 n1 x2 n21 n22 … n2m n2 … … … … … xk nk1 nk2 … nkm nk Σ n n n n 1 2 m Zeilen x Spalten Analoge Notation für relative Häufigkeiten (mit fij statt nij) Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Eigenschaften χχ²-Koeffizient Gewünschte Eigenschaften eines Zusammenhangskoeffizienten Cramérs V Sollte die Stärke eines Zusammenhangs g numerisch ausdrücken Sollte die Richtung des Zusammenhangs anzeigen (sofern sinnvoll) Sollte invariant unter zulässigen Transformationen sein Sollte einfach interpretierbar sein Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Auf Nominalskalenniveau für 2x2 Kontingenztabellen χχ²-Koeffizient Cramérs V Der Phi-Koeffizient D Phi Koeffi ient (φ) beschreibt b h ibt die di Stärke Stä k des d Zusammenhangs zweier dichotomer Variablen Der φ-Koeffizient φ Koeffizient lässt sich nach folgender Formel berechnen: n11n22 − n12 n21 φ= n1• n2• n•1n•2 φ liegt zwischen -1 und 1. x1 x2 y1 n11 n12 n1 y2 n21 n22 n2 n n n 1 2 Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Auf Nominalskalenniveau für 2x2 Kontingenztabellen χχ²-Koeffizient Problem: Bei schiefen Randverteilungen g kann der φ φKoeffizient selbst bei maximalem Zusammenhang zwischen den Variablen die Grenze ±1 nicht erreichen Cramérs V Bei schiefen Randverteilungen sollte φ daher an der maximal möglichen Korrelation normiert werden. Diese berechnet sich als φmax min(n1• , n•1 ) min(n2• , n•2 ) = max((n1• , n•1 ) max((n2• , n•2 ) Und damit gilt für den normierten φ-Koeffizienten φ φn = φmax Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Auf Nominalskalenniveau für k×m Kontingenztabellen χχ²-Koeffizient Ansatz: Vergleich g der beobachteten Kontingenztabelle g mit einer fiktiven Kontingenztabelle, die entstanden wäre, hätte kein Zusammenhang zwischen den Variablen bestanden. Cramérs V Abweichungen der beobachteten von den erwarteten Häufigkeiten sind dann als Abweichungen von der Unabhängigkeit aufzufassen Zur Konstruktion der Indifferenztabelle rechnet man für absolute Häufigkeiten aus n B b ht Beobachtungen: h( xi , •) ⋅ h(•, y j ) h ( xi , y j ) = n Und bei relativen Häufigkeiten: f ( xi , y j ) = f ( xi , •) ⋅ f (•, y j ) (~ = „erwartet“) Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Auf Nominalskalenniveau für k×m Kontingenztabellen χχ²-Koeffizient Die Indifferenztabelle konstruiert sich also durch Cramérs V Mit y1 y2 … ym Σ x1 ñ11 ñ12 … ñ1m n x2 ñ21 ñ22 … ñ2m n … … … … … xk ñk1 ñk2 … ñkm nk Σ n n n n 1 h ( xi , y j ) = 2 h( xi , •) ⋅ h(•, y j ) n m bzw. nij = ni• ⋅ n• j n•• Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Auf Nominalskalenniveau – der χ²-Koeffizient χχ²-Koeffizient Cramérs V Aus den beobachteten und unter der Annahme eines nicht vorhandenen Zusammenhangs (Indifferenz) erwarteten Häufigkeiten berechnet sich nun: (nij − nij ) 2 χ 2 = ∑∑ nij i =1 j =1 k m (beob - erw) 2 erw χ² ist Null bei perfekter Unabhängigkeit, ansonsten größer Null χ² kann beliebig groß werden, abhängig von der Anzahl der Ausprägungen und der Anzahl der Beobachtungen Für den Koeffizienten gibt es statistische Tests Tests, mit der auf Abhängigkeit der ZVn geprüft werden kann. Methoden der Psychologie φ-Koeffizient Nominalskala 2×2 Nominalskala k×m Zusammenhangsmaße Auf Nominalskalenniveau – Cramérs V χχ²-Koeffizient Cramérs V Um aus dem nicht normierten χ²-Koeffizienten ein als Korrelationskoeffizient interpretierbares Maß zu berechnet, wird folgende Formel verwendet: V= χ2 n•• min( p − 1, 1 q − 1) Cramérs V ist wie χ² Null bei perfekter Unabhängigkeit Unabhängigkeit, ansonsten größer Null V schwankt zwischen 0 und 1 Methoden der Psychologie Relevante Excel Funktionen Zusammenhangsmaße • ZÄHLENWENN() Ä Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Ordinalskalenniveau Rangg korrelation Konkordanzmaße Bei der Ordinalskala ist der numerische Abstand zwischen zwei Ausprägungen einer ZV nicht interpretierbar. Die Ordinalskala trägt lediglich Information über die Ordnung der Ausprägungen. Die Ordnung kann verwendet werden, den Ausprägungen Rangplätze zuzuweisen. Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Ordinalskalenniveau - Rangbildung Rangg korrelation Konkordanzmaße Bei der Rangbildung von k Ausprägungen y1…yk einer ZV Y können maximal k Rangplätze vergeben werden. Per Konvention erhält die numerisch niedrigste Ausprägung von Y den Rangplatz k, die höchste den Rangplatz 1. Bei gleichen mehreren gleichen Werten („Ties“) von Y wird der mittlere Rangplatz vergeben nach der Regel: Es gebe m gleiche Werte von Y. Wären sie unterschiedlich und direkt aufeinander folgend, erhielten sie die Rangplätze rgj…rgj+m-1. Der mittlere Rang ist dann rgTie 1 = m rg j + m −1 ∑ i = rg j rgi Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Ordinalskalenniveau – Spearman‘s rs Rangg korrelation Konkordanzmaße Nach erfolgter Rangbildung ordinalskalierter Daten kann für zwei ZV X und Y die Produkt-Moment-Korrelation der Ränge rg(X) und rg(Y) berechnet werden Diese wird Di i d als l Spearman‘s S ‘ rs oder d Rangkorrelation R k l ti genannt und berechnet als ∑ ( rg ( x ) − rg ( x) )( rg ( y ) − rg ( y) ) n rs = i i =1 i ∑ ( rg ( x ) − rg ( x) ) ∑ ( rg ( y ) − rg ( y) ) n i =1 2 i n i =1 i 2 Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Ordinalskalenniveau – Spearman‘s rs Rangg korrelation Wenn keine Ties vorliegen, g , ist der Mittelwert der Rangplätze gleich (n + 1) / 2 Damit ist die Varianz von n Zahlen s²=(n² - 1) / 12 Konkordanzmaße Die quadrierte Differenz der beiden i-ten Rangplätze von X und Y lässt sich definieren als di² = (rg(xi)-rg(yi))² Setzt man dies geeignet in die Formel für rs ein, so erhält man als vereinfachte Berechnung für rs n rs = 1 − 6∑ di2 i =1 (n 2 − 1)n wobei di = rg ( xi ) − rg ( yi ) Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Ordinalskalenniveau – Spearman‘s rs Rangg korrelation Konkordanzmaße Wertebereich von –1 bis +1 Vorzeichen gibt die Richtung des Zusammenhangs an Ist robust bezüglich Ausreißern Ist invariant bei streng monotonen Transformationen Die vereinfachte Berechnungsformel kann verwendet werden, wenn nicht mehr als 20% Ties vorliegen. A Ansonsten t gibt ibt es K Korrekturformeln kt f l (H (Horn, 1942) 1942). Methoden der Psychologie Recap Ordinalskala Zusammenhangsmaße Intervallskala Auf Ordinalskalenniveau – Konkordanzmaße Rangg korrelation Konkordanzmaße Für die numerische Beschreibung ordinalskalierter Daten ohne Rangbildung kommen Konkordanzmaße zum Einsatz. Dazu werden die Daten zweier ZV zunächst gemeinsam sortiert (nach X oder Y). Y) Dann werden konkordante Paare (C) diskordante Paare (D) sowie (C), Ties in X, Y oder beiden (TX, TY, TXY) bestimmt. Ein Tie TXY wird nur 1x gezählt und nicht dreimal (als TX, TY und TXY) Methoden der Psychologie Recap Ordinalskala Zusammenhangsmaße Intervallskala Auf Ordinalskalenniveau – Konkordanzmaße Rangg korrelation Konkordanzmaße Bei konkordanten Paaren ist die obere Zahl größer als die untere Zahl, bei diskordanten kleiner. Es werden solche Vergleiche nicht gezählt, bei denen in der anderen Variable ein Tie vorliegt Die Gesamtzahl S aller Paare ist S = C + D + TX + TY + TXY Und bestimmbar über ⎛ n ⎞ n(n − 1) S =⎜ ⎟= 2 ⎝ 2⎠ Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Ordinalskalenniveau – Konkordanzkoeffizient γ Rangg korrelation Konkordanzmaße Grundidee: Je mehr konkordante Paare ((im Vergleich g zu diskordanten) vorliegen, desto höher der (positive) Zusammenhang Der Konkordanzkoeffizient γ ist nun definiert als C−D γ= C+D γ repräsentiert den Überschuss bzw. das Defizit konkordanter Paare γ nimmt den Wert 1 an,, wenn nur konkordante Paare vorliegen, entsprechend –1 bei ausschließlich diskordanten Paaren Methoden der Psychologie Recap Ordinalskala Zusammenhangsmaße Intervallskala Auf Ordinalskalenniveau – Konkordanzkoeffizient γ Rangg korrelation Konkordanzmaße Problem: Der KonkordanzKonkordanz koeffizient γ ist abhängig von der Anzahl der Ausprägungen So kann z.B. bei einer kleinen Anzahl von Ausprägungen in einer beiden ZV der Konkordanzkoeffizient bestimmte Muster in den Daten nicht beschreiben Offenbar muss die Anzahl von Ties Eingang in die Berechnung eines i Konkordanzkoeffizienten K k d k ffi i t finden Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Ordinalskalenniveau – Kendall‘s τb Rangg korrelation Konkordanzmaße Kendall s τb berücksichtigt Bindungen und wird Kendall‘s berechnet als C−D τb = C + D + TX C + D + TY Da die Anzahl der Ties immer gleich oder größer als Null ist, gilt: |τb| ≤ |γ| τb kann das Maximum von 1 bzw. -1 nicht erreichen, wenn die Anzahl von Ausprägungen in X und Y nicht identisch ist. Methoden der Psychologie Kovarianz Ordinalskala Intervallskala Numerische Beschreibung von bivariat stetigen Stichprobendaten - Kovarianz Korrelation Für n Beobachtungen g aus einem Zufallsexperiment p x1…xn und y1…yn ist die Kovarianz definiert als 1 n cov(( x, y ) = sxy = ∑ ( xi − x )( yi − y ) n i =1 Die Kovarianz ist Null, wenn kein Zusammenhang zwischen den Ausprägungen der Zufallsvariablen besteht Die Kovarianz Di K i ist i t positiv, iti wenn ein i gleichsinniger l i h i i Zusammenhang besteht Die Kovarianz ist negativ, negativ wenn ein gegensinniger Zusammenhang besteht. Methoden der Psychologie Kovarianz Ordinalskala Intervallskala Numerische Beschreibung von bivariat stetigen Stichprobendaten - Kovarianz Korrelation Die Kovarianz erfüllt nicht die Forderung der Invarianz gegenüber erlaubten Transformationen Addition einer Konstanten zu x und y: cov( x + a, y + b) = cov( x, y ) Aber: Multiplikation von x und y mit einer Konstanten cov(a ⋅ x, b ⋅ y ) = a ⋅ b ⋅ cov( x, y ) Die Kovarianz ist also numerisch schwer zu interpretieren Methoden der Psychologie Kovarianz Ordinalskala Intervallskala Numerische Beschreibung von bivariat stetigen Stichprobendaten - Korrelation Korrelation Für n Beobachtungen aus einem Zufallsexperiment x1…xn und y1…yn ist der Korrelationskoeffizient definiert als rxy = 1 n ( xi − x )( yi − y ) ∑ sxy n i =1 = n n sx ⋅ s y 1 1 2 2 ( xi − x ) ( yi − y ) ∑ ∑ n i =1 n i =1 Für die Richtungsinformation gelten dieselben Regeln wie bei der Kovarianz Bei der Korrelation ist zudem die Stärke (der Betrag) des Zusammenhangs interpretier- und vergleichbar. Methoden der Psychologie Kovarianz Ordinalskala Intervallskala Numerische Beschreibung von bivariat stetigen Stichprobendaten - Korrelation Korrelation Der so definierte Korrelationskoeffizient rxy wird auch als Produkt-Moment-Korrelation oder Korrelationskoeffizient nach Pearson bezeichnet. Für Daten unterhalb Intervallskalenniveau gibt es andere Berechnungsformeln für die Korrelation Die Korrelation Di K l i ist i Null, N ll wenn kein k i Zusammenhang Z h zwischen den Ausprägungen der Zufallsvariablen besteht Die Korrelation Ko el tion liegt imme immer zwischen i hen -1 1 und nd 1. 1 Negative Werte zeigen einen gegensinnigen, positive Werte einen gleichsinnigen Zusammenhang an Die Korrelation ist anfällig gegenüber Ausreißern Methoden der Psychologie Kovarianz Ordinalskala Intervallskala Numerische Beschreibung von bivariat stetigen Stichprobendaten - Regeln Korrelation Kovarianz Korrelation cov(x,y) = cov(y,x) r(x,y) = r(y,x) cov(x, a) = 0 r(x, a) = nicht def. cov(a, b) = 0 r(a, b) = nicht def. ( , x)) = var(x) ( ) cov(x, r(x, ( , x)) = 1 cov(a·x+b, c·y+d) = a·c·cov(x, a c cov(x y) r(a·x+b, c·y+d) = r(x, y) Achtung: Ist a oder b negativ, verändert sich das Vorzeichen von rr, sind beide negativ, bleibt r gleich. Mit a, b, c, d = konstante Werte Methoden der Psychologie Kovarianz Ordinalskala Intervallskala Numerische Beschreibung von bivariat stetigen Stichprobendaten - Korrelation Korrelation Für die Bewertung g der absoluten Höhe der ProduktMoment-Korrelation existieren Faustregeln nach Cohen (1988) r = ± 0.10 → kleine Korrelation r = ± 0.30 → mittlere Korrelation r = ± 0.50 → hohe Korrelation In de der nicht-experimentellen ni ht e pe imentellen Psychologie P hologie liegen Korrelationen selten über 0.75. Methoden der Psychologie Kovarianz Ordinalskala Intervallskala Numerische Beschreibung von bivariat stetigen Stichprobendaten - Korrelation Korrelation Methoden der Psychologie Relevante Excel Funktionen Zusammenhangsmaße • RANG() und die Korrekturformel für verbundene Ränge siehe Excel Hilfe zur Funktion RANG() • KOVAR() • KORREL() Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Spezielle Korrelationsmaße auf Intervallskalenniveau ( (Punkt-) ) biseriale Korrelation Die Intervallskala besitzt einen definierten Nullpunkt und eine numerisch interpretierbare Einheit. Beide sind jedoch nicht natürlich vorgegeben. Tetrachorische Korrelation Bei der Intervallskala ist das Verhältnis zwischen Differenzen von je zwei Ausprägungen einer Variablen interpretierbar interpretierbar. Die numerischen Ausprägungen direkt sind nicht vergleichbar. Als Zusammenhangsmaß zweier intervallskalierter Variablen haben wir bereits die Produkt-Moment Korrelation nach Pearson kennen gelernt. Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Intervallskalenniveau – Punktbiseriale Korrelation ( (Punkt-) ) biseriale Korrelation Tetrachorische Korrelation Gegeben seien zwei Variablen X und Y. X sei dichotom nominalskaliert (mit zwei Ausprägungen 0 und 1), Y intervallskaliert. Hier kkann wie Hi i auch h bei b i zweii dichotomen di h t Variablen V i bl die di Produkt-Moment-Korrelation berechnet werden. Die Formel vereinfacht sich dann aber zur Formel für die punktbiseriale Korrelation Mittelwert der Y Y-Werte, Werte für die X=1 Mittelwert der Y Y-Werte, Werte für die X=0 y1 − yo n0 ⋅ n1 rpb = ⋅ sx n2 Anzahl der Fälle, für die X 0 (n X=0 ( 0) bzw. b X=1 X 1 (n ( 1) Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Intervallskalenniveau – Punktbiseriale Korrelation ( (Punkt-) ) biseriale Korrelation Tetrachorische Korrelation Die Formel lässt sich über die relativen Häufigkeiten von X schreiben als (mit q = 1-p): y1 − yo rpb = ⋅ pq sy Alternativ führt die Vereinfachung auf diese Formel: y1 − y n1 rpb = ⋅ sy n0 bzw bzw. y1 − y p rpb = ⋅ sy q für rel. rel Häufigkeiten Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Intervallskalenniveau – Biseriale Korrelation ( (Punkt-) ) biseriale Korrelation Tetrachorische Korrelation Häufig werden in psychologischen Untersuchungen eigentlich (mindestens) intervallskalierte Merkmale künstlich auf dichotome Variablen reduziert. Beispiele: Alter (unter 25, über 25), Einkommen (niedrig, hoch), Depression (nein, ja), versetzungsfähig (nein, ja) Hier führt die konkrete Setzung des impliziten Kriteriums, das die intervallskalierte Variable in zwei Gruppen teilt, teilt zu beliebigen Ergebnissen, Ergebnissen obwohl der „wahre“ Zusammenhang unverändert ist. Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Intervallskalenniveau – Biseriale Korrelation ( (Punkt-) ) biseriale Korrelation Tetrachorische Korrelation Zur Korrektur dieser kriteriumsabhängigen Veränderung des Zusammenhangs wird die biseriale Korrelation berechnet. X sei die künstlich dichotomisierte und eigentlich normalverteilte Variable, Y die intervallskalierte Variable Die biseriale Korrelation ist dann: Variable. y1 − y0 n0 ⋅ n1 rbis = ⋅ 2 sy n ⋅ω bzw. y1 − y0 p ⋅ q ⋅ rbis = sy ω für rel. Häufigkeiten Dabei ist ω die Ordinate (z-Wert) der Standardnormalverteilung für die Stelle der Dichotomisierung (p). Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Intervallskalenniveau – Biseriale Korrelation ( (Punkt-) ) biseriale Korrelation Tetrachorische Korrelation Alternativ kann die biseriale Korrelation auch berechnet werden als: y1 − y n1 ⋅ rbis = sy n ⋅ω bzw. y1 − y p ⋅ rbis = ω sy für rel. Häufigkeiten Sowohl die punktbiseriale als auch die biseriale Korrelation haben dieselben Eigenschaften wie der Produkt-Moment-Korrelationskoeffizient (-1 bis 1, interpretierbares Vorzeichen) rpbis ist zumeist vorzuziehen, da hier keine Normalverteilungsannahme gemacht werden muss Methoden der Psychologie Recap Ordinalskala Intervallskala Zusammenhangsmaße Auf Intervallskalenniveau – Tetrachorische Korrelation ( (Punkt-) ) biseriale Korrelation Tetrachorische Korrelation Sind beide Variablen künstlich dichotomisiert und normalverteilt, so kann der Zusammenhang durch die tetrachorische Korrelation ausgedrückt werden. A Ausgegangen wird i d zunächst ä h t von einer üblichen Vierfeldertafel Daraus berechnet sich die tetrachorische Korrelation als: rtet = cos π 1+ n11 ⋅ n22 n12 ⋅ n21 x1 x2 y1 n11 n12 n1z y2 n21 n22 n2z nz1 nz2 nzz in Excel rtet überschätzt die wahre Korrelation, wenn die Randverteilungen stark asymmetrisch sind oder ein nXY<5 ist. Methoden der Psychologie Zusammenhangsmaße Übersicht Methoden der Psychologie Relevante Excel Funktionen Zusammenhangsmaße • COS() und PI()