Statistische Tests
Transcription
Statistische Tests
Vorlesung L6: Statistische Tests Prof. Dr. Joerg Hasford IBE Institut für medizinische Informationsverarbeitung, Biometrie und Epidemiologie Ludwig-Maximilians-Universität München Email: [email protected] IBE J. Hasford München Hypothesen Aufgaben Theoretische Einsichten führen zu Behauptungen (Hypothesen) über die Beschaffenheit einer Population (Grundgesamtheit), deren Richtigkeit sich dann in empirischen Untersuchungen an Stichproben bestätigen muss. Bortz 1979 Population Stichprobe IBE J. Hasford München Hypothesen Anforderungen Forschungshypothesen sollten aus Bebachtungen Voruntersuchungen, eigenen Überlegungen bzw. aus Theorien abgeleitet werden. Sie leisten einen umso größeren Beitrag zur Stützung kausaler Erklärungsansätze je stärker sie eine schlüssige und eindeutige Ergebnisinterpretation vor-schreiben. - Zusammenhangshypothesen - Unterschiedshypothesen - Gleichheitshypothesen IBE J. Hasford München Hypothesen Beispiel: Rauchen Lungenkrebs H0: Lungenkrebs ist unabhängig vom Rauchen. H1: Lungenkrebs ist abhängig vom Rauchen. Design: z.B. Ökologische Korrelationsstudie H0: Patienten mit Lungenkrebs rauch(t)en ebenso häufig wie Patienten ohne Lungenkrebs. H1: Patienten mit Lungenkrebs rauch(t)en häufiger als Patienten mit Lungenkrebs. Design: z.B. Querschnittsstudie (Fallkontrollstudie) H0: Raucher unterscheiden sich von Nichtrauchern in der Entwicklung von Lungenkrebs nicht. H1: Raucher entwickeln häufiger Lungenkrebs als Nichtraucher. Design: Kohortenstudie Statistische Testtheorie Fragestellung Hypothesen H0 H1 Grundgesamtheit Stichprobe unter gewissen Voraussetzungen Teststatistik (zum Überprüfen der Hypothesen) Rückschluss Testentscheidung IBE J. Hasford München Der statistische Test • Der statistische Test folgt dem Prinzip des Beweises mittels Widerspruch. Die Gültigkeit einer Aussage wird untermauert, indem ihr logisches Gegenteil als unplausibel dargestellt wird. • Die nachzuweisende Aussage wird Alternative (A) genannt, deren logisches Gegenteil heißt Nullhypothese (H0). IBE J. Hasford München Testprinzip: Ablehnen der Nullhypothese Es soll gezeigt werden, dass die beobachteten Daten nicht zur Nullhypothese (H0) passen, damit wird diese unplausibel und die Daten untermauern die Gültigkeit der Alternative (A, H1). Schritt 1: Formulieren der Nullhypothese, H0 Schritt 2: Quantifizieren der Diskrepanz zwischen Nullhypothese und den beobachteten Daten Berechnen der Teststatistik Schritt 3: Bewerten der Teststatistik Berechnen eines p-Wertes: Wie wahrscheinlich ist es unter H0, d.h. unter der Annahme, dass H0 zutrifft, den Wert der Teststatistik oder noch extremere Werte zu beobachten? Schritt 4: Signifikanzniveau α: Schwellenwert der festlegt, wie klein der p-Wert sein muss um zu einer Ablehnung der Nullhypothese zu führen. Schritt 5: Testentscheidung: p < α : Nullhypothese wird abgelehnt und Alternative als gültig erklärt. p ≤ α : Nullhypothese kann nicht abgelehnt werden. Damit ist aber nicht gezeigt, dass die Nullhypothese auch tatsächlich zutrifft. Denkmodell Wiederholtes Ziehen von Stichproben. • Prüfverteilung unter Annahme von H0 bei gegebener statistischer Verteilungsannahme • Vergleich der an der Stichprobe empirisch beobachteten Werte mit Prüfverteilung bei gegebener Wahrscheinlichkeit für den Fehler 1. Art (α). IBE J. Hasford München Vorgabe des Signifikanzniveaus bzw. der Irrtumswahrscheinlichkeit 1. Art (= α) ● mögliche Fehlersituationen beim Testen Testentscheidung Realität H0 richtig H1 richtig H0 beibehalten korrekte Entscheidung für H1 Fehler I. Art Wahrscheinlichkeit = 1-α Wahrscheinlichkeit = α Fehler II. Art korrekte Entscheidung Wahrscheinlichkeit = β Wahrscheinlichkeit = 1-β IBE J. Hasford München Vorgabe des Signifikanzniveaus bzw. der Irrtumswahrscheinlichkeit 1. Art (= α) ● N u r der Fehler 1. Art wird durch Vorgabe von α kontrolliert, d.h. Wahrscheinlichkeit für den Fehler 1. Art ≤ α. ● Unsymmetrie im Testen: Falls H0 abgelehnt wird → H1 ist statistisch signifikant mit Irrtumswahrscheinlichkeit = α Falls H0 nicht abgelehnt wird → H0 ist nicht statistisch signifikant / Test liefert keine Entscheidung. → ● Meist α = 5% oder α = 1%) IBE J. Hasford München Testprinzip: Power • Ist die Fehlerwahrscheinlichkeit β klein, so tritt die Situation selten auf, dass der interessierende Sachverhalt (Alternative) vom Test nicht erkannt wird, wenn er vorliegt. • Die Größe 1-β wird Power eines Testes genannt. Sie beschreibt die Fähigkeit einer Teststrategie das zu bestätigen, was als interessierender Sachverhalt (Alternative) gilt, wenn dieser auch vorliegt. IBE J. Hasford München Merkmalstypen und korrespondierende Tests Merkmalstypen quantitativ qualitativ nominal ordinal z.B. Geschlecht z.B. UAW (WHO-Grad) approximativ normal verteilt ? nein z.B. χ2-Test ja z.B. Wilcoxon-Test diskret stetig z.B. Anzahl Zigaretten / Tag z.B. Körpergewicht zensiert z.B. Überlebenszeit Normalverteilungsvoraussetzung erfüllt ? nein ja z.B. t-Test, F-Test z.B. Logrank-Test unverbundene Stichproben Beispiel: Es soll die Wirksamkeit von zwei Medikamenten A und B untersucht werden. Ein Teil der Probanden bekommt Medikament A, der andere Teil bekommt Medikament B. Verbundene Stichproben bzw. gepaarte Beobachtungen: Beispiel: Es soll die Wirksamkeit von zwei Medikamenten A und B untersucht werden. Die Probanden bekommen zunächst Medikament A, dann Medikament B. (dazwischen: Auswaschphase, damit sich die Effekte nicht beeinflussen.) Von jedem Patienten liegt ein Datenpaar vor. IBE J. Hasford München Der Chi2 Test IBE J. Hasford München Statistische Auswertung: χ2-Test Frage: Entspricht das Verhältnis Männer : Frauen im 1. Semester Medizin dem Geschlechtsverhältnis in der Bevölkerung (1:1)? 1. Schritt: Zählen (Empirie) b1 = 200 b2 = 150 2. Schritt: Erwartungswert berechnen für Annahme: Gleichverteilung bzw. H0 fe = f b1 + f b 2 2 200 + 150 fe = 2 f e = 175 3. Abweichung der empirischen Werte vom Erwartungswert quantifizieren ∑ (f χ 2 = 2 b − fe ) f ( ∑ 2 bi − f ei ) f ei 2 χ 2 = ∑ (200 − 175) 175 χ 2 + (150 − 175) = 7,142 175 2 Entscheidungsregel lehne H0 ab, wenn χ 2 berechnet (Empirisch ) ≥ χ 2 ( df , α ) Tabelle: 5%-, 1%- und 0,1%-Schranken der χ2-Verteilung FG 1 5% 3,84 1% 6,63 0,1% 10,83 2 5,99 9,21 13,82 3 7,81 11,34 16,27 4 9,49 13,28 18,47 5 11,07 15,09 20,52 Heilung Therapie Standard Neu Σ nein 15 4 19 a 10,5 c 8,5 b d ja Σ 85 100 77 162 89,5 72,5 81 181 Heilungsrate Standard: 85 / 100 (85%) Heilungsrate Neu: 77 / 81 (95%) Frage: Ist die Neue Therapie wirklich besser ? IBE J. Hasford München Hypothesen H0: Die Heilungsraten sind von der Behandlung unabhängig. H1: Die Heilungsraten hängen von der Therapie ab. IBE J. Hasford München a 2 χ = χ b (15 −10,5 ) 10,5 2 = 2 + c (85 − 89, 5 ) 89,5 2 + (4 − 8, 5) 8,5 d 2 + (77 − 72,5 ) 72, 5 1,9328 + 0,2265 + 2,3845 + 0,2797 χ 2 = 4,82 2 Tabelle: 5%-, 1%- und 0,1%-Schranken der χ2-Verteilung FG 1 5% 3,84 1% 6,63 0,1% 10,83 2 5,99 9,21 13,82 3 7,81 11,34 16,27 4 9,49 13,28 18,47 5 11,07 15,09 20,52 Voraussetzungen 1. Unabhängigkeit der Beobachtungen 2. Erwartungswerte > 5 3. Eindeutige Zuordenbarkeit IBE J. Hasford München Der Logrank-Test IBE J. Hasford München Statistische Auswertung: Logrank Test Überlebensraten, Remissionsraten z.B. 2 Jahresüberlebensrate Therapie A: 55% Therapie B: 40% Probleme: • • • • Alle Patienten müssen entsprechend lange beobachtet werden. vorzeitige Ausscheider - Dropouts, Lost to Follow-up, d.h. Festlegung von Zähler und Nenner Fallzahlen Festlegung des Zeitraums IBE J. Hasford München Rekrutierung & Nachbeobachtung abgebrochen 1 2 3 verstorben Patienten-Nr. 7 lebt 20 30 36 lebt 47 60 97 98 RandomisierungsPhase 99 00 01 02 Follow-up-Phase 03 04 Ereignis bzw. letzte Information 7 Ereignis 1 Patienten-Nr. 36 zensiert 20 60 2 30 3 47 0 365 1 730 2 1095 3 1460 4 1825 5 Beobachtungsdauer (Tage bzw. Jahre) 2190 6 2555 7 Kaplan-Meier-Methode Pat. Nr. Zeit bis zum Anzahl der Anzahl der Anzahl der WahrscheinlichEreignis Patienten Ereignisse Zensierun- keit des Eintretens bzw. bis zur unter Risiko zum gen zum des Ereignisses Zensierung zum Zeitpunkt Zeitpunkt i Zeitpunkt i (tot) i (*) i ni di ai qi ni−1 − (di−1 + ai−1 ) Survival time (Tage) 59 42 9 47 40 31 55 44 12 3 0 26 27 115 * 194 * 195 2057 * 2072 2101 2384 * 2430 di / ni rk fk 60 60 59 58 57 56 10 9 8 2 1 0 1 1 0 0 1 0 1 1 0 1 Wahrscheinlichkeit des NichtEintretens (überleben) Pi 1 − qi (rk − f k ) / rk 0 0 0 1 1 0 1 0 0 1 0 Kummulative Wahrscheinlichkeit des Nicht-Eintretens des Ereignisses Si (pi pi−1 .. p1 ) pk 0,0000 0,0167 0,0169 1,0000 0,9833 0,9831 1,0000 0,9833 0,9667 0,0179 - 0,9821 - 0,9494 - 0,1111 0,1250 - 0,8889 0,8750 - 0,3276 0,2866 - 1,0000 0,0000 0,0000 Kaplan-Meier-Kurve 1.0 0.9 0.8 N = 60 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 Jahre 7 Vergleich von zwei Überlebenskurven ni di 0 30 0 0 0,0000 1,0000 1,0000 42 27 30 1 0 0,0333 0,9667 0,9667 9 115 29 0 1 40 . 195 . 28 . 1 . 0 . 0,0357 . 0,9643 . 0,9321 . 31 2057 4 0 1 55 2072 3 1 0 0,3333 0,6667 0,1751 0 30 0 0 0,0000 1,0000 1,0000 59 26 30 1 0 0,0333 0,9667 0,9833 47 . 44 . 12 3 194 . 2101 . 2384 2430 29 . 6 . 2 1 0 . 1 . 0 1 1 . 0 . 1 0 . 0,1667 . . 0,8333 . . 0,2866 . 1,0000 0,0000 0,0000 Therapie B Therapie A Pat. Id i ai qi Pi Si Vergleich von zwei Überlebenskurven 1.0 Therapie A 0.9 Therapie B 0.8 0.7 0.6 P 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 Jahre 7 Logrank-Test Zeit bis zum Ereignis Anzahl der Patienten unter Risiko ni i ∑ 30 29 29 29 28 28 9 9 8 Therapie B 30 30 29 28 28 27 7 6 6 Ei (∑0 * (n / ∑ n )) i Therapie A 60 59 58 57 56 55 16 15 14 Anzahl der erwarteten Ereignisse Oi ni−1 − (di−1 + ai−1 ) Therapie A 26 27 115 194 195 242 2072 2101 2430 Anzahl der beobachteten Ereignisse Therapie B 1 1 1 1 - 1 1 1 ∑O ∑O 13 19 iA 1 1 0 0 1 1 1 1 1 iB 32 i i Therapie A Therapie B 0,5000 0,4915 0,0000 0,0000 0,5000 0,5091 0,5625 0,6000 0,5714 0,5000 0,5085 0,0000 0,0000 0,5000 0,4909 0,4375 0,4000 0,4286 ∑E ∑E iA 17,1505 iB 14,8495 Logrank-Test 2 χ χ 2 2 (∑ O − ∑ E ) + (∑o iA = ∑E iA iA (13 − 17,1505) = 17,1505 2 2 + χ = 2,165 1 FG iB − ∑ E iB ∑E 2 ) iB (19 − 14,8495) 14,8495 p = 0,14 2 Analyse von Überlebenszeiten: Kaplan-Meier-Kurven Zensiert werden darf nur, wenn die Ursache der Zensierung unabhängig von der Prognose bzw. Zielgröße ist. Andernfalls können sich falsch hohe Überlebenskurven ergeben. Daher sind alle Zensierungen (mit Ausnahme „protokollgemäßes Ende der Studie“) mit Angabe von Behandlungsgruppe, Zeitpunkt und Grund aufzulisten. Kaplan-Meyer-Kurven sollten die Zahl der Verstorbenen und der noch „unter Risiko Stehenden“ angeben. IBE J. Hasford München Figure A): The new prognostic scoring system applied to 908 patients with early stage chronic myeloid leukemia treated with interferon alfa (learning sample). Low risk: new score ≤780; intermediate risk: 780 < new score ≤1480; high risk: new score >1480. Entry “(369/83), 98 months” indicates that of 369 patients, 83 patients died. Median survival time was 98 months (range, 3-108 months). The same meaning applies to the numbers of the intermediate-risk group (range, 1-117 months) and the high-risk group (range, 6-103 months); two sided logrank test: P ≤.0001. Lengths of horizontal crossbars indicate the upper and lower 95% confidence limits. Crossbars increase from the lowest risk group to the highest risk group. Figure B): The new prognostic scoring system applied to 285 patients with early stage chronic myeloid leukemia treated with interferon alfa (validation sample). Low risk: new score ≤ 780; intermediate risk: 780 < new score ≤1480; high risk: new score >1480. Because few patients were observed for longer, only the survival curves for the first 5.5 years under observation were plotted. Entry “(125/33), 96 months” indicates that of 125 patients 33 patients died. Median survival time was 96 months (range, 14-96 months). The same meaning applies to the numbers of the intermediate-risk group (range, 7-84 months) and the high-risk group (range, 2-88 months); two-sided logrank test: P =.0002. Lengths of horizontal crossbars indicate the upper and lower 95% confidence limits. Crossbars increase from the lowest risk group to the highest risk group. Hasford J, Pfirrmann M, Hehlmann R et al. A New Prognostic Score for Survival of Patients With Chronic Myeloid Leukemia Treated with Interferon Alfa. J Natl Cancer Inst. 1998;90:850-858. T-Test IBE J. Hasford München Der t-Test für kontinuierliche und normal verteilte Daten Fragestellung: Ist der IQ von Medizinstudenten (n = 25) höher als der IQ in der Bevölkerung (IQ: 100)? IBE J. Hasford München IQB = 100 ± 15 Standardfehler (SE) = IQMSt /n = 25) = Standardabweichung √ Fallzahl (Stichprobenumfang) 107,5 Wie groß ist die Wahrscheinlichkeit, dass man einen Stichprobenmittelwert von ≥ 107,5 erhält, wenn der Mittelwert der Grundgesamtheit 100 beträgt? IBE J. Hasford München Man berechnet, wie weit dieser Wert (107,5) vom Mittelwert (100) entfernt ist, gemessen in der Einheit Standardfehler. Standardfehler (SE) = 107,5 - 100 3 = 2,5 Die Wahrscheinlichkeit beträgt 0,006 (1 : 160). Dieser Test für den Vergleich eines Stichprobenmittelwerts mit einem Populationsmittelwert heißt z-Test. Man nutzt dabei die Standardnormalverteilung. IBE J. Hasford München Null-Hypothese: IQMSt = IQB Alternativehypothese: IQMSt > IQB SE=3 94 97 100 Verteilung der Mittelwerte 103 106 107,5 IQ IBE J. Hasford München In der Medizin sind Bevölkerungsmittelwerte oft nicht bekannt bzw. nicht relevant; daher muss die Standardabweichung aus den Stichproben geschätzt werden. t= Differenz der Mittelwerte Standardfehler der Differenz t-Test und t-Verteilung IBE J. Hasford München Voraussetzungen für den t-Test 2 Stichproben • • normal verteilte Grundgesamtheiten gleiche Varianzen Richtige Darstellungen • • • t-Wert Freiheitsgrade (n1 + n2 - 2) p-Wert (ein- / zwei-seitig) IBE J. Hasford München Der Mann-Whitney U-Test für ordinal-skalierte und nicht-normalisierte Daten Schmerzwerte (UAS) H Proband Score P Rang Proband Score Rang 1 9,8 1 11 8,6 5 2 9,6 2 12 8,2 7 3 8,9 3 13 7,7 9 4 8,8 4 14 7,5 10 5 8,4 6 15 6,9 12 6 7,9 8 16 6,7 13 7 7,2 11 17 4,9 17 8 5,8 14 18 4,5 18 9 5,5 15 19 3,5 19 10 5,1 16 20 1,5 20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Gruppe H H H H P H P H P P H P P H H H P 4 + 5 + 6 + 6 + 7 + 7 + 10 + 10 + 10 + 10 P P P = 75 IBE J. Hasford München Voraussetzungen für den MannWhitney U-Test 2 Stichproben • Stichproben entstammen Grundgesamtheiten mit annähernd gleicher Verteilungsform. • Mediane sollen verglichen werden. Richtige Darstellung • • • U-Wert n p-Wert (ein- / zwei-seitig) IBE J. Hasford München Zusammenfassung • • • • Der statistische Test ist eine Entscheidungshilfe. Er quantifiziert die Wahrscheinlichkeit, mit der man sich irrt, wenn man die Alternativhypothese annimmt bzw. die Nullhypothese ablehnt. Diese Wahrscheinlichkeit α eines falsch-positiven Schlusses wird traditionellerweise auf 5% (bzw. 0,05) gesetzt und wird Signifikanzniveau genannt. Die Wahl des richtigen statistischen Tests richtet sich nach der Skalierung und der Verteilung der Messgröße und danach, ob es sich um eine verbundene Stichprobe handelt oder nicht. Die Wahrscheinlichkeit β eines falsch-negativen Ergebnisses wird über die Power (oder Güte) 1 - β eines statistischen Tests geregelt.