Statistische Tests
Transcription
Statistische Tests
Vorlesung L6: Statistische Tests Verena Hoffmann IBE Institut für medizinische Informationsverarbeitung, Biometrie und Epidemiologie Ludwig-Maximilians-Universität München Email: [email protected] IBE J. Hasford München Lernziele • • • • • • • Das Prinzip des statistischen Tests Fehlerarten Chi2-Test Logrank-Test t-Test Prinzip, Voraussetzungen Mann-Whitney-Test Kriterien für die Auswahl des geeigneten Tests IBE J. Hasford München Statistische Testtheorie Fragestellung IBE J. Hasford München Statistische Testtheorie Fragestellung H0 HypothesenH1 IBE J. Hasford München Hypothesen Anforderungen Forschungshypothesen sollten aus Voruntersuchungen, eigenen Überlegungen bzw. aus Theorien abgeleitet werden. Sie leisten einen umso größeren Beitrag zur Stützung kausaler Erklärungsansätze je stärker sie eine schlüssige und eindeutige Ergebnisinterpretation vorschreiben. Die Nullhypothese H0 nimmt stets an, dass es keinen Effekt gibt. IBE J. Hasford München Hypothesen Beispiel: Rauchen Lungenkrebs Grundlage: Zigaretten enthalten Teer. Teer ist als krebserregender Stoff bekannt. Mögliche Hypothesen: H0: Patienten mit Lungenkrebs rauch(t)en ebenso häufig wie Patienten ohne Lungenkrebs. H1: Patienten mit Lungenkrebs rauch(t)en häufiger als Patienten ohne Lungenkrebs. Design: z.B. Querschnittsstudie (Fallkontrollstudie) H0: Raucher unterscheiden sich von Nichtrauchern in der Entwicklung von Lungenkrebs nicht. H1: Raucher entwickeln häufiger Lungenkrebs als Nichtraucher. Design: Kohortenstudie Statistische Testtheorie Fragestellung Hypothesen H0 H1 Grundgesamtheit IBE J. Hasford München Statistische Testtheorie Fragestellung Hypothesen H0 H1 Grundgesamtheit Stichprobe IBE J. Hasford München Statistische Testtheorie Fragestellung Hypothesen H0 H1 Grundgesamtheit Stichprobe Teststatistik (zum Überprüfen der Hypothesen IBE J. Hasford München Statistische Testtheorie Fragestellung Hypothesen H0 H1 Grundgesamtheit Stichprobe Teststatistik (zum Überprüfen der Hypothesen Testentscheidung IBE J. Hasford München Testentscheidung Wenn H0 verworfen wird: H0: Die Menge der gerauchten Zigaretten steht in keinem Zusammenhang mit dem Lungenkrebsrisiko. H1: Das Lungenkrebsrisiko steigt mit der Zahl der gerauchten Zigaretten. H1: Wenn mehr Frauen rauchen, wird Lungenkrebs auch bei Frauen häufiger. etc…. Falls H0 abgelehnt wird → H1 ist statistisch signifikant mit Irrtumswahrscheinlichkeit = α Falls H0 nicht abgelehnt wird → man kann sich nicht aktiv für H0 entscheiden → H0 ist nicht signifikant! IBE J. Hasford München Statistische Testtheorie Fragestellung Hypothesen H0 H1 Grundgesamtheit Stichprobe Teststatistik (zum Überprüfen der Hypothesen Rückschluss Testentscheidung IBE J. Hasford München Statistische Testtheorie Fragestellung Hypothesen H0 H1 Grundgesamtheit Stichprobe Teststatistik (zum Überprüfen der Hypothesen Testentscheidung Rückschluss Immer korrekt? IBE J. Hasford München Signifikanzniveau α: Die Irrtumswahrscheinlichkeit Ein 100% richtiges Ergebnis erhält man nur durch Kenntnisse über die Grundgesamtheit. Die Fehlerwahrscheinlichkeit wird über das Signifikanzniveau α kontrolliert. Testentscheidung Realität H0 richtig H1 richtig H0 beibehalten korrekte Entscheidung für H1 Fehler 1. Art Wahrscheinlichkeit = 1-α Wahrscheinlichkeit = α Fehler 2. Art korrekte Entscheidung Wahrscheinlichkeit = β Wahrscheinlichkeit = 1-β Durch α wird nur der Fehler 1. Art kontrolliert. Warum? Hypothesenwahl IBE J. Hasford München Statistik – rückwärts! 1. Schritt: Aufstellen einer Test-Hypothese: H0: kein Effekt 2. Schritt: Regeln aufstellen, mit denen man entscheiden kann, ob die Hypothese haltbar ist 3. Schritt: Daten sammeln Frage: Wie wahrscheinlich ist es, dass diese Daten unter der Nullhypothese auftreten? Prüfverteilung / Teststatistik IBE J. Hasford München Welche Tests für welche Merkmalstypen? Merkmalstypen quantitativ qualitativ nominal ordinal z.B. Geschlecht z.B. UAW (WHO-Grad) approximativ normal verteilt ? nein z.B. χ2-Test ja z.B. Wilcoxon-Test diskret stetig z.B. Anzahl Zigaretten / Tag z.B. Körpergewicht zensiert z.B. Überlebenszeit Normalverteilungsvoraussetzung erfüllt ? nein ja z.B. t-Test, F-Test z.B. Logrank-Test Der Chi2 Test IBE J. Hasford München 1. Beispiel Frage: Entspricht das Verhältnis Männer : Frauen im 1. Semester Medizin dem Geschlechtsverhältnis in der Bevölkerung (1:1)? Hypothesen: H0: Verhältnis 1:1 H1: Unausgeglichenes Verhältnis Daten: bm = 200 bw = 150 Welche Frage muss der Test beantworten? Wie weit dürfen die beobachteten Daten vom Verhältnis 1:1 abweichen, damit diese Abweichung noch als zufällig gelten kann? Berechnung: 1. Erwartungswert berechnen für Annahme: Gleichverteilung bzw. H0 bw +bm e= 2 200+150 e= 2 e = 175 IBE J. Hasford München 2. Abweichung der empirischen Werte vom Erwartungswert quantifizieren 2 2 ( − ) ( − ) b e b e χ 2= w + m e e (200 − 175) (150−175) χ = + 175 175 2 2 χ 2 = 7,142 2 3. Testentscheidung Entscheidungsregel: lehne H0 ab, wenn χ 2 berechnet (Empirisch ) ≥ χ 2 ( df , α ) 7,142 ≥ 3,84 Im Beispiel kann H0 abgelehnt werden. Das Geschlechterverhältnis im 1. Semester Medizin unterscheidet sich signifikant vom Geschlechtsverhältnis in der Gesamtbevölkerung. Tabelle: 5%-, 1%- und 0,1%-Schranken der χ2-Verteilung FG 1 5% 3,84 1% 6,63 0,1% 10,83 2 5,99 9,21 13,82 3 7,81 11,34 16,27 4 9,49 13,28 18,47 5 11,07 15,09 20,52 2. Beispiel: Heilung Zwei Ausprägungen, zwei Gruppen Therapie nein Standard a Neu c Σ 15 4 19 b 10,5 d 8,5 ja Σ 85 100 77 162 89,5 72,5 81 181 Heilungsrate Standard: 85 / 100 (85%) Heilungsrate Neu: 77 / 81 (95%) Frage: Ist die Neue Therapie wirklich besser ? IBE J. Hasford München Hypothesen H0: Die Heilungsraten sind von der Behandlung unabhängig. H1: Die Heilungsraten hängen von der Therapie ab. IBE J. Hasford München Erwartete Werte für jede Zelle berechnen: Therapie nein Standard a Neu c 15 4 19 Σ Für Zelle a: b 10,5 d 8,5 ja Σ 85 100 77 162 89,5 72,5 81 181 19 ⋅100 a= = 10,5 181 IBE J. Hasford München a b c d 2 2 2 2 ( ) ( ) ( ) ( ) 15 − 10 , 5 85 − 89 , 5 4 − 8 , 5 77 − 72 , 5 + + + χ2 = 10 ,5 χ 2 = 89 ,5 72 ,5 1,9328 + 0,2265 + 2,3845 + 0,2797 χ χ 8, 5 2 empirisch 2 = 4,82 = 4,82 ≥ 3,84 = χ 2 theoretisch H0 kann abgelehnt werden. Die Heilungsraten hängen von der Therapie ab. Voraussetzungen 1. Unabhängigkeit der Beobachtungen 2. Erwartungswerte > 5 3. Eindeutige Zuordenbarkeit IBE J. Hasford München T-Test IBE J. Hasford München Der t-Test für kontinuierliche und normal verteilte Daten Fragestellung: Ist der IQ von Medizinstudenten (n = 25, durchschnittlicher IQ=107,5) höher als der IQ in der Bevölkerung (IQ: 100)? Die Standardabweichung σ des IQ in der Bevölkerung beträgt 15. Hypothesen: H0: Es besteht kein Unterschied zwischen IQM und IQB. H1: Der IQ der Medizinstudenten ist höher. IBE J. Hasford München Wie groß ist die Wahrscheinlichkeit, dass man einen Stichprobenmittelwert von ≥ 107,5 erhält, wenn der Mittelwert der Grundgesamtheit in Wahrheit 100 beträgt? Teststatistik: z= IQM − IQB σ n Standardfehler: SE = σ = 107,5 − 100 = 2,5 15 25 n H0 kann abgelehnt werden, falls: z > z 1−α 2,5 >1,65 ⇒ H0 kann abgelehnt werden IBE J. Hasford München Null-Hypothese: IQMSt = IQB Alternativehypothese: IQMSt > IQB SE=3 94 97 100 Verteilung der Mittelwerte 103 106 Die Wahrscheinlichkeit beträgt 0,006 (1 : 160). IQ IBE J. Hasford München Dieser Test für den Vergleich eines Stichprobenmittelwerts mit einem Populationsmittelwert heißt z-Test. Man nutzt dabei die Standardnormalverteilung. In der Medizin sind Bevölkerungsmittelwerte oft nicht bekannt bzw. nicht relevant; daher muss die Standardabweichung aus den Stichproben geschätzt werden. t= Differenz der Mittelwerte Standardfehler der Differenz t-Test und t-Verteilung IBE J. Hasford München Voraussetzungen für den t-Test • Die Beobachtungen müssen unabhängig voneinander sein Bei 1 Stichprobe • normal verteilte Grundgesamtheiten oder Stichprobenumfang >= 25 Bei 2 Stichproben • normal verteilte Grundgesamtheiten • gleiche Varianzen Richtige Darstellungen • t-Wert • Freiheitsgrade (n1 + n2 - 2) • p-Wert (ein- / zweiseitig) IBE J. Hasford München Der Mann-Whitney U-Test für ordinal-skalierte und nichtnormalverteilte Daten (auch: Wilcoxon-Rangsummen-Test) IBE J. Hasford München Idee: Bringt man die Werte in Reihenfolge sollten sie gut gemischt sein. Schmerzwerte (UAS) H Proband Score P Rang Proband Score Rang 1 9,8 1 11 8,6 5 2 9,6 2 12 8,2 7 3 8,9 3 13 7,7 9 4 8,8 4 14 7,5 10 5 8,4 6 15 6,9 12 6 7,9 8 16 6,7 13 7 7,2 11 17 4,9 17 8 5,8 14 18 4,5 18 9 5,5 15 19 3,5 19 10 5,1 16 20 1,5 20 H0: gleich starke Schmerzen in beiden Gruppen H1: verschieden starke Schmerzen Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Gruppe H H H H P H P H P P H P P H H H P P P Die Teststatistik besteht aus der Summe der Ränge einer Stichprobe, z.B. von H: T= 1 + 2 + 3 + 4 + 6 + 8 + 11 + 14 + 15 + 16 = 80 H0 wird abgelehnt, falls: T > w1-α/2 (n,m) oder T< wα/2 (n,m) Für α=0,01 ist T ∉ (88,122) ⇒ H0 kann also abgelehnt werden. IBE J. Hasford München P Voraussetzungen für den MannWhitney U-Test 2 Stichproben • Stichproben entstammen Grundgesamtheiten mit annähernd gleicher Verteilungsform. • Mediane sollen verglichen werden. Richtige Darstellung • • • W-Wert n p-Wert (ein- / zwei-seitig) IBE J. Hasford München Der Logrank-Test IBE J. Hasford München Statistische Auswertung: Logrank Test Überlebensraten, Remissionsraten z.B. 2 Jahresüberlebensrate Therapie A: 55% Therapie B: 40% Probleme: • • • • Alle Patienten müssen entsprechend lange beobachtet werden. vorzeitige Ausscheider - Dropouts, Lost to Follow-up, d.h. Festlegung von Zähler und Nenner Fallzahlen Festlegung des Zeitraums IBE J. Hasford München Rekrutierung & Nachbeobachtung abgebrochen 1 2 3 verstorben Patienten-Nr. 7 lebt 20 30 36 lebt 47 60 97 98 RandomisierungsPhase 99 00 01 02 Follow-up-Phase 03 04 Ereignis bzw. letzte Information 7 Ereignis 1 Patienten-Nr. 36 zensiert 20 60 2 30 3 47 0 365 1 730 2 1095 3 1460 4 1825 5 Beobachtungsdauer (Tage bzw. Jahre) 2190 6 2555 7 Kaplan-Meier-Methode Pat. Nr. Zeit bis zum Anzahl der Anzahl der Anzahl der WahrscheinlichEreignis Patienten Ereignisse Zensierun- keit des Eintretens bzw. bis zur unter Risiko zum gen zum des Ereignisses Zensierung zum Zeitpunkt Zeitpunkt i Zeitpunkt i (tot) i (*) i ni di ai qi ni−1 − (di−1 + ai−1 ) Survival time (Tage) 59 42 9 47 40 31 55 44 12 3 0 26 27 115 * 194 * 195 2057 * 2072 2101 2384 * 2430 di / ni rk fk 60 60 59 58 57 56 10 9 8 2 1 0 1 1 0 0 1 0 1 1 0 1 Wahrscheinlichkeit des NichtEintretens (überleben) Pi 1 − qi (rk − f k ) / rk 0 0 0 1 1 0 1 0 0 1 0 Kummulative Wahrscheinlichkeit des Nicht-Eintretens des Ereignisses Si (pi pi−1 .. p1 ) pk 0,0000 0,0167 0,0169 1,0000 0,9833 0,9831 1,0000 0,9833 0,9667 0,0179 - 0,9821 - 0,9494 - 0,1111 0,1250 - 0,8889 0,8750 - 0,3276 0,2866 - 1,0000 0,0000 0,0000 Kaplan-Meier-Kurve 1.0 0.9 0.8 N = 60 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 Jahre 7 Vergleich von zwei Überlebenskurven ni di 0 30 0 0 0,0000 1,0000 1,0000 42 27 30 1 0 0,0333 0,9667 0,9667 9 115 29 0 1 40 . 195 . 28 . 1 . 0 . 0,0357 . 0,9643 . 0,9321 . 31 2057 4 0 1 55 2072 3 1 0 0,3333 0,6667 0,1751 0 30 0 0 0,0000 1,0000 1,0000 59 26 30 1 0 0,0333 0,9667 0,9833 47 . 44 . 12 3 194 . 2101 . 2384 2430 29 . 6 . 2 1 0 . 1 . 0 1 1 . 0 . 1 0 . 0,1667 . . 0,8333 . . 0,2866 . 1,0000 0,0000 0,0000 Therapie B Therapie A Pat. Id i ai qi Pi Si Vergleich von zwei Überlebenskurven 1.0 Therapie A 0.9 Therapie B 0.8 0.7 0.6 P 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 Jahre 7 Logrank-Test Zeit bis zum Ereignis Anzahl der Patienten unter Risiko ni i ∑ 30 29 29 29 28 28 9 9 8 Therapie B 30 30 29 28 28 27 7 6 6 Ei (∑0 * (n / ∑ n )) i Therapie A 60 59 58 57 56 55 16 15 14 Anzahl der erwarteten Ereignisse Oi ni−1 − (di−1 + ai−1 ) Therapie A 26 27 115 194 195 242 2072 2101 2430 Anzahl der beobachteten Ereignisse Therapie B 1 1 1 1 - 1 1 1 ∑O ∑O 13 19 iA 1 1 0 0 1 1 1 1 1 iB 32 i i Therapie A Therapie B 0,5000 0,4915 0,0000 0,0000 0,5000 0,5091 0,5625 0,6000 0,5714 0,5000 0,5085 0,0000 0,0000 0,5000 0,4909 0,4375 0,4000 0,4286 ∑E ∑E iA 17,1505 iB 14,8495 Logrank-Test 2 χ χ 2 2 (∑ O − ∑ E ) + (∑o iA = ∑E iA iA (13 − 17,1505) = 17,1505 2 2 + χ = 2,165 1 FG iB − ∑ E iB ∑E 2 ) iB (19 − 14,8495) 14,8495 p = 0,14 2 Analyse von Überlebenszeiten: Kaplan-Meier-Kurven Zensiert werden darf nur, wenn die Ursache der Zensierung unabhängig von der Prognose bzw. Zielgröße ist. Andernfalls können sich falsch hohe Überlebenskurven ergeben. Daher sind alle Zensierungen (mit Ausnahme „protokollgemäßes Ende der Studie“) mit Angabe von Behandlungsgruppe, Zeitpunkt und Grund aufzulisten. Kaplan-Meyer-Kurven sollten die Zahl der Verstorbenen und der noch „unter Risiko Stehenden“ angeben. IBE J. Hasford München Figure A): The new prognostic scoring system applied to 908 patients with early stage chronic myeloid leukemia treated with interferon alfa (learning sample). Low risk: new score ≤780; intermediate risk: 780 < new score ≤1480; high risk: new score >1480. Entry “(369/83), 98 months” indicates that of 369 patients, 83 patients died. Median survival time was 98 months (range, 3-108 months). The same meaning applies to the numbers of the intermediate-risk group (range, 1-117 months) and the high-risk group (range, 6-103 months); two sided logrank test: P ≤.0001. Lengths of horizontal crossbars indicate the upper and lower 95% confidence limits. Crossbars increase from the lowest risk group to the highest risk group. Figure B): The new prognostic scoring system applied to 285 patients with early stage chronic myeloid leukemia treated with interferon alfa (validation sample). Low risk: new score ≤ 780; intermediate risk: 780 < new score ≤1480; high risk: new score >1480. Because few patients were observed for longer, only the survival curves for the first 5.5 years under observation were plotted. Entry “(125/33), 96 months” indicates that of 125 patients 33 patients died. Median survival time was 96 months (range, 14-96 months). The same meaning applies to the numbers of the intermediate-risk group (range, 7-84 months) and the high-risk group (range, 2-88 months); two-sided logrank test: P =.0002. Lengths of horizontal crossbars indicate the upper and lower 95% confidence limits. Crossbars increase from the lowest risk group to the highest risk group. Hasford J, Pfirrmann M, Hehlmann R et al. A New Prognostic Score for Survival of Patients With Chronic Myeloid Leukemia Treated with Interferon Alfa. J Natl Cancer Inst. 1998;90:850-858.