Statistische Tests

Transcription

Statistische Tests
Vorlesung L6: Statistische Tests
Prof. Dr. Joerg Hasford
IBE
Institut für medizinische Informationsverarbeitung,
Biometrie und Epidemiologie
Ludwig-Maximilians-Universität München
Email: [email protected]
IBE
J. Hasford
München
Hypothesen
Aufgaben
Theoretische Einsichten führen zu Behauptungen
(Hypothesen) über die Beschaffenheit einer
Population (Grundgesamtheit), deren Richtigkeit
sich dann in empirischen Untersuchungen an
Stichproben bestätigen muss.
Bortz 1979
Population
Stichprobe
IBE
J. Hasford
München
Hypothesen
Anforderungen
Forschungshypothesen sollten aus Bebachtungen
Voruntersuchungen, eigenen Überlegungen bzw.
aus Theorien abgeleitet werden. Sie leisten einen
umso größeren Beitrag zur Stützung kausaler
Erklärungsansätze je stärker sie eine schlüssige
und eindeutige Ergebnisinterpretation vor-schreiben.
- Zusammenhangshypothesen
- Unterschiedshypothesen
- Gleichheitshypothesen
IBE
J. Hasford
München
Hypothesen
Beispiel: Rauchen Lungenkrebs
H0: Lungenkrebs ist unabhängig vom Rauchen.
H1: Lungenkrebs ist abhängig vom Rauchen.
Design: z.B. Ökologische Korrelationsstudie
H0: Patienten mit Lungenkrebs rauch(t)en ebenso häufig
wie Patienten ohne Lungenkrebs.
H1: Patienten mit Lungenkrebs rauch(t)en häufiger als
Patienten mit Lungenkrebs.
Design: z.B. Querschnittsstudie (Fallkontrollstudie)
H0: Raucher unterscheiden sich von Nichtrauchern in der
Entwicklung von Lungenkrebs nicht.
H1: Raucher entwickeln häufiger Lungenkrebs als
Nichtraucher.
Design: Kohortenstudie
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
Stichprobe
unter gewissen Voraussetzungen
Teststatistik (zum Überprüfen der Hypothesen)
Rückschluss
Testentscheidung
IBE
J. Hasford
München
Der statistische Test
•
Der statistische Test folgt dem Prinzip des
Beweises mittels Widerspruch. Die Gültigkeit einer
Aussage wird untermauert, indem ihr logisches
Gegenteil als unplausibel dargestellt wird.
•
Die nachzuweisende Aussage wird Alternative (A)
genannt, deren logisches Gegenteil heißt
Nullhypothese (H0).
IBE
J. Hasford
München
Testprinzip: Ablehnen der Nullhypothese
Es soll gezeigt werden, dass die beobachteten Daten nicht zur
Nullhypothese (H0) passen, damit wird diese unplausibel und die Daten
untermauern die Gültigkeit der Alternative (A, H1).
Schritt 1: Formulieren der Nullhypothese, H0
Schritt 2: Quantifizieren der Diskrepanz zwischen Nullhypothese und den
beobachteten Daten
Berechnen der Teststatistik
Schritt 3: Bewerten der Teststatistik
Berechnen eines p-Wertes: Wie wahrscheinlich ist es unter H0,
d.h. unter der Annahme, dass H0 zutrifft, den Wert der Teststatistik
oder noch extremere Werte zu beobachten?
Schritt 4: Signifikanzniveau α: Schwellenwert der festlegt, wie klein der p-Wert
sein muss um zu einer Ablehnung der Nullhypothese zu führen.
Schritt 5: Testentscheidung:
p < α : Nullhypothese wird abgelehnt und Alternative als gültig
erklärt.
p ≤ α : Nullhypothese kann nicht abgelehnt werden. Damit ist aber
nicht gezeigt, dass die Nullhypothese auch tatsächlich zutrifft.
Denkmodell
Wiederholtes Ziehen von Stichproben.
•
Prüfverteilung unter Annahme von H0 bei
gegebener statistischer Verteilungsannahme
•
Vergleich der an der Stichprobe empirisch
beobachteten Werte mit Prüfverteilung bei
gegebener Wahrscheinlichkeit für den Fehler
1. Art (α).
IBE
J. Hasford
München
Vorgabe des Signifikanzniveaus bzw. der
Irrtumswahrscheinlichkeit 1. Art (= α)
● mögliche Fehlersituationen beim Testen
Testentscheidung
Realität
H0 richtig
H1 richtig
H0 beibehalten
korrekte Entscheidung
für H1
Fehler I. Art
Wahrscheinlichkeit = 1-α Wahrscheinlichkeit = α
Fehler II. Art
korrekte Entscheidung
Wahrscheinlichkeit = β
Wahrscheinlichkeit = 1-β
IBE
J. Hasford
München
Vorgabe des Signifikanzniveaus bzw. der
Irrtumswahrscheinlichkeit 1. Art (= α)
● N u r der Fehler 1. Art wird durch Vorgabe von
α kontrolliert,
d.h. Wahrscheinlichkeit für den Fehler 1. Art ≤ α.
● Unsymmetrie im Testen:
Falls H0 abgelehnt wird
→ H1 ist statistisch signifikant mit
Irrtumswahrscheinlichkeit = α
Falls H0 nicht abgelehnt wird → H0 ist nicht statistisch signifikant
/ Test liefert keine Entscheidung.
→
● Meist α = 5% oder α = 1%)
IBE
J. Hasford
München
Testprinzip: Power
•
Ist die Fehlerwahrscheinlichkeit β klein, so tritt die
Situation selten auf, dass der interessierende
Sachverhalt (Alternative) vom Test nicht erkannt
wird, wenn er vorliegt.
•
Die Größe 1-β wird Power eines Testes genannt.
Sie beschreibt die Fähigkeit einer Teststrategie das
zu bestätigen, was als interessierender
Sachverhalt (Alternative) gilt, wenn dieser auch
vorliegt.
IBE
J. Hasford
München
Merkmalstypen und korrespondierende Tests
Merkmalstypen
quantitativ
qualitativ
nominal
ordinal
z.B. Geschlecht
z.B. UAW
(WHO-Grad)
approximativ
normal verteilt ?
nein
z.B.
χ2-Test
ja
z.B.
Wilcoxon-Test
diskret
stetig
z.B. Anzahl
Zigaretten / Tag
z.B.
Körpergewicht
zensiert
z.B. Überlebenszeit
Normalverteilungsvoraussetzung erfüllt ?
nein
ja
z.B.
t-Test, F-Test
z.B.
Logrank-Test
unverbundene Stichproben
Beispiel:
Es soll die Wirksamkeit von zwei Medikamenten A und B
untersucht werden. Ein Teil der Probanden bekommt
Medikament A, der andere Teil bekommt Medikament B.
Verbundene Stichproben bzw. gepaarte
Beobachtungen:
Beispiel:
Es soll die Wirksamkeit von zwei Medikamenten A und B
untersucht werden. Die Probanden bekommen zunächst
Medikament A, dann Medikament B.
(dazwischen: Auswaschphase, damit sich die Effekte nicht beeinflussen.)
Von jedem Patienten liegt ein Datenpaar vor.
IBE
J. Hasford
München
Der Chi2 Test
IBE
J. Hasford
München
Statistische Auswertung: χ2-Test
Frage:
Entspricht das Verhältnis Männer : Frauen im 1.
Semester Medizin dem Geschlechtsverhältnis in
der Bevölkerung (1:1)?
1. Schritt: Zählen (Empirie)
b1 = 200
b2 = 150
2. Schritt: Erwartungswert berechnen für Annahme:
Gleichverteilung bzw. H0
fe =
f b1 + f b 2
2
200 + 150
fe =
2
f e = 175
3. Abweichung der empirischen Werte vom
Erwartungswert quantifizieren
∑ (f
χ
2
=
2
b
− fe )
f
(
∑
2
bi
− f ei )
f ei
2
χ
2
=
∑
(200 − 175)
175
χ
2
+
(150 − 175)
= 7,142
175
2
Entscheidungsregel
lehne H0 ab, wenn
χ
2
berechnet
(Empirisch )
≥ χ
2
( df , α )
Tabelle: 5%-, 1%- und 0,1%-Schranken
der χ2-Verteilung
FG
1
5%
3,84
1%
6,63
0,1%
10,83
2
5,99
9,21
13,82
3
7,81
11,34
16,27
4
9,49
13,28
18,47
5
11,07
15,09
20,52
Heilung
Therapie
Standard
Neu
Σ
nein
15
4
19
a
10,5
c
8,5
b
d
ja
Σ
85
100
77
162
89,5
72,5
81
181
Heilungsrate Standard: 85 / 100
(85%)
Heilungsrate Neu:
77 / 81
(95%)
Frage:
Ist die Neue Therapie wirklich besser ?
IBE
J. Hasford
München
Hypothesen
H0: Die Heilungsraten sind von der
Behandlung unabhängig.
H1: Die Heilungsraten hängen von der
Therapie ab.
IBE
J. Hasford
München
a
2
χ =
χ
b
(15 −10,5 )
10,5
2
=
2
+
c
(85 − 89, 5 )
89,5
2
+
(4 − 8, 5)
8,5
d
2
+
(77 − 72,5 )
72, 5
1,9328 + 0,2265 + 2,3845 + 0,2797
χ
2
=
4,82
2
Tabelle: 5%-, 1%- und 0,1%-Schranken
der χ2-Verteilung
FG
1
5%
3,84
1%
6,63
0,1%
10,83
2
5,99
9,21
13,82
3
7,81
11,34
16,27
4
9,49
13,28
18,47
5
11,07
15,09
20,52
Voraussetzungen
1. Unabhängigkeit der Beobachtungen
2. Erwartungswerte > 5
3. Eindeutige Zuordenbarkeit
IBE
J. Hasford
München
Der Logrank-Test
IBE
J. Hasford
München
Statistische Auswertung:
Logrank Test
Überlebensraten, Remissionsraten
z.B.
2 Jahresüberlebensrate
Therapie A:
55%
Therapie B:
40%
Probleme:
•
•
•
•
Alle Patienten müssen entsprechend lange beobachtet
werden.
vorzeitige Ausscheider - Dropouts, Lost to Follow-up,
d.h. Festlegung von Zähler und Nenner
Fallzahlen
Festlegung des Zeitraums
IBE
J. Hasford
München
Rekrutierung & Nachbeobachtung
abgebrochen
1
2
3
verstorben
Patienten-Nr.
7
lebt
20
30
36
lebt
47
60
97
98
RandomisierungsPhase
99
00
01
02
Follow-up-Phase
03
04
Ereignis bzw. letzte Information
7
Ereignis
1
Patienten-Nr.
36
zensiert
20
60
2
30
3
47
0
365
1
730
2
1095
3
1460
4
1825
5
Beobachtungsdauer (Tage bzw. Jahre)
2190
6
2555
7
Kaplan-Meier-Methode
Pat.
Nr.
Zeit bis zum
Anzahl der
Anzahl der Anzahl der WahrscheinlichEreignis
Patienten
Ereignisse Zensierun- keit des Eintretens
bzw. bis zur unter Risiko
zum
gen zum
des Ereignisses
Zensierung zum Zeitpunkt Zeitpunkt i Zeitpunkt i
(tot)
i
(*)
i
ni
di
ai
qi
ni−1 − (di−1 + ai−1 )
Survival time
(Tage)
59
42
9
47
40
31
55
44
12
3
0
26
27
115 *
194 *
195
2057 *
2072
2101
2384 *
2430
di / ni
rk
fk
60
60
59
58
57
56
10
9
8
2
1
0
1
1
0
0
1
0
1
1
0
1
Wahrscheinlichkeit des
NichtEintretens
(überleben)
Pi
1 − qi
(rk − f k ) / rk
0
0
0
1
1
0
1
0
0
1
0
Kummulative
Wahrscheinlichkeit des
Nicht-Eintretens
des Ereignisses
Si
(pi pi−1 .. p1 )
pk
0,0000
0,0167
0,0169
1,0000
0,9833
0,9831
1,0000
0,9833
0,9667
0,0179
-
0,9821
-
0,9494
-
0,1111
0,1250
-
0,8889
0,8750
-
0,3276
0,2866
-
1,0000
0,0000
0,0000
Kaplan-Meier-Kurve
1.0
0.9
0.8
N = 60
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
Jahre
7
Vergleich von zwei Überlebenskurven
ni
di
0
30
0
0
0,0000
1,0000
1,0000
42
27
30
1
0
0,0333
0,9667
0,9667
9
115
29
0
1
40
.
195
.
28
.
1
.
0
.
0,0357
.
0,9643
.
0,9321
.
31
2057
4
0
1
55
2072
3
1
0
0,3333
0,6667
0,1751
0
30
0
0
0,0000
1,0000
1,0000
59
26
30
1
0
0,0333
0,9667
0,9833
47
.
44
.
12
3
194
.
2101
.
2384
2430
29
.
6
.
2
1
0
.
1
.
0
1
1
.
0
.
1
0
.
0,1667
.
.
0,8333
.
.
0,2866
.
1,0000
0,0000
0,0000
Therapie B
Therapie A
Pat. Id
i
ai
qi
Pi
Si
Vergleich von zwei Überlebenskurven
1.0
Therapie A
0.9
Therapie B
0.8
0.7
0.6
P
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
Jahre
7
Logrank-Test
Zeit bis zum
Ereignis
Anzahl der Patienten
unter Risiko
ni
i
∑
30
29
29
29
28
28
9
9
8
Therapie B
30
30
29
28
28
27
7
6
6
Ei
(∑0 * (n / ∑ n ))
i
Therapie A
60
59
58
57
56
55
16
15
14
Anzahl der
erwarteten Ereignisse
Oi
ni−1 − (di−1 + ai−1 )
Therapie A
26
27
115
194
195
242
2072
2101
2430
Anzahl der
beobachteten Ereignisse
Therapie B
1
1
1
1
-
1
1
1
∑O
∑O
13
19
iA
1
1
0
0
1
1
1
1
1
iB
32
i
i
Therapie A
Therapie B
0,5000
0,4915
0,0000
0,0000
0,5000
0,5091
0,5625
0,6000
0,5714
0,5000
0,5085
0,0000
0,0000
0,5000
0,4909
0,4375
0,4000
0,4286
∑E
∑E
iA
17,1505
iB
14,8495
Logrank-Test
2
χ
χ
2
2
(∑ O − ∑ E ) + (∑o
iA
=
∑E
iA
iA
(13 − 17,1505)
=
17,1505
2
2
+
χ = 2,165 1 FG
iB
− ∑ E iB
∑E
2
)
iB
(19 − 14,8495)
14,8495
p = 0,14
2
Analyse von Überlebenszeiten:
Kaplan-Meier-Kurven
Zensiert werden darf nur, wenn die Ursache der Zensierung
unabhängig von der Prognose bzw. Zielgröße ist. Andernfalls
können sich falsch hohe Überlebenskurven ergeben. Daher
sind alle Zensierungen (mit Ausnahme „protokollgemäßes
Ende der Studie“) mit Angabe von Behandlungsgruppe,
Zeitpunkt und Grund aufzulisten.
Kaplan-Meyer-Kurven sollten die Zahl der Verstorbenen und
der noch „unter Risiko Stehenden“ angeben.
IBE
J. Hasford
München
Figure A): The new prognostic scoring system
applied to 908 patients with early stage chronic
myeloid leukemia treated with interferon alfa
(learning sample). Low risk: new score ≤780;
intermediate risk: 780 < new score ≤1480; high risk:
new score >1480. Entry “(369/83), 98 months”
indicates that of 369 patients, 83 patients died. Median
survival time was 98 months (range, 3-108 months).
The same meaning applies to the numbers of the
intermediate-risk group (range, 1-117 months) and the
high-risk group (range, 6-103 months); two sided
logrank test: P ≤.0001. Lengths of horizontal crossbars
indicate the upper and lower 95% confidence limits.
Crossbars increase from the lowest risk group to the
highest risk group.
Figure B): The new prognostic scoring system applied to
285 patients with early stage chronic myeloid leukemia
treated with interferon alfa (validation sample). Low risk:
new score ≤ 780; intermediate risk: 780 < new score
≤1480; high risk: new score >1480. Because few patients
were observed for longer, only the survival curves for the
first 5.5 years under observation were plotted. Entry
“(125/33), 96 months” indicates that of 125 patients 33
patients died. Median survival time was 96 months
(range, 14-96 months). The same meaning applies to the
numbers of the intermediate-risk group (range, 7-84
months) and the high-risk group (range, 2-88 months);
two-sided logrank test: P =.0002. Lengths of horizontal
crossbars indicate the upper and lower 95% confidence
limits. Crossbars increase from the lowest risk group to
the highest risk group.
Hasford J, Pfirrmann M, Hehlmann R et al. A New Prognostic Score for Survival of Patients With Chronic Myeloid
Leukemia Treated with Interferon Alfa. J Natl Cancer Inst. 1998;90:850-858.
T-Test
IBE
J. Hasford
München
Der t-Test für kontinuierliche und
normal verteilte Daten
Fragestellung:
Ist der IQ von Medizinstudenten (n = 25) höher
als der IQ in der Bevölkerung (IQ: 100)?
IBE
J. Hasford
München
IQB = 100 ± 15
Standardfehler (SE) =
IQMSt /n = 25)
=
Standardabweichung
√ Fallzahl
(Stichprobenumfang)
107,5
Wie groß ist die Wahrscheinlichkeit, dass man einen Stichprobenmittelwert von ≥ 107,5 erhält, wenn der Mittelwert der
Grundgesamtheit 100 beträgt?
IBE
J. Hasford
München
Man berechnet, wie weit dieser Wert (107,5) vom Mittelwert
(100) entfernt ist, gemessen in der Einheit Standardfehler.
Standardfehler (SE) =
107,5 - 100
3
= 2,5
Die Wahrscheinlichkeit beträgt 0,006 (1 : 160).
Dieser Test für den Vergleich eines Stichprobenmittelwerts
mit einem Populationsmittelwert heißt z-Test. Man nutzt dabei
die Standardnormalverteilung.
IBE
J. Hasford
München
Null-Hypothese:
IQMSt = IQB
Alternativehypothese:
IQMSt > IQB
SE=3
94
97 100
Verteilung der
Mittelwerte
103 106 107,5
IQ
IBE
J. Hasford
München
In der Medizin sind Bevölkerungsmittelwerte oft nicht bekannt
bzw. nicht relevant; daher muss die Standardabweichung aus
den Stichproben geschätzt werden.
t=
Differenz der Mittelwerte
Standardfehler der Differenz
t-Test und t-Verteilung
IBE
J. Hasford
München
Voraussetzungen für den t-Test
2 Stichproben
•
•
normal verteilte Grundgesamtheiten
gleiche Varianzen
Richtige Darstellungen
•
•
•
t-Wert
Freiheitsgrade (n1 + n2 - 2)
p-Wert (ein- / zwei-seitig)
IBE
J. Hasford
München
Der Mann-Whitney U-Test für ordinal-skalierte
und nicht-normalisierte Daten
Schmerzwerte (UAS)
H
Proband
Score
P
Rang
Proband
Score
Rang
1
9,8
1
11
8,6
5
2
9,6
2
12
8,2
7
3
8,9
3
13
7,7
9
4
8,8
4
14
7,5
10
5
8,4
6
15
6,9
12
6
7,9
8
16
6,7
13
7
7,2
11
17
4,9
17
8
5,8
14
18
4,5
18
9
5,5
15
19
3,5
19
10
5,1
16
20
1,5
20
1 2 3 4 5
6 7
8
9
10 11 12 13 14 15 16 17 18 19
Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Gruppe H H H H P H P H P
P
H
P
P
H
H
H P
4 + 5 + 6 + 6 + 7 + 7 + 10 + 10 + 10 + 10
P
P P
=
75
IBE
J. Hasford
München
Voraussetzungen für den MannWhitney U-Test
2 Stichproben
•
Stichproben entstammen Grundgesamtheiten mit
annähernd gleicher Verteilungsform.
•
Mediane sollen verglichen werden.
Richtige Darstellung
•
•
•
U-Wert
n
p-Wert (ein- / zwei-seitig)
IBE
J. Hasford
München
Zusammenfassung
•
•
•
•
Der statistische Test ist eine Entscheidungshilfe. Er
quantifiziert die Wahrscheinlichkeit, mit der man
sich irrt, wenn man die Alternativhypothese annimmt bzw. die Nullhypothese ablehnt.
Diese Wahrscheinlichkeit α eines falsch-positiven
Schlusses wird traditionellerweise auf 5% (bzw.
0,05) gesetzt und wird Signifikanzniveau genannt.
Die Wahl des richtigen statistischen Tests richtet
sich nach der Skalierung und der Verteilung der
Messgröße und danach, ob es sich um eine
verbundene Stichprobe handelt oder nicht.
Die Wahrscheinlichkeit β eines falsch-negativen
Ergebnisses wird über die Power (oder Güte) 1 - β
eines statistischen Tests geregelt.