Statistische Tests

Transcription

Statistische Tests
Vorlesung L6: Statistische Tests
Verena Hoffmann
IBE
Institut für medizinische Informationsverarbeitung,
Biometrie und Epidemiologie
Ludwig-Maximilians-Universität München
Email: [email protected]
IBE
J. Hasford
München
Lernziele
•
•
•
•
•
•
•
Das Prinzip des statistischen Tests
Fehlerarten
Chi2-Test
Logrank-Test
t-Test
Prinzip,
Voraussetzungen
Mann-Whitney-Test
Kriterien für die Auswahl des geeigneten Tests
IBE
J. Hasford
München
Statistische Testtheorie
Fragestellung
IBE
J. Hasford
München
Statistische Testtheorie
Fragestellung
H0
HypothesenH1
IBE
J. Hasford
München
Hypothesen
Anforderungen
Forschungshypothesen sollten aus Voruntersuchungen, eigenen Überlegungen bzw. aus
Theorien abgeleitet werden. Sie leisten einen
umso größeren Beitrag zur Stützung kausaler
Erklärungsansätze je stärker sie eine schlüssige
und eindeutige Ergebnisinterpretation vorschreiben.
Die Nullhypothese H0 nimmt stets an, dass es
keinen Effekt gibt.
IBE
J. Hasford
München
Hypothesen
Beispiel: Rauchen Lungenkrebs
Grundlage: Zigaretten enthalten Teer. Teer ist als
krebserregender Stoff bekannt.
Mögliche Hypothesen:
H0: Patienten mit Lungenkrebs rauch(t)en ebenso häufig
wie Patienten ohne Lungenkrebs.
H1: Patienten mit Lungenkrebs rauch(t)en häufiger als
Patienten ohne Lungenkrebs.
Design: z.B. Querschnittsstudie (Fallkontrollstudie)
H0: Raucher unterscheiden sich von Nichtrauchern in
der Entwicklung von Lungenkrebs nicht.
H1: Raucher entwickeln häufiger Lungenkrebs als
Nichtraucher.
Design: Kohortenstudie
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
IBE
J. Hasford
München
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
Stichprobe
IBE
J. Hasford
München
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
Stichprobe
Teststatistik (zum Überprüfen der Hypothesen
IBE
J. Hasford
München
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
Stichprobe
Teststatistik (zum Überprüfen der Hypothesen
Testentscheidung
IBE
J. Hasford
München
Testentscheidung
Wenn H0 verworfen wird:
H0:
Die Menge der gerauchten Zigaretten steht in keinem
Zusammenhang mit dem Lungenkrebsrisiko.
H1:
Das Lungenkrebsrisiko steigt mit der Zahl der gerauchten
Zigaretten.
H1:
Wenn mehr Frauen rauchen, wird Lungenkrebs auch bei Frauen
häufiger. etc….
Falls H0 abgelehnt wird
→ H1 ist statistisch signifikant mit
Irrtumswahrscheinlichkeit = α
Falls H0 nicht abgelehnt wird → man kann sich nicht aktiv für H0
entscheiden
→ H0 ist nicht signifikant!
IBE
J. Hasford
München
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
Stichprobe
Teststatistik (zum Überprüfen der Hypothesen
Rückschluss
Testentscheidung
IBE
J. Hasford
München
Statistische Testtheorie
Fragestellung
Hypothesen
H0
H1
Grundgesamtheit
Stichprobe
Teststatistik (zum Überprüfen der Hypothesen
Testentscheidung
Rückschluss
Immer
korrekt?
IBE
J. Hasford
München
Signifikanzniveau α:
Die Irrtumswahrscheinlichkeit
Ein 100% richtiges Ergebnis erhält man nur durch Kenntnisse über die Grundgesamtheit.
Die Fehlerwahrscheinlichkeit wird über das Signifikanzniveau α kontrolliert.
Testentscheidung
Realität
H0 richtig
H1 richtig
H0 beibehalten
korrekte Entscheidung
für H1
Fehler 1. Art
Wahrscheinlichkeit = 1-α Wahrscheinlichkeit = α
Fehler 2. Art
korrekte Entscheidung
Wahrscheinlichkeit = β
Wahrscheinlichkeit = 1-β
Durch α wird nur der Fehler 1. Art kontrolliert. Warum?
Hypothesenwahl
IBE
J. Hasford
München
Statistik – rückwärts!
1. Schritt: Aufstellen einer Test-Hypothese:
H0: kein Effekt
2. Schritt: Regeln aufstellen, mit denen man
entscheiden kann, ob die Hypothese haltbar ist
3. Schritt: Daten sammeln
Frage: Wie wahrscheinlich ist es, dass diese Daten
unter der Nullhypothese auftreten?
Prüfverteilung / Teststatistik
IBE
J. Hasford
München
Welche Tests für welche Merkmalstypen?
Merkmalstypen
quantitativ
qualitativ
nominal
ordinal
z.B. Geschlecht
z.B. UAW
(WHO-Grad)
approximativ
normal verteilt ?
nein
z.B.
χ2-Test
ja
z.B.
Wilcoxon-Test
diskret
stetig
z.B. Anzahl
Zigaretten / Tag
z.B.
Körpergewicht
zensiert
z.B. Überlebenszeit
Normalverteilungsvoraussetzung erfüllt ?
nein
ja
z.B.
t-Test, F-Test
z.B.
Logrank-Test
Der Chi2 Test
IBE
J. Hasford
München
1. Beispiel
Frage:
Entspricht das Verhältnis Männer : Frauen im 1.
Semester Medizin dem Geschlechtsverhältnis in
der Bevölkerung (1:1)?
Hypothesen:
H0: Verhältnis 1:1
H1: Unausgeglichenes Verhältnis
Daten:
bm = 200
bw = 150
Welche Frage muss der Test beantworten?
Wie weit dürfen die beobachteten Daten vom Verhältnis 1:1
abweichen, damit diese Abweichung noch als zufällig gelten
kann?
Berechnung: 1. Erwartungswert berechnen für Annahme:
Gleichverteilung bzw. H0
bw +bm
e=
2
200+150
e=
2
e = 175
IBE
J. Hasford
München
2. Abweichung der empirischen Werte vom
Erwartungswert quantifizieren
2
2
(
−
)
(
−
)
b
e
b
e
χ 2= w
+ m
e
e
(200 − 175) (150−175)
χ =
+
175
175
2
2
χ
2
= 7,142
2
3. Testentscheidung
Entscheidungsregel: lehne H0 ab, wenn
χ
2
berechnet
(Empirisch )
≥ χ
2
( df , α )
7,142 ≥ 3,84
Im Beispiel kann H0 abgelehnt werden. Das Geschlechterverhältnis im 1. Semester Medizin unterscheidet sich
signifikant vom Geschlechtsverhältnis in der
Gesamtbevölkerung.
Tabelle: 5%-, 1%- und 0,1%-Schranken
der χ2-Verteilung
FG
1
5%
3,84
1%
6,63
0,1%
10,83
2
5,99
9,21
13,82
3
7,81
11,34
16,27
4
9,49
13,28
18,47
5
11,07
15,09
20,52
2. Beispiel: Heilung
Zwei Ausprägungen, zwei Gruppen
Therapie
nein
Standard
a
Neu
c
Σ
15
4
19
b
10,5
d
8,5
ja
Σ
85
100
77
162
89,5
72,5
81
181
Heilungsrate Standard: 85 / 100
(85%)
Heilungsrate Neu:
77 / 81
(95%)
Frage:
Ist die Neue Therapie wirklich besser ?
IBE
J. Hasford
München
Hypothesen
H0: Die Heilungsraten sind von der
Behandlung unabhängig.
H1: Die Heilungsraten hängen von der
Therapie ab.
IBE
J. Hasford
München
Erwartete Werte für jede Zelle berechnen:
Therapie
nein
Standard
a
Neu
c
15
4
19
Σ
Für Zelle a:
b
10,5
d
8,5
ja
Σ
85
100
77
162
89,5
72,5
81
181
19 ⋅100
a=
= 10,5
181
IBE
J. Hasford
München
a
b
c
d
2
2
2
2
(
)
(
)
(
)
(
)
15
−
10
,
5
85
−
89
,
5
4
−
8
,
5
77
−
72
,
5
+
+
+
χ2 =
10 ,5
χ
2
=
89 ,5
72 ,5
1,9328 + 0,2265 + 2,3845 + 0,2797
χ
χ
8, 5
2
empirisch
2
=
4,82
= 4,82 ≥ 3,84 = χ
2
theoretisch
H0 kann abgelehnt werden. Die Heilungsraten hängen von
der Therapie ab.
Voraussetzungen
1. Unabhängigkeit der Beobachtungen
2. Erwartungswerte > 5
3. Eindeutige Zuordenbarkeit
IBE
J. Hasford
München
T-Test
IBE
J. Hasford
München
Der t-Test für kontinuierliche und
normal verteilte Daten
Fragestellung:
Ist der IQ von Medizinstudenten (n = 25, durchschnittlicher IQ=107,5)
höher als der IQ in der Bevölkerung (IQ: 100)?
Die Standardabweichung σ des IQ in der Bevölkerung beträgt 15.
Hypothesen:
H0: Es besteht kein Unterschied zwischen IQM
und IQB.
H1: Der IQ der Medizinstudenten ist höher.
IBE
J. Hasford
München
Wie groß ist die Wahrscheinlichkeit, dass man einen Stichprobenmittelwert von ≥ 107,5 erhält, wenn der Mittelwert der
Grundgesamtheit in Wahrheit 100 beträgt?
Teststatistik:
z=
IQM − IQB
σ
n
Standardfehler:
SE = σ
=
107,5 − 100
= 2,5
15
25
n
H0 kann abgelehnt werden, falls:
z > z 1−α
2,5 >1,65 ⇒ H0 kann abgelehnt werden
IBE
J. Hasford
München
Null-Hypothese:
IQMSt = IQB
Alternativehypothese:
IQMSt > IQB
SE=3
94
97
100
Verteilung der
Mittelwerte
103
106
Die Wahrscheinlichkeit beträgt 0,006 (1 : 160).
IQ
IBE
J. Hasford
München
Dieser Test für den Vergleich eines Stichprobenmittelwerts
mit einem Populationsmittelwert heißt z-Test. Man nutzt
dabei die Standardnormalverteilung.
In der Medizin sind Bevölkerungsmittelwerte oft nicht bekannt
bzw. nicht relevant; daher muss die Standardabweichung aus
den Stichproben geschätzt werden.
t=
Differenz der Mittelwerte
Standardfehler der Differenz
t-Test und t-Verteilung
IBE
J. Hasford
München
Voraussetzungen für den t-Test
• Die Beobachtungen müssen unabhängig voneinander sein
Bei 1 Stichprobe
• normal verteilte Grundgesamtheiten oder Stichprobenumfang >= 25
Bei 2 Stichproben
• normal verteilte Grundgesamtheiten
• gleiche Varianzen
Richtige Darstellungen
• t-Wert
• Freiheitsgrade (n1 + n2 - 2)
• p-Wert (ein- / zweiseitig)
IBE
J. Hasford
München
Der Mann-Whitney U-Test
für ordinal-skalierte und nichtnormalverteilte Daten
(auch: Wilcoxon-Rangsummen-Test)
IBE
J. Hasford
München
Idee: Bringt man die Werte in Reihenfolge sollten sie gut
gemischt sein.
Schmerzwerte (UAS)
H
Proband
Score
P
Rang
Proband
Score
Rang
1
9,8
1
11
8,6
5
2
9,6
2
12
8,2
7
3
8,9
3
13
7,7
9
4
8,8
4
14
7,5
10
5
8,4
6
15
6,9
12
6
7,9
8
16
6,7
13
7
7,2
11
17
4,9
17
8
5,8
14
18
4,5
18
9
5,5
15
19
3,5
19
10
5,1
16
20
1,5
20
H0: gleich starke Schmerzen in beiden Gruppen
H1: verschieden starke Schmerzen
Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Gruppe H H H H P H P H P
P
H
P
P
H
H
H P
P
P
Die Teststatistik besteht aus der Summe der Ränge einer
Stichprobe, z.B. von H:
T= 1 + 2 + 3 + 4 + 6 + 8 + 11 + 14 + 15 +
16 = 80
H0 wird abgelehnt, falls:
T > w1-α/2 (n,m) oder T< wα/2 (n,m)
Für α=0,01 ist
T ∉ (88,122) ⇒
H0 kann also abgelehnt
werden.
IBE
J. Hasford
München
P
Voraussetzungen für den MannWhitney U-Test
2 Stichproben
•
Stichproben entstammen Grundgesamtheiten mit
annähernd gleicher Verteilungsform.
•
Mediane sollen verglichen werden.
Richtige Darstellung
•
•
•
W-Wert
n
p-Wert (ein- / zwei-seitig)
IBE
J. Hasford
München
Der Logrank-Test
IBE
J. Hasford
München
Statistische Auswertung:
Logrank Test
Überlebensraten, Remissionsraten
z.B.
2 Jahresüberlebensrate
Therapie A:
55%
Therapie B:
40%
Probleme:
•
•
•
•
Alle Patienten müssen entsprechend lange beobachtet
werden.
vorzeitige Ausscheider - Dropouts, Lost to Follow-up,
d.h. Festlegung von Zähler und Nenner
Fallzahlen
Festlegung des Zeitraums
IBE
J. Hasford
München
Rekrutierung & Nachbeobachtung
abgebrochen
1
2
3
verstorben
Patienten-Nr.
7
lebt
20
30
36
lebt
47
60
97
98
RandomisierungsPhase
99
00
01
02
Follow-up-Phase
03
04
Ereignis bzw. letzte Information
7
Ereignis
1
Patienten-Nr.
36
zensiert
20
60
2
30
3
47
0
365
1
730
2
1095
3
1460
4
1825
5
Beobachtungsdauer (Tage bzw. Jahre)
2190
6
2555
7
Kaplan-Meier-Methode
Pat.
Nr.
Zeit bis zum
Anzahl der
Anzahl der Anzahl der WahrscheinlichEreignis
Patienten
Ereignisse Zensierun- keit des Eintretens
bzw. bis zur unter Risiko
zum
gen zum
des Ereignisses
Zensierung zum Zeitpunkt Zeitpunkt i Zeitpunkt i
(tot)
i
(*)
i
ni
di
ai
qi
ni−1 − (di−1 + ai−1 )
Survival time
(Tage)
59
42
9
47
40
31
55
44
12
3
0
26
27
115 *
194 *
195
2057 *
2072
2101
2384 *
2430
di / ni
rk
fk
60
60
59
58
57
56
10
9
8
2
1
0
1
1
0
0
1
0
1
1
0
1
Wahrscheinlichkeit des
NichtEintretens
(überleben)
Pi
1 − qi
(rk − f k ) / rk
0
0
0
1
1
0
1
0
0
1
0
Kummulative
Wahrscheinlichkeit des
Nicht-Eintretens
des Ereignisses
Si
(pi pi−1 .. p1 )
pk
0,0000
0,0167
0,0169
1,0000
0,9833
0,9831
1,0000
0,9833
0,9667
0,0179
-
0,9821
-
0,9494
-
0,1111
0,1250
-
0,8889
0,8750
-
0,3276
0,2866
-
1,0000
0,0000
0,0000
Kaplan-Meier-Kurve
1.0
0.9
0.8
N = 60
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
Jahre
7
Vergleich von zwei Überlebenskurven
ni
di
0
30
0
0
0,0000
1,0000
1,0000
42
27
30
1
0
0,0333
0,9667
0,9667
9
115
29
0
1
40
.
195
.
28
.
1
.
0
.
0,0357
.
0,9643
.
0,9321
.
31
2057
4
0
1
55
2072
3
1
0
0,3333
0,6667
0,1751
0
30
0
0
0,0000
1,0000
1,0000
59
26
30
1
0
0,0333
0,9667
0,9833
47
.
44
.
12
3
194
.
2101
.
2384
2430
29
.
6
.
2
1
0
.
1
.
0
1
1
.
0
.
1
0
.
0,1667
.
.
0,8333
.
.
0,2866
.
1,0000
0,0000
0,0000
Therapie B
Therapie A
Pat. Id
i
ai
qi
Pi
Si
Vergleich von zwei Überlebenskurven
1.0
Therapie A
0.9
Therapie B
0.8
0.7
0.6
P
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
Jahre
7
Logrank-Test
Zeit bis zum
Ereignis
Anzahl der Patienten
unter Risiko
ni
i
∑
30
29
29
29
28
28
9
9
8
Therapie B
30
30
29
28
28
27
7
6
6
Ei
(∑0 * (n / ∑ n ))
i
Therapie A
60
59
58
57
56
55
16
15
14
Anzahl der
erwarteten Ereignisse
Oi
ni−1 − (di−1 + ai−1 )
Therapie A
26
27
115
194
195
242
2072
2101
2430
Anzahl der
beobachteten Ereignisse
Therapie B
1
1
1
1
-
1
1
1
∑O
∑O
13
19
iA
1
1
0
0
1
1
1
1
1
iB
32
i
i
Therapie A
Therapie B
0,5000
0,4915
0,0000
0,0000
0,5000
0,5091
0,5625
0,6000
0,5714
0,5000
0,5085
0,0000
0,0000
0,5000
0,4909
0,4375
0,4000
0,4286
∑E
∑E
iA
17,1505
iB
14,8495
Logrank-Test
2
χ
χ
2
2
(∑ O − ∑ E ) + (∑o
iA
=
∑E
iA
iA
(13 − 17,1505)
=
17,1505
2
2
+
χ = 2,165 1 FG
iB
− ∑ E iB
∑E
2
)
iB
(19 − 14,8495)
14,8495
p = 0,14
2
Analyse von Überlebenszeiten:
Kaplan-Meier-Kurven
Zensiert werden darf nur, wenn die Ursache der Zensierung
unabhängig von der Prognose bzw. Zielgröße ist. Andernfalls
können sich falsch hohe Überlebenskurven ergeben. Daher
sind alle Zensierungen (mit Ausnahme „protokollgemäßes
Ende der Studie“) mit Angabe von Behandlungsgruppe,
Zeitpunkt und Grund aufzulisten.
Kaplan-Meyer-Kurven sollten die Zahl der Verstorbenen und
der noch „unter Risiko Stehenden“ angeben.
IBE
J. Hasford
München
Figure A): The new prognostic scoring system
applied to 908 patients with early stage chronic
myeloid leukemia treated with interferon alfa
(learning sample). Low risk: new score ≤780;
intermediate risk: 780 < new score ≤1480; high risk:
new score >1480. Entry “(369/83), 98 months”
indicates that of 369 patients, 83 patients died. Median
survival time was 98 months (range, 3-108 months).
The same meaning applies to the numbers of the
intermediate-risk group (range, 1-117 months) and the
high-risk group (range, 6-103 months); two sided
logrank test: P ≤.0001. Lengths of horizontal crossbars
indicate the upper and lower 95% confidence limits.
Crossbars increase from the lowest risk group to the
highest risk group.
Figure B): The new prognostic scoring system applied to
285 patients with early stage chronic myeloid leukemia
treated with interferon alfa (validation sample). Low risk:
new score ≤ 780; intermediate risk: 780 < new score
≤1480; high risk: new score >1480. Because few patients
were observed for longer, only the survival curves for the
first 5.5 years under observation were plotted. Entry
“(125/33), 96 months” indicates that of 125 patients 33
patients died. Median survival time was 96 months
(range, 14-96 months). The same meaning applies to the
numbers of the intermediate-risk group (range, 7-84
months) and the high-risk group (range, 2-88 months);
two-sided logrank test: P =.0002. Lengths of horizontal
crossbars indicate the upper and lower 95% confidence
limits. Crossbars increase from the lowest risk group to
the highest risk group.
Hasford J, Pfirrmann M, Hehlmann R et al. A New Prognostic Score for Survival of Patients With Chronic Myeloid
Leukemia Treated with Interferon Alfa. J Natl Cancer Inst. 1998;90:850-858.