Wahrscheinlichkeitsrechnung für Lehrer

Transcription

INHALTSVERZEICHNIS
1
Inhaltsverzeichnis
1 Einführung
Wahrscheinlichkeitsrechnung
für Lehrer
Technische Universität Berlin
Fakultät II – Mathematik und Naturwissenschaften
Institut für Mathematik
Dr. G. Penn-Karras
Abbildungen von A. Gündel-vom Hofe
4
1.1
Das Problem von Pacioli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung . . . . . . . . . . . . 10
1.3
Zufallsexperimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Grundbegriffe der Zähltechnik
5
16
2.1
Kombinatorische Grundüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2
Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Von Pascal bis Kolmogorow - Axiomatisierung
32
(nach einer Vorlage von Prof. G. Leßner)
Stand: 29. März 2007
f
3.1
Historische Entwicklung des Wahrscheinlichkeitsbegriffs . . . . . . . . . . . . . . 32
3.2
Das Axiomensystem von Kolmogorow . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3
Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4
Bertrands Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.5
Weitere Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4 Folgerungen aus den Axiomen
F(x)
f(x)
µ
x
R
43
4.1
Der Satz von Sylvester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2
Anwendungen des Satzes von Sylvester . . . . . . . . . . . . . . . . . . . . . . . 46
4.3
Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4
Der Multiplikationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5
Totale Wahrscheinlichkeit, Satz von Bayes . . . . . . . . . . . . . . . . . . . . . 54
5 Unabhängigkeit und Produkträume
59
5.1
Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2
Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3
Vermischte Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6 Diskrete Zufallsgrößen
67
6.1
Zufallsgrößen und Wahrscheinlichkeitsfunktionen . . . . . . . . . . . . . . . . . . 67
6.2
Erwartungswert, Varianz und Streuung . . . . . . . . . . . . . . . . . . . . . . . 70
6.3
Die Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.4
Ergänzungen und Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2
INHALTSVERZEICHNIS
7 Die Binomialverteilung
80
8 Weitere diskrete Verteilungen
87
8.1 Die geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.2 Die hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.3 Die Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
8.4 Die Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
9 Stetige Zufallsgrößen
98
9.1 Die Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.2 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
9.3 Momente höherer Ordnung, Varianz und Schiefe . . . . . . . . . . . . . . . . . . 105
9.4 Die Ungleichung von Tschebyschew . . . . . . . . . . . . . . . . . . . . . . . . . 109
10 Die Normalverteilung
112
10.1 Einführung der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3
INHALTSVERZEICHNIS
13.5 Irrfahrten auf einer Geraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
14 Stichproben und ihre Parameter
167
15 Einfache Entscheidungsverfahren
174
15.1 Das Testen einer Hypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
15.2 Der exakte Test von Fisher
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
15.3 Der Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
15.4 Weitere Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
16 Punktschätzung von Parametern
183
16.1 Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . 183
16.2 Ein Beispiel: Schätzung eines Populationsumfangs
. . . . . . . . . . . . . . . . 187
16.3 Das Maximum–Likelihood–Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . 194
17 Konfidenzintervalle
200
17.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
10.2 Die standardisierte Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 115
17.2 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
10.3 Die Grenzwertsätze von de Moivre und Laplace . . . . . . . . . . . . . . . . . . 116
17.3 Schätzung des Erwartungswertes einer Normalverteilung . . . . . . . . . . . . . 204
10.4 Anwendungen der Normalapproximation . . . . . . . . . . . . . . . . . . . . . . 121
18 Regression und Korrelation
11 Verteilungen von Zufallsvektoren
211
123
18.1 Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
11.1 Diskrete zweidimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 124
18.2 Rangkorrelation und Vierfelderkorrelation . . . . . . . . . . . . . . . . . . . . . 217
11.2 Stetige zweidimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 128
A Übersichten
12 Weitere Eigenschaften von Zufallsvektoren
220
136
A.1 Kombinatorische Grundformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
12.1 Unabhängige Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
A.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
12.2 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
A.3 Stetige Verteilungen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
12.3 Kovarianz und Korrelation zweier Zufallsgrößen . . . . . . . . . . . . . . . . . . 142
12.4 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
B Tabellen
224
B.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
13 Homogene Markowketten
B.1.1 p ≤ 0, 15 bzw. p ≥ 0, 85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
148
13.1 Eigenschaften von Markowketten . . . . . . . . . . . . . . . . . . . . . . . . . . 148
B.1.2 0, 2 ≤ p ≤ 0, 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
13.2 Stochastische Matrizen und gerichtete Graphen . . . . . . . . . . . . . . . . . . 150
B.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
13.3 Die Pfadregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
13.4 Die Mittelwertregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
Index
238
4
1
1 EINFÜHRUNG
Einführung
1.1 Das Problem von Pacioli
5
bewusst etwas leichtere Brötchen her. Als sich eines Tages eine Kontrolle ansagte, las er rasch
noch die ganz leichten aus. Wie hätte man den Betrug aufdecken können?
Probleme der Wahrscheinlichkeitsrechnung erfordern Denkstrategien, die sich von den Vorgehensweisen in der Geometrie, der Algebra und der Analysis, um nur einige bekanntere Disziplinen zu nennen, wesentlich unterscheiden.
Betrachten wir einige Beispiele.
Beispiel 1.1:
Ein Test besteht aus 10 Fragen. Zu jeder Frage sind 3 Antworten zur Auswahl gegeben, von
denen genau eine richtig ist. Bei 7 oder mehr richtigen Antworten ist der Test bestanden.
Ein ahnungsloser“ Prüfling kennt genau zwei richtige Antworten; bei den übrigen acht Fragen
”
wählt er blindlings aus.
Mit wieviel Prozent Sicherheit kann er erwarten, den Test zu bestehen?
Beispiel 1.2:
Der Vater verspricht seinem Sohn: Du erhältst einen Schachcomputer, wenn Du von 3 Schachpartien, die Du abwechselnd gegen deine Mutter und gegen mich spielst, zwei aufeinanderfolgende gewinnst.
Der Vater spielt besser als die Mutter. Gegen wen soll der Sohn zuerst spielen?
Beispiel 1.3:
In einer Urne befinden sich 50 Kugeln: 49 schwarze und eine weiße. Zwei Personen ziehen
abwechselnd nacheinander ohne Zurücklegen eine Kugel. Wer zuerst die weiße Kugel zieht, hat
gewonnen. Würden Sie lieber als Erster oder als Zweiter ziehen wollen?
Beispiel 1.4:
Ein Labyrinth wird nacheinander von einzelnen Mäusen durchlaufen (Abb. 1.1). Jede Maus
startet bei E1 und wird in der Falle E5 gefangen.
E4
E5
E1
E3
E2
Abb. 1.1
In jedem Knotenpunkt wählt sie rein zufällig“ eine der Röhren zur Fortsetzung ihrer Wande”
rung aus. Wieviele Röhren werden vor dem Erreichen der Falle im Durchschnitt durchlaufen?
Beispiel 1.5:
Noch vor einigen Jahren mussten die Brötchen im Durchschnitt 50 g wiegen. Ein Bäcker stellte
Beispiel 1.6:
Zwei Spieler spielen mit einem Würfel Schrumm“. Dabei wirft ein Spieler eine Serie von
”
Würfen, und die erzielte Augensumme wird ihm gutgeschrieben, sofern die Serie keine 6 enthält.
Einem Spieler, der eine 6 wirft, wird nichts gutgeschrieben, und er muss den Würfel an den
Gegner abgeben. Wer Augen angeschrieben haben will, muss daher seine Serie abbrechen und
den Partner werfen lassen, ehe eine 6 erscheint.
Mit welcher Strategie soll man spielen?
Beispiel 1.7:
5 % aller Dahlienknollen einer bestimmten Sorte treiben nicht. Jemand kauft 100 Knollen. Ihm
wird versichert, dass 90 % seiner Pflanzen angehen“.
”
Inwieweit ist auf diese Versicherung Verlass?
1.1
Das Problem von Pacioli
Schon im Altertum traten elementar zu lösende mathematische Probleme auf, die zur Wahrscheinlichkeitstheorie gerechnet werden können. Damals wurden auch die ersten statistischen
Daten bei Volkszählungen in Ägypten, Griechenland und im Römischen Reich (Herodes) gesammelt. Eine intensivere Beschäftigung mit statistischen Daten begann jedoch erst mit dem
aufkommenden weltweiten Handel. So wurden im 14. Jahrhundert die ersten Schiffsversicherungen in Italien und Holland eingerichtet. Sie versicherten Güter, die auf dem Seeweg
transportiert werden sollten, mit Prämien von 12–15 % des Gutwertes. Versicherungen für den
Landtransport verlangten damals 6–8 % des Gutwertes.
Außer durch solche statistischen Daten, die wir grob als Wahrscheinlichkeiten für Güterverlust“
”
charakterisieren können, wurde die Entwicklung der Wahrscheinlichkeitstheorie durch Gewinnund Verlustuntersuchungen von Spielen angeregt. Einen großen Entwicklungsimpuls erhielt die
Wahrscheinlichkeitsrechnung, als sich der Chevalier de Méré, ein leidenschaftlicher Spieler zur
Zeit Ludwigs des XIV., bei seinem Freund Blaise Pascal über die Mathematik beklagte.
Man spielte damals ein Würfelspiel, bei dem man vom Bankhalter das Doppelte seines Einsatzes
erhielt, wenn man bei 4 Würfen in Reihenfolge keine 6 warf. Wir wollen uns davon überzeugen,
dass sich das Spiel für die Bank lohnt. Bei jedem Wurf sind die Zahlen 1, 2, 3, 4 oder 5 für den
Spieler günstig. Wirft er zweimal, so sind für ihn die Möglichkeiten (1, 1), (1, 2), (2, 1), . . . , (5, 5)
günstig, und das sind 5 · 5 = 25 Zahlenpaare. Bei 4 Würfen mit einem Würfel gewinnt der
Spieler daher, wenn er eines der 5 · 5 · 5 · 5 = 625 Viertupel wirft, die keine 6 enthalten.
Nun kann man aber 6 ·6 ·6 ·6 = 1296 verschiedene Viertupel erzielen, also sind 1296− 625 = 671
für die Bank günstig, und diese gewinnt auf lange Sicht.
Heutzutage beschreibt man diese Situation wie folgt: Die Wahrscheinlichkeit, dass der Spieler
gewinnt, ist bei diesem Spiel
5 4
1
625
=
≈ 0, 482 < ,
1296
6
2
6
1 EINFÜHRUNG
die Wahrscheinlichkeit, dass die Bank gewinnt,
5 4
671
1
=1−
≈ 0, 518 > .
1296
6
2
De Méré wollte das Spiel folgendermaßen variieren: Die Spieler sollten gewinnen, wenn sie in
24 Würfen mit 2 Würfeln keine Doppelsechs erzielten.
Die Anzahl 24 ergibt sich hierbei wie folgt: Bei einem Würfel gibt es sechs mögliche Ergebnisse,
die Anzahl der Würfe ist 4. Bei 2 Würfeln gibt es 6 · 6 = 36 mögliche Ergebnisse, also muss
man, um auf dasselbe Verhältnis zu kommen, 24 Würfe zulassen.
Es zeigte sich jedoch bald, dass die Bank dabei Verluste machte. De Méré war damit unzufrieden und wandte sich mit seinem Unmut über die Widersprüche in der Mathematik an
Pascal. Dieser beurteilte das Problem folgendermaßen: Bei jedem Wurf gibt es 35 für den
Spieler günstige von insgesamt 36 Möglichkeiten. Bei 24 Würfen verhält sich daher die Anzahl
der günstigen Chancen zur Anzahl der möglichen wie
35 24
1
3524
=
≈ 0, 509 > .
3624
36
2
Bei genügend vielen Spielen wird daher der Spieler gewinnen und die Bank verlieren.
Ein anderes Problem beschreibt Pacioli in seinem 1494 in Venedig erschienen Werk Summa
”
de Arithmetica, Geometria, Proportioni et Proportionalità“:
Beispiel 1.8: (Problem von Pacioli)
Zwei gleichwertige Mannschaften spielen Ball um einen Preis von 22 Dukaten. Sieger ist, wer
zuerst 60 Punkte errungen hat. Durch besondere Umstände kann das Spiel nicht zuende geführt
werden. Wie ist das Preisgeld gerecht zu verteilen, wenn bis zu diesem Zeitpunkt die eine Seite
50 Punkte, die andere 30 erhalten hat?
Pacioli teilte das Preisgeld im Verhältnis 50 : 30 der bisher gewonnenen Punkte auf, vergab
50
30
also 80
· 22 = 13, 75 bzw. 80
· 22 = 8, 25 Dukaten.
Schon Tartaglia bemerkte, dass an Paciolis Lösung etwas nicht stimmen kann. In seinem
1556 in Venedig veröffentlichten Werk Trattato generale di numeri e misure“ griff er deshalb
”
das Problem nochmals auf. Er kritisierte Paciolis Lösung mit folgendem Hinweis: Hätte
beim Spielabbruch eine Partei 10 Punkte und die andere 0, so erhielte die erstere alles und
die letztere nichts, was offensichtlich unsinnig sei, da bei diesem Stande beide Parteien fast die
gleiche Gewinnchance besitzen.
Die von Tartaglia vorgeschlagene Lösung des Problems geht davon aus, dass jeder Partei
im Grunde die Hälfte des Gewinns, also 11 Dukaten zustehen (allerdings verwendete Tartaglia andere Werte; wir haben seine Zahlen denen von Pacioli angepasst). Wir betrachten
exemplarisch zwei Zahlenbeispiele:
10
= 16 der der anderen
(a) Hat eine Partei 10 Punkte und die andere 0, so erhält sie zusätzlich 60
11
Partei zustehenden Dukaten, also insgesamt 11 + 6 = 12, 83 Dukaten. Die andere Partei
= 9, 16 Dukaten.
erhält 11 − 11
6
7
(b) Hat eine Partei 50 Punkte und die andere 30, so hat sie 20 Punkte mehr errungen und
= 13 von den 11 Dukaten der Gegenseite dazu, also insgesamt 11 + 11
= 14, 6
erhält 20
60
3
Dukaten. Die andere Partei erhält 11 − 11
=
7,
3
Dukaten.
3
Aufgabe 1.1:
Beurteilen Sie die Vorschläge von Pacioli und Tartaglia.
Pacioli und Tartaglia versuchten, ein natürliches Gerechtigkeitsgefühl quantitativ zu beschreiben. Sie besaßen aber dafür keinen Kalkül. Sie hätten auch so verteilen können: Da
der ersten Mannschaft 10 Punkte und der zweiten 30 zum Gewinn fehlen, verteilen wir das
Preisgeld im Verhältnis 30:10, zahlen also 16, 5 und 5, 5 Dukaten aus.
De Méré hatte Pascal auch auf dieses Problem aufmerksam gemacht, und Pascal korrespondierte über dieses und andere Probleme seit 1654 mit Fermat. Viele Historiker bezeichnen
diesen Zeitpunkt als die eigentliche Geburtsstunde der Wahrscheinlichkeitsrechnung.
Pascal schlug vor, Preisgelder bei abgebrochenen Spielen nicht nach der Anzahl der bereits
erzielten Punkte zu verteilen, sondern nach den Gewinnwahrscheinlichkeiten bei Fortsetzung
des Spiels. Dieser Vorschlag war nicht neu. Ihn hatte schon Cardano in seiner Kritik an
der Paciolischen Lösung gemacht, welche er 1539 in seiner Practica arithmeticae generalis“
”
veröffentlichte. Nur hatte Cardano keinen Lösungsweg gefunden.
Wir wollen zuerst eine von Fermat entwickelte Methode angeben. Sie bezieht sich auf ein
Glücksspiel, in dem beide Parteien für jedes Spiel dieselben Chancen besitzen, und in dem die
Partei A zum Sieg noch 2 Spiele und die Partei B noch 3 Spiele benötigt: Der Wettkampf kann
bei diesem Stand noch höchstens 4 Spiele dauern. Welches sind die möglichen Ergebnisse?
Bezeichnen wir einen Gewinn von A mit + und eine Gewinn mit B mit −, so ergeben sich 16
Möglichkeiten:
1 2
+ +
+ +
+ +
+ −
3 4 5 6
+ + − +
+ − + +
− + + −
+ + + −
7 8 9
+ − +
− + −
+ + −
− − +
10
−
+
−
+
11 12 13
− − −
− − −
+ − +
+ + −
14 15 16
− + −
+ − −
− − −
− − −
In den Fällen 1 bis 11 gewinnt A, in den restlichen 5 Fällen B. Daher sollen nach Fermat
5
der Einsätze an A und 16
an B verteilt werden.
11
16
Zu dieser Zeit hatte Pascal bereits das Manuskript zu seiner berühmten Arbeit Traité du
”
triangle arithmétique“ fertiggestellt, in der er das später nach ihm benannte Pascalsche
Dreieck entwickelte und auf Probleme der Wahrscheinlichkeitsrechnung anwendete. Ohne den
Bezug zur Wahrscheinlichkeitsrechnung findet sich das Schema schon 1556 bei Tartaglia.
Erinnern wir uns: Das Pascalsche Dreieck ist eine Tabelle der Binomialkoeffizienten, d.h. der
8
1 EINFÜHRUNG
Koeffizienten der Entwicklungen von (a + b)n , n = 0, 1, 2, . . . :
(a + b)0
(a + b)1
(a + b)2
(a + b)3
(a + b)4
(a + b)5
(a + b)6 1
...
...
1
1
1
3
1
1
6
...
...
2
4
Für A sind diejenigen Spielfolgen günstig, in denen B höchstens zweimal gewinnt, das sind
4
4
4
+
+
= 1 + 4 + 6 = 11 .
0
1
2
1
3
1
6
4
1
5
10
10
5
...
15
... ...
20
... ...
15
... ...
1
6
...
...
1
...
Allgemein gilt die binomische Formel
n 0 n
n
n n−2 2
n n−1 1
n n 0
ab ,
a1 bn−1 +
a b + ... +
a b +
a b +
(a + b)n =
n
n−1
2
1
0
wobei die Binomialkoeffizienten folgendermaßen erklärt sind:
Definition 1.1: (Binomialkoeffizienten)
Für n, k ∈ N0 ist der Binomialkoeffizient nk (sprich n über k“) erklärt durch
”
(
n!
für k ≤ n
n · (n − 1) · . . . · (n − k + 1)
n
k!(n−k)!
=
=
.
k
k!
0
für k > n
Speziell erhält man durch Einsetzen von a = b = 1 in die binomische Formel
n
n
n
n
n
.
+
+ ... +
+
+
(1 + 1)n = 2n =
n
n−1
2
1
0
In typischer Binomialkoeffizientenschreibweise lautet das Dreieck
0
0
1
1
0
1
2
2
2
0
1
2
3
3
3
3
0
1
2
3
4
4
4
4
4
0
...
...
1
...
...
2
...
...
3
...
...
9
A benötigt noch 2 Spiele zum Sieg, B noch 3 Spiele. Nach 2 + 3 − 1 = 4 Spielen ist der
Wettkampf
also
spätestens
entschieden. Wir gehen in die 4. Zeile des Dreiecks und finden die
Zahlen 40 , 41 , 42 , 43 , 44 .
1
1
4
...
Addiert man zwei nebeneinanderstehende Koeffizienten, so erhält man den direkt unter beiden
befindlichen Koeffizienten, denn es gilt
n+1
n
n
.
=
+
k+1
k+1
k
Pascal löste das oben gestellte Problem mit Hilfe seines Dreiecks. Wir wollen seine Lösung
vorläufig nur nachvollziehen, eine Begründung der Vorgehensweise ergibt sich aus Kapitel 7.
Für B sind die übrigen Spielfolgen günstig:
4
4
+
= 4+1 = 5 .
3
4
Damit kommt Pascal zu derselben Aufteilung des Gewinnes wie Fermat.
Aufgabe 1.2:
Zwei Spieler spielen um Geld. Sie werfen eine Münze. Erscheint Zahl, erhält A einen Punkt,
erscheint Kopf, erhält B einen Punkt. Wer zuerst 10 Punkte erreicht, hat gewonnen. Beim
Stand von 7:6 für A müssen sie das Spiel durch eine Störung abbrechen.
Wie ist das Preisgeld
(a) nach Pacioli zu verteilen?
(b) nach Tartaglia zu verteilen?
(c) zu verteilen, wenn man proportional nach der Anzahl der von beiden Spielern noch zu
erzielenden Punkte aufteilt?
(d) nach Pascal und Fermat zu verteilen?
Aufgabe 1.3:
Kann man das Problem des Pacioli mit der Methode von Pascal entscheiden?
Aufgabe 1.4:
Man beweise:
n
n
n+1
+
=
gilt für k, n ∈ N0 .
k
k+1
k+1
n X
n k n−k
a b
gilt für alle n ∈ N0 und a, b ∈ R.
(b) (a + b)n =
k
k=0
(a)
Pacioli und Tartaglia scheiterten, weil sie weder eine vernünftige Vorstellung vom Wahrscheinlichkeitsbegriff besaßen, noch über geeignete Abzählverfahren verfügten. Damit uns nicht
ähnliche Fehler unterlaufen, wollen wir uns jetzt anhand eines Spezialfalles mit einigen Grundbegriffen der Wahrscheinlichkeitsrechnung vertraut machen.
10
1.2
1 EINFÜHRUNG
Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung
In der Umgangssprache wird das Wort wahrscheinlich“ oft so benutzt, dass sein Sinn mathe”
matisch nicht beschrieben werden kann. Betrachten wir folgende Aussagen:
(a) Es regnet; wahrscheinlich kommt Christoph wieder völlig durchnässt nach Hause.
(b) Von 3 Millionen Menschen, die mit dem Auto in den Urlaub fahren, werden wahrscheinlich
mehr als 100 verunglücken.
1.2 Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung
Definition 1.2: (Klassische Wahrscheinlichkeit)
Ω sei eine endliche Menge gleichmöglicher“ Ergebnisse und A ⊆ Ω.
”
Die klassische Wahrscheinlichkeit für das Eintreten des Ereignisses A ist der Quotient
aus der Anzahl |A| der für das Ereignis günstigen Ergebnisse und der Anzahl |Ω| der möglichen
Ergebnisse:
P (A) =
(c) Wenn man eine Münze 100–mal wirft, wird wahrscheinlich mehr als 30–mal Zahl erscheinen.
(d) Wahrscheinlich werden die Italiener in diesem Jahr keine Regierungskrise mehr bekommen.
Mathematische Maße für die Wahrscheinlichkeit von Ereignissen kann man gewinnen, wenn
man einen Versuch beliebig oft wiederholen kann (wie das Werfen einer Münze) oder wenn man
eine genügende Anzahl von beobachteten Daten zur Verfügung hat (Unfallstatistik). Hilfreich
sind auch Symmetriebetrachtungen. Der Grad der Gewissheit subjektiver Meinungen lässt sich
durch die mathematische Wahrscheinlichkeit nicht messen (Aussagen (a) und (d)).
Pascal und Fermat begründeten die klassische Wahrscheinlichkeitsrechnung. Dabei handelt es sich um die Beschreibung von Experimenten, deren Ergebnisse gleichmöglich“
”
sind. Die Feststellung der Gleichmöglichkeit erfolgte damals durch Symmetriebetrachtungen.
Beim Werfen einer Münze oder eines Würfels kann man aus Gründen der Kongruenz der Seitenflächen und der Homogenität des Materials erwarten, dass kein Ergebnis gegenüber dem
anderen bevorzugt eintritt. Entsprechend sind die 36 geordneten Paare, die man beim Werfen
mit 2 Würfeln erzielen kann, gleichmöglich.
Wir nennen die Menge der möglichen Ergebnisse eines Experiments Stichprobenraum Ω.
Ein Ergebnis ω ∈ Ω ist also ein Element des Stichprobenraums.
11
|A|
.
|Ω|
Diese Festsetzung der Wahrscheinlichkeit stammt von Jakob Bernoulli und Laplace. Mit
ihr arbeiteten aber auch schon Pascal und Fermat, allerdings ohne sich auf eine Definition
berufen zu können.
Die klassische Wahrscheinlichkeit für das Eintreten eines Ereignisses A ist eine rationale Zahl
|A| zwischen 0 und 1. Ferner gilt:
P (∅) = 0 und P (Ω) = 1 .
Ω nennen wir das sichere Ereignis. Es tritt immer ein, weil jedes mögliche Ergebnis zu Ω
gehört.
Die leere Menge ∅ bezeichnen wir als unmögliches Ereignis. Es tritt niemals ein, da die
leere Menge kein Ergebnis enthalten kann.
Tritt ein Ereignis nicht ein (z.B. keine gerade Zahl beim Würfeln), dann tritt das Gegenereignis oder komplementäre Ereignis ein:
AC = Ω \A .
Aufgabe 1.5:
Der Stichprobenraum für den Münzwurf ist {Z, K}, Z = Zahl, K = Kopf; der für das Würfeln
mit einem Würfel {1, . . . , 6}, der für das Würfeln mit zwei Würfeln {(1/1), (1/2), . . . , (6/6)}.
Zeigen Sie, dass für die klassische Wahrscheinlichkeit von AC gilt P (AC ) = 1 − P (A).
Gewisse Teilmengen des Stichprobenraums nennen wir Ereignisse. Beispielsweise verstehen
wir unter dem Ereignis Wurf einer zusammengesetzten Zahl“ beim Würfeln mit einem Würfel
”
die Menge {4, 6}.
Bemerkung 1.1:
Ein Ereignis, das nur aus einem einzigen Ergebnis besteht, heißt Elementarereignis. So ist
z.B. das Ereignis, beim Würfeln mit einem Würfel eine 4 zu erhalten, das Elementarereignis
{4}. Es ist wichtig, zwischen Ergebnissen und Elementarereignissen zu unterscheiden!
Jedes Ereignis A besitzt |A| Elemente; hierbei ist 0 ≤ |A| ≤ |Ω|. Man sagt, ein Ereignis A tritt
ein, wenn eines seiner |A| Elemente als Versuchsergebnis erscheint. Unter den |Ω| möglichen
Ergebnissen sind also |A| für den Eintritt des Ereignisses A günstige, d.h. günstig ist vom Gan, und dieser ist um so größer, je mehr Elemente von Ω die Menge A enthält.
zen der Bruchteil |A|
|Ω|
Fassen wir unsere Überlegungen in einem Begriff zusammen.
Ein Stichprobenraum Ω, der aus gleichmöglichen“ Ergebnissen besteht, ist der einfachste Spe”
zialfall eines Wahrscheinlichkeitsraumes. Bevor mit der klassischen Wahrscheinlichkeit gearbeitet wird, muss immer geprüft werden, ob die Annahme der Gleichmöglichkeit“ der Ergebnisse
”
gerechtfertigt ist. Es ist aber - auch bei endlichem Stichprobenraum - nicht immer praktikabel
oder sinnvoll, vom klassischen Wahrscheinlichkeitsbegriff auszugehen.
Zu gegebenen Ereignissen lassen sich durch Vereinigungs– und Durchschnittsbildung neue Ereignisse bilden.
Für einen vorgegebenen endlichen Stichprobenraum Ω ist die Menge der Ereignisse die Potenzmenge P(Ω), die mit den Verknüpfungen ∩, ∪ und der Komplementbildung \ eine sogenannte
Ereignisalgebra (P(Ω), ∩, ∪, \) bildet.
12
1 EINFÜHRUNG
Für manche Fragestellungen der Wahrscheinlichkeitsrechnung kann jedoch die volle Potenzmenge P(Ω) viel zu umfassend sein, insbesondere dann, wenn Ω eine überabzählbar unendliche
Menge ist. Es genügt dann, als Ereignisse die Elemente einer geeigneten Teilmenge der Potenzmenge von Ω zu betrachten. Welche Teilmengen als Ereignisse geeignet sind, wie man mit ihnen
umgehen darf, und wie man ihnen Wahrscheinlichkeiten zuordnet, werden wir noch festsetzen.
Damit treten wir dann in die Theorie der Wahrscheinlichkeitsrechnung ein.
Aufgabe 1.6:
Der Großherzog der Toskana fragte Galilei1 , warum beim Werfen dreier Würfel die Summe
10 öfter als die Summe 9 auftrete, obwohl beide Summen auf genau 6 Arten erzeugbar seien:
9 = 1+2+6=1+3+5=1+4+4=2+2+5=2+3+4=3+3+3
10 = 1 + 3 + 6 = 1 + 4 + 5 = 2 + 4 + 4 = 2 + 2 + 6 = 2 + 3 + 5 = 3 + 3 + 4 .
Klären Sie den Sachverhalt.
Aufgabe 1.7:
Wie groß ist die Wahrscheinlichkeit, mit 3 Würfeln
(a) eine gerade Summe von Augen zu werfen?
1.3 Zufallsexperimente
13
K beim Münzwurf bzw. mit 1, . . . , n beim Ziehen der Kugel bezeichnen. Man kann nicht mit
Sicherheit sagen, welches eintreten wird.
Eine (endliche oder unendliche) Kette nacheinander durchgeführter Experimente nennen wir
mehrstufiges Zufallsexperiment. Die Ergebnisse sind k–Tupel (Paare, Tripel) im endlichen Fall oder Folgen im unendlichen Fall.
Werfen wir etwa zuerst einen Würfel, dann eine Münze und schließlich eine Kugel in den Kessel
eines Roulettespiels, so machen wir ein 3–stufiges Zufallsexperiment, und unsere Ergebnisse
sind die Elemente des Stichprobenraums Ω = {1, . . . , 6} × {Z, K} × {0, 1, . . . , 35, 36} .
Es ist klar, dass diese Menge 6 · 2 · 37 Elemente besitzt und dass den Elementarereignissen die
1
zuzuordnen ist.
klassische Wahrscheinlichkeit P ({ω}) = 6·2·37
Ein Beispiel eines vierstufigen Zufallsexperiments haben wir auf Seite 5 kennengelernt: Ein
Würfel wird viermal nacheinander geworfen, und das Ergebnis ist eines von
|{1, . . . , 6}|4 = 6 · 6 · 6 · 6 = 1296
verschiedenen 4–Tupeln.
Die Anfrage des Chevalier de Méré bei Pascal wegen der Chancen, beim 24–maligen Werfen
eines Würfelpaares keine Doppelsechs zu erzielen, bezieht sich sogar auf ein 24–stufiges Zufallsexperiment.
(b) mehr als 15 Augen zu werfen?
(c) ein gerades Produkt von Augen zu werfen?
(d) ein durch 3 teilbares Produkt von Augen zu werfen?
Aufgabe 1.8:
Wie groß ist die Wahrscheinlichkeit, dass bei 3–maligem Werfen eines Würfels jeder folgende
Wurf
Satz 1.1:
Ein k–stufiges Zufallsexperiment habe auf den einzelnen Stufen n1 , n2 , . . . , nk mögliche Ergebnisse, und zwar sei jede der Anzahlen nj (j ∈ {2, . . . , k}) unabhängig vom Ausfall des
Experiments auf den vorangegangenen Stufen 1, 2, . . . , j − 1.
Dann besitzt der Stichprobenraum Ω genau
n := n1 · n2 · . . . · nk
mögliche Ergebnisse.
(a) mehr Augen zeigt als der vorangehende?
(b) nicht weniger Augen zeigt als der vorangehende?
Beweis:
Für k = 1 ist n = n1 .
1.3
Zufallsexperimente
Zufallsgeräte wie Münzen, Glücksräder, Kartenspiele oder Urnen mit Kugeln sind jedem
von uns bekannt. In der realen Welt verlaufen viele Prozesse so, als seien sie durch Zufallsgeräte
gesteuert. Darum hat die mathematische Beschreibung von Zufallsgeräten große praktische
Bedeutung.
Das Werfen einer Münze oder das Ziehen einer von n Kugeln aus einer Urne sind Zufallsexperimente. Es gibt zwei bzw. n mögliche Ergebnisse, die wir mit 0 und 1 oder mit Z und
1
Galileo Galilei, Anhänger der Lehre des Kopernikus, Begründer der modernen Kinematik; durch die
Inquisition 1616 zum Schweigen verurteilt.
Besitzt der Stichprobenraum eines (k − 1)–stufigen Zufallsexperiments als Ergebnisse genau
n1 · n2 · . . . · nk−1 verschiedene (k − 1)–Tupel, so kann jedes von diesen durch nk verschiedene
Elemente zu nk verschiedenen k–Tupel fortgesetzt werden, und somit erhalten wir insgesamt
n = n1 · n2 · . . . · nk−1 · nk
verschiedene k–Tupel. 2
Mehrstufige Zufallsexperimente lassen sich vorteilhaft durch Ergebnisbäume oder Baumdiagramme veranschaulichen. Als Beispiel zeigen wir den Baum zu unserem dreistufigen Experiment, bestehend aus dem Wurf eines Würfels, einer Münze und einer Roulettekugel (Abb.
1.2). Dabei haben wir in der 3. Stufe auf den größten Teil der 6 · 2 · 37 Äste“ verzichtet.
”
14
1 EINFÜHRUNG
1.3 Zufallsexperimente
15
Bemerkung 1.2:
1.Stufe
2.Stufe
Ist der Ausfall eines k–stufigen Zufallexperiments auf jeder der k Stufen unabhängig vom Ausfall
auf den vorangegangenen Stufen, d.h. steht für jede Stufe j ein eigener Stufenstichprobenraum
Ωj zur Verfügung, so ist der Stichprobenraum des gesamten Experiments der Produktstichprobenraum
3.Stufe
(1,Z,0)
(1,Z,1)
(1,Z)
(1,Z,36)
(1,K,0)
(1,K,1)
1
(1,K)
(1,K,36)
(2,Z,0)
(2,Z,1)
(2,Z)
(2,Z,36)
(2,K,0)
(2,K,1)
(2,K)
(2,K,36)
2
Ω = Ω1 × Ω 2 × · · · × Ω k .
Der folgende Satz ist ein Spezialfall einer allgemeineren Situation, die in Abschnitt 5.2 behandelt
wird.
Satz 1.2:
Ω1 , Ω2 , . . . , Ωk seien endliche Stichprobenräume, in denen der klassische Wahrscheinlichkeitsbegriff gilt.
Ω = Ω1 × · · · × Ω k
sei der Stichprobenraum eines Zufallsexperiments mit k voneinander unabhängigen Stufen.
Dann ist die klassische Wahrscheinlichkeit jedes Elementarereignisses von Ω gleich dem
Produkt der Wahrscheinlichkeiten der Elementarereignisse der Stufenstichprobenräume.
(3,Z)
3
(3,K)
Beweis:
(4,Z)
Die klassische Wahrscheinlichkeit der einelementigen Untermengen ist der Kehrwert der Anzahl
der Elemente des Stichprobenraums.
(4,K)
Ist Ω das Produkt der endlichen Mengen Ω1 , , . . . , Ωk , so folgt für die Wahrscheinlichkeiten der
Elementarereignisse {ω} ∈ Ω
4
(5,Z,0)
(5,Z,1)
(5,Z)
5
(5,K)
(6,Z)
6
(5,Z,36)
(5,K,0)
(5,K,1)
(5,K,36)
(6,Z,0)
(6,Z,1)
(6,Z,36)
(6,K,0)
(6,K,1)
(6,K)
(6,K,36)
Abb. 1.2
P ({ω}) =
1
1
1
1
1
1
=
=
=
·
· ... ·
.2
|Ω|
|Ω1 × . . . × Ωk |
|Ω1 | · |Ω2 | · . . . · |Ωn |
|Ω1 | |Ω2 |
|Ωk |
16
2
2 GRUNDBEGRIFFE DER ZÄHLTECHNIK
Grundbegriffe der Zähltechnik
2.1 Kombinatorische Grundüberlegungen
Satz 2.1:
Wir erwähnten schon, dass es den Mathematikern des 15. und des 16. Jahrhunderts, als
die ersten Schritte in der Entwicklung der Wahrscheinlichkeitsrechnung getan wurden, oft an
geeigneten Abzählverfahren mangelte, um die Anzahl der Elemente von Stichprobenräumen
oder die Anzahl der für bestimmte Ereignisse günstigen Ergebnisse zu ermitteln.
Erst 1544 veröffentlichte Michael Stifel in seinem Werk Arithmetica Integra“ eine Tabelle
”
der Koeffizienten in den Entwicklungen von (a + b)2 , (a + b)3 bis (a + b)17 . 1570 erschien
ein Buch von Cardano, in dem er ein Kapitel Opus novum de proportionibus numerorum“
”
nannte und in welchem er sich mit Problemen der Kombinatorik auseinandersetzte. Unter
anderem hatte er alle zweielementigen Teilmengen einer
sechselementigen Menge bestimmt
und (ohne Beweis) festgestellt, dass für die Anzahlen nk der verschiedenen Teilmengen mit k
Elementen,
die man aus den Elementen einer n–elementigen Menge bilden kann, die Formel
n
+ n2 + . . . + nn = 2n − 1 gilt.
1
Man beschäftigte sich damals viel mit Glücksspielen. Mit Hilfe der Binomialkoeffizienten gelang
es Pascal, eine Strategie zur Prognose von Spielausgängen zu entwickeln. Erstaunlicherweise
waren die Binomialkoeffizienten schon Jahrhunderte früher den Hindus, den Persern und den
Arabern bekannt, ein Gedankenaustausch mit den Europäern fand jedoch nicht statt.
Es gibt genau nk verschiedene Abbildungen einer k–elementigen Menge in eine n–elementige
Menge.
Beweis: durch vollständige Induktion nach k (Aufgabe). 2
In Abbildung 2.2 ist der Fall k = 3, n = 2 skizziert.
A
B
Abb. 2.2
Der Totoschein in Beispiel 2.1 kann also auf 311 gleichmögliche“ Weisen ausgefüllt werden;
”
man gewinnt im 1. Rang mit der Wahrscheinlichkeit
P (R1 ) =
2.1
17
Kombinatorische Grundüberlegungen
1
1
=
= 0, 0000056 .
311
177147
Aufgabe 2.1:
Zum Lösen einfacher Probleme der Wahrscheinlichkeitsrechnung benötigt man häufig geeignete
Zählverfahren. Wir wollen dafür Beispiele geben. Die Ergebnisse sind in Abschnitt A.1 im
Anhang kurz zusammengefasst.
Man bestimme die Gewinnwahrscheinlichkeiten für den 2. bzw. 3. Rang im Beispiel 2.1.
Aus Satz 2.1 folgt unmittelbar
Satz 2.2:
Beispiel 2.1: (Fußballtoto)
1
Beim Fußballtoto soll man von 11 Spielpaarungen tippen, ob
die gastgebende Mannschaft (1) oder der Gast (2) gewinnt,
oder ob die Begegnung unentschieden (0) endet. Bei 11, 10, 9
richtigen Vorhersagen gewinnt man im 1., 2. oder 3. Rang.
x
x
A füllt seinen Totoschein unter Zuhilfenahme eines Würfels
aus: Fällt 1“ oder 4“, tippt er 1, bei 3“ oder 6“ tippt er
”
”
”
”
0, bei 2“ oder 5“ die 2.
”
”
Mit welchen Wahrscheinlichkeiten gewinnt er in den einzelnen
Rängen?
x
0
x
2
nk ist die Anzahl der Möglichkeiten,
(a) verschiedene k–Tupel aus den Elementen einer n–elementigen Menge unter Zulassung
von Elementwiederholungen zu bilden;
x
x
x
x
x
(b) verschiedene Tupel von k Kugeln durch Ziehen mit Zurücklegen aus einer Urne mit n
unterscheidbaren Kugeln zu erhalten
(Ziehen mit Zurücklegen mit Berücksichtigung der Reihenfolge);
(c) k verschiedene Kugeln auf n unterscheidbare Urnen zu verteilen.
x
x
Abb. 2.1
Hinweis: Die Anzahl der Möglichkeiten, den Totoschein auszufüllen, ist gleich der Anzahl der
verschiedenen Abbildungen einer 11–elementigen Menge in eine 3–elementige, denn jedem Spiel
wird einer von drei Spielausgängen zugeordnet.
Beispiel 2.2: (Geburtstagsproblem)
In einem Klassenraum befinden sich k Personen.
(a) Mit welcher Wahrscheinlichkeit haben wenigstens zwei Personen an demselben Tag des
Jahres Geburtstag?
18
19
P(Ek )
(b) Der Lehrer ist am 1. Januar geboren. Wie wahrscheinlich ist es, dass wenigstens ein
Schüler auch am 1. Januar geboren wurde?
1,00
0,90
Hinweis: Es sei k ≤ 365. Wir berechnen die Wahrscheinlichkeit für das Ereignis EkC , dass keine
zwei Personen an demselben Tag des Jahres Geburtstag haben (Schaltjahre bleiben unberücksichtigt). Dann müssen den k Personen k verschiedene Tage als Geburtstag zugeordnet sein.
0,80
0,70
0,60
Satz 2.3:
0,50
n!
verschiedene injektive Abbildungen f : A → B von einer k–elemenEs gibt genau (n−k)!
tigen Menge A in eine n–elementige B mit n ≥ k.
0,40
0,30
Beweis: durch vollständige Induktion nach k (Aufgabe). 2
0,20
In Abbildung 2.3 ist der Fall k = 2, n = 3 skizziert.
0,10
A
5
10 13 16
20 23 26 29 32
37
44
57
k
Abb. 2.4
B
Aufgabe 2.2:
Man beantworte die Fragen aus Beispiel 2.2 für n = 365 und k = 20, 30, 40.
Abb. 2.3
Aus Satz 2.3 folgt wieder unmittelbar
Teil (a) des Geburtstagsproblems lässt sich nun wie folgt entscheiden:
Das Jahr hat n = 365 Tage. Dafür, dass k Personen an k verschiedenen Tagen Geburtstag
n!
Möglichkeiten. Insgesamt gibt es für die Verteilung der Geburtstage nk
haben, gibt es (n−k)!
Möglichkeiten (Satz 2.1), und diese sind gleichmöglich“, so dass der klassische Wahrscheinlich”
keitsbegriff anwendbar ist. Die Wahrscheinlichkeit dafür, dass keine 2 Personen an demselben
Tag Geburtstag haben, ist demnach
P (EkC ) =
n!
.
(n − k)! nk
Die Wahrscheinlichkeit für das Zusammenfallen von mindestens zwei Geburtstagen ist somit
P (Ek ) = 1 −
10
13
16
20
0, 12 0, 19 0, 28 0, 41
Für n ≥ k ist
n!
(n−k)!
die Anzahl der Möglichkeiten,
(a) verschiedene k–Tupel aus den Elementen einer n–elementigen Menge ohne Elementwiederholungen zu bilden;
(b) verschiedene Tupel von k Kugeln durch Ziehen ohne Zurücklegen aus einer Urne mit n
unterscheidbaren Kugeln zu erhalten
(Ziehen ohne Zurücklegen mit Berücksichtigung der Reihenfolge);
(c) k verschiedene Kugeln auf n unterscheidbare Urnen so zu verteilen, dass jede Urne
höchstens eine Kugel erhält.
n!
.
(n − k)! nk
Einige Werte sind in der folgenden Tabelle angegeben.
k
P (Ek )
Satz 2.4:
22
23
26
0, 48 0, 51 0, 60
29
32
37
0, 68 0, 75 0, 85
44
57
0, 93 0, 99
Abb. 2.4 liefert eine graphische Aufbereitung des Zusammenhangs zwischen k und P (Ek ).
Man beachte dabei, dass die Funktion k 7→ P (Ek ) nur für natürliche Zahlen erklärt ist!
Beispiel 2.3: (Sitzordnung)
Bei einer Einladung für n Personen hat der Gastgeber die Tischkarten von seinem Sohn auf
einem runden Tisch aufstellen lassen. Der Sohn hat nicht lange nachgedacht und die Karten,
wie sie ihm in die Finger kamen, abgelegt.
Wie wahrscheinlich ist es, dass zwei Freunde, die nebeneinander sitzen möchten, ihre Karten
auch nebeneinander vorfinden?
20
21
B
Hinweis: Zunächst gilt es, die Anzahl der verschiedenen Sitzanordnungen zu ermitteln. Dabei
sind zwei Sitzanordnungen verschieden, wenn wenigstens eine Person auf einem anderen Stuhl
sitzt.
Satz 2.5:
C4
Es gibt genau n! verschiedene bijektive Abbildungen f : A → B von einer n–elementigen
Menge A auf eine n–elementige Menge B (bzw. sich selbst).
C1
Setzt man k = n in Satz 2.3, so geht
n!
(n−k)!
C3
C
Beweis:
C2
in n! über. 2
A
In Abbildung 2.5 ist der Fall n = 3 skizziert.
Abb. 2.6
A
B
Abb. 2.5
Hinweis: Auf kürzestem Wege gelangt man von A nach B, indem man sich auf den gegebenen
Straßen nach rechts oder nach oben bewegt. Auf diese Weise seien von A nach B genau n
Straßenabschnitte zu durchlaufen, und zwar k waagerecht und n − k senkrecht (vgl. Abb. 2.7).
In welcher Reihenfolge die k bzw. n − k Abschnitte durchlaufen werden, ist belanglos. Es
B
Es gibt demnach genau n! verschiedene Sitzanordnungen.
n
n-1
Aufgabe 2.3:
n-2
Man bestimme ähnlich die Anzahl der für die Freunde in Beispiel 2.3 günstigen Möglichkeiten
und ermittle dann die gesuchte Wahrscheinlichkeit.
.
.
.
Aus Satz 2.5 ergibt sich unmittelbar
k+2
k+1
Satz 2.6:
A
n! ist die Anzahl der Möglichkeiten, eine n-elementige Menge anzuordnen, d.h. eine nelementige Menge hat genau n! Permutationen.
0
1
2
. . . . .
k-2
k-1
k
Abb. 2.7
Beispiel 2.4: (Verbrecherfang)
kommt nur darauf an, dass von n Schritten genau k in die eine Richtung und genau n − k in die
andere erfolgen. Deshalb bestimmt sich die Anzahl der kürzesten Wege nach dem folgenden
Ein von der Polizei Verfolgter will in dem Straßennetz der Abb. 2.6 auf kürzestem Wege von
A nach B.
Satz 2.7:
(a) In C befindet sich eine Polizeistreife.
Wie groß ist die Wahrscheinlichkeit dafür, dass die verfolgte Person auf die Polizisten
trifft, wenn man annimmt, dass je zwei Wege von A nach B gleichwahrscheinlich sind?
Es gibt genau nk verschiedene Abbildungen einer n–elementigen Menge A in die 2–elementige
Menge {a, b}, wobei k Elemente auf a und n − k Elemente auf b abgebildet werden.
Beweis: (durch vollständige Induktion nach n)
(b) Die Polizeistreife erfährt, dass der Gesuchte A verlassen hat. Sie hat noch die Möglichkeit,
statt C einen der Punkte C1 , C2 , C3 , C4 zu besetzen. Welchen der 5 Punkte soll sie (unter
der Voraussetzung der Gleichwahrscheinlichkeit aller Wege) besetzt halten?
Für n = 0 ist die Formel richtig (Induktionsanfang).
Die Formel sei für n − 1 richtig (Induktionsannahme).
22
Die Formel ist sicher für n richtig, falls k = 0 oder k = n ist.
Falls 0 < k < n nehmen wir aus der Menge A ein Element x heraus. Es gibt zwei Möglichkeiten
(vgl. Abb 2.8):
A
A
B
x
a
b
k-1
a
n-k-1
n-k
b
x
(a)
Satz 2.8:
n
ist die Anzahl der Möglichkeiten
k
(a) n–Tupel aus einer 2-elementigen Menge zu bilden, wobei genau k–mal das eine Element
und (n − k)–mal das andere Element verwendet wird;
B
k
23
(b) eine Menge von k Kugeln aus einer Urne mit n unterscheidbaren Kugeln zu ziehen
(Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge);
(c) k gleiche Kugeln auf n unterscheidbare Urnen so zu verteilen, dass jede Urne höchstens
eine Kugel enthält;
(d) eine k–elementige Teilmenge aus einer n–elementigen Menge auszuwählen.
(b)
Abb. 2.8
Entweder wird x auf a abgebildet. Dann müssen von den übrigen n − 1 Elementen von A genau
k − 1 auf a abgebildet werden, und das geht nach Induktionsvoraussetzung auf genau n−1
k−1
Arten. Oder aber x wird auf b abgebildet. Dannwerden von den übrigen n − 1 Elementen
genau k auf a abgebildet. Das geht auf genau n−1
Arten.
k
n−1
n
Insgesamt erhält man also n−1
+
=
Möglichkeiten.
2
k−1
k
k
Beispiel 2.5: (Wahl)
7 Kinder wählen bei einem Spiel einen Häuptling, wobei jedes Kind einem der 3 möglichen
Kandidaten eine Stimme gibt. Wieviele verschiedene Wahlausgänge sind möglich?
Hinweis: Man stelle sich vor, jeder der drei Kandidaten legt in seine“ Urne für jede der für
”
ihn abgegebenen Stimmen eine Kugel. Da es keine Rolle spielt, von welchem Kind die Stimme
stammt, sind die Kugeln ununterscheidbar, also gleich.
In Abbildung 2.9 ist der Fall n = 3, k = 1 skizziert.
Satz 2.9:
n+k−1
ist die Anzahl der Möglichkeiten
k
A
(a) k gleiche Kugeln auf n unterscheidbare Urnen zu verteilen;
B
a b
a b
a b
Abb. 2.9
12
kürzeste Wege von A nach B.
Es gibt demnach in Beispiel 2.4 genau
7
Aufgabe 2.4
Man beantworte die im Beispiel 2.4 gestellten Fragen.
Aufgabe 2.5
Man vergleiche in Beispiel 2.4 die Wahrscheinlichkeiten der Wege mit denen in der folgenden,
modifizierten Aufgabenstellung: Der Dieb entscheidet an jeder Ecke (außer am Rand), ob er
nach rechts oder nach oben läuft, wobei diese beiden Möglichkeiten stets gleichwahrscheinlich
seien.
Aus Satz 2.7 folgern wir direkt Satz 2.8.
(b) k Kugeln mit Zurücklegen aus einer Urne mit n unterscheidbaren Kugeln zu ziehen,
wobei die Reihenfolge nicht berücksichtigt wird
(Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge).
Beweis:
zu (a): Die n Urnen denken wir uns durch n Fächer repräsentiert, welche durch n−1 Stellwände
erzeugt werden:
1. Urne 2. Urne 3. Urne
...
(n − 1). Urne n. Urne
Die Kugeln werden zwischen die Stellwände bzw. vor die erste oder hinter die letzte Stellwand
gelegt:
oo ooo
...
o
oooo .
Dabei dürfen Fächer freibleiben.
Ersetzen wir die Kugeln durch Nullen und die Trennwände durch Einsen, so entspricht jeder
Verteilung ein Tupel mit m = k + n − 1 Stellen,
bestehend aus k Nullen und n − 1 Einsen, und
es gibt nach Satz 2.8 (a) genau m
= n+k−1
solcher Tupel.
k
k
24
Aus n − n1 − . . . − nk−1 Elementen lassen sich auf
auswählen, die auf k abgebildet werden.
zu (b): Aufgabe. 2
7+3−1
7
Die Wahl der Kinder hat also genau
=
9
7
25
= 36 mögliche Ausgänge.
n−n1 −...−nk−1
nk
Arten die nk Elemente
Insgesamt erhält man als Anzahl der Möglichkeiten
n − n1 − n2 − . . . − nk−1
n
n − n1 − n2
n − n1
· ... ·
·
·
nk
n3
n2
n1
Beispiel 2.6:
Von den 16 Feldern einer Tafel (Abb. 2.10) sollen 2 weiß, 3 rot, 5 grün und 6 schwarz gefärbt
werden. Wieviele verschiedene Möglichkeiten gibt es?
=
(n − n1 )!
(n − n1 · . . . · nk−1 )!
n!
n!
·
· ... ·
.2
=
n1 !(n − n1 )! n2 !(n − n1 − n2 )!
nk ! (n − n1 − . . . − nk )!
n1 ! · . . . · nk !
|
{z
}
=0
In Abbildung 2.11 ist der Fall k = 3, n = 1 + 1 + 2 skizziert.
A
B
Abb. 2.10
Hinweis: Wir denken uns eine Menge, die eine weiße, eine rote, eine grüne und eine schwarze
Kugel enthält. Dann fragen wir nach der Anzahl der verschiedenen Abbildungen der Menge
der 16 Felder auf diese 4–elementige Menge, wobei 2 Felder auf die weiße Kugel, 3 auf die rote
Kugel usw. abgebildet werden.
A
B
Die Antwort gibt der
Abb. 2.11
Satz 2.10:
Die Anzahl verschiedener Abbildungen einer Menge mit n Elementen in die Menge {1, . . . , k},
bei denen jeweils ni Elemente die Zahl i als Bild erhalten, ist
n
n!
:=
.
n1 , n2 , . . . , nk
n1 ! n2 ! . . . nk !
Hierbei gelte n = n1 + n2 + . . . + nk .
Beweis:
Aus n Elementen lassen sich auf
werden.
n
n1
Für das Brett im Beispiel 2.6 gibt es demnach
Aus den restlichen n − n1 Elementen lassen sich auf
die auf 2 abgebildet werden.
..
.
n−n1
n2
Arten die n2 Elemente auswählen,
= 20 180 160 Färbungsmöglichkeiten.
Aus Satz 2.10 ergibt sich unmittelbar
Satz 2.11:
Arten die n1 Elemente auswählen, die auf 1 abgebildet
16!
2! 3! 5! 6!
n
n1 , n2 , . . . , nk
:=
n!
n1 ! n2 ! . . . nk !
mit
n = n1 + . . . + nk
ist die Anzahl der verschiedenen n-Tupel aus einer k-elementigen Menge, die genau n1 -mal
das erste, n2 -mal das zweite, . . . , nk -mal das k-te Element enthalten.
Bemerkung 2.1
Die Sätze 2.10 und 2.11 sind Verallgemeinerungen der Sätze 2.7 und 2.8(a).
26
2.2
Aufgaben
(b) Wie viele dieser Zahlen sind teilbar
(i) durch 2 ,
Aufgabe 2.6:
In der Bundesrepublik trägt jeder Personalausweis einen Kennbuchstaben, gefolgt von einer
7–stelligen Zahl, deren erste Ziffer von 0 verschieden ist.
Wieviele verschiedene Ausweiskennzeichnungen sind dadurch möglich?
Aufgabe 2.7: (Bridge)
Beim Bridgespiel werden 52 verschiedene Karten zu gleichen Teilen an 4 Personen verteilt.
27
2.2 Aufgaben
(ii) durch 5 ,
(iii) durch 25 ,
(iv) durch 6 ?
(c) Wieviele dieser Zahlen sind größer als 4000?
Aufgabe 2.12:
Auf wieviele verschiedene Arten lassen sich k Nullen und m Einsen anordnen?
Aufgabe 2.13:
Man bestimme geeignete Stichprobenräume Ω für die Beispiele 2.1 und 2.2 (a), (b).
Wieviel verschiedene Verteilungen gibt es?
Aufgabe 2.14:
Aufgabe 2.8: (Skat)
Beim Skatspiel werden 32 verschiedene Karten zu je 10 an 3 Personen verteilt, und 2 Karten
kommen in den Skat“.
”
Wieviel verschiedene Möglichkeiten gibt es, die 32 Skatkarten auszuteilen?
Man bestimme geeignete Stichprobenräume Ω für die Probleme der Beispiele 2.3 und 2.4.
Welche Elemente enthalten die günstigen Ereignisse
E:
F:
Die Freunde sitzen nebeneinander“ bzw.
”
Der Fluchtweg führt von A über C nach B“.
”
Aufgabe 2.9:
Aufgabe 2.15:
In einem Kühlschrank befinden sich 10 Eier, darunter 3 faule.
Man bestimme geeignete Stichprobenräume für die Probleme der Aufgaben 2.6 bis 2.9.
Wie wahrscheinlich ist es, beim Entnehmen von 4 Eiern
(a) genau ein faules mitzugreifen;
(b) mindestens ein faules mitzugreifen.
Aufgabe 2.16:
Wie wahrscheinlich ist es, dass ein durch Losentscheid gebildeter Ausschuss von 5 Personen
aus 2 Frauen und 3 Männern besteht, wenn aus einer Menge von 5 Frauen und 9 Männern
ausgewählt werden kann?
Aufgabe 2.10:
Aufgabe 2.17:
Ein Skatspieler hält folgendes Blatt in der Hand: Karo 7, 8, Herz 7, 9, Pik 8, 9, 10, Bube,
Dame, As. Er hofft auf einen günstigen Skat und reizt bis 40.
Man bestimme die Anzahl der 4–ziffrigen Zahlen zwischen 1000 und 9999, in denen mindestens
eine Ziffer doppelt ist.
(a) Wie groß ist die Wahrscheinlichkeit, dass
Aufgabe 2.18:
Die Abbildung 2.12 zeigt zwei Streckennetze.
(i) Pik 7 im Skat liegt,
D
E
A
A
Abb. 2.12a
Aufgabe 2.11:
(a) Wie viele vierstellige Zahlen kann man mittels der sechs Ziffern 1, 2, 3, 4, 5, 7 bilden?
B
F
(iii) Kreuz Bube und ein As im Skat liegen?
b) Wie groß sind die entsprechenden Wahrscheinlichkeiten, wenn der Spieler zufällig“ in das
”
Blatt eines seiner Mitspieler gesehen und festgestellt hat, dass dieser von den fraglichen
Karten (Pik 7, Karo As, Herz As, Kreuz As, Karo Bube, Herz Bube, Kreuz Bube) nur
den Karo Buben besitzt?
B
C
(ii) zwei Buben im Skat liegen,
Abb. 2.12b
Man bestimme
(a) die Anzahl der kürzesten Wege von A nach B über C und D.
28
(b) die Anzahl der kürzesten Wege von A nach B über E und F .
29
2.2 Aufgaben
(b) Man bestimme geeignete Stichprobenräume und die günstigen“ Ereignisse Das Fahrrad
”
”
wird entsichert“ in beiden Räumen.
Aufgabe 2.19:
Wie ist die Lösung des Problems des Pacioli mit der Methode von Pascal als Wegeproblem
zu verstehen (Skizze)?
Aufgabe 2.20:
Zwei Skatspiele mit 32 Spielkarten heißen unterschiedlich gemischt, wenn in den nebeneinanderliegenden Kartenstapeln für mindestens ein k die k–te Karte des einen Spiels nicht mit der
k–ten Karte des anderen Spiels übereinstimmt.
(a) Man bestimme den Stichprobenraum der verschiedenen Mischungen eines Kartenspiels
und seine Mächtigkeit.
(b) Wie wahrscheinlich ist es, dass in einem gemischten Skatspiel die Karten in folgender
Reihenfolge liegen: Zuerst die 8 Kreuzkarten, dann die 8 Pikkarten, dann die 8 Herzkarten
und schließlich die 8 Karokarten?
(c) Wie wahrscheinlich ist es, dass von jeder der 4 Farben die 8 Karten hintereinanderliegen?
Aufgabe 2.23:
An einem Bridgetunier nehmen 8 Personen teil. Jede mögliche Paarung soll gegen jede andere
mögliche Paarung antreten.
Wieviele Begegnungen sind auszutragen?
Aufgabe 2.24:
Drei Damen und drei Herren benutzen einen Sessellift mit Einzelsitzen. Sie fahren nacheinander
ab.
(a) Auf wieviele Arten ist das möglich?
(b) Wieviele Arten sind möglich, wenn die Herren den Damen den Vortritt lassen?
(c) Wieviele Arten sind möglich, wenn es sich um drei Paare handelt und diese hinereinander
abfahren?
Aufgabe 2.25:
(b) im 2. Rang, wenn man 5 von den 6 gezogenen Zahlen und die Zusatzzahl vorhersagt;
(c) im 3. Rang, wenn man 5 von den 6 gezogenen Zahlen vorhersagt (ohne die Zusatzzahl);
(d) im 4. Rang, wenn man 4 von den 6 Zahlen vorhersagt.
Mit welchen Wahrscheinlichkeiten gewinnt man in den einzelnen Rängen?
durch Berechnung der Anzahl verschiedener Wege von (0, 0) nach (n, n)
(a) direkt,
(b) indem man die Wege von (0, 0) über A0 , A1 , . . . , An nach (n, n) ermittelt und addiert
(Abb. 2.13).
(n,n)
An
(0,k)
(n,k)
Ak
A n-1
Ak-1
...
Aufgabe 2.22:
..
(a) im 1. Rang, wenn man die 6 gezogenen Zahlen vorhersagt;
Man beweise die Formel
2 2 2 2
2n
n
n
n
n
=
+ ... +
+
+
n
n
2
1
0
...
Fritz schließt sein Fahrrad stets mit einem Stahlbügel an, der ein 6–stelliges Zahlenschloss
besitzt. Christoph benutzt stets zwei Stahlbügel mit 3–stelligen Zahlenschlössern.
.
Beim Zahlenlotto befinden sich 49 durchnumerierte Kugeln in einer Urne“. 6 Zahlen und eine
”
Zusatzzahl werden ohne Zurücklegen gezogen. Man sagt 6 Zahlen vorher und gewinnt
...
...
...
Aufgabe 2.21: (Lotto)
An jeder Stelle“ können die Ziffern 0, 1, . . . , 9 erscheinen.
”
An dem 6–stelligen Zahlenschloss werden von einem Dieb 500 verschiedene Einstellungen vorgenommen, um sie zu öffnen.
An den beiden dreistelligen Zahlenschlössern werden je 500 verschiedene Einstellungen vorgenommen, um sie zu öffnen.
(a) Man berechne die Wahrscheinlichkeiten dafür, dass eines der beiden Fahrräder bei den
oben beschriebenen Versuchen entsichert wird.
A1
A1
A0
(0,0)
(0,0)
Abb. 2.13
Aufgabe 2.26:
Für k ≤ n beweise man die Formel
n+k
n k
k
n
n k
=
+ ... +
+
k
0
k
k−1
1
k
0
A0
Abb. 2.14
(n,0)
30
durch Berechnung der Anzahl verschiedener Wege von (0, 0) nach (n, k) auf zwei Arten (Abb.
2.14).
Aufgabe 2.27:
(a) Auf wieviele Arten kann man 50 verschiedene Bücher an 4 Personen verteilen?
(b) Auf wieviele Arten kann man 50 gleiche Bonbons an 4 Personen verteilen?
Aufgabe 2.28:
Beim Lotto werden jede Woche 6 Gewinnzahlen aus den Zahlen 1, 2, . . . , 49 gezogen.
Wie groß ist die Wahrscheinlichkeit dafür, dass mindestens zwei der sechs Zahlen benachbart
sind?
2.2 Aufgaben
31
(b) Wie groß ist die Wahrscheinlichkeit, dass in der 1. Urne genau k Kugeln liegen?
(c) Wie groß ist die Wahrscheinlichkeit dafür, dass sich
(c1 ) in k vorbestimmten Urnen je genau eine Kugel befindet?
(c2 ) in k beliebigen Urnen je genau eine Kugel befindet?
Aufgabe 2.31:
Bei der Bose–Einstein–Aufteilung, die sich bei der Beschreibung von Photonen und Atomen
mit einer geraden Anzahl von Elementarteilchen bewährt, wird vorausgesetzt:
(1) Die k Kugeln sind ununterscheidbar.
(2) In jeder Urne Uj können sich beliebig viele Kugeln befinden.
Aufgabe 2.29:
Es erscheint wahrscheinlich“, dass bei n Würfen einer Kugel in den aus den Fächern F1 , . . . , Fn
”
bestehenden Kessel eines Roulettespiels das Fach Fn mindestens einmal getroffen wird.
Bearbeiten Sie hier (a)–(c) entsprechend Aufgabe 2.30.
(a) Wie groß ist diese Wahrscheinlichkeit wirklich?
Aufgabe 2.32:
(b) Wie groß ist sie bei n = 6 (Würfel)?
Die Fermi–Dirac–Aufteilung für die Beschreibung von Elektronen, Protonen und Neutronen
verlangt:
(c) Was erhält man für n → ∞, und wie ist das Ergebnis zu deuten?
(d) Wie groß ist die Wahrscheinlichkeit, dass bei n Würfen
(i) das Fach F1 genau einmal getroffen wird?
(ii) die Fächer F1 und F2 je genau einmal getroffen werden?
(iii) die Fächer F1 , . . . , Fk je genau einmal getroffen werden?
Viele physikalischen Probleme lassen sich mathematisch dadurch erfassen, dass man k Partikel
(Kugeln) auf n Zellen (Urnen) verteilt. Gesucht ist dann immer die Wahrscheinlichkeit dafür,
dass für alle j ∈ {1, . . . , n} in der Urne Uj genau kj Kugeln liegen. Man muss aber vorher festlegen, welche Konstellationen überhaupt möglich sind und postuliert dann, dass alle möglichen
Fälle gleichwahrscheinlich sind.
Aufgabe 2.30:
In der kinetischen Gastheorie hat sich folgendes, von Maxwell und Boltzmann stammende
Modell bewährt:
(1) Die k Kugeln sind unterscheidbar.
(2) In jeder Urne Uj können sich beliebig viele Kugeln befinden.
(a) Zeichnen Sie die möglichen Verteilungen von zwei Kugeln auf drei Urnen.
(1) Die k Kugeln sind ununterscheidbar.
(2) In jeder Urne Uj kann höchstens eine Kugel sein (Pauli–Prinzip).
Bearbeiten Sie (a)–(c) wieder entsprechend Aufgabe 2.30.
32
3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG
3
Von Pascal bis Kolmogorow - Axiomatisierung
3.1
Historische Entwicklung des Wahrscheinlichkeitsbegriffs
Der Begriff der mathematischen Wahrscheinlichkeit hat sich allmählich entwickelt. In den
Aufzeichnungen von Pascal und Fermat fehlt er noch.
1655 hielt sich der bekannte Holländer Huygens2 in Paris auf und hörte dort von dem Problem
”
der gerechten Beurteilung der Chancen“, mit welchem sich Pascal und Fermat beschäftigten. Er begann dieses Problem selbst zu bearbeiten und veröffentlichte seine Erkenntnisse 1657
in einer Re Ratiociniis in Ludo Aleae“ genannten Schrift, die bis in den Beginn des 18. Jahr”
hunderts die klassische Einführung in die Wahrscheinlichkeitstheorie blieb. In Lehrsätzen führt
Huygens den Begriff des Erwartungswertes ein. Wir zitieren:
Lehrsatz 1: Bei gleichen Chancen, a oder b zu erhalten, ist der Wert
a+b
.
2
Lehrsatz 2: Bestehen k Chancen für a und m Chancen für b, so ist bei Gleichheit der Chancen
.
der Wert ka+mb
k+m
Auch Huygens verfügte nicht über den Begriff der mathematischen Wahrscheinlichkeit. Seine
Überlegungen liefen unabhängig von denen Pascals und Fermats ab.
Der Wahrscheinlichkeitsbegriff findet sich erstmalig in der Ars Conjectandi“ (Kunst des Ver”
mutens) des Schweizers Bernoulli3 , welche 1713 posthum veröffentlicht wurde. Bernoulli
erklärt die mathematische Wahrscheinlichkeit als den Grad der Gewissheit, welcher sich zur
”
Gewissheit wie der Teil zum Ganzen verhält“. In der Praxis benutzte Bernoulli diesen
Wahrscheinlichkeitsbegriff in vielen Fällen so, wie ihn Laplace 1814 festgesetzt hat:
Die Theorie des Zufalls ermittelt die gesuchte Wahrscheinlichkeit eines Ereignisses durch
”
Zurückführung aller Ereignisse derselben Art auf eine gewisse Anzahl gleich möglicher Fälle
. . . und durch Bestimmung der dem Ereignis günstigen Fälle. Das Verhältnis dieser Zahl zu
der aller möglichen Fälle ist das Maß dieser Wahrscheinlichkeit, . . .“ (Essai philosophique sur
les probabilités).
Das ist die sogenannte klassische“ Definition der Wahrscheinlichkeit. Im Gegensatz zu der
”
von Bernoulli getroffenen Festsetzung wird hier nicht versucht, den Begriff qualitativ zu
beschreiben, sondern erläutert, wie man in einfachen Fällen seine Quantität bestimmt.
Wie wir wissen, entwickelte sich die Wahrscheinlichkeitsrechnung zunächst als eine Theorie der
Glückspiele.
Der klassische Rahmen der Wahrscheinlichkeitsrechnung wurde erst gesprengt, als Maxwell
und Boltzmann die statistische Betrachtungsweise in die Thermodynamik einführten. Es
zeigte sich jedoch gerade in diesem Bereich, dass der zu unklar definierte Begriff der Wahrscheinlichkeit zu Missverständnissen beim Begreifen der physikalischen Natur führen konnte.
Unter Wahrscheinlichkeit“ verstanden die Physiker die relative Häufigkeit des Eintritts be”
”
stimmter auffallender Ereignisse“ (nach Smoluchowski).
2
3
Christian Huygens, Math. Kurventheorie, Wellentheorie des Lichts
Jakob Bernoulli, Divergenz der harmon. Reihe, 1. Bern. Ungl., Gesetz der großen Zahlen
33
3.1 Historische Entwicklung des Wahrscheinlichkeitsbegriffs
Wir wollen die Beziehung zwischen relativer Häufigkeit und Wahrscheinlichkeit näher erläutern.
Wir werfen zwei Würfel und fragen nach der Wahrscheinlichkeit, die Augensumme 7 zu erzielen. 36 verschiedene Ereignisse sind möglich, davon sind (1, 6), (2, 5), . . . , (6, 1) günstig. Die
klassische Wahrscheinlichkeit beträgt
6
1
= = 0, 16
36
6
Wir zählen nun bei insgesamt n Würfen, wie oft unter ihnen das Ereignis Augensumme 7“
”
auftritt; diese Zahl bezeichnen wir als absolute Häufigkeit hn ({7}). Schließlich bilden wir
die relativen Häufigkeiten
rn ({7}) :=
hn ({7})
.
n
Die folgende Tabelle zeigt die Ergebnisse:
n
hn ({7})
rn ({7})
12
24
36
48
72
96
120
144
168
192
216
2
5
7
7
8
10
15
22
26
29
33
0, 167 0, 208 0, 194 0, 146 0, 111 0, 104 0, 125 0, 153 0, 156 0, 151 0, 153
Wir stellen die oben gefundenen Werte von rn über n in Abb. 3.1 graphisch dar. Man erkennt, dass sich die relativen Häufigkeiten mit wachsender Anzahl der Wiederholungen des
Experiments schnell stabilisieren.
rn({7})
0,20
0,18
0,16
0,14
0,12
0,10
n
12 24 36 48
72
96
120
144
168
192
216
Abb. 3.1
Noch deutlicher zeigt dies die Grafik in Abb. 3.2, welche für eine Folge von 400 Münzwürfen die
relative Häufigkeit des Ereignisse Kopf“ in Abhängigkeit von der Anzahl der Würfe angibt.
”
Es ist nun eine Erfahrungssache (und damit eine nur durch Experimente zu beweisende Einsicht), dass die relativen Häufigkeiten zufälliger Ereignisse A, wenn sich nur die zugrundeliegenden Bedingungen oft genug realisieren lassen, bei genügend langen Versuchsreihen in der Nähe
eines festen Wertes P (A) bleiben. Diesen Wert nennen wir statistische Wahrscheinlichkeit des betreffenden Ereignisses. Die Existenz der statistischen Wahrscheinlichkeit ist insoweit
34
35
3.2 Das Axiomensystem von Kolmogorow
Von diesem Einwand abgesehen, gehört jeder Limes zu einer unendlichen Folge; es gibt aber
im Universum nur endliche Versuchsreihen! Auch diese Überlegung stellt die Existenz des o.a.
Limes in Frage.
1
3.2
0,5
Das Axiomensystem von Kolmogorow
Unser Ziel besteht darin, zufällige Erscheinungen der Wirklichkeit durch eine mathematische
Struktur zu beschreiben. Es soll also nicht mit der physikalischen Realität, sondern mit einem
Modell davon umgegangen werden.
0
2
5
10
20
50
100
400
bewiesen wie naturwissenschaftliche Versuche Beweiskraft für die Existenz von Naturgesetzen
besitzen.
Entsprechendes ist aus der Physik bekannt, wo z.B. Körper als ausdehnungslose Massepunkte,
das Licht als Welle oder Korpuskel, je nach Bedarf, betrachtet werden. Nur wenn das Modell
die Wirklichkeit adäquat beschreibt, kann die mathematische Theorie brauchbare Resultate
liefern. Es ist daher erforderlich, sich beim Aufbau der mathematischen Struktur eng an die
Realität anzulehnen.
Die statistische Wahrscheinlichkeit ist kein Begriff der reinen Mathematik. Sie ist nicht exakt
bestimmbar, sondern abhängig vom Messreihenumfang immer nur mehr oder weniger gut approximierbar. Ihre Existenz wird postuliert, etwa wie die Existenz der Masse eines Körpers,
die wir auch nie ganz genau messen können.
Die historischen Bemühungen zeigen, dass der Begriff der mathematischen Wahrscheinlichkeit
aus den relativen Häufigkeiten nicht abzuleiten ist, da diese für ein bestimmtes Ereignis bei
wiederholten Versuchen schwanken. Einige ihrer typischen Eigenschaften spiegeln sich jedoch
in der zu entwickelnden Theorie wider:
Abb. 3.2
In der reinen“ Mathematik haben Erfahrungselemente keine Beweiskraft. Hilbert forderte
”
deshalb auf dem Mathematikerkongress in Paris im Jahre 1900, die Wahrscheinlichkeitsrechnung (und die Mechanik) wie die Grundlagen der Geometrie zu axiomatisieren.
(b) Ein sicheres Ereignis hat die relative Häufigkeit 1.
Einen anderen interessanten Ansatz zur Überwindung des klassischen Wahrscheinlichkeitsbegriffs und zur axiomatischen Begründung der Wahrscheinlichkeitsrechnung schlug von Mises
im Jahre 1919 vor. Er ging davon aus, dass sich bei genügend vielen Wiederholungen eines
Experiments die relativen Häufigkeiten stabilisieren.
(c) Hat bei n Versuchen das Ereignis A die absolute bzw. relative Häufigkeit hn (A) bzw.
rn (A) und das Ereignis B die absolute bzw. relative Häufigkeit hn (B) bzw. rn (B) und
treten die beiden Ereignisse nicht gleichzeitig ein, so hat das Ereignis A ∪ B die absolute
bzw. relative Häufigkeit
Sein erstes Axiom postuliert dementsprechend für alle eigentlichen Untermengen A eines gegebenen Stichprobenraumes Ω die Existenz des Grenzwertes
hn (A)
=: P (A) ,
n
wobei n die Anzahl der Wiederholungen des Versuchs ist, bei dem A eintreten kann. Von
Mises hielt den Begriff der Wahrscheinlichkeit nicht für einen mathematischen Gegenstand
und die Wahrscheinlichkeitstheorie für eine Wissenschaft zur Erforschung der Erscheinungen
der realen Welt, über die man aus der Mathematik nichts entnehmen kann.
lim
n→∞
Die oben angegebene Grenzwertbeziehung bedeutet, dass es zu jedem ε > 0 ein N ∈ N gibt, so
dass für alle n ∈ N mit n ≥ N gilt
hn (A)
− P (A) < ε .
n
Die Zahlen hn (A) sind Messergebnisse einer Versuchsreihe. Auch für noch so große N besteht
jedoch eine gewisse Wahrscheinlichkeit dafür, dass im Bereich n ≥ N eine Serie mit unverhältnismäßig vielen Erfolgen oder Misserfolgen eintrifft, so dass hnn(A) von P (A) um mehr als ε
abweicht. Das widerspricht aber der Existenz des Grenzwertes.
(a) Die relative Häufigkeit liegt zwischen 0 und 1.
hn (A ∪ B) = hn (A) + hn (B)
bzw.
rn (A ∪ B) = rn (A) + rn (B) .
Das heutzutage gebräuchliche Axiomensystem der Wahrscheinlichkeitsrechnung geht auf den
russischen Mathematiker Kolmogorow zurück. Er hat es in einer 1933 erschienenen Arbeit
Grundbegriffe der Wahrscheinlichkeitsrechnung“ veröffentlicht, nachdem bereits 1917 Bern”
stein den ersten systematischen Aufbau einer Axiomatik angegeben hatte.
Wir wollen das Kolmogorowsche Axiomensystem vorstellen. Hierzu definieren wir zunächst
den Begriff der Ereignisalgebra.
36
Bemerkung 3.3:
Definition 3.1: (Ereignisalgebra)
Gegeben sei eine (endliche oder unendliche) nicht-leere Menge, der sogenannte Stichprobenraum Ω.
E ⊆ P(Ω) heißt Ereignisalgebra über Ω, wenn folgende Eigenschaften erfüllt sind:
(E1 )
Ω ∈ E und ∅ ∈ E .
(E2 )
Für jede abzählbare Indexmenge I mit Ai ∈ E für i ∈ I gilt
(E3 )
37
3.2 Das Axiomensystem von Kolmogorow
Für alle A, B ∈ E gilt A\B ∈ E .
S
i∈I
Ai ∈ E und
T
i∈I
Ai ∈ E.
Wenn Ω endlich ist, dann gibt es nur endlich viele Ereignisse. Die Bedingung (K3 ) kann dann
folgendermaßen vereinfacht werden:
(K3 )′
es gilt P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅.
Durch vollständige Induktion lässt sich diese Eigenschaft dann auf die disjunkte Vereinigung
endlich vieler Ereignisse ausdehnen.
Durch Beschränkung von Ω ergibt sich folgender Sonderfall:
Definition 3.4: (diskreter Wahrscheinlichkeitsraum)
Ist Ω eine nichtleere, abzählbare Menge, so heißt Ω diskreter Stichprobenraum.
Bemerkung 3.1:
Statt Ereignisalgebra über Ω sagt man auch σ–Algebra“.
”
Ein Wahrscheinlichkeitsraum der Gestalt
Ω, P(Ω), P ,
P : P(Ω) → R geeignet
heißt diskreter Wahrscheinlichkeitsraum.
Definition 3.2: (Ergebnis, Ereignis)
Die Elemente des Stichprobenraumes Ω heißen Ergebnisse, die Elemente der Ereignisalgebra
E heißen Ereignisse.
Falls für ein ε ∈ Ω auch {ε} ∈ E gilt, dann heißt {ε} Elementarereignis.
Definition 3.3: (Axiomensystem von Kolmogorow)
Es sei Ω ein Stichprobenraum, E eine Ereignisalgebra über Ω und P : E → R eine Funktion
mit den Eigenschaften
(K1 )
P (Ω) = 1
(Normierung)
(K2 )
P (A) ≥ 0 für alle A ∈ E
(Nichtnegativität)
(K3 )
für jede abzählbare Menge paarweise disjunkter Ereignisse {Ai | i ∈ I} gilt
S P
(σ–Additivität).
Ai = P (Ai )
P
i∈I
i∈I
Dann heißt P Wahrscheinlichkeitsbelegung und das Tripel (Ω, E, P ) Wahrscheinlichkeitsraum.
Bemerkung 3.2:
In (K3 ) wird eine Vereinigung paarweise disjunkter Mengen vorgenommen. Man spricht in
Ṡ
diesem Fall von einer disjunkten Vereinigung“ und schreibt dafür auch Ai . So weist z.B.
”
i∈I
˙ darauf hin, dass A ∩ B = ∅ gilt.
die Schreibweise C = A∪B
In einem diskreten Wahrscheinlichkeitsraum erhält man alle möglichen Wahrscheinlichkeitsbelegungen, indem man die Wahrscheinlichkeiten der Elementarereignisse festlegt.
Satz 3.1:
Es sei Ω = {ω1 , ω2 , ω3 , . . . } ein diskreter Stichprobenraum.
Für jedes Ergebnis ωj ∈ Ω sei P ({ωj }) = pj . Hierbei seien die pj nicht-negative Zahlen mit
P
pj = 1 (ist Ω abzählbar unendlich, so ist dies eine unendliche Reihe).
j
Für beliebige Ereignisse A setzt man P (A) =
P
pj .
ωj ∈A
Dann ist (Ω, P(Ω), P ein Wahrscheinlichkeitsraum.
Beweis: Aufgabe. 2
Bemerkung 3.4:
Hat Ω genau n Elemente und gibt man jedem Elementarereignis {ω} die Wahrscheinlichkeit
P ({ω}) = n1 , so spricht man von einem Laplaceschen Wahrscheinlichkeitsraum.
Für beliebige Ereignisse A ⊂ Ω erhält man dann P (A) =
1.2 erklärte klassische Wahrscheinlichkeit.
|A|
|Ω|
. Dies ist gerade die in Definition
38
3.3
Beispiele
Beispiel 3.1:
Das Werfen von zwei unterscheidbaren Würfeln erzeugt die Paarmenge Ω = {1, 2, . . . , 6}2 .
1
Jeder der 36 einelementigen Untermengen kann man die Wahrscheinlichkeit pi = 36
zuordnen.
Beispiel 3.2:
Beim Spiel interessiert man sich manchmal nur für die Augensumme von zwei geworfenen
Würfeln. Dann wählt man als Stichprobenraum zweckmäßig
Ω = {2, 3, . . . , 12} .
Will man den einelementigen Teilmengen adäquate Wahrscheinlichkeiten zuordnen, so muss
man berücksichtigen, dass sich die meisten Elemente durch mehrere Augenpaare erzeugen lassen. Daher ist die klassische Wahrscheinlichkeit nicht angebracht, sondern man setzt

k−1


für k = 2, 3, . . . , 7

36
pk = P ({k}) =


 13 − k für k = 8, 9, . . . , 12 .
36
Diese Wahrscheinlichkeiten sind in Abb. 3.3 veranschaulicht.
39
3.3 Beispiele
In der Praxis gilt p ≈ q ≈ 12 , aber man kann sich gut vorstellen, dass diese Symmetrie bei einer
Münze mit einem sehr erhabenen Wappen ( Kopf“) auch einmal stärker gestört sein kann.
”
Die Funktion p : N → [0, 1], k 7→ pk = pq k−1 für k ∈ N heißt geometrische Verteilung,
da die Werte eine geometrische Folge bilden.
Beispiel 3.4: (Nadelproblem von Buffon)
In einer Ebene seien parallele Geraden markiert, die voneinander jeweils den Abstand d haben. Auf diese Ebene wird zufällig“ eine Nadel der Länge ℓ < d geworfen. Mit welcher
”
Wahrscheinlichkeit schneidet sie eine der markierten Geraden?
x sei der Abstand des Nadelmittelpunktes von derjenigen Geraden, die ihm am nächsten liegt.
t sei der Winkel, den die Nadel mit dieser Geraden bildet (vgl. Abb. 3.4).
t
A
0
2
P({k})
Abb. 3.4
6/36
Die Versuchsergebnisse sind die Paare (x, t) mit 0 ≤ x ≤
Rechteck Ω.
5/36
x
Abb. 3.5
d
2
und 0 ≤ t ≤ π; sie bilden ein
Die Nadel schneidet eine der Geraden, wenn x ≤ 2ℓ sin t ist, d.h. wenn der Punkt (x, t) in der
schraffierten Teilfläche A des Rechtecks liegt (s. Abb. 3.5). Diese hat den Inhalt
4/36
3/36
2/36
I(A) =
1/36
Zπ
0
2
3
4
5
6
7
8
9
10 11 12
Abb. 3.3
Beispiel 3.3:
Als Beispiel mit abzählbar unendlich vielen Ergebnissen betrachten wir das Werfen einer Münze
bis zum Erscheinen von Kopf“. Wir zählen die Anzahl der benötigten Würfe, und so ergibt
”
sich ganz natürlich
Ω = N = {1, 2, . . . } .
Setzen wir für jedes Ereignis {k} die Wahrscheinlichkeit durch pk = P ({k}) = pq k−1 mit p, q > 0
∞
P
und p + q = 1 fest, so gilt
pk = 1 . Die Begründung für diese Festlegung wird in Beispiel 5.4
nachgereicht.
d
2
k=1
π
ℓ
ℓ
sin t dt = (− cos t) 0 = ℓ .
2
2
Läuft das Experiment so ab, dass alle Punkte der Fläche Ω gleichmöglich“ sind, dann ergibt
”
sich für die gesuchte Wahrscheinlichkeit
P (A) =
ℓ
I(A)
2ℓ
=
.
=
I(Ω)
πd
π · d2
Als Ereignisalgebra E kann einfach die Menge E = {∅, A, Ac , Ω} gewählt werden. Auf dieser
ist dann P definiert.
Bemerkung 3.5:
Kann man die möglichen Ergebnisse eines Zufallsexperiments graphisch durch eine Punktmenge
Ω in der Ebene darstellen, so dass für die Wahrscheinlichkeit eines Ereignisses A ⊂ Ω gilt
Flächeninhalt von A
,
Flächeninhalt von Ω
so spricht man von einer geometrischen Wahrscheinlichkeit.
P (A) =
40
3.4
Bertrands Paradoxon
Die Axiomatisierung der Wahrscheinlichkeitsrechnung verlief parallel zur Entwicklung der Lebesgueschen Maß- und Integrationstheorie. Nach Kolmogorow war die Analogie zwischen
dem Maß einer Menge und der Wahrscheinlichkeit eines Ereignisses offensichtlich.
zwischen den gegenüberliegenden Ecken des einbeschriebenen Dreiecks durch diesen Punkt
liegen. Die gesuchte Wahrscheinlichkeit ist demnach der Quotient der Längen des zugehörigen
Kreisbogenstücks und des gesamten Kreisbogens
p′′ =
1
3
Die Theorie ist heute in sich stimmig. Das bedeutet aber nicht, dass sie auf jede praktische
Fragestellung eine eindeutige Antwort gibt.
Zunächst einmal existieren zu einem gegebenen Ereignisraum eine Reihe von unterschiedlichen
Wahrscheinlichkeitsbelegungen. Es ist dann Aufgabe des Untersuchenden, daraus die der Realität am besten entsprechende auszuwählen.
In der Mathematik wird nicht die Natur selbst bearbeitet, sondern ein Modell von ihr. Tatsächlich
können aber zu ein- und demselben Problem ganz unterschiedliche Modelle existieren. Das hat
schon Joseph Bertrand 1889 in seinem in Paris erschienenen Calcul des Probabilités“ ge”
zeigt.
Ihm ging es vor allem darum nachzuweisen, dass man mit dem von Laplace übernommenen
Begriff der Gleichwahrscheinlichkeit nicht auskommen kann. Er konstruierte das folgende
Beispiel 3.5: (Bertrands Paradoxon)
Rein zufällig“ wird in einem Kreis eine Sehne ausgewählt. Mit welcher Wahrscheinlichkeit p
”
ist sie länger als eine Seite eines dem Kreis einbeschriebenen gleichseitigen Dreiecks?
Bertrand fand mehrere verschiedene Lösungen. Sehen wir uns zwei davon an.
1. Lösung: Aus Symmetriegründen genügt es, alle Sehnen senkrecht zu einem Durchmesser zu
betrachten (s. Abb. 3.6). Die Wahrscheinlichkeit auf dem Durchmesser einen Punkt auszuwählen, durch den eine Sehne geht, die länger als die Dreiecksseite ist, ergibt sich aus dem
Verhältnis der Längen der Durchmesser des Inkreises und des gegebenen (Um–)Kreises:
p′ =
· 2πr
1
= .
2πr
3
Bertrand entschied sich für die erste Lösung. Tatsächlich beruhen die voneinander abweichenden Ergebnisse auf unterschiedlichen Vorstellungen von gleicher Wahrscheinlichkeit“.
”
Im ersten Falle ist das Auswählen von Punkten auf einer Strecke gleich wahrscheinlich, im
zweiten das Auswählen von Punkten auf einem Kreis.
Aufgabe 3.1:
Im Inneren eines Kreises wird rein zufällig“ ein Punkt gewählt und durch ihn diejenige Sehne
”
gelegt, die er halbiert (wird der Mittelpunkt gewählt, so kann als Sehne ein beliebiger Durchmesser festgelegt werden).
Wie groß ist die Wahrscheinlichkeit dafür, dass die Sehne länger als eine Seite des einbeschriebenen gleichseitigen Dreiecks ausfällt?
Jedem Auswahlverfahren können wir einen passenden Wahrscheinlichkeitsraum zuordnen, und
welcher dieser Räume das Phänomen zutreffend beschreibt, hängt von dem Zufallsgerät ab,
durch das wir die Sehne auswählen lassen.
3.5
Weitere Aufgaben
Aufgabe 3.2:
Eine Münze vom Durchmesser
stand 1 geworfen.
r
2
2·
1
= .
2·r
2
41
3.5 Weitere Aufgaben
1
2
wird auf ein großmaschiges Karopapier mit dem Maschenab-
(a) Wie groß ist die Wahrscheinlichkeit p1 dafür, dass die Münze keine Maschenecke“ be”
deckt?
(b) Wie groß ist die Wahrscheinlichkeit p2 dafür, dass kein Punkt einer Linie bedeckt wird?
r/2
r
Aufgabe 3.3:
Drei Punkte a, b, c werden zufällig“ auf einem Kreis ausgewählt. Mit welcher Wahrscheinlich”
keit liegen alle drei Punkte auf einem Halbkreis?
Aufgabe 3.4:
Abb. 3.6
Abb. 3.7
2. Lösung: Aus Symmetriegründen genügt es, alle Sehnen durch einen Punkt der Peripherie zu
betrachten (s. Abb. 3.7). Länger als die Dreiecksseite sind diejenigen Sehnen, deren Endpunkte
E ⊆ P(Ω) habe folgende Eigenschaften:
Ω ∈ E,
Zeigen Sie
AC ∈ E, falls A ∈ E,
[
i∈I
Ai ∈ E, falls Ai ∈ E für alle i ∈ I, Iabzählbar.
42
43
4
i) ∅ ∈ E,
T
Ai ∈ E, falls Ai ∈ E für alle i ∈ I, I abzählbar,
ii)
Folgerungen aus den Axiomen
4.1
i∈I
iii) A\B ∈ E für alle A, B ∈ E.
Der Satz von Sylvester
Satz 4.1:
Bemerkung 3.6:
Aufgabe 3.4 zeigt, dass zur Definition einer Ereignisalgebra wesentlich weniger Eigenschaften
gefordert werden müssen, als wir das in Definition 3.1 getan haben.
(a) Die Wahrscheinlichkeit des unmöglichen Ereignisses ist P (∅) = 0 .
(b) Für das Komplementärereignis von A ∈ E gilt P (AC ) = 1 − P (A) .
(c) Für alle Ereignisse A, B mit A ⊂ B gilt die Monotonieeigenschaft P (A) ≤ P (B) .
Aufgabe 3.5:
(d) Für alle Ereignisse A, B gilt P (A ∪ B) = P (A ∩ B) + P (A ∩ B C ) + P (AC ∩ B) .
Es sei E := {M ⊂ N | M ist endlich oder N \M ist endlich}.
Zeigen Sie, dass E keine Ereignisalgebra ist.
Beweis:
Aufgabe, für Teil (d) vgl. Abb. 4.1. 2
Aufgabe 3.6:
Zeigen Sie, dass E aus Aufgabe 3.5 eine Ereignisalgebra wird, wenn in der Definition endlich“
”
durch abzählbar“ ersetzt wird.
”
B
Aufgabe 3.7:
c
A B
(Ω, E, P ) sei ein Wahrscheinlichkeitsraum. Zeigen Sie:
(a) Für jede wachsende Folge von Ereignissen A1 ⊂ A2 ⊂ . . . gilt P
(b) Für jede fallende Folge von Ereignissen B1 ⊃ B2 ⊃ . . . gilt P
∞
T
∞
S
j=1
j=1
A B
c
B A
A
Ω
Aj = lim P (Aj ).
j→∞
Bj = lim P (Bj ).
Abb. 4.1
j→∞
Satz 4.2: (Additionssatz)
Für alle Ereignisse A, B eines Ereignisraumes E gilt (vgl. Abb. 4.1)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) .
Beweis:
Aufgabe. 2
Satz 4.3: (Additionssatz für 3 Ereignisse)
Für je drei Ereignisse eines Ereignisraumes gilt
P (A ∪ B ∪ C) = P (A) + P (B) + P (C)
− P (A ∩ B) − P (B ∩ C) − P (A ∩ C)
+ P (A ∩ B ∩ C)
Beweis:
Aufgabe. 2
44
4 FOLGERUNGEN AUS DEN AXIOMEN
Aufgabe 4.1:
A und B seien Ereignisse eines Ereignisraumes E mit P (A) =
Man bestimme
(a) P (A ∪ B)
C
(b) P (AC ) und P (B C )
C
(d) P (A ∪ B )
C
(e) P (A ∩ B )
3
8
, P (B) =
1
2
, P (A ∩ B) =
1
4
.
(c) P (AC ∩ B C )
C
(f) P (A ∩ B) .
45
4.1 Der Satz von Sylvester
Die Sätze 4.2 und 4.3 lassen sich auf jede endliche Anzahl von Ereignissen zum Satz von Sylvester4 verallgemeinern:
Satz 4.4: (Satz von Sylvester)
n
S
P
P
P
P
Ai =
P (Ai ) −
P (Ai ∩ Aj ) +
P (Ai ∩ Aj ∩ Ak ) ∓ . . .
i=1
i
i<j
i<j<k
· · · + (−1)n−1 P (A1 ∩ A2 ∩ . . . ∩ An ) .
Aufgabe 4.2:
Eine Blutgruppenuntersuchung von Europäern ergab:
50 % besitzen das Antigen vom Typ α,
11 % besitzen das Antigen vom Typ β,
4 % besitzen Antigene beider Typen.
Beweis durch vollständige Induktion nach n:
Für n = 1 und n = 2 (Satz 4.2) ist die Aussage richtig.
Wieviel Prozent der Bevölkerung besitzen nur das Antigen vom Typ α, nur das Antigen vom
Typ β bzw. kein Antigen?
Die Aussage sei richtig für n = ℓ. Dann ergibt sich für n = ℓ + 1:
P (A1 ∪ . . . ∪ Aℓ+1 ) = P (A1 ∪ . . . ∪ Aℓ ) ∪ Aℓ+1
= P (A1 ∪ . . . ∪ Aℓ ) + P (Aℓ+1 ) − P (A1 ∪ . . . ∪ Aℓ ) ∩ Aℓ+1
X
(IV ) X
P (Ai ∩ Aj ) ± . . . + (−1)ℓ−1 P (A1 ∩ . . . ∩ Aℓ )
P (Ai ) −
=
(n=2)
Aufgabe 4.3:
Um einen Überblick über die Absatzchancen seiner Produkte zu erhalten, holt sich ein Hersteller
Informationen. Er erfährt über das ihn interessierende Gebiet, dass
i<j≤ℓ
i≤ℓ
+ P (Aℓ+1 ) − P
86 % der Bevölkerung ein Radiogerät,
69 % ein Fernsehgerät und
63 % beide Geräte angemeldet haben.
(IV )
=
Wieviel Prozent der Bevölkerung haben demnach keines von beiden Geräten angemeldet?
X
i≤ℓ
P (Ai ) −
Aufgabe 4.4:
−
Eine Zahl wird willkürlich aus der Menge der ersten 300 natürlichen Zahlen ausgewählt. Wie
groß ist die Wahrscheinlichkeit, dass diese Zahl durch 5, 6 oder 8 teilbar ist?
i<j≤ℓ
"
P (Ai ∩ Aj ) +
X
i<j<k≤ℓ
(Ar ∩ Aℓ+1 )
r=1
P (Ai ∩ Aj ∩ Ak ) ∓ . . .
. . . + (−1)ℓ−1 P (A1 ∩ . . . ∩ Aℓ ) + P (Aℓ+1 )
X
X
(Ai ∩ Aℓ+1 ) −
P (Ai ∩ Aℓ+1 ) ∩ (Aj ∩ Aℓ+1 ) ± . . .
i≤ℓ
i<j≤ℓ
#
ℓ
\
ℓ−1
(Ar ∩ Aℓ+1 )
. . . + (−1) P
r=1
Aufgabe 4.5:
Man beweise die Ungleichung P
X
ℓ
[
n
S
i=1
Ai
≤
eines Wahrscheinlichkeitsraumes (Ω, E, P ).
n
P
=
P (Ai ) für beliebige Ereignisse A1 , A2 , . . . , An
X
i≤ℓ+1
i=1
P (Ai ) −
X
i<j≤ℓ+1
P (Ai ∩ Aj ) +
X
i<j<k≤ℓ+1
P (Ai ∩ Aj ∩ Ak ) ∓ . . .
. . . + (−1)ℓ P (A1 ∩ . . . ∩ Aℓ ∩ Aℓ+1 ) . 2
Bemerkung 4.1:
Bemerkung 4.2:
Die Formel gestattet, die Wahrscheinlichkeit eines Ereignisses, das sich als Vereinigung von
Ereignissen mit bekannten Wahrscheinlichkeiten ergibt, nach oben abzuschätzen. Sie ist um so
besser brauchbar, je kleiner die Wahrscheinlichkeiten P (Ai ) sind.
In einem Laplaceschen Wahrscheinlichkeitsraum Ω gilt für jedes Ereignis P (A) =
(vgl. Bemerkung 3.4).
Eine Anwendungsmöglichkeit bietet Beispiel 2.2 (b).
|A|
|Ω|
Die Formel von Sylvester liefert daher nach Multiplikation mit |Ω| eine Formel für die
Mächtigkeit einer Vereinigungsmenge:
P
P
P
|A1 ∪ A2 ∪ . . . ∪ An | = |Ai | − |Ai ∩ Aj | +
|Ai ∩ Aj ∩ Ak | ∓ . . . + (−1)n−1 |A1 ∩ . . . ∩ An | .
i
4
i<j
i<j<k
England, Determinanten- und Matrizentheorie, algebraische Gleichungen.
46
4.2
Anwendungen des Satzes von Sylvester
47
4.2 Anwendungen des Satzes von Sylvester
Beispiel 4.1:
Wir bestimmen die Anzahl der zu 18 teilerfremden natürlichen Zahlen ≤ 18:
Die Eulersche Funktion
Wegen 18 = 2 · 32 sind die Primteiler p1 = 2 und p2 = 3. Die Eulersche Funktion liefert
Wie viele Elemente der Menge Ω = {1, 2, . . . , n} sind zu n teilerfremd?
Die Abbildung S : N → N, die jeder Zahl n die Anzahl S(n) der zu n teilerfremden Zahlen
zwischen 1 und n zuordnet heißt Eulersche Funktion. Wir suchen nach einer Formel für S(n).
Hierzu betrachten wir zunächst die Primfaktorenzerlegung von n
mit paarweise verschiedene Primfaktoren pi , i ∈ {1, . . . , r}. Ferner seien
mit
n
|Ai | = ,
pi
Mengenalgebraisch ergibt sich der folgende Zusammenhang:
Die Menge der Vielfachen von p1 = 2 ist A1 = {2, 4, 6, 8, 10, 12, 14, 16, 18}; die Menge der
Vielfachen von p2 = 3 ist A2 = {3, 6, 9, 12, 15, 18}, und man erhält A1 ∩ A2 = {6, 12, 18} .
n = pα1 1 · pα2 2 · . . . · pαr r
n
Ai = x ∈ Ω pi |x = pi , 2pi , 3pi , . . . , · pi
pi
1 1
S(18) = 18 · 1 −
· 1−
=6.
2
3
Also gilt |A1 ∪ A2 | = |A1 | + |A2 | − |A1 ∩ A2 | = 9 + 6 − 3 = 12 (vgl. Abb. 4.2), und daher
i ∈ {1, . . . , r}
S(18) = |Ω| − |A1 ∪ A2 | = 18 − 12 = 6 .
die Vielfachenmengen der pi . Durch Schneiden ergeben sich für i < j die Vielfachenmengen
Ai ∩ Aj = x ∈ Ω pi pj |x
n
pi pj
|Ai ∩ Aj | =
mit
A1
Allgemein erhält man für i1 < i2 < · · · < im
Ai1 ∩ Ai2 ∩ . . . ∩ Aim = x ∈ Ω pi1 pi2 . . . pim |x
|Ai1 ∩ . . . ∩ Aim | =
mit
A2
n
.
pi1 pi2 . . . pim
Ω
Die Menge der zu n nicht teilerfremden Zahlen zwischen 1 und n ist
A1 ∪ A2 ∪ . . . ∪ Ar = x ∈ Ω pi |x gilt für mindestens ein i ,
Abb. 4.2
und die Menge der zu n teilerfremden Zahlen ist ihr Komplement. Nach Bemerkung 4.2 hat es
die Mächtigkeit
Beispiel 4.2:
S(n) = |(A1 ∪ . . . ∪ Ar )C | = |Ω \(A1 ∪...∪Ar ) | = |Ω| − |A1 ∪ . . . ∪ Ar |
= |Ω| −
= n−
P
1≤i≤r
P
1≤i≤r
= n 1−
= n 1−
= n
r
Q
i=1
|Ai | +
n
pi
P
i
1
1
pi
+
P
P
i<j
1−
.
1
pi pj
1
p2
|Ai ∩ Aj | −
1≤i<j≤r
1≤i<j≤r
1
pi
p1
1−
+
P
P
1≤i<j<k≤r
|Ai ∩ Aj ∩ Ak | ± . . .
. . . + (−1)r |A1 ∩ A2 ∩ . . . ∩ Ar |
n
pi pj
−
1−
−
1≤i<j<k≤r
P
i<j<k
1
p3
P
1
pi pj pk
n
pi pj pk
± . . . + (−1)
· ... · 1 −
Das ist die aus der Zahlentheorie bekannte Formel.
± . . . + (−1)r p1 p2n...pr
1
pr
r
1
p1 p2 ...pr
Die Anzahl der zu 2400 = 25 · 3 · 52 teilerfremden natürlichen Zahlen ≤ 2400 ist
1 1
1 2 4
1 1−
1−
= 2400 · · · = 640 .
S(2400) = 2400 1 −
2
3
5
2 3 5
Das Bernoulli–Eulersche Problem der vertauschten Briefe
Wie groß ist die Wahrscheinlichkeit dafür, n Briefe in die dafür vorbereiteten Umschläge zu
tun, ohne dass ein Brief im richtigen Umschlag steckt?
Die Menge Ω der möglichen Verpackungen hat die Mächtigkeit |Ω| = n! .
Ai sei die Menge derjenigen Verpackungen, bei denen der i–te Brief im richtigen Umschlag liegt.
Es gilt |Ai | = (n − 1)! .
Für i < j ist dann Ai ∩ Aj die Menge aller Verpackungen, bei denen der i–te und der j–te Brief
im richtigen Umschlag sind. Man erhält |Ai ∩ Aj | = (n − 2)! .
48
Entsprechend ist Ai1 ∩ Ai2 ∩ . . . ∩ Aim die Menge aller derjenigen Verpackungen, bei denen der
i1 –te, . . . , im –te Brief im richtigen Umschlag sind. Hier gilt natürlich für i1 < i2 < . . . < im
Die gesuchte Wahrscheinlichkeit ist P (A1 ∪ A2 ∪ . . . ∪ An )C . Nach dem Satz von Sylvester
ergibt sich unter der Voraussetzung der Gleichmöglichkeit“ aller Verpackungen
”
P (A1 ∪ . . . ∪ An )
=1−
|A1 ∪ A2 ∪ . . . ∪ An |
= 1 − P (A1 ∪ . . . ∪ An ) = 1 −
|Ω|
X |Ai ∩ Aj |
X
X |Ai |
|Ai ∩ Aj ∩ Ak |
+
−
± ...
|Ω|
|Ω|
|Ω|
1≤i<j≤n
1≤i≤n
1≤i<j<k≤n
. . . + (−1)n
|A1 ∩ A2 ∩ A3 ∩ . . . ∩ An |
|Ω|
X (n − 1)!
P (n − 2)!
P
(n − 3)!
1
+
−
± . . . + (−1)n
n!
n!
n!
n!
1≤i<j≤n
1≤i<j<k≤n
1≤i≤n
n (n − 2)!
n (n − 3)!
n 1
n (n − 1)!
+
−
± . . . + (−1)n
=1−
2
3
n n!
n!
n!
n!
1
=1−
=
1
1
1
1
1
− + − ± . . . + (−1)n ·
=
0! 1! 2! 3!
n!
n
X
k=0
(−1)k
k!
Für genügend großes n gilt die Näherungsformel
n
X
(−1)k
k=0
k!
≈
∞
X
(−1)k
k=0
k!
1
(n+1)!
, denn für die Leibniz-Reihe gilt die Abschätzung
1
1
1
1 1
1
1
1
−1
− + ∓ . . . (−1)n
−
+
∓ . . . <
.
e −
= 0! 1! 2!
n!
(n + 1)! (n + 2)! (n + 3)!
(n + 1)!
Für n ≥ 5 z.B. unterscheidet sich
1
e
1
27!
< 10−28 .
Eine Permutation heiße Fixpunktfrei, wenn sie kein Element auf sich abbildet.
Bestimmen Sie die Anzahl fn der n–stelligen fixpunktfreien Permutationen.
Aufgabe 4.7:
30 Personen nehmen am Weihnachtsfest eines Sportvereins teil. Jeder bringt ein Geschenk mit.
Die Geschenke werden in einen Sack getan und vom Weihnachtsmann“ zufällig wieder verteilt.
”
Wie groß ist die Wahrscheinlichkeit, dass dabei niemand sein eigenes Geschenk erhält?
Aufgabe 4.8:
Das Blatt eines Skatspielers, der hoch gereizt hat, ist nur noch zu retten“, wenn er die Pik–7
”
oder den Kreuz–Buben im Skat findet. Wie groß ist die Wahrscheinlichkeit dafür?
4.3
Bedingte Wahrscheinlichkeiten
Häufig nimmt man zur leichteren Analyse von zufälligen Vorgängen eine Aufteilung nach verschiedenen Merkmalen vor. Versicherungsgesellschaften möchten z.B. wissen, ob die Verkehrsunfallhäufigkeit auf dem Lande sich von der in Städten unterscheidet. Mediziner interessiert das
Herzinfarktrisiko bei Essern, die ungesättigte Fettsäuren bevorzugen, im Vergleich zu Menschen,
die ihre Essgewohnheiten nicht kontrollieren. Andere finden interessant, ob die Häufigkeit von
Morden in Ländern mit Todesstrafe eine andere ist als in Ländern ohne Todesstrafe.
Beispiel 4.4:
= e−1 .
Dabei bleibt der Fehler unter
Der bei dieser Näherungsrechnung gemachte Fehler beträgt weniger als
Aufgabe 4.6:
|Ai1 ∩ Ai2 ∩ . . . ∩ Aim | = (n − m)! .
C
49
4.3 Bedingte Wahrscheinlichkeiten
von
1
0!
+ ... +
(−1)5
5!
um weniger als
1
6!
< 1, 4 · 10−3 .
Beispiel 4.3:
Wie groß ist die Wahrscheinlichkeit, dass beim zufälligen Anordnen der 26 Buchstaben A – Z
kein Buchstabe auf seinen ursprünglichen Platz kommt?
Diese Fragestellung ist in der Kryptographie von Bedeutung. Mit der oben entwickelten Formel
erhält man die Wahrscheinlichkeit
1
1
1
1
p = − + ± ... +
≈ e−1 ≈ 0, 3679
0! 1! 2!
26!
Wir betrachten eine Menge Ω von n erwachsenen Personen. Jede Person soll bei einer zufälligen Auswahl mit der gleichen Wahrscheinlichkeit n1 gezogen werden. Wir betrachten die beiden
Ereignisse W : die gewählte Person ist weiblich“und F : die gewählte Person ist farbenblind“.
”
”
Man erhält
P (W ) =
|W |
,
n
P (F ) =
|F |
,
n
P (W ∩ F ) =
|W ∩ F |
.
n
Für die Anzahl der Frauen gelte |W | > 0. Eine aus W zufällig gewählte Frau ist dann mit der
Wahrscheinlichkeit
P (F/W ) =
|W ∩ F |
|W |
farbenblind. Wir bezeichnen P (F/W ) als Wahrscheinlichkeit von F unter der Bedingung W“
”
und finden
P (F/W ) =
|W ∩ F |
=
|W |
|W ∩F |
n
|W |
n
=
P (W ∩ F )
.
P (W )
50
Diese Beziehung veranlasst uns, den Begriff der bedingten Wahrscheinlichkeit einzuführen. Dabei handelt es sich um nichts grundsätzlich Neues, sondern nur um eine Abkürzung für einen
Quotienten bekannter Größen, die aber sehr nützlich ist.
Ist der Anteil der Farbenblinden |Fn | in der gesamten Menge gleich dem entsprechenden Anteil
unter den Frauen |W|W∩F| | , so hat Farbenblindheit nichts mit dem Geschlecht zu tun bzw. ist von
ihm unabhängig (vgl. S. 59f). In diesem Fall ist P (F/W ) = P (F ).
Definition 4.1: (bedingte Wahrscheinlichkeit)
A sei ein Ereignis in einem Wahrscheinlichkeitsraum (Ω, E, P ) mit P (A) > 0. Dann heißt
P (A ∩ B)
P (B/A) =
P (A)
51
4.4 Der Multiplikationssatz
(a) das andere Kind jünger ist,
(b) über das andere Kind nichts bekannt ist.
Die Wahrscheinlichkeit für Jungen und Mädchen sollen hierbei als gleich angenommen werden.
4.4
Der Multiplikationssatz
Formt man die Formel in Definition 4.1 um, so erhält man
Satz 4.6:
Für beliebige Ereignisse eines Wahrscheinlichkeitsraumes (Ω, E, P ) gilt
die bedingte Wahrscheinlichkeit des Ereignisses B unter (der Bedingung) A.
Diesen Begriff können wir folgendermaßen erklären:
Wenn wir schon wissen, dass das Ergebnis eines Zufallexperiments in A liegt, fragen wir nach
der Wahrscheinlichkeit dafür, dass es auch noch in B liegt. D.h. wir können uns A ⊂ Ω als
einen neuen Stichprobenraum vorstellen, in dem wir Ereignisse B ⊂ A betrachten.
P (A ∩ B) = P (A) · P (B/A) .
Bemerkung 4.3:
P (B/A) lässt sich häufig einfacher als P (A∩B) bestimmen, so dass wir eine Formel zur Bestimmung von Wahrscheinlichkeiten von Schnitten gewonnen haben, die sich zudem verallgemeinern
lässt.
Genaueres regelt
Beispiel 4.5:
Satz 4.5:
Vier unterscheidbare Kugeln werden in sechs Zellen verteilt. Alle 64 Möglichkeiten seien gleichwahrscheinlich. Wie groß ist die Wahrscheinlichkeit dafür, dass die beiden ersten Kugeln in
zwei verschiedene Zellen fallen und eine der 6 Zellen genau drei Kugeln enthält?
(Ω, E, P ) sei ein Wahrscheinlichkeitsraum und A ∈ E mit P (A) > 0. Es sei
EA = {B ∈ E | B ⊂ A} und PA : EA → [0, 1] mit PA (B) := P (B/A).
Wir betrachten die Ereignisse
A:
B:
Dann ist (A, EA , PA ) ein Wahrscheinlichkeitsraum.
Beweis:
Aufgabe. 2
Interessanterweise besteht zwischen der bedingten Wahrscheinlichkeit und der absoluten keine
feste größer–kleiner–Relation. Gilt nämlich für zwei Ereignisse A, B
= 65 . Ist A eingetreten, gibt es für
Gesucht ist P (A ∩ B). Man erhält zunächst P (A) = 6·5
62
die Verteilung der restlichen Kugeln 62 Möglichkeiten, wovon genau 2 das Ereignis B eintreten
1
2
. Also erhält man
lassen, d.h. P (B/A) = 2 =
6
18
P (A ∩ B) = P (A) · P (B/A) =
P (B/A) > P (B),
so ergibt sich für das komplementäre Ereignis
C
die beiden ersten Kugeln fallen in verschiedene Zellen“,
”
eine Zelle enthält genau drei Kugeln“.
”
5 1
5
·
=
.
6 18
108
Beispiel 4.6:
C
P (B /A) = 1 − P (B/A) < 1 − P (B) = P (B ).
Aufgabe 4.9:
Eine Familie hat zwei Kinder, von denen eines ein Junge ist. Man bestimme die Wahrscheinlichkeit dafür, dass das andere Kind ebenfalls ein Junge ist. Dabei setze man voraus, dass
Zwei Urnen U1 , U2 gleichen Typs enthalten 2 weiße und 3 blaue bzw. 4 weiße und 5 blaue
Kugeln. Wir wählen zunächst zufällig eine Urne aus und ziehen anschließend aus dieser Urne
eine Kugel. Wie groß ist die Wahrscheinlichkeit dafür, eine weiße Kugel zu ziehen, die aus der
Urne U1 stammt?
52
Wir zerlegen den Stichprobenraum Ω der 14 Kugeln in zwei disjunkte Ereignisse, nämlich die Kugeln der Urnen U1 und U2 , die
beide mit der Wahrscheinlichkeit 12 eintreten (man beachte, dass
(Ω, P(Ω), P ) kein Laplace-Wahrscheinlichkeitsraum ist!).
W bzw. B seien die Mengen der insgesamt vorhandenen weißen
bzw. blauen Kugeln.
Ω
U1
U2
W
2
4
B
3
5
Abb. 4.3
Bemerkung 4.4:
In der Veranschaulichung durch ein Baumdiagramm entspricht die im Multiplikationssatz angegebene Formel gerade der Berechnung von Wahrscheinlichkeiten durch Multiplizieren der
”
Wahrscheinlichkeiten entlang der Äste“ des Baums (s. Abb. 4.5).
1/2
W U1
3/5
B U1
U1
4/9
1/2
W U2
U2
B U2
5/9
Abb. 4.4
Ist die erste Urne gewählt worden, so ist die Wahrscheinlichkeit dafür, aus dieser eine weiße
Kugel zu ziehen, P (W/U1 ) = 52 . Damit lautet die Antwort auf unsere Frage
P (W ∩ U1 ) = P (U1 ) · P (W/U1 ) =
P(A3 / A2
P(A2 / A1 )
P(A 1 )
Die Situation lässt sich durch das Baumdiagramm in Abb. 4.4 veranschaulichen. Man beachte, dass die in der zweiten Stufe des Baums angegebenen Wahrscheinlichkeiten bedingte
Wahrscheinlichkeiten sind.
2/5
53
4.4 Der Multiplikationssatz
A1
A2
A1 )
A1
A3
A2
A1
Abb. 4.5
Beispiel 4.7:
Von 200 Schrauben passen 17 nicht. Zwei werden zufällig herausgegriffen. Wie wahrscheinlich
ist es, dass man 0 bzw. 1 bzw. 2 passende wählt?
Es sei {k} das Ereignis, dass k Schrauben passen. Mit dem Multiplikationssatz erhält man
17 16
·
≈ 0, 0068,
200 199
und daher durch Komplementbildung
P ({0}) =
P ({2}) =
183 182
·
≈ 0, 8368,
200 199
P ({1}) = 1 − P ({0}) − P ({2}) ≈ 0, 1563.
Aufgabe 4.10:
1 2
1
· = .
2 5
5
Von 4 Sicherheitsschlüsseln schließe genau einer. Die Schlüssel werden der Reihe nach probiert.
(a) Wie groß ist die Wahrscheinlichkeit dafür, dass der 3. probierte Schlüssel schließt?
Wir verallgemeinern nun den letzten Satz.
(b) Definieren Sie einen geeigneten Stichprobenraum Ω sowie die Ereignisse
Satz 4.7: (Multiplikationssatz)
A1 : der zuerst probierte Schlüssel schließt nicht,
A2 : der an 2. Stelle probierte Schlüssel schließt nicht,
A3 : der an 3. Stelle probierte Schlüssel schließt?
Sind A1 , A2 , . . . , An Ereignisse eines Wahrscheinlichkeitsraumes (Ω, E, P ), so gilt
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 /A1 ) · P (A3 /A2 ∩ A1 ) · . . . · P (An /An−1 ∩ . . . ∩ A1 ).
Welches der folgenden Ereignisse halten Sie für wahrscheinlicher:
Beweis: (durch vollständige Induktion nach n)
Für n = 1 und n = 2 ist die Behauptung wahr (s. Satz 4.6).
Die Behauptung sei für n = k richtig (Induktionsvoraussetzung). Dann erhält man für n = k+1
P (A1 ∩ . . . ∩ Ak+1 )
=
(n=2)
=
(IV)
=
P (A1 ∩ . . . ∩ Ak ) ∩ Ak+1
Aufgabe 4.11:
P (A1 ∩ . . . ∩ Ak ) · P (Ak+1 /A1 ∩ . . . ∩ Ak )
P (A1 ) · P (A2 /A1 ) · . . . · P (Ak /Ak−1 ∩ . . . ∩ A1 ) · P (Ak+1 /Ak ∩ . . . ∩ A1 ) . 2
(1) Die Mutter hat blaue Augen, wenn die Tochter blaue Augen hat.
(2) Die Tochter hat blaue Augen, wenn die Mutter blaue Augen hat.
Aufgabe 4.12:
Eine Lieferung von 1000 Glühlampen enthält 8 defekte. Drei Lampen werden entnommen und
verkauft. Wie groß ist die Wahrscheinlichkeit dafür
54
55
4.5 Totale Wahrscheinlichkeit, Satz von Bayes
(a) dass diese 3 Lampen defekt sind?
1/3
W I
I
(b) dass genau zwei dieser 3 Lampen defekt sind?
S I
2/3
Hinweis: Man versuche, beide Probleme sowohl mittels des klassischen Wahrscheinlichkeitsbegriffs (Kombinatorik) als auch über den Multiplikationssatz zu bearbeiten.
1/3
1/3
Aufgabe 4.13:
Man zeige: Sind A und B Ereignisse eines Wahrscheinlichkeitsraumes, so gilt
W II
3/5
S II
4/9
W III
5/9
S III
II
1/3
P (A) · P (B/A) = P (B) · P (A/B) .
2/5
III
Aufgabe 4.14:
Lösen Sie mit Hilfe des Satzes 4.7 das Geburtstagsproblem“ (Beispiel 2.2), wie groß die Wahr”
scheinlichkeit dafür ist, dass unter k ≤ 365 Personen mindestens zwei am gleichen Tage Geburtstag haben (ohne Berücksichtigung von Schaltjahren).
Hinweis: Numerieren Sie die k Personen, und nennen Sie Ak das Ereignis, dass die k–te Person
an einem anderen Tag Geburtstag hat als die k − 1 Personen vor ihr.
4.5
Abb. 4.7
Produkte ist die gesuchte Wahrscheinlichkeit:
P (W ) =
53
1 1 1 2 1 4
· + · + · =
.
3 3 3 5 3 9
135
Dieses Vorgehen rechtfertigt der nachfolgende Satz. Wir legen vorher einen zur Formulierung
benötigten Begriff fest.
Totale Wahrscheinlichkeit, Satz von Bayes
Definition 4.2: (Klasseneinteilung)
Wir betrachten folgendes
Beispiel 4.8:
Gegeben seien drei Urnen I, II und III, die eine weiße und zwei
schwarze, zwei weiße und drei schwarze bzw. vier weiße und fünf
schwarze Kugeln enthalten (Abb. 4.6).
Es wird zunächst zufällig eine Urne ausgewählt und anschließend
aus dieser eine Kugel gezogen. Wie groß ist die Wahrscheinlichkeit
dafür,
Unter einer Klasseneinteilung eines Stichprobenraumes S
versteht man ein System
Ai (vgl. Abb. 4.8).
{Ai | i ∈ I} von Ereignissen mit Ai ∩ Ak = ∅ für i 6= k und Ω =
i∈I
I
II
III
W
◦
◦ ◦
◦ ◦
◦ ◦
S
• •
• • •
• • •
• •
Abb. 4.6
(a) aus der bereits gewählten Urne II eine weiße Kugel zu ziehen,
Satz 4.8: (Satz von der totalen Wahrscheinlichkeit)
Ist I eine abzählbare Indexmenge und {Ai | i ∈ I} eine Klasseneinteilung des Stichprobenraumes Ω, so gilt für jedes Ereignis B ⊂ Ω
X
P (B) =
P (Ai ) · P (B/Ai ) .
i∈I
(b) dass eine gezogene weiße Kugel aus der Urne II stammt,
Beweis:
(c) eine weiße Kugel zu ziehen?
Wir übersetzen das Problem in ein Baumdiagramm, indem wir zunächst die verschiedenen
Wahlmöglichkeiten für die Urnen mit ihren Wahrscheinlichkeiten markieren und anschließend
die Wahlmöglichkeiten für die Kugeln (Abb. 4.7).
Die Antwort auf (a) liest man direkt als P (W/II) =
unmittelbar entnehmen.
2
5
ab. (b) kann man dem Diagramm nicht
Die Antwort auf (c) lautet: Wir durchlaufen alle Pfade, die mit einer weißen Kugel enden und
bilden für jeden Pfad nach Satz 4.7 das Produkt der Wahrscheinlichkeiten. Die Summe der
Es ergibt sich durch Anwendung von Satz 4.6
P (B) = P (B ∩ Ω) = P B ∩
S
i∈I
(∗) P
P
S
P (Ai ) · P (B/Ai ) ;
P (B ∩ Ai ) =
(B ∩ Ai ) =
Ai = P
i∈I
i∈I
hierbei gilt (∗) nach dem 3. Kolmogorowschen Axiom wegen
(B ∩ Ai ) ∩ (B ∩ Ak ) = B ∩ (Ai ∩ Ak ) = B ∩ ∅ = ∅ für i 6= k . 2
i∈I
56
An
Aj
B
A1
Bemerkung 4.5:
A2
A3
Ai
A4
57
4.5 Totale Wahrscheinlichkeit, Satz von Bayes
In der Formel von Bayes heißt P (Aj ) die a priori Wahrscheinlichkeit und P (Aj /B)
die a posteriori Wahrscheinlichkeit.
Ω
Abb. 4.8
Beispiel 4.8: (Fortsetzung)
Wir lösen jetzt das in (b) gestellte Problem.
Gefragt wird nach der Wahrscheinlichkeit P (II/W ) . Nach dem Satz von Bayes gilt
Aufgabe 4.15:
Drei Maschinen eines Betriebes stellen gleiche Teile her. Die erste Maschine erzeugt 45 %, die
zweite 35 % und die dritte 20 % der Produktion. Der Ausschuss beträgt nach statistischen
Erhebungen auf der ersten Maschine 1 %, auf der zweiten 2 % und auf der dritten 3 %.
P (II/W ) =
=
Wie wahrscheinlich ist es, dass ein beliebiges aus diesem Betrieb stammendes Teil zum Ausschuss gehört?
Aufgabe 4.16:
Ein Kaufhaus verkauft Herrenanzüge, und zwar 25 % große, 54 % mittlere und 21 % kleine
Größen. Es müssen 16 % der großen, 12 % der mittleren und 19 % der kleinen Größen geändert
werden. Mit welcher Wahrscheinlichkeit muss die Änderungsabteilung einen beliebigen verkauften Anzug bearbeiten?
Als einer der ersten interessierte sich der Engländer Bayes dafür, ob man aus dem Ergebnis eines Zufallsexperiments etwas über den zugrundeliegenden Ereignisraum aussagen kann.
Beispielsweise stellten wir im Beispiel 4.8 die Frage, mit welcher Wahrscheinlichkeit Urne II
gewählt wurde, wenn schon bekannt ist, dass die gezogene Kugel weiß ist. Wie Bayes diese
Art von Problemstellung löste, zeigt der folgende Satz.
P (II) · P (W/II)
P (I) · P (W/I) + P (II) · P (W/II) + P (III) · P (W/III)
1
3
1
3
1
3
· 25
· + · 25 + 31 ·
1
3
4
9
=
2
15
53
135
=
18
.
53
Für das Ereignis Urne II wird gewählt“ ist also die a priori Wahrscheinlichkeit P (II) = 31 .
”
Die a posteriori Wahrscheinlichkeit d.h. die Wahrscheinlichkeit, nachdem eine weiße Kugel
.
gezogen wurde, ist P (II/W ) = 18
53
Aufgabe 4.17:
Die Zuverlässigkeit einer Tuberkulose-Röntgenuntersuchung sei durch folgende Angaben beschrieben:
90 % aller Tbc–Kranken werden als krank erkannt, 10 % werden für gesund gehalten.
99 % der gesunden Personen werden als solche eingeschätzt, 1 % wird als krank eingestuft.
Aus einer großen Bevölkerung, von der 0,1 % Tbc–krank ist, wird bei einer Einstellungsuntersuchung eine Person geröntgt und als Tbc–verdächtig eingestuft.
Wie groß ist die Wahrscheinlichkeit, dass diese Person wirklich Tbc–krank ist?
Satz 4.9: (Satz von Bayes)
I sei eine abzählbare Indexmenge und {Ai | i ∈ I} eine Klasseneinteilung des Stichprobenraumes Ω in Ereignisse.
Ist B ein Ereignis mit P (B) 6= 0, so gilt für alle j ∈ I
P (Aj /B) =
P (Aj ) · P (B/Aj )
P (Aj ) · P (B/Aj )
.
=P
P (Ai ) · P (B/Ai )
P (B)
i∈I
Beweis:
Aufgabe 4.18:
Bei Touristenreisen in tropische Länder mit X–Fiebergefährdung lassen sich durchschnittlich 3
von 4 Personen gegen diese Krankheit impfen. Eine Statistik ergibt:
• Von 7 Erkrankten sind durchschnittlich 3 geimpft.
• Von 20 Geimpften wird durchschnittlich einer krank.
(a) Man stelle ein Baumdiagramm für die Beziehungen zwischen Erkrankung und Impfung
auf und trage die aus der Problemstellung bekannten Wahrscheinlichkeiten ein.
Die angegebene Formel ergibt sich durch Einsetzen der Darstellung von P (B) aus Satz 4.8 in
(b) Man berechne, mit welcher Wahrscheinlichkeit eine nicht geimpfte Person erkrankt.
P (Aj ∩ B)
P (Aj ) · P (B/Aj )
P (Aj /B) =
=
.2
P (B)
P (B)
(c) Kann man die Impfung empfehlen?
58
5
Aufgabe 4.19:
Die Kisten mit äußerlich gleichen Feuerwerkskörpern unterschiedlicher Qualität sind vor dem
Beschriften durcheinandergeraten. In jeder Kiste sind 100 Stück, und es gibt Kisten mit geringer, mit mittlerer und mit hoher Qualität. Die Anzahlen dieser Kisten verhalten sich wie 1 : 1
: 2.
Das Testen eines Feuerwerkskörpers verbraucht ihn. Es wird daher festgesetzt, dass von jeder
Kiste zwei Feuerwerkskörper gezündet werden.
Auf Grund früherer Erfahrungen schätzt der Hersteller die bedingten Wahrscheinlichkeiten,
dabei x defekte Feuerwerkskörper zu entdecken, wie folgt ein:
0
1
2
0,49
0,42
0,09
0,64
0,32
0,04
5.1
Unabhängigkeit
Nach der Erklärung der bedingten Wahrscheinlichkeit ist es naheliegend, zwei Ereignisse A und
B mit P (B/A) = P (B) unabhängig zu nennen. Um jedoch von der Voraussetzung P (A) > 0
freizuwerden und die Formulierung symmetrisch in A und B vornehmen zu können, setzen wir
fest:
Definition 5.1: (Unabhängigkeit von 2 Ereignissen)
P (A ∩ B) = P (A) · P (B).
0,81
0,18
0,01
Aufgabe 5.1:
Wie groß sind demnach die Wahrscheinlichkeiten, dass eine Kiste Feuerwerkskörper geringer,
mittlerer bzw. hoher Qualität enthält, wenn beim Test 0, 1, 2 Feuerwerkskörper defekt sind?
Zwei Ereignisse A, B mit P (A) 6= 0 sind genau dann unabhängig, wenn P (B/A) = P (B) gilt.
Beispiel 5.1:
In einer Urne befinden sich hundert von 1 bis 100 durchnumerierte Kugeln. Ai sei das Ereignis,
eine Kugel mit einer durch i teilbaren Nummer zu ziehen. Sind die Ereignisse
Beispiel 4.9:
Hier wird die Bayessche Formel zum Modifizieren subjektiver“ Wahrscheinlichkeiten benutzt.
”
Dem Studenten S wird in einer Kneipe von einem Fremden F das Angebot gemacht, die
Bezahlung der Zeche von einem Münzwurf abhängig zu machen. F holt eine Münze aus der
Tasche und erklärt sich bereit, bei Zahl die Zeche zu übernehmen, bei Kopf soll S zahlen. S
schätzt, F könnte mit der Wahrscheinlichkeit p“ ein Gauner sein und mit der Münze so gut
”
wie sicher Kopf werfen.
A : der Mann betrügt
und
B : beim Münzwurf fällt Kopf.
Die a priori Wahrscheinlichkeit für A ist also (nach Einschätzung von S) P (A) = p.
Die Münze wird geworfen; es erscheint Kopf“. Nun modifiziert S die vermutete Wahrschein”
lichkeit zu der a posteriori Wahrscheinlichkeit
P (A/B) =
Unabhängigkeit und Produkträume
Zwei Ereignisse A, B heißen unabhängig, wenn gilt
Qualität
Anzahl x der defekten
Feuerwerkskörper
gering mittel hoch
Sei
59
P (A) · P (B/A)
p·1
=
P (A) · P (B/A) + P (AC ) · P (B/AC )
p · 1 + (1 − p)
Ein Zahlenbeispiel:
p = P (A) = 0, 20 ⇒ P (A/B) =
2 · 0, 20
= 0, 33 .
1 + 0, 20
1
2
=
2p
>p.
1+p
A4 und A5
bzw.
A4 und A6
bzw.
A11 und A12
unabhängig?
1
1 1
· =
= P (A20 ) = P (A4 ∩ A5 )
4 5
20
1 16
4
8
P (A4 ) · P (A6 )
=
·
=
6=
= P (A12 ) = P (A4 ∩ A6 )
4 100
100
100
8
72
9
·
= 4 6= 0 = P (∅) = P (A11 ∩ A12 ) .
P (A11 ) · P (A12 ) =
100 100
10
P (A4 ) · P (A5 )
=
Nur A4 und A5 sind unabhängig.
Beispiel 5.2:
Für die n Kinder einer Familie gibt es 2n denkbare Geschlechtsausprägungen. Diese betrachten
wir als gleichwahrscheinlich. Sind die Ereignisse
A:
beide Geschlechter sind vertreten“
”
und B:
es gibt höchstens ein Mädchen“
”
unabhängig?
AC enthält 2 Elemente (alles Mädchen oder alles Jungen), d.h. P (A) = 1 − P (AC ) = 1 −
2
2n
.
Für B gibt es folgende n + 1 Fälle: Kein Mädchen oder das i–te Kind, i ∈ {1, . . . , n}, ist ein
.
Mädchen und der Rest Jungen. Also gilt P (B) = n+1
2n
60
5 UNABHÄNGIGKEIT UND PRODUKTRÄUME
A ∩ B bedeutet, dass es genau ein Mädchen gibt. Also ist analog P (A ∩ B) = 2nn .
, also 2n = 2(n + 1) .
A und B sind genau dann unabhängig, wenn gilt 2nn = 1 − 22n · n+1
2n
Dies gilt nur für n = 3, d.h. nur in diesem Fall sind A und B unabhängig.
61
5.1 Unabhängigkeit
(a) Sie zielen auf verschiedene Hasen. Wie groß ist die Wahrscheinlichkeit dafür,
(i) dass beide Hasen getroffen werden,
(ii) dass genau ein Hase getroffen wird,
(iii) dass mindestens ein Hase getroffen wird?
Satz 5.1:
Wenn A und B unabhängig sind, dann sind auch folgende Ereignisse unabhängig:
(a) A und B C ,
(b) AC und B,
(c) AC und B C .
Beweis:
(c) P (AC ∩ B C ) = P (A ∪ B)C = 1 − P (A ∪ B) = 1 − P (A) − P (B) + P (A ∩ B)
= 1 − P (A) − P (B) + P (A) · P (B) = 1 − P (A) 1 − P (B)
= P (AC ) P (B C )
(a) und (b) lassen sich ähnlich begründen. 2
Aufgabe 5.2:
Sind P (A) 6= 0 und P (B) 6= 0, so ist P (B/A) = P (B) äquivalent zu P (A/B) = P (A).
Aufgabe 5.3:
Zwei Jäger geben unabhängig voneinander je einen Schuss auf denselben Hasen ab. Ihre Trefferwahrscheinlichkeiten seien 14 und 31 . Mit welcher Wahrscheinlichkeit wird der Hase getroffen?
Man konstruiere einen passenden Stichprobenraum Ω und gebe die Ereignisse der erste Jäger
”
trifft“ und der zweite Jäger trifft“ an.
”
Aufgabe 5.4:
Bei einem alten Ehepaar sei die Wahrscheinlichkeit nach 10 Jahren noch zu leben für den Mann
1
und für die Frau 14 . Das Überleben des Mannes und der Frau seien dabei unabhängig. Wie
5
groß ist die Wahrscheinlichkeit dafür, dass nach 10 Jahren
(a) noch beide leben,
(b) Wie groß ist die Trefferwahrscheinlichkeit, wenn beide Jäger ihren Schuss auf denselben
Hasen abgeben?
Definition 5.2: (Unabhängigkeit von n Ereignissen)
Die Ereignisse A1 , . . . , An heißen unabhängig, wenn für jede Auswahl Ai1 , . . . , Air von Ereignissen gilt
P (Ai1 ∩ Ai2 ∩ . . . ∩ Air ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Air ) .
Bemerkung 5.1:
Drei oder mehr Ereignisse heißen paarweise unabhängig, wenn je zwei der Ereignisse unabhängig sind. Wie das folgende Beispiel zeigt können Ereignisse paarweise unabhängig sein,
ohne unabhängig zu sein.
Beispiel 5.3:
Ein grüner und ein roter Würfel werden geworfen. Wir betrachten die Ereignisse
A1 :
der grüne Würfel zeigt 6“,
A2 : der rote Würfel zeigt 6“,
”
”
A3 : die Summe der Augen beider Würfel ist ungerade“.
”
(a) Die drei Ereignisse sind paarweise unabhängig:
1
1 1
P (A1 ∩ A2 ) = P {(6/6)} =
= · = P (A1 ) · P (A2 )
36
6 6
3
1
1 18
P (A2 ∩ A3 ) = P {(1/6), (3/6), (5/6)} =
=
= ·
= P (A2 ) · P (A3 )
36
12
6 36
1
1 18
P (A1 ∩ A3 ) =
= ·
= P (A1 ) · P (A3 )
12
6 36
(b) höchstens noch einer lebt,
(c) keiner mehr lebt,
(d) nur noch die Frau lebt,
(e) nur noch der Mann lebt?
(b) Die drei Ereignisse sind nicht unabhängig:
P (A1 ∩ A2 ∩ A3 ) = P (∅) = 0 6=
1 1 1
1
= · · = P (A1 ) · P (A2 ) · P (A3 ) .
72
6 6 2
Aufgabe 5.5:
Aufgabe 5.6:
Zwei Jäger mit der Trefferwahrscheinlichkeit p1 bzw. p2 geben unabhängig voneinander einen
Schuß auf einen Hasen ab.
Wieviele Rosinen muss man mindestens in 500 g Teig tun, damit ein 50 g–Brötchen mit 99 %iger
Wahrscheinlichkeit mindestens eine Rosine enthält?
62
Aufgabe 5.7:
Ölbohrungen sind sehr teuer; auf eine fündige Bohrung entfallen 10 nichtfündige. Wieviele
Bohrungen muss man niederbringen, um mit mindestens 50 %iger Sicherheit fündig zu werden?
Satz 5.2:
Sind die Ereignisse A1 , A2 , . . ., An unabhängig, so erhält man wiederum n unabhängige
Ereignisse, wenn man eine beliebige Anzahl von ihnen durch ihre Komplemente ersetzt.
Das sind gerade die in Beispiel 3.3 angegebenen Wahrscheinlichkeiten. Man beachte, dass dort
ein anderer Stichprobenraum verwendet wurde!
Aufgabe 5.9:
Drei Spieler A, B, C werfen in dieser Reihenfolge eine ideale Münze und fahren hiermit zyklisch
fort, bis zum ersten Mal Kopf“ fällt. Der Spieler, der als erstes Kopf“ wirft, hat gewonnen.
”
”
Welches sind die Gewinnwahrscheinlichkeiten der drei Spieler?
5.2
Beweis:
Wir zeigen zunächst, dass man im Sinne des Satzes A1 durch
AC
1
ersetzen kann.
Sei {Ai2 , Ai3 , . . ., Aik } mit ij 6= 1, eine Teilmenge der gegebenen Ereignisse. Wegen
C
P (Ai2 ∩. . .∩Aik ) = P ((A1 ∪AC
1 )∩Ai2 ∩. . .∩Aik ) = P (A1 ∩Ai2 ∩. . .∩Aik )+P (A1 ∩Ai2 ∩. . .∩Aik )
erhält man aus der Unabhängigkeit der Ereignisse
P (AC
1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai2 ∩ . . . ∩ Aik ) − P (A1 ∩ Ai2 ∩ . . . ∩ Aik )
= P (Ai2 ) · . . . · P (Aik ) − P (A1 ) · P (Ai2 ) · . . . · P (Aik )
= (1 − P (A1 )) · P (Ai2 ) · . . . · P (Aik )
= P (AC
1 ) · P (Ai2 ) · . . . · P (Aik )
Wie A1 lässt sich auch jedes andere Ereignis Aj durch sein Komplement ersetzen.
Sind schon m Ereignisse ersetzt, kann man mit der gleichen Argumentation ein (m + 1)–tes
ersetzen (Induktion). 2
Aufgabe 5.8:
n
Eine Münze werde n–mal geworfen, wobei alle 2 möglichen Elementereignisse gleichwahrscheinlich seien.
Sei Ak das Ereignis, dass im k–ten Wurf Zahl“ fällt. Sind die Ak unabhängig?
”
Beispiel 5.4:
Der Unabhängigkeitsbegriff wurde schon bei der Angabe eines Modells für das Werfen einer
Münze bis zum Erscheinen von Kopf“ genannt (vgl. Beispiel 3.3).
”
Wenn man Kopf“ mit K und Zahl“ mit Z abkürzt, so enthält der Stichprobenraum Ω als
”
”
Ergebnisse die Tupel K, ZK, ZZK, ZZZK, usw.
Es sei p die Wahrscheinlichkeit für Kopf“ und q = 1 − p die Wahrscheinlichkeit für Zahl“
”
”
in einem Wurf. Weiterhin sei Aj das Ereignis, dass im j-ten Wurf Zahl“ fällt. Werden die
”
einzelnen Würfe unabhängig voneinander ausgeführt, so gilt
C
n−1
p.
P ({Z
. ZK}}) = P (A1 ∩ . . . ∩ An−1 ∩ AC
n ) = P (A1 ) · . . . · P (An−1 ) · P (An ) = q
| . .{z
n Zeichen
63
5.2 Produkträume
Produkträume
Unabhängige Zufallsexperimente sind ein Spezialfall mehrstufiger Zufallsexperimente.
Sie lassen sich durch Stichprobenräume beschreiben, die als kartesische Produkte anderer Stichprobenräume darstellbar sind. Wir geben an, wie Wahrscheinlichkeiten auf solchen Produkt”
räumen“ erklärt werden.
Satz 5.3:
Gegeben seien endlich viele diskrete Wahrscheinlichkeitsräume Ωj , P(Ωj ), Pj , j ∈ {1, . . . , n}.
n
Setzt man im Stichprobenraum Ω := × Ωj für Elementarereignisse mit ω = (ω 1 , . . . , ω n ) ∈ Ω
j=1
P
P ({ω}), dann
P ({ω}) := P1 ({ω 1 }) · . . . · Pn ({ω n }) und für beliebige Ereignisse P (A) :=
ω∈A
!
n
n
× Ωj , P × Ωj , P ein diskreter Wahrscheinlichkeitsraum
ist
j=1
j=1
Beweis:
Offensichtlich ist Ω als endliche Vereinigung abzählbarer Mengen abzählbar. Die für die Elementarereignisse festgesetzten Wahrscheinlichkeiten sind als Produkt von Wahrscheinlichkeiten
nicht-negativ. Nach Satz 3.1 ist also nur zu zeigen, dass sich die Wahrscheinlichkeiten der Elementarereignisse zu 1 aufsummieren. Man erhält
X
X
P ({ω}) =
(ω 1 ,...,ω n )∈Ω
ω∈Ω
=
X
ω 1 ∈Ω1
P1 ({ω 1 }) · . . . · Pn ({ω n }) =
P1 ({ω 1 }) · . . . ·
X
ω n ∈Ωn
X
ω 1 ∈Ω1
···
X
ω n ∈Ωn
P1 ({ω 1 }) · . . . · Pn ({ω n })
Pn ({ω n }) = 1 · . . . · 1 = 1. 2
Definition 5.3: (Produktwahrscheinlichkeitsraum)
Für endlich viele diskrete Wahrscheinlichkeitsräume Ωj , P(Ωj ), Pj , j ∈ {1, . . . , n} heißt
!
n
n
× Ωj , P × Ωj , P mit P aus Satz 5.3 Produktwahrscheinlichkeitsraum.
j=1
j=1
64
Für k = 1 ergibt sich gerade P (Bi ) = Pi (Ai ). Einsetzen liefert schließlich
Satz 5.4:
Für i ∈ {1, . . . , n} seien Ci ⊂ Ωi Ereignisse. Dann gilt in dem laut Definition 5.3 definierten
Produktwahrscheinlichkeitsraum
P (C1 × · · · × Cn ) = P1 (C1 ) · . . . · Pn (Cn ).
Beweis:
n
× Ci )
P
i=1
65
5.2 Produkträume
(K3 )
=
X
P ({(ω 1 , . . . , ω n )}) =
(ω 1 ,...,ω n )∈C1 ×...×Cn
=
X
ω 1 ∈C
1
P1 ({ω 1 }) · . . . ·
X
ω n ∈Cn
X
ω 1 ∈C1 ,...,ω n ∈Cn
Pn ({ω n })
P1 ({ω 1 }) · . . . · Pn ({ω n })
(K3 )
= P1 (C1 ) · . . . · Pn (Cn ) . 2
P (Bj1 ∩ . . . ∩ Bjk ) = P (Bj1 ) · . . . · P (Bjk ) . 2
Bemerkung 5.2:
Mit einem Produktraum beschreibt man Zufallsexperimente aus n unabhängigen Versuchen.
Diese Situation wurde von bereits in Abschnitt 1.3 unter dem Stichwort mehrstufige Zufallsexperimente betrachtet. Dort legten wir jedoch speziell den klassischen Wahrscheinlichkeitsbegriff zugrunde.
Ist Ω1 = . . . = Ωn , also der Wahrscheinlichkeitsraum gleich (Ω1 )n , P (Ω1 )n , P , so spricht
man von einem Zufallsexperiment aus n unabhängigen Wiederholungen eines Versuchs.
Beispiel 5.6:
Jungen– und Mädchengeburten sind nur annähernd gleichverteilt; die Wahrscheinlichkeit für
die Geburt eines Jungen ist p = 0, 514.
Beispiel 5.5:
Es ist klar, dass das Werfen einer Primzahl mit einem Würfel und das Erzielen einer durch 7
teilbaren Zahl mit der Kugel beim Roulettespiel als unabhängige Ereignisse A1 = {2, 3, 5} und
A2 = {0, 7, 14, 21, 28, 35} anzusehen sind. Die Gleichung P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) ergibt
aber keinen Sinn. Das Ereignis A1 ∩ A2 ist noch nicht einmal erklärt, denn A1 und A2 liegen
in verschiedenen Wahrscheinlichkeitsräumen.
Um die Unabhängigkeit sinnvoll formulieren zu können, verwenden wir den übergeordneten
Raum Ω1 × Ω2 . Es ist A1 ⊂ Ω1 = {1, . . . , 6} und A2 ⊂ Ω2 = {0, . . . , 36}. Wir betrachten
A1 × Ω2 und Ω1 × A2 als Ereignisse des Produktstichprobenraums Ω1 × Ω2 . Im zugehörigen
Produktwahrscheinlichkeitsraum sind diese Ereignisse dann unabhängig.
Eine Verallgemeinerung der angegebenen Konstruktion enthält der folgende Satz.
Satz 5.5:
Für i ∈ {1, . . . , n} seien Ai ⊂ Ωi Ereignisse. Die Ereignisse Bi = Ω1 × . . . × Ai × . . . × Ωn des
n
Produktwahrscheinlichkeitsraums werden dadurch gebildet, dass man in
× Ωj genau eine
j=1
Menge Ωi durch Ai ersetzt. Dann gilt
(1) Bi und Ai haben dieselben Wahrscheinlichkeiten, d.h. P (Bi ) = Pi (Ai ) und
(2) die Bi sind unabhängig.
Welche Wahrscheinlichkeiten haben die möglichen Geschlechtskombinationen in einer Familie
mit zwei Kindern, wenn das Geschlecht des zweiten Kindes von dem des ersten unabhängig ist?
Sei Ω1 = {J, M } mit P1 ({J}) = p. In Ω = Ω1 × Ω1 gilt mit q = 1 − p
P ({(J, J)})
= p2 =
0, 5142
≈ 0, 264
2
P ({(M, M )}) = q =
(1 − 0, 514)2
≈ 0, 236
P ({(J, M )}) = pq = 0, 514 · (1 − 0, 514) ≈ 0, 250 = P ({M, J}) .
Das Beispiel lässt sich verallgemeinern.
Beispiel 5.7:
Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse: Erfolg und Misserfolg, bezeichnet
durch 1 und 0. Die zugehörigen Wahrscheinlichkeiten seien
P1 ({1}) = p
und
P1 ({0}) = 1 − p = q .
Das Experiment werde n–mal wiederholt, wobei die Wiederholungen unabhängig sein sollen.
Man spricht von einem Bernoullischen Versuchsschema.
Jedem Versuch gibt man den Stichprobenraum Ω1 = {0, 1} mit den oben angegebenen Wahrscheinlichkeiten. Den n–fach wiederholten Versuch beschreibt der Produktraum
e = Ω1 × . . . × Ω 1 = Ω 1 n .
Ω
Oft interessiert man sich für die Wahrscheinlichkeit, in n Versuchen genau k Erfolge zu erzielen,
d.h. in dem n–Tupel genau k–mal die 1 anzutreffen.
Beweis:
Wir wenden Satz 5.4 auf eine Auswahl Bj1 , . . . , Bjk der Ereignisse B1 , . . . , Bn an:
P (Bj1 ∩ Bj2 ∩ . . . ∩ Bjk ) = P (Ω1 × . . . × Aj1 × . . . × Ajk × . . . × Ωn )
= P1 (Ω1 ) · . . . · Pj1 (Aj1 ) · . . . · Pjk (Ajk ) · . . . · Pn (Ωn )
= Pj1 (Aj1 ) · . . . · Pjk (Ajk ) .
Ein Elementarereignis bestehend aus einem derartigen Tupel hat wegen der Unabhängigkeit
die Wahrscheinlichkeit pk · q n−k . Dabei ist die Reihenfolge der Einsen und Nullen innerhalb des
Tupels belanglos, da stets k–mal der Faktor p und (n − k)–mal der Faktor q auftritt.
Nun gibt es nk verschiedene n–Tupel aus k Einsen und n − k Nullen (vgl. Satz 2.8 (a)).
Deshalb ist die gesuchte Wahrscheinlichkeit
n k n−k
p q
, k ∈ {0, 1, . . . , n}.
bn,p (k) := pk =
k
66
67
Die hierdurch auf Ω = {0, 1, . . . , n} definierte Funktion bn,p heißt Binomialverteilung. Sie
wird in Kapitel 7 eingehend betrachtet.
Das angegebene Modell eignet sich zur Lösung des Problems des Chevalier de Méré (S. 5f):
Beispiel 5.8:
6
Diskrete Zufallsgrößen
Vielfach interessieren bei gewissen Untersuchungen nicht die Objekte des Stichprobenraumes
Ω, sondern diesen zugeordnete Zahlenwerte.
Beispiel 6.1:
Wie groß ist die Wahrscheinlichkeit,
Die Kuchenbrötchen einer Backserie sollen eine gewisse Mindestzahl von Rosinen enthalten. Zu
Untersuchungszwecken definiert deshalb der Mathematiker auf der Menge der Brötchen eine
Funktion X, die jedem Brötchen die Anzahl der in ihm enthaltenen Rosinen zuordnet.
(a) bei 4 Würfen mit einemWürfel mindestens eine Sechs zu werfen;
(b) bei 24 Würfen mit zwei Würfeln mindestens eine Doppelsechs zu werfen?
zu (a): Wir verwenden die Binomialverteilung mit n = 4 und der Erfolgswahrscheinlichkeit
p = 16 , mit einem Wurf eine 6 zu werfen. pi sei die Wahrscheinlichkeit des Ereignisses Ai ,
mit n = 4 Würfen genau i Sechsen zu erzielen. Dann ist die gesuchte Wahrscheinlichkeit
α=P
4
S
i=1
4
4
4
P
P
P
Ai =
P (Ai ) =
pi =
i=1
i=1
i=1
4
i
1 i
6
5 4−i
6
6.1
Zufallsgrößen und Wahrscheinlichkeitsfunktionen
.
Definition 6.1: (Zufallsgröße)
Man erhält sie einfacher über das Gegenereignis:
4 1 0 5 4
625
671
1
α = 1 − p0 = 1 −
=1−
=
≈ 0, 5177 > .
0 6
6
1296
1296
2
zu (b): Entsprechend erhält man hier mit n = 24 und der Erfolgswahrscheinlichkeit p =
Doppelsechs zu werfen
35 24
1
1 0 35 24
24
=1−
≈ 0, 4914 < .
β = 1 − p0 = 1 −
36
36
36
2
0
5.3
Wir wollen im folgenden nun solche Funktionen von einem Stichprobenraum Ω in die Menge R
der reellen Zahlen genauer untersuchen.
Gegeben sei ein Wahrscheinlichkeitsraum (Ω, E, P ). Eine Abbildung
X:Ω→R
1
36
eine
Vermischte Aufgaben
Aufgabe 5.10:
24 % der männlichen und 10 % der weiblichen Bewerber an einer Hochschule möchten einen
Studienplatz der Ingenieurwissenschaften. 40 % der Bewerber seien Frauen. Wie groß ist die
Wahrscheinlichkeit dafür, dass ein per Zufall vergebener Studienplatz der Ingenieurwissenschaften an eine Frau fällt?
heißt Zufallsgrösse oder Zufallsvariable, wenn das Urbild jeder reellen Zahl und jedes
reellen Intervalls zur Ereignisalgebra E gehört.
Da sich die Brötchenserie für eine einführende Betrachtung nicht gut eignet, gehen wir zu einem
einfacheren Beispiel über.
Beispiel 6.2:
Bei einem Spiel werden zwei (echte) Würfel geworfen, und das Doppelte der Summe der Augen
wird als Gewinn ausgeschüttet.
Auf Ω = {(i, j) | i, j ∈ {1, 2, . . . , 6}} definieren wir die Zufallsgröße
X:Ω→R,
(i, j) 7→ 2(i + j) ,
Aufgabe 5.11:
wobei E = P(Ω) gewählt wird.
Drei Würfel werden wiederholt geworfen. Das Spiel endet, wenn zum 2. Mal die Summe der
Augen größer als 15 ist. Mit welchen Wahrscheinlichkeiten endet es nach 1, 2, 3, . . . Würfen?
Man macht sich in diesem Falle leicht klar, dass die Urbilder reeller Zahlen und reeller Intervalle
zu E gehören, wie das in Definition 6.1 gefordert wird.
Aufgabe 5.12:
Aufgabe 6.1:
Wir werfen wiederholt drei Münzen und hören auf, wenn 2 Münzen Zahl“ und eine Kopf“
”
”
zeigen.
X −1 (M ) sei das Urbild von M bzgl. X aus Beispiel 6.2. Man bestimme
Konstruieren Sie geeignet einen Stichprobenraum Ω und eine Ereignisalgebra E und geben Sie
eine sinnvolle Wahrscheinlichkeitsbelegung p : E → R an.
X −1 ({8}), X −1 ({10, 14}), X −1 ({0, 4, 6}), X −1 (∅), X −1 ([20, 30[), X −1 (R), X −1 (R− ) .
68
6 DISKRETE ZUFALLSGRÖSSEN
69
6.1 Zufallsgrößen und Wahrscheinlichkeitsfunktionen
p(x)
Da laut Definition 6.1 die Urbilder von Zahlen und Intervallen Ereignisse sind, kann jeder Zahl
und jedem Intervall die Wahrscheinlichkeit zugeordnet werden, mit der X auf diese Zahl bzw.
in dieses Intervall abgebildet wird. Wir betrachten zunächst die Urbilder von Zahlen.
6/36
5/36
Für eine Zufallsgröße X : Ω → R ist X −1 ({x}) = {ω ∈ Ω | X(ω) = x} für jedes x ∈ R
ein Ereignis, dem die Wahrscheinlichkeitsbelegung P eine Wahrscheinlichkeit zuordnet. Damit gehört zu jedem x ∈ R eine Wahrscheinlichkeit. Diese Zuordnung ist allerdings nur für
diskrete Zufallsgrößen sinnvoll.
4/36
3/36
2/36
Definition 6.2: (diskrete Zufallsgröße)
1/36
Eine Zufallsgrösse X heißt diskret, wenn sie nur abzählbar viele Werte annimmt.
4
8
Jede auf einem diskreten Stichprobenraum definierte Zufallsgröße ist demnach diskret.
12
20
16
24
x
Abb. 6.1
Definition 6.3: (Wahrscheinlichkeitsverteilung diskreter Zufallsgrößen)
Satz 6.1:
Die Funktion
X sei eine diskrete Zufallsgröße, welche die paarweise verschiedenen Werte x1 , x2 , x3 , . . . (und
nur diese) annehme. Dann gilt für die Wahrscheinlichkeitsfunktion p von X
X
p(xj ) = 1 .
p : R → [0, 1]
mit
p(x) := P (X = x) := P ({ω ∈ Ω | X(ω) = x})
heißt Wahrscheinlichkeitsfunktion oder Wahrscheinlichkeitsverteilung oder
auch kurz Verteilung der diskreten Zufallsgröße X.
j
Beweis:
Beispiel 6.3:
Wir zeigen an unserem Würfelbeispiels 6.2 die Entstehung einer Wahrscheinlichkeitsverteilung.
Für i 6= k ist xi 6= xk und deshalb {ω ∈ Ω | X(ω) = S
xi } ∩ {ω ∈ Ω | X(ω) = xk } = ∅.
Andererseits wird jedes ω ∈ Ω auf ein xj abgebildet, d.h. {ω | X(ω) = xj } = Ω, und daraus
j
x = X((i, j))
4
6
8
10
...
X −1 ({x})
{(1, 1)}
{(1, 2), (2, 1)}
{(1, 3), (2, 2), (3, 1)}
{(1, 4), (2, 3), (3, 2), (4, 1)}
...
p(x) = P (X = x)
1
36
2
36
3
36
4
36
...
Bilder der Zufallsgröße
zugehörige Urbilder
Wahrscheinlichkeitsverteilung auf R
`
´
= P X −1 ({x})
j
Man beachte, dass die Wahrscheinlichkeitsverteilung aus Wahrscheinlichkeiten von Urbildmengen besteht. Für alle x ∈ R, die nicht als Bilder unter X auftreten, ist die Menge der Urbilder
leer und deshalb p(x) = 0.
Die vollständige Wahrscheinlichkeitsfunktion bei unserem Würfelbeispiel lautet
p : R → [0, 1] ,

x

 6 − | 2 − 7| für x ∈ {4, 6, 8, . . . , 22, 24} ,
36
p(x) =


0
sonst .
Abb. 6.1 zeigt den Graphen.
folgt nach den Axiomen K1 und K3
X
X
P (X = xj ) = P (Ω) = 1 . 2
p(xj ) =
j
Beispiel 6.4: (Geometrische Verteilung)
Wirft man eine Münze so lange bis Kopf“ fällt, kann man Ω = {K, ZK, ZZK, ZZZK, . . . }
”
setzen (vgl. auch Beispiel 5.4). Um zu notieren, wie lange man jeweils braucht, kann man
jedem Ergebnis die Anzahl der Würfe bis zum Erfolg zuordnen:
X:Ω→R
mit
X(ZZ
. . ZK}) = x .
| .{z
x Zeichen
Tritt das Ereignis Kopf“ bei einem Wurf mit der Erfolgswahrscheinlichkeit p ein (0 < p < 1)
”
und ist die Gegenwahrscheinlichkeit q = 1 − p, so erhält man nach Beispiel 5.4 als Wahrscheinlichkeitsfunktion der Zufallsgröße X die geometrische Verteilung:
( x−1
q p für x ∈ N ,
p : R → [0, 1] , p(x) = P (X = x) =
0
sonst .
70
Aufgabe 6.2:
Bei einer Lotterie befinden sich in einer verdeckten Urne 4 weiße und 6 schwarze Kugeln gleicher
Konsistenz. 4 Kugeln werden gleichzeitig entnommen. Man erhält bei
4
3
2
Kugeln gleicher Farbe
71
6.2 Erwartungswert, Varianz und Streuung
In der folgenden Definition wird diese Idee noch verallgemeinert: Es wird angegeben, wie nicht
nur der Erwartungswert der Zufallsgröße X selbst, sondern auch der Erwartungswert einer auf
X definierten Funktion g zu berechnen ist.
Definition 6.4: (Erwartungswert diskreter Zufallsgrößen)
13 Gewinnpunkte,
11 Gewinnpunkte,
2 Gewinnpunkte.
Finden Sie eine passende Zufallsgröße X und die zugehörige Wahrscheinlichkeitsfunktion p.
X sei eine diskrete Zufallsgröße mit den Werten x1 , x2 , x3 , . . . , und p sei die zugehörige Wahrscheinlichkeitsfunktion. Dann heißt
P
µ = E(X) =
xi p(xi ).
i
6.2
Erwartungswert oder Mittelwert von X, falls
Erwartungswert, Varianz und Streuung
i
Viele Prozesse unseres Lebens beschäftigen sich mit Gewinn und Verlust (Industrieproduktion,
landwirtschaftliche Produktion, Verkehrswesen, Theaterveranstaltungen, Spielbank).
Im Beispiel 6.2 werden beim Würfelspiel 2(i + j) Punkte pro Wurf an den würfelnden Spieler
ausgeschüttet“ (1 ≤ i, j ≤ 6). Wird jeder Punkt durch die Bank“ mit einem gewissen
”
”
Geldbetrag belohnt, so muss der Bankhalter die durchschnittliche Anzahl der erzielten Punkte
kennen, um die Spieleinsätze entsprechend festsetzen zu können.
Die 36 Würfelergebnisse (i, j) sind gleichwahrscheinlich. Man kann daher, um den Durchschnittswert zu ermitteln, so tun, als ob unter 36 Würfen jedes Ergebnis genau einmal vorkommt. Das bedeutet, bei 36 Würfen werden an den Spieler durchschnittlich
1–mal
2–mal
4
6
Punkte
Punkte
..
.
6–mal 14 Punkte
..
.
1–mal 24 Punkte
= 2 · (1 + 1)
= 2 · (1 + 2) = 2 · (2 + 1)
= 2 · (1 + 6) = · . . . · = 2 · (6 + 1)
4·
+ 6·
+ 16
+ 8·
+ 18
+ 10 ·
+ 20 ·
4
36
3
36
+ 12 ·
+ 22 ·
5
36
2
36
+ 14 ·
+ 24 ·
6
36
1
36
i
Erwartungswert von g(X), sofern
P
i
|g(xi )| p(xi ) existiert (konvergiert).
Ist speziell g(x) = xk , k ∈ N, so spricht man vom Moment k–ter Ordnung von X und
schreibt µk := E(X k ).
Bemerkung 6.1:
X sei eine diskrete Zufallsgröße auf einem Stichprobenraum Ω und g : X(Ω) → R eine Funktion.
Beweisen Sie, dass die Verkettung Y = g ◦ X eine Zufallsgröße ist.
Punkte. Der Durchschnittswurf erbringt demnach
3
36
4
· 36
Ist g eine auf {x1 , x2 , . . . } definierte Funktion, dann heißt die Zahl
P
E g(X) :=
g(xi )p(xi )
Aufgabe 6.3:
= 2 · (6 + 6)
1 · 4 + 2 · 6 + 3 · 8 + 4 · 10 + 5 · 12 + 6 · 14 + 5 · 16 + 4 · 18 + 3 · 20 + 2 · 22 + 1 · 24 = 504
2
36
5
· 36
|xi | p(xi ) exisitiert (konvergiert).
Die Voraussetzung der absoluten Konvergenz
ist erforderlich, da sie beliebige Umordnungen
der Reihe erlaubt und somit E g(X) nicht von der Reihenfolge abhängt, in der die Zahlen
g(xi )p(xi ) addiert werden.
ausgeschüttet (man vergleiche hierzu Beispiel 6.3 und Abbildung 6.1). Insgesamt sind das
1
36
P
Der in Definition 6.4 erklärte Erwartungswert von g(X) ist daher der Erwartungswert der
Zufallsgröße Y . Untersuchen Sie, ob die Existenz von E(X) die von E(Y ) = E(g(X)) impliziert.
Beispiel 6.5:
Max besitzt 108 Euro, Moritz 106 Euro. Max schlägt vor, eine Münze zu werfen. Fällt Kopf,
verliert Moritz 106 Euro, fällt Zahl, gewinnt er 107 Euro.
=
504
36
= 14
Punkte. Will die Bank auf lange Sicht keine Verluste machen, muss sie mindestens ein Äquivalent zu 14 Punkten pro Wurf als Einsatz fordern.
Ein Vergleich mit der Abb. 6.1 zeigt, wie sich die 14 Punkte ergeben: man multipliziert die
möglichen Punktzahlen mit ihren Wahrscheinlichkeiten, addiert diese Produkte und erhält so
den zu erwartenden Gewinn“ oder kurz den Erwartungswert des Gewinns“.
”
”
Moritz hat eine Gewinnerwartung von E(X) = −106 Euro · 21 + 107 Euro · 12 = 4, 5 · 106
Euro. Das Spiel ist für Moritz sehr günstig. Dennoch sollte er es ablehnen, da er mit der
Wahrscheinlichkeit 21 ruiniert wird.
Gibt X die möglichen Gewinne bei einem Glücksspiel an, so nennt man das Spiel
günstig, wenn E(X) > 0,
fair, wenn E(X) = 0,
ungünstig, wenn E(X) < 0
72
ist. Wie das obige Beispiel zeigt, ist es nicht immer klug, jedes günstige Spiel zu spielen. Die
Sicherung einer guten Existenz ist unter Umständen ruinösem Gewinnstreben vorzuziehen.
Beispiel 6.6:
Das folgende Problem entstand im 2. Weltkrieg in den USA, als Millionen von Rekruten in
kurzer Zeit ärztlich untersucht werden mussten.
Der Anteil q einer Bevölkerung habe eine Krankheit, die durch Blutuntersuchung festgestellt
werden kann. Der Anteil p = 1 − q hat die entsprechenden Merkmale nicht im Blut. Wir
vergleichen zwei Untersuchungsverfahren:
1. Einzelprüfung: Jeder wird einzeln untersucht, und man braucht einen Test pro Person.
2. Gruppenprüfung: Das Blut von k Personen wird vermischt und untersucht.
Bei der Gruppenprüfung sind mit der Wahrscheinlichkeit pk alle gesund, und man braucht nur
diesen einen Test. Mit der Wahrscheinlichkeit 1 − pk ist mindestens einer krank. In diesem
Falle wird jeder der Gruppe einzeln untersucht, und man braucht insgesamt k + 1 Tests.
Gibt Xk die Anzahl der notwendigen Blutanalysen pro Gruppe von k Personen an, so ist
E(Xk ) = 1 · pk + (k + 1) (1 − pk ) = k + 1 − kpk .
Pro Person braucht man also durchschnittlich 1+ k1 −pk Analysen. Die Einsparung im Vergleich
zur Einzelprüfung ist daher
pk −
1
.
k
Für welches k ist die Ersparnis maximal? Das hängt von p ab. Zunächst muss
1
p >
k
k
oder
1
p> √
k
k
sein, damit überhaupt etwas eingespart werden kann.
1
√
k
k
hat für k = 3 das Minimum 0, 693. Daher muss p > 0, 693 sein. Für solche p ist
p3 −
1
1
> p2 − .
3
2
Eine Zweiergruppe ist daher nie optimal.
Für 0, 693 < p < 0, 876 ist die optimale Gruppengröße kopt = 3.
Es sei z.B. p = 0, 9. Dann zeigt die folgende Tabelle den optimalen Fall kopt = 4 mit einer
Ersparnis von fast 41%:
k
(0, 9)k −
1
k
2
3
4
5
0, 31 0, 396 0, 406 0, 390
Entsprechend ergibt sich die Übersichtstabelle:
73
6.2 Erwartungswert, Varianz und Streuung
p
0, 7
0, 8
0, 85
0, 90
0, 91
0, 92
0, 93
0, 94
0, 95
0, 96
0, 97
0, 98
kopt
3
3
3
4
4
4
4
5
5
6
6
8
0, 99
11
Ersparnis in %
15
18
28
41
44
47
50
53
57
62
67
73
80
Wenn 1% der Bevölkerung krank ist (p = 0, 99), dann spart man 80%, wenn man Elfergruppen
bildet. Das war die Ersparnis bei den US–Rekruten, die auf Syphilis getestet wurden.
Beispiel 6.7:
Bei gesunden Menschen beträgt der Blutdruck etwa 120 (mm Hg). Eine Arzneimittelfirma lässt
zwei Medikamente A und B zur Regulierung des Bluthochdruckes über 180 (mm Hg) klinisch
testen. Gleiche Dosen reduzieren die Werte auf die in den folgenden Tabellen unter xA und xB
angegebenen Ergebnisse.
Bei beiden Medikamenten entspricht der Erwartungswert dem Normalwert. Ist trotzdem ein
Mittel vorzuziehen?
xA p(xA ) xA p(xA ) xA − µA
105 0, 02
2, 10
−15
110
115
120
125
130
135
0, 08
0, 15
0, 46
0, 23
0, 04
0, 02
µA = E(XA ) = 120, 00
8, 80
17, 25
55, 20
28, 75
5, 20
2, 70
−10
−5
0
5
10
15
(xA − µA )2 p(xA )
4, 50
100
25
0
25
100
225
σA2 = V (XA ) = 30, 5
xB p(xB ) xB p(xB ) xB − µB
105
0, 04
4, 2
−15
110
0, 09
9, 9
−10
115
0, 16
18, 4
−5
120
0, 40
48, 0
0
125
0, 20
25, 0
5
130
0, 07
9, 1
10
135
0, 04
5, 4
15
µB = E(XB ) = 120, 00
(xA − µA )2
225
(xB − µB )2
225
100
25
0
25
100
225
σB2 = V (XB ) = 43
8, 00
3, 75
0, 00
5, 75
4, 00
4, 50
σA =
p
V (XA ) = 5, 5
(xB − µB )2 p(xB )
9
9
4
0
5
7
9
σB =
p
V (XB ) = 6, 6
Um diese Frage zu beantworten, berechnen wir zunächst in Spalte 4 die Abweichungen vom
Mittelwert. Der Erwartungswert dieser Differenzen ist 0 (warum?) und daher kein geeignetes
Maß für die durchschnittliche Abweichung vom Mittelwert. Eine sinnvolle Größe wäre der
Erwartungswert des Betrages dieser Differenz.
74
Man hat sich aber für eine andere Vorgehensweise entschieden und betrachtet die als Varianz
bezeichnete mittlere quadratische Abweichung vom Mittelwert, d.h. den Erwartungswert von
(X − µ)2 . Die Standardabweichung definiert man als Wurzel der Varianz.
Definition 6.5: (Varianz und Streuung)
Es sei X eine diskrete Zufallsgröße, die die Werte x1 , x2 , . . . annimmt. p sei ihre Wahrscheinlichkeitsfunktion und E(X) = µ ihr Erwartungswert.
Dann heißt der Erwartungswert der Funktion g(X) = (X −µ)2 , falls er exisitiert, die Varianz
V (X) der Zufallsgröße X. Man bezeichnet sie auch durch
P
σ 2 := V (X) := E(X − µ)2 = (xi − µ)2 p(xi ) .
i
p
Die Wurzel σ = V (X) aus der Varianz heißt Streuung oder Standardabweichung.
Beide Medikamente besitzen denselben Erwartungswert, das Medikament A wirkt jedoch wegen
der geringeren Streuung zuverlässiger und ist deshalb vorzuziehen.
6.3
Die Verteilungsfunktion
75
6.3 Die Verteilungsfunktion
Satz 6.2:
X : Ω → R sei eine diskrete Zufallsgröße mit paarweise verschiedenen Werten x1 , x2 , . . .
und der Wahrscheinlichkeitsverteilung p : R → [0, 1]. Dann gilt für die Verteilungsfunktion
F : R → [0, 1]
P
F (x) =
p(xi ) .
xi ≤x
Beweis:
Für xi 6= xk gilt {ω | X(ω) = xi } ∩ {ω | X(ω) = xk } = ∅, also
[
X
X
F (x) = P (X ≤ x) = P
{ω | X(ω) = xi } =
P ({ω | X(ω) = xi }) =
p(xi ). 2
xi ≤x
xi ≤x
Beispiel 6.8:
Die Graphen in Abb. 6.2 zeigen für das Medikament B die Wahrscheinlichkeitsverteilung p
und die Verteilungsfunktion F . Die Sprunghöhen von F stimmen mit den von 0 verschiedenen
Werten von p überein.
1,0
p(x)
1,0
0,9
Häufig interessiert man sich für die Wahrscheinlichkeit, mit der die Werte einer Zufallsgröße X
unterhalb (oder oberhalb) einer gewissen Schranke x bleiben.
Wir fragen beispielsweise nach der Wahrscheinlichkeit, mit der im Beispiel 6.7 bei einem mit
den Substanzen A bzw. B behandelten Patienten der Blutdruck höchstens den Normwert von
120 mm Hg erreicht. Aus der Tabelle auf Seite 73 lesen wir (für B) ab:
P (XB ≤ 120) =
P
xB ≤120
0,8
0,6
0,5
0,5
0,4
0,4
0,3
0,2
0,2
0,1
(Ω, E, P ) sei ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsgröße. Dann heißt die
durch
mit
0,7
0,6
x
105 110
x 7→ F (x) := P (X ≤ x) := P ({ω ∈ Ω | X(ω) ≤ x})
erklärte Abbildung Verteilungsfunktion der Zufallsgröße X.
F ist wohldefiniert, da nach der Definition einer Zufallsgröße die Menge {ω ∈ Ω | X(ω) ≤ x}
als Urbild des reellen Intervalls ] − ∞, x] ein Ereignis in E darstellt und infolgedessen eine
Wahrscheinlichkeit besitzt.
115 120 125 130 135
0,1
R
Abb. 6.2 a
Definition 6.6: (Verteilungsfunktion)
F : R → [0, 1]
0,8
0,7
Die gesuchte Wahrscheinlichkeit ist also eine Summe von Werten der Wahrscheinlichkeitsfunktion. Wir wollen diese Vorgehensweise verallgemeinern.
F(x)
0,9
0,3
p(xB ) = 0, 04 + 0, 09 + 0, 16 + 0, 40 = 0, 69 .
xi ≤x
x
105 110
115 120 125 130 135
R
Abb. 6.2 b
Satz 6.3:
X : Ω → R sei eine Zufallsgröße und F : R → [0, 1] die zugehörige Verteilungsfunktion. Dann
gilt
P (a < X ≤ b) = P ({ω ∈ Ω | a < X(ω) ≤ b}) = F (b) − F (a) .
Beweis:
Es gilt {ω ∈ Ω | X(ω) ≤ a} ∩ {ω ∈ Ω | a < X(ω) ≤ b} = ∅
und {ω ∈ Ω | X(ω) ≤ a} ∪ {ω ∈ Ω | a < X(ω) ≤ b} = {ω ∈ Ω | X(ω) ≤ b}.
76
Daraus folgt nach (K3 ) die Behauptung, denn P (X ≤ a) + P (a < X ≤ b) = P (X ≤ b). 2
Beweis:
P
j
Satz 6.4:
Weiterhin gilt lim F (x) = 1 und lim F (x) = 0.
x→−∞
Beweis:
Für a ≤ b gilt nach Satz 6.3 F (b) − F (a) = P (a < X ≤ b) ≥ 0, d.h. F wächst monoton.
monoton wächst, folgt lim F (x) = lim F (j) = lim P (Aj ) = P
x→∞
Setzt man Bj = X
−1
j→∞
j=1
j→∞
j→∞
Aufgabe 6.4:
∞
T
j=1
j
j
j
Aj = Ω. Da F
Man kann umgekehrt auch zeigen, dass die Varianz genau dann existiert, wenn E(X) und
E(X 2 ) existieren.
j=1
Aj = P (Ω) = 1.
(] − ∞, −j]), dann gilt offenbar B1 ⊃ B2 ⊃ . . . und
folgt lim F (x) = lim F (−j) = lim P (Bj ) = P
x→−∞
j→∞
∞
S
∞
S
P 2
P
P
xj p(xj ) − 2µ xj p(xj ) + µ2 p(xj )
Bemerkung 6.3:
Zum Beweis der anderen Teile verwenden wir Aufgabe 3.7:
Setzt man Aj = X −1 (] − ∞, j]), dann gilt offenbar A1 ⊂ A2 ⊂ . . . und
(xj − µ)2 p(xj ) =
ist für endlich viele Summanden klar; die Gleichung gilt auch, wenn über unendlich viele j
summiert wird, denn die Existenz der Reihe unmittelbar rechts des Gleichheitszeichens ist
durch die vorausgesetzte Existenz der übrigen Reihen gesichert. Es gilt daher
V (X) = E (X − µ)2 = E(X 2 ) − 2µE(X) + µ2 · 1 = E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − E 2 (X). 2
Jede Verteilungsfunktion F : R → [0, 1] ist monoton wachsend.
x→∞
77
6.4 Ergänzungen und Aufgaben
Bj = P (∅) = 0. 2
Satz 6.6:
∞
T
j=1
Bj = ∅, woraus
X sei eine diskrete Zufallsgröße mit der Wahrscheinlichkeitsfunktion p : R → [0, 1]. Es existiere
E(X) und V (X). Dann existieren für a, b ∈ R Erwartungswert und Varianz von aX + b, und
es gilt
E(aX + b) = aE(X) + b ;
Man drücke P (a < X) durch F aus.
Beweis:
V (aX + b) = a2 V (X) ;
σaX+b = |a| σX .
Aufgabe. 2
Bemerkung 6.2:
Man beachte: Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsverteilung sind dasselbe,
aber nicht zu verwechseln mit der Verteilungsfunktion.
Die Wahrscheinlichkeitsverteilung ist nur für diskrete Zufallsgrößen erklärt. Definition 6.6 für
die Verteilungsfunktion ist dagegen für alle Zufallsgrößen anwendbar. Die beiden letzten Sätze
6.3 und 6.4 sind dann für alle Zufallsgrößen gültig.
6.4
Ergänzungen und Aufgaben
Satz 6.7:
X sei eine diskrete Zufallsgröße
auf Ω und g1 , g2 zwei auf X(Ω) definierte Funktionen, deren
Erwartungswerte E g1 (X) und E g2 (X) existieren.
Dann existiert auch der Erwartungswert von g1 (X) + g2 (X), und es gilt
E (g1 (X) + g2 (X)) = E g1 (X) + E g2 (X) .
Beweis:
Aufgabe. 2
Satz 6.5:
X sei eine diskrete Zufallsgröße mit den Werten x1 , x2 , . . . und p ihre Wahrscheinlichkeitsfunktion.
2
Existieren der Erwartungswert µ = E(X) und die Varianz V (X), so existiert auch E(X ),
und es gilt
V (X) = E(X 2 ) − E 2 (X) = E(X 2 ) − µ2 .
Aufgabe 6.5:
Die Spielbank B von Bad Salzberg beabsichtigt, folgendes Glücksspiel spielen zu lassen:
Ein Reißnagel wird dreimal nacheinander geworfen. Fällt er dabei zweimal nacheinander auf
den Dorn d, so erhält der Spieler S das Sechsfache seines Einsatzes, andernfalls nichts. Die
Bank behält in beiden Fällen den Einsatz.
Sie sind beauftragt, für die Bank ein Gutachten anzufertigen, und lassen den Reißnagel testen.
Als (statistische) Wahrscheinlichkeit für die Dornlage ergibt sich P1 ({d}) = 0, 3. Die Tellerlage
t hat demnach P1 ({t}) = 0, 7.
78
79
6.4 Ergänzungen und Aufgaben
Geben Sie für das Spiel einen geeigneten Stichprobenraum Ω an.
nacheinander ohne Zurücklegen gezogen.
Die Bank will das Spiel mit einem Einsatz von 100 Euro spielen lassen. Konstruieren Sie eine
passende Zufallsgröße X und geben Sie die zugehörige Wahrscheinlichkeitsfunktion an.
Für jede weiße Kugel erhalten Sie 1 Euro, für jede schwarze müssen Sie 1 Euro zahlen. Das
Spiel darf nach jedem Durchgang abgebrochen werden.
Berechnen Sie den Erwartungswert, die Varianz und die Streuung. Ist das Spiel für die Bank
günstig?
Aufgabe: 6.6
Abb. 6.4
Wie oft muss man im Mittel eine ideale Münze werfen, bis Kopf erscheint?
Welches ist die für Sie günstigste Spielstrategie?
Aufgabe 6.7:
In Urne 1 befinden sich drei weiße und zwei schwarze, in Urne 2 je eine weiße und eine schwarze
Kugel (s. Abb. 6.3).
Im Dunkeln wird aus Urne 1 eine Kugel gezogen und in Urne 2 gelegt. Dann wird ebenso
Hinweis: Bestimmen Sie zunächst für jeden möglichen Zwischenstand die Gewinnerwartung
des Spielers für den Fall, dass er weiterspielt.
Aufgabe: 6.11 (Petersburger Paradoxon5 )
Eine Münze wird geworfen, bis Kopf erscheint. Für die Wartezeit X (= Anzahl der Würfe)
erhalte man den Gewinn g(X) = 2X . Berechnen Sie die Gewinnerwartung E(g(X)).
Aufgabe 6.12:
U2
U1
Abb. 6.3
aus Urne 2 eine Kugel gezogen und in Urne 1 gelegt. Nun werden aus Urne 1 drei Kugeln
gleichzeitig herausgegriffen. X gebe die Anzahl der darunter befindlichen weißen Kugeln an.
Eine ideale Münze wird solange geworfen, bis zum ersten Male Kopf erscheint oder bis 9–mal
Zahl erschienen ist. X und g(X) = 2X seien wie oben erklärt.
(a) Berechnen Sie den Erwartungswert E g(X) .
(b) Berechnen Sie den Erwartungswert, wenn 9 durch n ersetzt wird.
Ermitteln Sie die zugehörige Wahrscheinlichkeitsfunktion p(x) = P (X = x) und berechnen Sie
E(X) und V (X).
Aufgabe 6.13:
Aufgabe 6.8:
Eine Münze mit der Erfolgswahrscheinlichkeit p für Kopf“ wir so lange geworfen, bis Kopf“
”
”
zum ersten Male erscheint. X und g(X) seien wie oben erklärt.
Siglinde Kühn glaubt zu wissen, wie sie ihr Bafög verstärken kann. Immer nach Erhalt ihrer
364 Euro geht sie in die Spielbank und setzt 1 Euro auf einfache Chance. Gewinnt sie, hört sie
auf; verliert sie, setzt sie das Dreifache auf einfache Chance usw.
Welche Gewinnerwartung hat sie? Wie stark streuen die Ergebnisse?
(a) Bestimmen Sie E g(X) und V g(X) . Für welche p sind diese Ausdrücke sinnvoll?
(b) Sie spielen das Spiel gegen die Spielbank von Bad Salzberg, welche maximal 2n auszahlt
und für die Wurfanzahlen X > n nichts gibt.
Welche Gewinnerwartung hat man, wenn von den Einsätzen pro Wurf abgesehen wird?
Was ergibt sich speziell für p = 21 ?
Aufgabe 6.9:
In amerikanischen Spielkasinos und auf Rummelplätzen findet sich folgendes Spiel:
Der Spieler setzt auf eine der Zahlen 1, 2, 3, 4, 5, 6. Dann werden drei Würfel geworfen. Erscheint
seine Zahl 1–, 2– oder 3–mal, erhält er das 1–, 2– oder 3–fache seines Einsatzes und dazu den
Einsatz zurück. Andernfalls verliert er den Einsatz.
(c) Wie groß ist die Gewinnerwartung, wenn die Bank für X > n auch 2n auszahlt? Was
ergibt sich nun für p = 21 ?
Berechnen Sie E(X), wenn X den Spielgewinn für 1 Dollar Einsatz angibt.
Aufgabe 6.10:
Eine Urne enthält zwei weiße und drei schwarze Kugeln (s. Abb. 6.4). Die Kugeln werden
5
von Daniel Bernoulli
80
7
81
7 DIE BINOMIALVERTEILUNG
Die Binomialverteilung
x=0
Wiederholt betrachteten wir Bernoulli-Experimente, d.h. Experimente mit nur zwei möglichen Ausgängen: Münzwurf (Zahl oder Kopf), Mensch-ärgere-Dich-nicht-Spiel (6 fällt oder fällt
nicht), Ölbohrung (Erfolg oder Misserfolg), Rosinenbrötchen (mit oder ohne Rosine).
Bezeichnen wir bei jedem Versuch den Erfolg mit 1 und den Misserfolg mit 0, so besteht bei n
Versuchen der Stichprobenraum aus n–tupeln von Nullen und Einsen:
n
Ω = × Ω1 = (Ω1 )n ,
ν=1
ω 7→ X(ω) = x
zählen lässt. X ist dann nach Beispiel 5.7 binomialverteilt, d.h. es gilt P (X = x) = bn,p (x).
Definition 7.1: (Binomialverteilung)
Für n ∈ N und p ∈ [0, 1], q = 1 − p heißt bn,p : R → [0, 1] mit
 
 n px q n−x für x ∈ {0, . . . , n},
x
bn,p (x) =


0
sonst.
für m, n ∈ N0 mit m + n ≥ 1 und 0 ≤ p ≤ 1, q = 1 − p.
n X
2n + 1
(b)
Nach Jacob Bernoulli, der sich als erster genauer mit Serien von Zufallsexperimenten mit
nur zwei mögliche Ergebnissen befasste, heißt die Binomialverteilung auch Bernoulliverteilung.
Aufgabe 7.1:
n
P
Satz 7.1:
Zählt X die Anzahl der Erfolge unter n unabhängig wiederholten Bernoulli-Experimenten
der Erfolgswahrscheinlichkeit p, so ist der Erwartungswert von X
µ = E(X) = np .
Beweis:
n
n
n
X
X
x n x−1 n−x
n x n−x X n x n−x
p q
p q
= np
x
p q
=
x
n x
x
x
x=1
x=1
x=0
x=0
n−1 n X
X
n − 1 x n−1−x
n − 1 x−1 n−x
p q
= np (p + q)n−1 = np . 2
p q
= np
= np
x
x−1
x=0
x=1
E(X) =
Lösen Sie das verallgemeinerte Pacioli–Problem (vgl. S. 6): A trägt einen Wettkampf gegen
B aus, der aus einer Serie von Spielen besteht. In jedem Spiel besitze A die Erfolgswahrscheinlichkeit p. A gewinne genau dann, wenn er m Spiele gewinnt, bevor er n verliert.
Mit welcher Wahrscheinlichkeit siegt A, mit welcher B?
Man beweise die folgenden Identitäten
n
X
x bn,p (x) =
Bei n unabhängig wiederholten Bernoulli-Experimenten der Erfolgswahrscheinlichkeit p ist
die Streuung der Zufallsvariablen X, die die Anzahl der Erfolge zählt
p
√
σ = V (X) = npq mit q = 1 − p .
Beweis:
bn,p (x) = 1 hat.
x=0
Aufgabe 7.3:
= 4n .
Satz 7.2:
Bemerkung 7.1:
Aufgabe 7.2:
x
x=0
Binomialfunktion oder Binomialverteilung.
Zeigen Sie, dass die Binomialfunktion die Eigenschaft
n−1 X
m + n − 1 x m+n−1−x
m + n − 1 x m+n−1−x
q p
= 1
p q
+
x
x
x=0
Die Werte der Binomialfunktion sind für verschiedene n, x und p in Tabellen zusammengefasst.
Eine solche Tabelle findet sich im Anhang ab Seite 224.
Ω1 = {0, 1} .
Dabei habe jeder einzelne Versuch die Erfolgswahrscheinlichkeit p, und die Versuche seien unabhängig. Häufig interessiert die Anzahl x der Erfolge bei n Versuchen, die man durch eine
Zufallsgröße
X:Ω→R,
m−1
X
(a)
Wir verwenden einen gängigen Trick“ und berechnen zunächst
”
n
n
X
X
n x n−x
x(x − 1)
x(x − 1) bn,p (x) =
p q
E X(X − 1) =
x
x=0
x=0
= n(n − 1) p2
= n(n − 1) p2
n n
X
X
n − 2 x−2 n−x
n x−2 n−x
x x−1
p q
p q
= n(n − 1) p2
·
·
x−2
x
n n−1
x=2
x=2
n−2 X
n−2
x=0
x
px q n−2−x = n(n − 1) p2 (p + q)n−2 = n(n − 1) p2 .
82
83
Hieraus folgt nach Satz 6.5 und Satz 6.7
σ 2 = V (X) = E(X 2 ) − E 2 (X) = E X(X − 1) + E(X) − E 2 (X)
= n(n − 1)p2 + np − n2 p2 = np(1 − p) = npq. 2
Satz 7.3:
Die Binomialfunktion bn,p : R → [0, 1], nimmt ihr Maximum im Intervall
[(n + 1)p − 1, (n + 1)p] = [np − q, np + p]
an, also in einem Intervall der Länge 1, das den Erwartungswert µ = np enthält.
Aufgabe 7.4:
Bestimmen Sie die Varianz der Binomialverteilung, indem Sie direkt von der Definition ausgehen, d.h. ohne Verwendung des Satzes 6.5.
Beispiel 7.1:
Die Binomialfunktion bn,p für n = 16 und p = 0, 55 hat den Mittelwert µ = 8, 8 und das
(einfache) Streuintervall [µ − σ, µ + σ] ≈ [6, 8; 10, 8], da die Streuung σ ≈ 1, 99 beträgt. Die
Funktion ist in Abb. 7.1 graphisch dargestellt. Typisch für die Binomialverteilung ist, dass
b 16;p=0,55 (x)
0,20
Beweis:
Aufgabe. 2
Aufgabe 7.5:
Begründen Sie, dass die Binomialfunktion bn,p für ungerades n und p =
Stellen annimmt.
1
2
ihr Maximum an zwei
Aufgabe 7.6:
A gewinne gegen B mit der (statistisch gewonnenen) Wahrscheinlichkeit p = 0, 6.
(a) Wie wahrscheinlich ist es, dass A von 6 Begegnungen mindestens 4 gewinnt?
0,19
(b) X zähle die Anzahl der Erfolge von A. Bestimmen Sie die Verteilungsfunktion F von X
und zeichnen Sie ihren Graphen.
0,18
0,17
0,16
Beispiel 7.2:
0,15
Die Kantine einer Behörde bietet zum Frühstück helle und dunkle Brötchen an. Erfahrungsgemäß werden 50 Brötchen verlangt, darunter 10 dunkle. Der Wirt bestellt deshalb genau 40
helle und 10 dunkle Brötchen.
0,14
0,13
0,12
Setzen Sie voraus, dass wirklich 50 Brötchen verlangt werden und dass die Nachfrage nach den
dunklen (hellen) Brötchen Bernoulli-verteilt ist.
0,11
0,10
0,09
(a) Wie groß ist die Wahrscheinlichkeit, dass die dunklen (hellen) Brötchen nicht ausreichen?
0,08
(b) Eine möglichst große Anzahl der Kunden soll zufriedengestellt werden. Wieviele dunkle
bzw. helle Brötchen müssen mindestens eingekauft werden, damit die Nachfrage nach
dunklen bzw. nach hellen Brötchen jeweils mit 95 % iger Sicherheit befriedigt werden
kann?
0,07
0,06
0,05
0,04
0,03
Wir beantworten (a), (b) für die dunklen Brötchen:
0,02
0,01
x
0,00
0
1
2
3
µ = 8,8
4
5
7
6
σ = 1,99
8
9 10 11 12 13 14 15 16
[ µ−σ , µ+σ ] = [ 6,8 ; 10,8 ]
Abb. 7.1
ihre von 0 verschiedenen Werte zuerst monoton wachsen und dann monoton fallen. Das ergibt
sich als Nebenergebnis aus dem Beweis des folgenden Satzes.
(a) P (X > 10) = 1 − P (X ≤ 10) = 1 −
10
P
x=0
50
x
0, 2x · 0, 850−x = 1 − 0, 58355 = 0, 41645 .
Das bedeutet, dass die 10 Schwarzbrötchen fast an jedem zweiten Morgen nicht ausreichen.
(b) Wir suchen die kleinstmögliche Anzahl y von Brötchen die bestellt werden müssen, damit
der Bedarf mit mindestens 95 % Sicherheit gedeckt werden kann, d.h.
P (X ≤ y) =
y
P
x=0
50
x
0, 2x · 0, 850−x ≥ 0, 95,
y minimal.
84
85
Mit dem Tabellenausschnitt in Abb. 7.2 erhält man y = 15, denn
14
P
x=0
n
50
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Aufgabe 7.7:
50
x
0, 2x · 0, 850−x = 0, 93927
p=0,20
0,00001
0,00018
0,00109
0,00437
0,01284
0,02953
0,05537
0,08701
0,11692
0,13641
0,13982
0,12711
0,10328
0,07547
0,04986
0,02992
0,01636
0,00818
0,00375
0,00158
0,00061
0,00022
0,00007
0,00002
0,00001
0,00000
p=0,25
0,00000
0,00001
0,00008
0,00041
0,00161
0,00494
0,01234
0,02586
0,04634
0,07209
0,09852
0,11942
0,12937
0,12605
0,11104
0,08884
0,06478
0,04318
0,02639
0,01482
0,00765
0,00365
0,00160
0,00065
0,00024
0,00008
p=0,30
0,00000
0,00003
0,00014
0,00055
0,00177
0,00477
0,01099
0,02198
0,03862
0,06019
0,08383
0,10502
0,11895
0,12235
0,11470
0,09831
0,07725
0,05576
0,03704
0,02268
0,01281
0,00668
0,00322
0,00144
und
15
P
x=0
p=0,35
0,00000
0,00001
0,00004
0,00017
0,00058
0,00168
0,00422
0,00931
0,01823
0,03190
0,05020
0,07144
0,09233
0,10875
0,11712
0,11562
0,10485
0,08751
0,06731
0,04778
0,03132
0,01897
0,01062
..
.
50
x
dingungen rechnen muss. Es erscheint plausibel anzunehmen, dass bei n Versuchen mit der
Erfolgswahrscheinlichkeit p eben auch der Anteil p an Erfolgen eintritt.
0, 2x · 0, 850−x = 0, 96919.
p=0,40
0,00000
0,00001
0,00005
0,00017
0,00053
0,00144
0,00349
0,00756
0,01474
0,02597
0,04155
0,06059
0,08079
0,09874
0,11086
0,11456
0,10910
0,09588
0,07781
0,05836
0,04046
p=0,45
0,00000
0,00001
0,00004
0,00014
0,00043
0,00114
0,00272
0,00589
0,01157
0,02070
0,03388
0,05082
0,07002
0,08880
0,10379
0,11194
0,11150
0,10263
0,08733
p=0,50
0,00000
0,00001
0,00003
0,00011
0,00032
0,00083
0,00200
0,00437
0,00875
0,01603
0,02701
0,04186
0,05980
0,07883
0,09596
0,10796
0,11228
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
Abb. 7.2
Man berechne Beispiel 7.2 für die hellen Brötchen.
Aufgabe 7.8:
Ein Lederwarenhändler möchte Kunde einer Lederhandschuhfirma werden, die versichert hat,
dass höchsten 5 % ihrer Erzeugnisse zu Beanstandungen Anlass geben. Der Händler bestellt
zur Probe 20 Paare und prüft sie.
Wie soll er sich entscheiden, wenn 0, 1, 2 Paare Mängel aufweisen?
Wie groß ist jeweils die Wahrscheinlichkeit, dass er dem Lieferanten Unrecht tut, wenn er nicht
bei ihm Kunde wird?
Eine naheliegende Frage ist, mit wieviel defekten Paaren der Händler unter den obigen Be-
Oft ist für ein Bernoulli-Experiment die Erfolgswahrscheinlichkeit p nicht bekannt. Will
man z.B. für den Ausgang eines sportlichen Wahlkampfes eine Prognose geben, so muss man
p schätzen. Das gelingt am einfachsten, wenn man auf eine Serie von Begegnungen derselben
Kontrahenten zurückgreifen kann.
Man setzt dann p gleich der relativen Häufigkeit, mit der der Erfolg eingetreten ist (das meinten
wir, als wir weiter oben von statistisch gewonnener Wahrscheinlichkeit p sprachen).
Natürlich begeht man in der Regel einen Fehler, wenn man statt der tatsächlichen Wahrscheinlichkeit p die durch eine Versuchsserie ermittelte relative Häufigkeit eines Erfolges benutzt.
Das ist schon deshalb klar, weil Versuchsserien gleicher Länge normalerweise unterschiedliche
Anzahlen von Erfolgen aufweisen werden.
Das Verfahren wird gerechtfertigt indem wir zeigen, dass sich die relativen Häufigkeiten bei
genügender Serienlänge mit großer Wahrscheinlichkeit kaum von p unterscheiden. Das ist die
qualitative Formulierung des Bernoullischen Gesetzes der großen Zahlen. Wir wollen nun
eine quantitative Version geben.
Satz 7.4: (Gesetz der grossen Zahlen von Bernoulli)
Die Erfolgswahrscheinlichkeit in einem Bernoulliexperiment sei p ∈ (0, 1). Die Zufallsgröße
X gebe Anzahl der Erfolge bei n–maliger Versuchswiederholung an.
Dann erfüllt die relative Häufigkeit
X
1
P − p ≤ ε > 1 −
n
4nε2
X
n
der Erfolge für alle ε > 0
und
X
lim P − p ≤ ε = 1.
n
n→∞
Beweis:
Wir beweisen zunächst die komplementäre Aussage P Xn − p > ε <
P Xn − p > ε = P n Xn − np > nε = P (|X − np| > nε) =
1
:
4nε2
P
P (X = x) .
|x−np|>nε
Aus der Ungleichung unter dem Summenzeichen ergibt sich (nε)2 < (x − np)2 oder 1 <
für alle x, über die summiert wird. Damit folgt
P Xn − p > ε ≤
n (x − np)2
P
(x − np)2
P (X = x) ≤
P (X = x)
2
(nε)
(nε)2
x=0
|x−np|>nε
n
1
npq
pq
1 P
(x − µ)2 bn,p (x) =
V (X) = 2 2 =
=
(nε)2 x=0
(nε)2
nε
nε2
(x−np)2
(nε)2
P
nach Satz 7.2. Die zweite Vergrößerung ergibt sich dadurch, dass man die Einschränkung für
die x fallenlässt und einfach über alle x summiert.
Allerdings können nicht beide Ungleichungen mit Gleichheit erfüllt sein:
86
87
Die erste Ungleichung ist nur dann mit Gleichheit erfüllt, wenn die Menge der x, über die
summiert wird, leer ist, die zweite, wenn die Menge der x, über die zusätzlich summiert wird,
leer ist oder nur x = np enthält. Es wird aber
über die zwei Werte x = 0
insgesamt
mindestens
pq
und x = n summiert. Daher gilt sogar P Xn − p > ε < nε
2.
Da pq = p(1 − p) für p = q =
1
2
den kleinstmöglichen Wert
1
pq
P Xn − p > ε <
≤
,
nε2
4nε2
1
4
8
Weitere diskrete Verteilungen
Als Beispiele diskreter Wahrscheinlichkeitsfunktionen lernten wir bisher die Binomialverteilung und die Geometrische Verteilung kennen. Die erstere wurde ausführlich diskutiert.
annimmt, erhält man weiter
X
1
d.h. P − p ≤ ε > 1 −
.
n
4nε2
Die Grenzwertfassung folgt hieraus wegen 1 ≥ P (| Xn − p| ≤ ε) . 2
8.1
Die geometrische Verteilung
Geometrisch verteilte Zufallsgrößen treten immer dann auf, wenn bei einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p > 0 die Anzahl der benötigten Versuche bis zum ersten
Erfolg gezählt wird (vgl. Beispiel 6.4).
Bemerkung 7.2:
Satz 7.4 besagt, dass die Wahrscheinlichkeit p = P (A) eines Ereignisses A durch die relative
Häufigkeit eines Bernoulli-Experiments approximiert werden kann, wobei die Wahrscheinlichkeit dafür, dass rn (A) wirklich in der Nähe von p liegt, mit n wächst.
Eine gewisse Wahrscheinlichkeit, dass man einen groben Fehler begeht, wenn man p := rn (A)
setzt, bleibt allerdings auch bei langen Versuchsserien bestehen.
Aufgabe 7.9:
Buffon erzielte bei 4040 Münzwürfen 2048 Erfolge ( Zahl“). Bestimmen Sie ein möglichst
”
kleines Intervall, das mit 95 % iger Sicherheit die Erfolgswahrscheinlichkeit p für den Einzelwurf
überdeckt.
Aufgabe 7.10:
Ein Reißnagel wir 30–mal auf ein Blatt Papier geworfen. Dabei bleibe er 12–mal mit der Spitze
nach unten und 18–mal mit der Spitze nach oben (also auf dem Kopf) liegen.
Welche Erfolgswahrscheinlichkeit pe sollte man nach diesen Ergebnissen für die Kopflage annehmen?
Welche Sicherheit gibt das Bernoullische Gesetz der großen Zahl dafür, dass der gewählte
Näherungswert pe wirklich nahe an p liegt?
Aufgabe 7.11:
Wir setzen den Einsatz a. Dann wird der Glücksgenerator (s. Abb. 7.3) n-mal gedreht.
Jedesmal, wenn 3 erscheint, wird der vorhandene Einsatz verdreifacht, wenn 13 erscheint, wird
er gedrittelt. Xn gebe an, was wir schließlich herausbekommen.
(a) Wie groß ist E(X2 )?
(b) Wie groß ist E(Xn )?
1
3
Definition 8.1: (geometrische Verteilung)
Die Funktion g : R → [0, 1] mit
(
p q x−1 für x ∈ N,
g(x) =
0
sonst
mit 0 < p ≤ 1 und q = 1 − p heißt geometrische Verteilung zum Parameter p.
Aufgabe 8.1:
X sei eine geometrisch verteilte Zufallsgröße mit dem Parameter p > 0.
(a) Bestimmen Sie den Mittelwert E(X) und die Varianz V (X).
(b) Bestimmen Sie die Werte der Verteilungsfunktion F von X (summensymbolfreie Form).
Aufgabe 8.2:
Es sei X eine geometrisch verteilte Zufallsgröße. Zeigen Sie, dass für alle k, n ∈ N0 gilt
P (X > n + k / X > k) = P (X > n) (∗)
( der Zufall hat kein Gedächtnis“).
”
Interpretieren Sie diese Formel anhand eines geeigneten Spiels (Würfeln, Lotto).
Aufgabe 8.3:
Es sei X eine Zufallsgröße mit Werten in N, die die Eigenschaft (∗) aus Aufgabe 8.2 hat. Zeigen
Sie, dass X geometrisch verteilt ist.
3
(c) Bestimmen Sie lim E(Xn ).
8.2
Die hypergeometrische Verteilung
Wir beginnen mit einem praktischen Beispiel.
n→∞
Abb. 7.3
Gegeben seien N Glühbirnen, darunter K nicht funktionsfähige, also Ausschuss. Die Wahr.
scheinlichkeit, zufällig eine unbrauchbare herauszugreifen, ist p = K
N
88
8 WEITERE DISKRETE VERTEILUNGEN
Zieht man einzeln, wirft aber jede gezogene Birne sofort zurück, rührt um und zieht erneut, so
ergibt sich die Wahrscheinlichkeit, bei n–maligem Ziehen mit Zurücklegen
genau x unbrauch
bare Birnen zu erhalten, durch die Binomialverteilung bn,p (x) = nx px q n−x .
Normalerweise will jedoch niemand so vorgehen. Man möchte ohne Zurückzulegen ziehen und
die unbrauchbaren Objekte sofort isolieren. Welches mathematische Modell wird diesem Verfahren gerecht?
Wir verallgemeinern zunächst die Problemstellung. Eine Menge von N Elementen zerfalle in
zwei Klassen von K
und N −K Objekten. Es wird eine Stichprobe von n Elementen entnommen,
wobei jede der Nn möglichen Stichproben gleichwahrscheinlich sei.
−K
Es gibt Kx Möglichkeiten, aus den K Elementen genau x auszuwählen und Nn−x
Möglich
K N −K
keiten, von den N − K Objekten n − x zu wählen. Daher gibt es x n−x verschiedene
Stichproben, die genau x Elemente aus der ersten und n − x Elemente aus der zweiten Teilmenge enthalten.
Die Wahrscheinlichkeit dafür, dass in einer zufällig genommenen Stichprobe genau x von den
(K )(N −K )
K Elementen sind, ist demnach h(x) = x Nn−x .
(n)
Beweis:
n
n K N −K
P
P
( x )( n−x )
Für die Wahrscheinlichkeiten h(x) muss gelten
h(x) =
= 1 . Multipliziert man
(Nn )
x=0
x=0
N
mit n , so ergibt sich die angegebene Formel. 2
Satz 8.2:
Eine hypergeometrisch verteilte Zufallsgröße X mit den Parametern N, K, n hat den Erwartungswert
E(X) = n
E(X) =
=
=
(∗)
=
hypergeometrische Verteilung mit den Parametern N, K, n.
Wir werden jetzt den Erwartungswert und die Streuung einer hypergeometrisch verteilten Zufallsgröße X bestimmen. Dabei ist folgende Gleichung von Vandermonde6 sehr hilfreich.
Satz 8.1: (Vandermondesche Konvolution)
Für alle Zahlen N, K, n ∈ N0 mit n ≤ N und K ≤ N gilt
X
n N
N −K
K
=
.
n
n−x
x
x=0
6
Paris, Gleichungslehre, Determinantentheorie.
n
X
x=0
Für N, K, n ∈ N0 mit n ≤ N und K ≤ N heißt die Funktion h : R → [0, 1] mit
 K N −K
 ( x )( n−x ) für x ∈ {0, 1, . . . , n},
(Nn )
h(x) :=

0
sonst
Man beachte, dass in der Definition durchaus x > K oder n − x > N − K sein darf. Die entsprechenden Binomialkoeffizienten verschwinden dann, so dass sich in beiden Fällen h(x) = 0
ergibt.
K
= np ,
N
wobei p =
K
.
N
Beweis:
Definition 8.2: (hypergeometrische Verteilung)
Bemerkung 8.1:
89
8.2 Die hypergeometrische Verteilung
1
N
n
x·
K
x
n
X
x=1
N −K
n−x
N
n
x·
K
x
=
n
X
x=1
x·
K
x
N −K
n−x
N
n
K − 1 (N − 1) − (K − 1)
x−1
(n − 1) − (x − 1)
n−1 K X K − 1 (N − 1) − (K − 1)
·
N
(n − 1) − x
x
n
x=0
K
N −1
K
K
·
= np .
= N = n
N
N
n−1
n
n
Hierbei wurde an der mit (∗) bezeichneten Stelle die Vandermondesche Konvolution für die
Parameter N − 1, K − 1 und n − 1 verwendet. 2
Der Erwartungswert beim Ziehen ohne Zurücklegen ist also genauso groß wie beim Ziehen mit
Zurücklegen (Binomialverteilung).
Satz 8.3:
Eine hypergeometrisch verteilte Zufallsgröße X mit den Parametern N, K, n hat die Varianz
K
K N −n
N −n
K
V (X) = n · 1 −
= npq
, wobei p =
und q = 1 − p .
N
N N −1
N −1
N
Beweis:
Wir wenden wieder den bekannten Trick an und berechnen zunächst
90
91
8.3 Die Poissonverteilung
annähern. Dies soll in der folgenden Aufgabe bewiesen werden.
E X(X − 1)
=
n
X
x=0
=
=
(∗)
=
x(x − 1)
K
x
N −K
n−x
N
n
Aufgabe 8.4:
Man beweise, dass die hypergeometrische Verteilung für N ≫ n durch die Binomialverteilung approximiert wird.
1
K (K − 1) K − 2 (N − 2) − (K − 2)
x
(x
−
1)
N
(n − 2) − (x − 2)
x (x − 1) x − 2
n
x=2
n
X
Anleitung: Man bestimme in der in Bemerkung 8.2 angegebenen Darstellung für festes n, x, p
und q den Grenzwert lim h(x).
N →∞
n−2 X
K − 2 (N − 2) − (K − 2)
K(K
−
1)
N
(n − 2) − x
x
n
x=0
N −2
n n−1
1
K(K − 1)
= K(K − 1) ·
·
.
N
n
−
2
N
N −1
n
1
8.3
Hierbei gilt (∗) nach der Vandermondeschen Konvolution mit um 2 erniedrigten Werten. Mit
Satz 6.5 und Satz 6.7 folgt weiter
V (X) = E(X 2 ) − (E(X))2 = E X(X − 1) + E(X) − (E(X))2
2
K
K
n n−1
·
+n − n
= K(K − 1) ·
N N −1
N
N
= n·
K (K − 1)(n − 1)N + (N − 1)N − nK(N − 1)
·
N
(N − 1)N
N −n
N −1
Wir lernen jetzt eine Wahrscheinlichkeitsfunktion kennen, die sich besonders gut zur Beschreibung seltener Ereignisse in einem sehr oft wiederholten Experiment eignet. Theoretisch muss
man hier die Binomialverteilung verwenden. Allerdings ist die praktische Berechnung der Werte wegen der auftretenden großen Fakultäten häufig nicht mehr möglich. Man kann in diesen
Fällen die Binomialverteilung durch die Poisson7 -Verteilung annähern.
Beispiel 8.1:
Eine Reihe von Medikamenten ruft in seltenen Fällen allergische Reaktionen hervor. Wir betrachten eine Tablettenkur gegen Darmpilze, die an n = 20 000 Personen durchgeführt wird
und die mit der Wahrscheinlichkeit p = 0, 001 juckende Hautausschläge erzeugt.
X zähle die Anzahl der Personen, die über die berichteten Hautreaktionen klagen. Die Wahrscheinlichkeit, dass es sich dabei um genau x Personen handelt, ist
K KnN − KN − nN + N + N 2 − N − nKN + nK
·
N
(N − 1)N
K N −n
K
N −n
K (N − K)(N − n)
1−
·
= n
= npq
.2
= n·
N
N (N − 1)
N
N N −1
N −1
= n·
Die Varianz der hypergeometrischen Verteilung ist also um den Faktor
Binomialverteilung.
P (X = x) = bn,p (x) =
Dazu beweisen wir den
Satz 8.4:
Hält man in der Binomialverteilung den Mittelwert µ := np konstant und lässt n groß
werden (wodurch p bei festem µ klein wird), dann erhält man für k ∈ N0 als Grenzwert
lim bn,p (k) =
Bemerkung 8.2:
n→∞
np=µ
Die Erfolgswahrscheinlichkeit beim Entnehmen des ersten der n Objekte ist gerade p =
hypergeometrische Verteilung lässt sich auch folgendermaßen schreiben:
Nq Np
x
n−x
N
n
mit
20 000
0, 001x · 0, 99920 000−x .
x
Bei der Werteberechnung macht der Rechner Probleme. Wie lassen sich diese überwinden?
kleiner als die der
Die hypergeometrische Verteilung kann z.B. bei der Qualitätskontrolle eingesetzt werden: Aus
einer Warenladung mit N Exemplaren werden n Exemplare ausgewählt und getestet. Aus der
Anzahl x der hierbei gefundenen defekten Teile lässt sich die Anzahl K der insgesamt defekten
Teile schätzen (vgl. Kapitel 16).
h(x) =
Die Poissonverteilung
K
.
N
Die
Das bedeutet, dass für große n und kleine p folgende Näherungsformel gilt:
bn,p (k) ≈
q =1−p .
Ist N sehr viel größer als n, dann ist es offensichtlich ohne großen Einfluss, ob man zurücklegt
oder nicht. Man kann dann die hypergeometrische Verteilung durch die Binomialverteilung
µk −µ
e .
k!
7
(np)k −np
e
.
k!
Paris, Untersuchungen zur Analysis.
92
Beweis:
µ k n!
n k
µ n−k
p (1 − p)n−k =
bn,p (k) =
· 1−
k
k! (n − k)! n
n
n(n − 1) . . . (n − k + 1)
µk
µ n
1
=
1−
·
·
µ k
k!
n
nk
1− n
n
1 · (1 − n1 ) (1 − n2 ) . . . (1 − k−1
)
−µ
µk
n
·
1+
=
k!
n
(1 − nµ )k
93
P(X = x)
x
0,35
Binomialverteilung b5, p=0,3 (x)
x
x
Binomialverteilung b10, p=0,15(x)
x
0,30
Poissonverteilung pλ=1,5 (x)
0,25
k
→
µ −µ
e
k!
für n → ∞. 2
0,20
x
Definition 8.3: (Poissonverteilung
Die Funktion p : R → [0, 1] mit
( µx
e−µ , für x ∈ N0
x!
p(x) =
0
sonst
heißt Poissonverteilung zum Parameter µ > 0.
0,15
x
0,10
0,05
x
0
2
1
3
4
Zeigen Sie, dass der Parameter µ gerade der Erwartungswert der Poissonverteilung ist und
berechnen Sie die Streuung.
Aufgabe 8.6:
Berechnen Sie bn,p (x) für x = 0, 1, 2, 10, 20 aus dem Beispiel 8.1 näherungsweise.
In Abbildung 8.1 werden die Binomialverteilungen für n = 5 und p = 0, 3 und für n = 10
und p = 0, 15 (also jeweils µ = np = 1, 5) mit der Poissonverteilung zum Parameter µ = 1, 5
verglichen. Bei noch größerem n, etwa n ≥ 100, stimmen die Graphen der beiden Funktionen
fast vollständig überein.
Beispiel 8.2:
Aus den Angaben der preußischen Armee hat Bortkiewicz ( Das Gesetz der kleinen Zahlen“,
”
Leipzig 1898) die Anzahlen der Soldaten von 10 Kavallerieregimenten8 zusammengestellt, die
in einem Zeitraum von 20 Jahren infolge eines Huftritts starben.
Als zufälliges Ereignis betrachten wir hier die Anzahl x der Regimentsmitglieder, die im Laufe
eines Jahres einen tödlichen Pferdehuftritt erhalten. Es liegen Beobachtungen aus 10 · 20 = 200
Regimentsjahren vor, da 10 Regimenter über 20 Jahre kontrolliert wurden.
8
Ein Kavallerieregiment bestand aus fünf Eskadrons, im Einsatz aus vier Eskadrons. Jeder Eskadron hatte
100–150 Pferde.
x
x
0,00
Aufgabe 8.5:
5
6
7
8
9
10
Abb. 8.1
x (Anzahl der Toten)
h200 (x) abs. Häuf. der Reg.-Jahre mit x Toten
r200 (x) rel. Häufigkeit
p(x) Wahrscheinlichkeit (Poissonverteilt)
0
1
2
3
4
≥5
109
65
22
3
1
0
0, 545 0, 325 0, 110 0, 015 0, 005 0, 0
0, 543 0, 331 0, 101 0, 021 0, 003 0, 0
Zur Berechnung der Wahrscheinlichkeiten mittels der Poissonverteilung wurde der Mittelwert
µ = E(X) aus der Zeile der relativen Häufigkeiten bestimmt:
µ = E(X) = 0 · 0, 545 + 1 · 0, 325 + 2 · 0, 110 + 3 · 0, 015 + 4 · 0, 005 = 0, 61 .
Damit ergibt sich p(x) =
0, 61x · e−0,61
, also im einzelnen
x!
p(0) = e−0,61
= 0, 543
p(1) = 0, 61 · e−0,61
= 0, 331
p(2) =
0, 612 · e−0,61
= 0, 101
2!
0, 613 · e−0,61
= 0, 021
3!
0, 614 · e−0,61
p(4) =
= 0, 003
4!
0, 615 · e−0,61
p(5) =
< 4 · 10−4
5!
p(3) =
94
Die Wahrscheinlichkeiten weichen nur wenig von den relativen Häufigkeiten ab.
111
Aufgabe 8.7:
Bei einer Verkehrszählung in Graz, Münzgrabenstraße zwischen Brockmanngasse und Stremayergasse am 28.9.1963, 1020 − 1110 Uhr, wurde die Anzahl h(x) der Zeitintervalle von 30
Sekunden registriert, in denen man x Pkw beobachtete.
x
h(x)
0
6
1
2
0
−
18 21 26
4
5
16 8
6
2
7 8
1 2
≥9
0
100
−
Analog zu den obigen Beispielen erhält man näherungsweise Poissonverteilungen, wenn man
durch geeignete relative Häufigkeiten die Wahrscheinlichkeit bestimmt, dass
2. in einem Land innerhalb einer Woche genau x Streiks ausbrechen;
0
−
0
−
+
0
+
−
0
+
+
−
0
0
0
0
−
+
−
+
+
−
+
−
+
−
+
+
−
0
0
011
0
+
−
0
0
0
0
−
+
−
+
+
−
0
−
−
0
−
−
−
−
−
0
−
+
+
−
−
0
−
0
0
−
0
0
−
−
0
+
0
+
010
0
+
0
+
+
+
−
+
+
−
+
0
+
0
+
−
+
0
001
+
0
0
−
0
+
0
+
+
−
+
−
+
+
+
−
0
+
−
+
−
+
+
0
+
0
+
−
0
−
0
−
0
0
+
0
+
0
0
000
−
+
+
0
−
+
0
−
+
0
0
−
+
−
0
+
−
+
0
+
0
−
0
−
0
3. auf einer Buchseite genau x-mal das Wort oder“ vorkommt;
”
000
4. in einem Jahr auf der Erde genau x Kriege ausbrechen.
−“: 1. Versuch
”
001
+
−
−
010
011
100
101
+“: 2. Versuch
”
Abb. 8.2
110
111
0“: 3. Versuch
”
Beispiel 8.3:
Man kann die Poissonverteilung mit Hilfe einer größeren Anzahl von Personen (z.B. einer
Schulklasse) leicht simulieren.
Wir verteilen 64 Punkte auf die 64 Felder eines Schachbretts. Wir haben also N = 64 Felder
−1
und im Durchschnitt µ = 1 Punkt pro Feld. Nach der Poissonverteilung sind 64 · ex! Felder
mit genau x Punkten zu erwarten.
Jedes Feld wird durch 6 binäre Ziffern gekennzeichnet. Für jeden Punkt wird das Feld durch
6–fachen Münzwurf bestimmt. Kopf“ bedeutet die Ziffer 0 und Zahl“ die Ziffer 1.
”
”
In der Abb. 8.2 sind die Ergebnisse von 3 Versuchen durch die Zeichen −, + und 0 unterschieden.
Die Tabelle in Abbildung 8.3 zeigt die theoretischen Werte sowie die beobachteten Werte aus
den 3 Versuchen und deren arithmetisches Mittel.
Nimmt man die drei Versuche zusammen, so stellen Sie eine Verteilung von durchschnittlich
x −3
µ = 3 Punkten auf 64 Felder dar. Daher sind 64· 3 x!e Felder mit genau x Punkten zu erwarten.
Die Auswertung ist in der Tabelle in Abbildung 8.4 gegeben.
Offensichtlich beschreibt die Poissonverteilung unsere Versuche in befriedigender Weise. Um
ein objektives Urteil zu erhalten könnte man die Güte der Übereinstimmung χ2 testen.
0
0
−
−
−
+
−
0
+
−
0
−
+
−
0
+
+
+
−
−
−
+
1. bei der Emission eines radioaktiven Präparates in einem Zeitabschnitt gerade x Teilchen
ausgesandt werden;
0
−
+
0
Welche Werte liefert die angepasste Poissonverteilung?
0
0
−
110
101
3
+
0
+
Die folgende Tabelle zeigt das Ergebnis:
95
Anzahl x der Punkte pro Feld
0
1
2
3
4
>4
23,55
23,55
11,77
3,92
0,98
0,23
1. Versuch
20
28
12
4
0
0
2. Versuch
24
21
14
5
0
0
3. Versuch
25
22
12
2
3
0
23
23,7
12,7
3,7
1
0
64·e−1
x!
der
theoretische Anzahl
Felder mit genau x Punkten
Beobachtete Anzahl
der Felder mit
genau x Punkten
Mittel aus den 3 Versuchen
Abb. 8.3
Anzahl der Punkte pro Feld
Anzahl der Felder
mit genau x Punkten
0
1
2
3
4
5
6
>6
theoretisch
3,2
9,6
14,3
14,3
10,8
6,5
3,2
2,1
beobachtet
2
11
10
17
13
8
3
0
Abb. 8.4
96
8.4 Die Multinomialverteilung
Aufgabe 8.8:
Aufgabe 8.9:
Die Anzahl der Eier, die an einem Tag auf einem Hühnerhof gelegt werden, sei Poissonverteilt
zum Parameter µ. Jedes gelegte Ei sei mit der Wahrscheinlichkeit p weiß. Bestimmen Sie die
Verteilung der pro Tag gelegten weißen Eier.
Wie groß ist die Wahrscheinlichkeit, bei sechsmaligem Würfeln mit einem idealen Würfel
97
(a) jedes mögliche Ergebnis genau einmal
(b) genau einmal die 4, genau 2–mal die 5 und genau dreimal die 6
zu erzielen?
8.4
Die folgenden Aufgaben sollen einen Ausblick auf die nächsten Kapitel geben.
Die Multinomialverteilung
Aufgabe 8.10:
Eigentlich ist es an dieser Stelle zu früh, die Multinomialverteilung einzuführen, denn sie
stellt eine Verteilung mehrerer Zufallsgrößen, d.h. eines Zufallsvektors (s. Kapitel 11) dar.
Andererseits ist sie eine unmittelbare Verallgemeinerung der Binomialverteilung. Sie ist
uns bereits früher implizit begegnet (vgl. Satz 2.11).
In einer Stadt mit 10 000 erwachsenen Einwohnern soll das Netz der Omnibuslinien geändert
werden. Um sich über die öffentliche Meinung zu diesem Vorhaben zu informieren, werden 100
Personen zufällig ausgewählt und befragt.
Satz 8.5:
Wie groß ist die Wahrscheinlichkeit, dass mehr als 50 Personen zustimmen, obwohl tatsächlich
55 % der Erwachsenen das Vorhaben ablehnen?
Ein Zufallsexperiment habe genau die möglichen (disjunkten) Ausgänge A1 , A2 , . . . , Ak .
P
Jedes Ereignis Aj habe die Wahrscheinlichkeit pj = P (Aj ) mit
pj = 1.
In einem Land mit 50 · 106 erwerbstätigen Einwohnern soll der Beginn der Arbeitszeit um eine
Stunde vorverlegt werden. Um sich ein Bild der öffentlichen Meinung zu diesem Vorhaben zu
machen, lässt die Regierung 104 Erwerbstätige repräsentativ auswählen und befragen.
Das Experiment werde n–mal unabhängig wiederholt.
Dann ist die Wahrscheinlichkeit dafür, dass dabei das Ereignis A1 genau x1 –mal, . . . , das
Ereignis Ak genau xk –mal eintritt
p(x1 , x2 , . . . , xk ) =
n!
px1 px2 . . . pxkk
x1 ! x2 ! . . . xk ! 1 2
für x1 , . . . , xn ∈ N0 mit
P
xj = n.
Beweis:
Die Ergebnisse sind n–Tupel, gehören also dem Produktraum Ωn an. Wir betrachten speziell
n–Tupel, die genau x1 Elemente von A1 , . . . , xk Elemente von Ak enthalten.
Da das Experiment unabhängig wiederholt wird, hat jedes dieser Tupel die Wahrscheinlichkeit
px1 1 · . . . · pxkk .
Nun gibt es nach Satz 2.11 genau x1 !
angegebene Wahrscheinlichkeit. 2
n!
x2 !... xk !
solcher n–Tupel. Insgesamt erhält man also die
Definition 8.4: (Multinomialverteilung)
k
Es seien p1 , . . . , pk ∈ R+
0 mit p1 + . . . + pk = 1. Dann heißt die Funktion p : R → [0, 1]

n!

px1 . . . pxkk für x1 + x2 + . . . + xk = n, xj ∈ {0, . . . , n},
x1 ! . . . xk ! 1
p(x1 , . . . , xk ) =

0
sonst
Multinomialverteilung auf einem k–dimensionalen Zufallsvektor.
Aufgabe 8.11:
Mit welcher Wahrscheinlichkeit ergibt die Befragung eine zustimmende Mehrheit, obwohl tatsächlich 53 % der arbeitetenden Bevölkerung dagegen sind?
Sowohl mit der Binomialverteilung als auch mit der hypergeometrischen Verteilung
erhält man bei der Lösung der Aufgabe 8.11 praktisch nicht auswertbare Ansätze, und auch die
Approximation durch die Poissonverteilung führt nicht zum Ziel. Wir werden in Kapitel
10 die sogenannte Normalverteilung einführen, die die Binomialverteilung wiederum
approximiert und deren Werte aus einer Tabelle leicht abgelesen werden können.
98
9 STETIGE ZUFALLSGRÖSSEN
9
Stetige Zufallsgrößen
9.1
99
9.1 Die Wahrscheinlichkeitsdichte
Trägt man nun über jedem der Intervalle ein Rechteck auf, dessen Flächeninhalt der relativen Häufigkeit entspricht, mit der über diesem Intervall ein Faden reißt, so erhält man ein
Histogramm als anschauliche Darstellung der Häufigkeitsverteilung (Abb.9.1).
Die Wahrscheinlichkeitsdichte
Für diskrete Zufallsgrößen X : Ω → R definiert man eine Verteilung p(x) =PP (X = x). Für
p(xi ), d.h. die
die Verteilungsfunktionen F (x) = P (X ≤ x) ergibt sich dann F (x) =
xi ≤x
Verteilungsfunktion ist eine Treppenfunktion.
Bei stetigen Zufallsgrößen X ist die Verteilungsfunktion F dagegen eine stetige Funktion.
In den meisten Anwendungen ist F sogar (stückweise) stetig differenzierbar, und somit die
Stammfunktion einer (stückweise) stetigen Funktion f . Diese heißt dann Dichte von X.
1,3
1,2
1,1
1,0
0,9
0,8
Wir erläutern den Begriff der Dichte an einem Beispiel.
0,7
Beispiel 9.1:
0,6
Der Faden einer Fabrikation von Baumwollgarn soll auf seine Festigkeit untersucht werden.
Dazu werden 300 Rollen mit diesem Garn ausgewählt, an welche jeweils Gewichte mit zunehmender Masse angehängt werden. X bezeichne die Masse, bei der der jeweilige Faden zerreißt.
Obwohl es willkürlich wäre anzunehmen, dass X nur bestimmte diskrete Werte hat, ist es
naheliegend, mit einer gewissen Masse zu beginnen, zu prüfen, welche Fäden bei dieser Masse
bereits zerreißen, und die Masse dann schrittweise um einen gewissen Betrag zu erhöhen.
Bei unserem Versuch hielten alle Fäden die Masse 0, 5 kg aus. Die Masse wurde dann jeweils
um 0, 14 kg erhöht.
0,5
0,4
0,3
0,2
0,1
0,0
0,5
0,64 0,78 0,92 1,06 1,20 1,34 1,48 1,62 1,76 1,90 2,04 2,18 2,32 kg
Abb. 9.1
Nr. k
1
2
3
4
5
6
7
8
9
10
11
12
13
Zerreißfestigkeit abs. Häuf. h(k)
0,5 bis 0,64
0,64 bis 0,78
0,78 bis 0,92
0,92 bis 1,06
1,06 bis 1,20
1,20 bis 1,34
1,34 bis 1,48
1,48 bis 1,62
1,62 bis 1,76
1,76 bis 1,90
1,90 bis 2,04
2,04 bis 2,18
2,18 bis 2,32
1
2
9
25
37
53
56
53
25
19
16
3
1
300
rel. Häuf. r(k) =
0,00333
0,00667
0,03000
0,08333
0,12333
0,17667
0,18667
0,17667
0,08333
0,06333
0,05333
0,01000
0,00333
0,99999
h(k)
300
Dichte der rel. Häuf.
r(k)
0,14
0,024
0,048
0,214
0,595
0,881
1,262
1,333
1,262
0,595
0,452
0,381
0,071
0,024
In der 3. Spalte der angegebenen Tabelle kann man ablesen, wieviele Fäden dabei jeweils
zerrissen. In den weiteren Spalten wurde die relative Häufigkeit r berechnet und anschließend
durch die Intervallbreite dividiert.
Da die Inhalte der Rechteckflächen die Bedeutung von relativen Häufigkeiten haben, müssen
ihre Höhen die relativen Häufigkeiten dividiert durch die Intervallbreite sein. Man bezeichnet
sie als Dichten der relativen Häufigkeiten. Da die Summe aller relativen Häufigkeiten
1 ist, hat die gesamte Fläche unter der Treppe den Flächeninhalt 1.
Die Dichten für gewisse Zerreißfestigkeiten dürften sich aber kaum sprunghaft ändern. Deshalb
ist es vernünftiger, sie durch eine stetige Funktion f zu beschreiben, die die Treppenfunktion
interpoliert und die mit der x–Achse ebenfalls die Fläche 1 einschließt.
Eine solche Funktion heißt Wahrscheinlichkeitsdichte (Abb. 9.1). Über jedem Intervall
der x–Achse begrenzt sie einen Streifen nach oben, dessen Flächeninhalt die Wahrscheinlichkeit
angibt, mit der die Werte von X in diesem Intervall liegen.
Z.B. ist die Wahrscheinlichkeit dafür, dass ein Faden aus der oben beschriebenen Produktion bei
1,20
R
f (t) dt , die Wahrscheinlichkeit, dass er
einer Masse zwischen 1, 06 kg und 1, 20 kg zerreißt,
1,06
bei einer Belastung bis zu 1, 20 kg zerreißt, ist
1,20
R
f (t) dt , wobei f über ]−∞, 0] den Wert 0 hat.
−∞
Zufallsgrößen X : Ω → R haben definitionsgemäß die Eigenschaft, dass Urbilder von Intervallen
und Zahlen Ereignisse sind. Das Urbild des Intervalls ] − ∞, x] ist {ω ∈ Ω | X(ω) ≤ x}. Wie
im diskreten Fall schreiben wir kurz P (X ≤ x) := P ({ω ∈ Ω | X(ω) ≤ x}) .
100
101
9.1 Die Wahrscheinlichkeitsdichte
Definition 9.1: (stetige Zufallsgröße)
Definition 9.2: (Gleichverteilung)
Eine Zufallsgröße X heißt stetig, wenn ihre Verteilungsfunktion F (x) = P (X ≤ x) eine
stetige Funktion ist.
Die durch die Dichtefunktion f : R → R mit
( 1
für a ≤ x ≤ b
b−a
f (x) =
0
sonst
Gibt es eine nicht-negative, stückweise stetige Funktion f : R → R+
0 , so dass für die Verteilungsfunktion F von X gilt
F (x) = P (X ≤ x) =
Zx
definierte Wahrscheinlichkeitsverteilung heißt Gleichverteilung auf [a, b].
f (t) dt,
−∞
Dichte und Verteilungsfunktionder Gleichverteilung sind in Abb. 9.2 dargestellt.
so heißt diese Funktion f Wahrscheinlichkeitsdichte oder kurz Dichte von X.
f(x) Wahrscheinlichkeitsdichte
F(x)
1,0
1
b-a
Bemerkung 9.1:
Laut Definition 9.1 ergibt sich die Verteilungsfunktion einer Zufallsgröße X aus der Dichte,
sofern diese existiert. Umgekehrt gilt aber F ′ (x) = f (x) an allen Stellen, an denen f stetig ist.
Die Verteilungsfunktion bestimmt also auch die Dichte.
0,0
0
Nach Satz 6.3 ist
a
P (a < X ≤ b) = F (b) − F (a) =
Zb
x
b
a
x
Abb. 9.2b
Eine Anwendung der Gleichverteilung liefert das folgende
a
Da es beim Integrieren auf einen Punkt nicht ankommt, setzt man auch
P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b) =
Zb
f (t) dt = F (b) − F (a) .
a
Insbesondere gilt also für stetige Zufallsgrößen P (X = a) = 0 für alle a ∈ R. Weiterhin gilt
nach Satz 6.4
Z∞
f (t) dt = lim F (x) = 1.
x→∞
−∞
Die Dichte schließt also mit der x-Achse den Flächeninhalt 1 ein.
Die Bedeutung von f erscheint zunächst unklar. Wenn sich der Mittelwertsatz der Integralrechnung anwenden lässt, erhält man
x+h
Z
F (x + h) − F (x)
1
1
f (t) dt = f (ξ) mit ξ ∈ [x, x + h] .
P (x < X ≤ x + h) =
=
h
h
h
x
Die Dichte lässt sich also etwa als Wahrscheinlichkeit pro Intervallbreite“ deuten.
”
Das einfachste Beispiel ist eine auf einem festen Intervall [a, b] konstanten Dichte, die außerhalb
Rb
1
sein.
von [a, b] verschwindet. Wegen f (x) dx = 1 muss die Konstante b−a
a
b
Abb. 9.2a
f (t) dt.
Verteilungsfunktion
Beispiel 9.2:
Wir wollen eine Zahl x aus dem Intervall [0, 1] zufällig“ auswählen. Jedes x ∈ [0, 1] hat die
”
∞
X
Darstellung x =
ak 10−k mit ak ∈ {0, 1, 2, . . . , 9}.
k=1
Eine Möglichkeit wäre, die Wahl jedes ak durch ein Laplaceexperiment zu beschreiben und diese
Experimente nacheinander unabhängig auszuführen.
n
X
Betrachtet man für beliebiges n ∈ N ein α der Form α =
ak 10−k , so stimmen alle Zahlen
k=1
x mit α ≤ x < α + 10−n in den ersten n Stellen nach dem Komma mit α überein. Die
Wahrscheinlichkeit, eine solche Zahl zu erhalten, ist also
P (α ≤ X < α + 10−n ) =
1
1
1
·...·
= n = 10−n = (α + 10−n ) − α
10
10
10
(Intervallbreite).
Da sich jedes andere Intervall beliebig genau durch Intervalle der Form [α, α + 10−n ) approximieren lässt, sollte allgemein P (α ≤ X ≤ β) = β − α für 0 ≤ α ≤ β ≤ 1 gesetzt werden. Das
ist aber gerade die Wahrscheinlichkeit, die die Gleichverteilung auf [0, 1] liefert.
Beispiel 9.3:
An einer relativ ruhigen Landstraße messe man mit einer Stoppuhr die Wartezeit zwischen den
einzelnen Fahrzeugen. Dies ist eine Zufallsgröße X mit kontinuierlichem Wertebereich. Die
beobachtete relative Häufigkeit des Ereignisses, dass die Wartezeit nicht größer als x ist, wird
102
Der Verteilungsfunktion im diskreten F : R → [0, 1] mit F (x) =
gut durch eine Verteilungsfunktion der Gestalt
F (x) = P (X ≤ x) =
(
x
1 − e− µ für x ≥ 0
0
103
9.2 Der Erwartungswert
Verteilungsfunktion F : R → [0, 1] mit F (x) =
für x < 0 ,
mit geeignetem µ > 0 approximiert (die xBegründung hierfür wird in Bemerkung 9.2 gegeben).
Man erhält dann f (x) = F ′ (x) = µ1 e− µ für positive x. In Beispiel 9.4 wird gezeigt, dass µ
hierbei gerade die mittlere Wartezeit ist.
−∞
In Definition 6.4 definierten wir für den diskreten Fall den Erwartungswert von g(X) als
X
X
|g(xi )| p(xi ) existiert.
g(xi ) p(xi ), falls
E(g(X)) =
i
Bedenkt man, dass eine stetige Zufallsgröße einen Wert in dem Intervall [x, x + △x] ungefähr
mit der Wahrscheinlichkeit f (x) · △x annimmt, so ergibt sich entsprechend die Definition des
Erwartungswertes einer stetigen Zufallsgröße:
Definition 9.3: (Exponentialverteilung)
Die durch die Dichtefunktion f : R → R mit
(
x
1 −µ
e
für x ≥ 0
µ
f (x) =
0
für x < 0
Definition 9.4: (Erwartungswert stetiger Zufallsgrößen)
Sei f die Dichte einer Zufallsgröße X. Dann heißt
definierte Wahrscheinlichkeitsverteilung heißt Exponentialverteilung zum Parameter µ.
Z∞
µ = E(X) =
x f (x) dx
−∞
Aufgabe 9.1:
Die Zufallsvariable X sei exponentialverteilt. Zeigen Sie, dass für alle x, y ≥ 0 gilt
P (X > x + y / X > x) = P (X > y). (∗)
Bemerkung 9.2:
Erwartungswert oder Mittelwert von X falls
R∞
−∞
|x| f (x) dx existiert.
Allgemeiner sei g eine auf dem Wertebereich von X erklärte stetige Funktion, für die
R∞
|g(x)| f (x) dx existiert. Dann heißt
−∞
Die in Aufgabe 9.1 angegebene Eigenschaft ist eine stetige Entsprechung der in Aufgabe 8.2
angegebenen Eigenschaft für die geometrische Verteilung. Entsprechend zu Aufgabe 8.3 lässt
sich auch hier zeigen, dass die Gleichung (∗) für die Exponentialverteilung charakteristisch ist.
Wegen der Gleichung (∗) ist die Exponentialverteilung besonders gut für die Beschreibung von
Wartezeiten geeignet, denn auf Wartezeiten X bezogen besagt die Gleichung:
Die Wahrscheinlichkeit, noch mehr als y Minuten zu warten ist immer gleich, egal wie lange
(= x Minuten) man bereits gewartet hat.
Daher beschreibt man mit ihr u.a. die Dauer von Telefongesprächen, die Bedienungszeit von
Kunden, die Reparaturzeit von Maschinen etc.
Der Erwartungswert
E g(X) :=
Z∞
R∞
f (x) dx = 1.
−∞
Man beachte hierbei: Dichten sind keine Wahrscheinlichkeiten!
∞
P
j=1
p(xj ) = 1 ent-
g(x) f (x) dx.
−∞
Erwartungswert von g(X). Speziell für g(x) = xk , k ∈ N, spricht man auch hier vom
Moment k–ter Ordnung µk := E(X k ) von X.
Beispiel 9.4:
(a) Für die Gleichverteilung f (x) =
E(X) =
Der diskreten Wahrscheinlichkeitsverteilung p : {x1 , x2 , . . . } → [0, 1] mit
spricht im stetigen Fall die Dichte f : R → R+
0 mit
f (t) dt .
p(xj ) entspricht die stetige
xj ≤x
Beide geben einander entsprechende Wahrscheinlichkeiten an, nämlich F (x) = P (X ≤ x).
i
9.2
Rx
P
Z∞
−∞
xf (x) dx =
Zb
a
1
b−a
auf [a, b] ergibt sich
1 b2 − a2
a+b
x
dx =
=
.
b−a
2 b−a
2
(b) Für die Exponentialverteilung findet man mit partieller Integration
Z∞
Z∞
Z∞
x ∞
x ∞
x
x − µx
E(X) =
xf (x) dx =
e dx = −xe− µ + e− µ dx = −µe− µ = µ.
µ
0
0
−∞
0
0
104
Die für eine diskrete Zufallsgröße X in den Sätzen 6.6 und 6.7 bewiesenen Aussagen gelten
unter entsprechenden Voraussetzungen analog im stetigen Fall:
g1 und g2 seien zwei stetige Funktionen
auf dem
Wertebereich der stetigen Zufallsgröße X,
deren Erwartungswerte E g1 (X) und E g2 (X) existieren.
Dann existiert auch der Erwartungswert von g1 (X) + g2 (X), und es gilt
E g1 (X) + g2 (X) = E g1 (X) + E g2 (X) .
Momente höherer Ordnung, Varianz und Schiefe
Nach Voraussetzung ist
R∞
−∞
|g1 (x)| f (x) dx < ∞ und
|g1 (x) + g2 (x)| f (x) dx ≤
−∞
=
Z∞
−∞
Z∞
R∞
−∞
Falls µk = E(X k ) existiert, so gilt im diskreten wie auch im stetigen Fall
E (aX)k = ak E(X k ) für alle a ∈ R.
|g2 (x)| f (x) dx < ∞ . Hieraus folgt
Z∞
|g2 (x)| f (x) dx < ∞ ,
Die Existenz der Momente hängt also mit der Wahrscheinlichkeit zusammen, mit der die Zufallsgröße X absolut große Werte annimmt. Ist |X| beschränkt, so existieren die Momente jeder
Ordnung.
und deshalb existiert E g1 (X) + g2 (X) . Man erhält dann
=
=
Z∞
−∞
Z∞
−∞
g1 (x) + g2 (x) f (x) dx
g1 (x) f (x) dx +
Existiert das Moment k–ter Ordnung von X, so gilt sowohl im diskreten als auch im stetigen
Fall
1
.
lim ak P (|X| > a) = 0, d.h. P (|X| > a) = o
a→∞
ak
−∞
−∞
Beweis: Aufgabe. 2
Aufgabe 9.2:
|g1 (x)| + |g2 (x)| f (x) dx
|g1 (x)| f (x) dx +
Dabei wird für die Existenz des Moments die absolute Konvergenz der zugehörigen Reihe bzw.
des zugehörigen Integrals vorausgesetzt. Der Erwartungswert E(X) ist das Moment 1. Ordnung. Man beweist leicht den folgenden
Satz 9.3:
Beweis:
E g1 (X) + g2 (X)
9.3
Wir erklärten in Definition 6.4 für diskrete und in Definition 9.4 für stetige Zufallsvariable X
das k-te Moment als µk = E(X k ).
Satz 9.1:
Z∞
Z∞
−∞
Satz 9.4:
Für diskrete und stetige Zufallsgrößen X gilt:
g2 (x) f (x) dx = E g1 (X) + E g2 (X) . 2
Satz 9.1 kann durch vollständige Induktion auf jede endliche Anzahl von Summanden ausgedehnt werden.
Satz 9.2:
Existiert das Moment k–ter Ordnung µk von X, so existieren alle Momente µr mit r ≤ k.
Beweis: Aufgabe. 2
Beispiel 9.5:
(a) Für die Gleichverteilung (s. Definition 9.2) ergibt sich
X sei eine stetige Zufallsgröße, und es existiere E(X).
Dann existiert für alle a, b ∈ R auch E(aX + b), und es gilt
E(aX + b) = aE(X) + b .
Beweis:
Aufgabe. 2
105
9.3 Momente höherer Ordnung, Varianz und Schiefe
µk = E(X k ) =
Z∞
−∞
xk f (x) dx =
Zb
a
k
1 bk+1 − ak+1
1 X i k−i
xk
dx =
=
a b .
b−a
k+1
b−a
k + 1 i=0
Da das Integrationsintervall endlich ist, konvergieren“ diese Integrale auch absolut. Also
”
existieren die µk .
106
(b) Für die Exponentialverteilung (Definition 9.3) ergibt sich mit Beispiel 9.4 b
µk = E(X k ) =
Z∞
xk f (x) dx =
Z∞
9.3 Momente höherer Ordnung, Varianz und Schiefe
Beispiel 9.6:
(a) Für die Gleichverteilung ergibt sich nach Beispiel 9.5 a
xk − µx
e dx
µ
2
a+b
b2 + ab + a2
−
V (X) = E (X − µ)2 = µ2 − µ21 =
3
2
b2 + ab + a2 b2 + 2ab + a2
(b − a)2
b−a
=
−
=
, also σ = √ .
3
4
12
2 3
0
−∞
Z∞ k−1
Z∞
x
x
x ∞
x
e− µ dx
= −xk e− µ + k xk−1 e− µ dx = kµ
µ
0
0
0
= kµµk−1 = · · · = k(k − 1) · · · 2 µk−1 µ1 = k! µk .
(b) Für die Exponentialverteilung ergibt sich nach Beispiel 9.5 b
V (X) = µ2 − µ21 = 2µ2 − µ2 = µ2 ,
Da f (x) = 0 für negative x gilt, konvergieren diese Integrale auch absolut.
c sei eine reelle Zahl und X eine stetige oder diskrete Zufallsgröße.
Dann heißt E (X − c)k Moment k–ter Ordnung bezüglich c.
Satz 9.5:
k
Ist c = µ = E(X), so spricht man vom k. zentralen Moment mk = E (X − µ) .
Die zentralen Momente lassen sich durch die gewöhnlichen Momente (Definition 6.4 und 9.4)
ausdrücken (mit µ1 = µ):
m2
m3
= E(X − µ) = E(X) − µ = µ − µ = 0
= E (X − µ)2 = E X 2 − 2µX + µ2 = E(X 2 ) − 2µ · E(X) + µ2 = µ2 − µ21
= E (X − µ)3 = E(X 3 − 3µX 2 + 3µ2 X − µ3 )
= E(X 3 ) − 3µE(X 2 ) + 3µ2 E(X) − µ3
u.s.w.
also σ = µ .
Der Mittelwert µ hat eine interessante Minimaleigenschaft. Er ist derjenige Wert c, für welchen
die Momente 2. Ordnung bezüglich c am kleinsten ausfallen:
Definition 9.5: (Momente bzgl. c, zentrale Momente)
m1
107
= µ3 − 3µ1 µ2 + 2µ31
Wie schon für diskrete Zufallsgrößen definieren wir die Varianz als zweites zentrales Moment
(vgl. Def. 6.5).
Definition 9.6: (Varianz und Streuung)
X sei eine stetige (oder diskrete) Zufallsgröße. Das zentrale Moment zweiter Ordnung
σ 2 = V (X) = E (X − µ)2
p
heißt Varianz. Ihre Wurzel σ = V (X) heißt Standardabweichung oder Streuung.
Bemerkung 9.3:
Wie im diskreten Fall gilt auch hier V (X) = E(X 2 ) − E 2 (X), denn V (X) = m2 = µ2 − µ21 .
Für jedes c 6= µ gilt V (X) = E (X − µ)2 < E (X − c)2 .
Beweis:
E (X − c)2
= E (X − µ + µ − c)2
= E (X − µ)2 + 2(µ − c) E(X − µ) + (µ − c)2 = V (X) + (µ − c)2 . 2
Analog zu Satz 6.6 für diskrete Zufallsvariable gilt allgemein
Satz 9.6:
Sei X eine stetige (oder diskrete) Zufallsvariable, deren Varianz existiert. Dann gilt
V (aX + b) = a2 V (X) für alle a, b ∈ R.
Beweis:
V (aX + b) = E (aX + b − E(aX + b))2 = E (aX + b − (aµ + b))2 = E (a(X − µ))2
= E a2 (X − µ)2 = a2 E (X − µ)2 = a2 V (X). 2
Definition 9.7: (standardisierte Zufallsgröße)
X sei eine Zufallsgröße mit Erwartungswert µ und Streuung σ 6= 0. Dann heißt
Z=
X −µ
σ
die zugehörige standardisierte oder normierte Zufallsgröße.
108
109
9.4 Die Ungleichung von Tschebyschew
Beispiel 9.7:
Aus den vorangegangenen Sätzen lässt sich zeigen:
(a) Für die Gleichverteilung f (x) =
Satz 9.7:
S(X) =
X sei eine Zufallsgröße mit der Streuung σ 6= 0 und Z die zugehörige standardisierte Zufallsgröße. Dann gilt
E(Z) = 0 und V (Z) = 1 .
X sei eine stetige oder diskrete Zufallsgröße, deren 3. Moment existiert. Dann heißt das dritte
Moment der zugehörigen standardisierten Zufallsgröße Z
S(X) := E(Z 3 ) =
1
m3
E (X − µ)3 = √ 3
σ3
m2
die Schiefe der zugehörigen Verteilung.
Satz 9.8:
Ist die Dichte f : R → R+
0 einer stetigen Zufallsgröße X symmetrisch bezüglich µ und existiert
ihr 3. Moment, so gilt S(X) = 0.
Beweis: Aufgabe. 2
Aufgabe 9.3:
Formulieren und beweisen Sie eine dem Satz 9.8 entsprechende Aussage für eine diskrete Zufallsgröße X mit der Wahrscheinlichkeitsfunktion p.
3
Zb (x − a+b
)4
1
a+b
2
·
dx =
x−
3
2
b−a
4σ (b − a)
a
x
S(X) =
Definition 9.8: (Schiefe)
1
1
E (X − µ)3 = 3
σ3
σ
ergibt sich
b
= 0.
a
(b) Für die Exponentialverteilung f (x) = µ1 e− µ erhält man aus Beispiel 9.5 und den Berechnungen der zentralen Momente auf Seite 106
Beweis: Aufgabe. 2
Die Gleichverteilung ist offenbar symmetrisch bezüglich des Mittelwertes µ, die Exponentialverteilung ist es nicht. Mit Hilfe des 3. zentralen Moments legt man ein Maß für Asymmetrie
einer Zufallsvariable fest.
1
b−a
m3
µ3 − 3µ1 µ2 + 2µ31
1
=
= 3 6µ3 − 3µ · 2µ2 + 2µ3 = 2 ;
3
σ
σ3
µ
hier liegt positive Schiefe vor.
Aufgabe 9.4:
Man berechne Erwartungswert, Varianz, Streuung und Schiefe für die Verteilungen f : R → R+
0
mit
2(1 − x) für x ∈ ]0, 1[,
(a) f (x) =
0
sonst;
−x
xe
für x ∈ R+
0,
(b) f (x) =
0
sonst;
sin x für x ∈ [0, π2 ],
(c) f (x) =
0
sonst.
9.4
Die Ungleichung von Tschebyschew
In Satz 9.5 stellten wir fest, dass der Wert des zweiten Moments bzgl. c für c = µ minimal
ist. Die mittlere quadratische Abweichung der Werte der Zufallsgröße X wird demnach am
kleinsten, wenn sie von µ aus gemessen wird. Die Verteilung von X konzentriert sich in diesem
Sinne um µ als Zentrum.
Unabhängig von der Gestalt der Verteilung gibt es eine von Tschebyschew9 entdeckte Mindest”
konzentration“ der Wahrscheinlichkeit P um µ herum.
Satz 9.9: (Tschebyschewsche Ungleichung)
Zwar kann das 3. zentrale Moment oder die Schiefe auch für nicht-symmetrische Verteilungen
verschwinden, aber dies ist äußerst selten der Fall. Man kann daher zwischen symmetrischen
Verteilungen und solchen mit positiver bzw. negativer Schiefe zu unterscheiden.
X sei eine (diskrete oder stetige) Zufallsgröße, deren Erwartungswert µ und Varianz σ 2 6= 0
existieren. Dann gilt für jede reelle Zahl k > 0
P (|X − µ| ≥ kσ) ≤
9
1
.
k2
Russ. Mathematiker, sprich tschebyschoff“
”
110
Beweis:
Wir beweisen die Aussage nur für diskrete Zufallsgrößen X. Man erhält zunächst
X
P (|X − µ| ≥ kσ) =
p(x) .
|x−µ|≥kσ
Wegen
(x−µ)2
k2 σ 2
≥ 1 für alle x, über die summiert wird folgt hieraus
P (|X − µ| ≥ kσ) ≤
X
|x−µ|≥kσ
X (x − µ)2
x
k2σ2
p(x) =
1
1
E (X − µ)2 = 2 . 2
k2σ2
k
Bemerkung 9.4:
Aus der Tschebyschewschen Ungleichung ergibt sich unmittelbar
P (|X − µ| < kσ) = 1 − P (|X − µ| ≥ kσ) ≥ 1 −
111
Aus einer Stichprobe wird beispielsweise ermittelt, dass die Streuung σ = 0, 01 mm beträgt.
(Genaueres dazu in den Kapiteln 14 und 16). Dann gilt
1
P (|X − µ| ≥ 0, 10) = P (|X − µ| ≥ 10 · 0, 01) ≤ 2 = 0, 01 .
10
Höchstens 1 % aller Kugeln ist zu groß oder zu klein.
Aufgabe 9.7:
(a) Eine echte Münze werde 1000 mal geworfen. Man schätze die Wahrscheinlichkeit dafür,
dass die relative Häufigkeit von Zahl“ zwischen 0,4 und 0,6 liegt, mit der Tscheby”
schewschen Ungleichung ab.
(x − µ)2
p(x) .
k2σ2
Lässt man die einschränkende Bedingung für x weg, so wächst die rechte Seite:
P (|X − µ| ≥ kσ) ≤
9.4 Die Ungleichung von Tschebyschew
Bemerkung 9.5:
Die Ungleichung Tschebyschews gilt für alle Zufallsgrößen X. Man darf daher nicht erwarten,
dass sie in jedem Falle sehr genau ist.
Aufgabe 9.8:
Man schätze ab, mit welcher Wahrscheinlichkeit die Werte von X höchstens außerhalb des
1−, 2−, 3−, 4−fachen Streuintervalls um den Mittelwert µ liegen.
1
.
k2
Das bedeutet, dass für großes k die Werte von X mit hoher Wahrscheinlichkeit in das Intervall
]µ − kσ, µ + kσ[ fallen.
So wird beispielsweise das offene Intervall ]µ − 2, 5 σ; µ + 2, 5 σ[ von P mindestens mit der
Wahrscheinlichkeit
P (|X − µ| < 2, 5 σ) = 1 − P (|X − µ| ≥ 2, 5 σ) ≥ 1 −
(b) Welchen Ausdruck hätte man im Falle des exakten Vorgehens zu berechnen?
1
= 0, 84 = 84%
2, 52
belegt. Man beachte, dass dies lediglich der kleinstmögliche Wert ist. Für die meisten Zufallsgrößen X ist P (|X − µ| < 2, 5 σ) viel größer, bei normalverteiltem X z.B. immerhin 98,8 %
(vgl. Kapitel 10). Andererseits gibt es eine diskrete Verteilung, bei der diese Wahrscheinlichkeit
tatsächlich nur 84 % beträgt.
Aufgabe 9.5:
Man konstruiere eine diskrete Verteilung mit der Eigenschaft P (|X − µ| < 2, 5 σ) = 0, 84.
Aufgabe 9.6:
Führen Sie den Beweis von Satz 9.9 für eine stetige Zufallsgröße X durch.
Beispiel 9.8:
Bei Industrieprodukten müssen Normen eingehalten werden. So dürfen die Durchmesser von
Kugeln eines Kugellagers nur geringfügig voneinander differieren. Ist z.B. die Norm µ = 30, 00
mm mit der Toleranz ±0, 10 mm, so kann man ohne Kenntnis der genauen Verteilung folgendermaßen abschätzen, wieviele Kugeln die Norm mindestens einhalten:
Aufgabe 9.9:
Die Zufallsgröße X habe den Mittelwert µ = 5 und die Varianz σ 2 = 9.
(a) Bestimmen Sie ein Intervall, in dem die Werte von X mit der Wahrscheinlichkeit 0,9
liegen.
(b) Wie groß muss k ∈ R+ in der Tschebyschewschen Ungleichung gewählt werden, damit
P (|X − µ| ≥ kσ) ≤ 0, 81 gilt?
(c) Für welches k ∈ R+ nimmt die Zufallsgröße X Werte aus dem Intervall ]µ − kσ, µ + kσ[
mit einer Wahrscheinlichkeit von mindestens 0,95 an?
Aufgabe 9.10:
X gebe die Summe der Augen beim Werfen zweier Würfel an.
Vergleichen Sie die genauen Werte für P (|X − µ| < kσ) mit den entsprechenden Abschätzungen
nach der Tschebyschewschen Ungleichung für k = 1, k = 2 und k = 2, 5.
Aufgabe 9.11:
Die Zufallsgröße X nehme nur nicht-negative Werte an. Beweisen Sie für k > 0
µ
P (X ≥ k) ≤ .
k
Aufgabe 9.12:
Wenden Sie die Tschebyschewsche Ungleichung auf eine binomialverteilte Zufallsgröße an.
Vergleichen Sie das Ergebnis mit der Aussage von Satz 7.4.
112
10
10.1
10 DIE NORMALVERTEILUNG
Die Gaußsche Normalverteilung
113
10.1 Einführung der Normalverteilung
Aufgabe 10.1:
(a) Wo ist f streng monoton wachsend (fallend)?
Einführung der Normalverteilung
(b) Man bestimme Lage, Art und Größe der Extremwerte von f .
Definition 10.1: (Normalverteilung)
(c) Man untersuche f auf Wendepunkte (Lage, Art, Werte).
Eine stetige Zufallsgröße X heißt normalverteilt, wenn ihre Dichte von der Gestalt
1 x−µ 2
1
f (x) = √ e− 2 σ
σ 2π
mit µ ∈ R und σ ∈ R+ ist. Die zugehörige Verteilungsfunktion ist demnach
F (x) =
1
√
σ 2π
Zx
1 t−µ
σ
e− 2
−∞
2
(d) Welche Symmetrieeigenschaften hat f ?
(e) Für welches c wird P (c ≤ X ≤ c + a) bei festem a > 0 maximal?
Um grundlegende Eigenschaften der Normalverteilung beweisen zu können braucht man immer
wieder die folgende Formel:
dt .
Satz 10.1:
Nach Gauss, der diese Funktionen u.a. im Zusammenhang mit der Theorie der Messfehler untersuchte, heißt die Normalverteilung auch Gaußverteilung. Die folgende Abbildung
zeigt den Graphen von f für µ = 0 und drei verschiedene Werte von σ. Wegen der Form des
Graphen spricht man auch von der Gaussschen Glockenkurve (s. Abb. 10.1).
Z∞
√
2
e−v dv =
π.
−∞
Beweis:
2
Da e−v < e−|v| für |v| > 1 gilt, überzeugt man sich leicht, dass das uneigentliche Integral
existiert. Man erhält dann
f(x)
0,9

σ = 0,5

Z∞
e
−∞
0,5
−v 2
2
dv 
-4
-3
-2
-1
=
1
2
3
4
x
2
e−x dx
Z∞ Z2π
0
σ= 2
0
Z∞
−∞
(∗)
σ= 1
0,1
=
Z∞
2
e−y dy =
−∞
2
r e−r dϕ dr =
0
Z∞
0
Z∞ Z∞
2 −y 2
e−x
ZZ
dx dy =
−∞ −∞
2 +y 2 )
e−(x
dx dy
R2
2
2 ∞
2πr e−r dr = −πe−r = π .
0
Hierbei wurde an der mit (∗) bezeichneten Stelle in Polarkoordinaten x = r cos ϕ, y = r sin ϕ
mit dx dy = r dϕ dr transformiert. Die angegebene Formel folgt durch Wurzelziehen. 2
Abb. 10.1
Wir wollen hervorheben, dass wir die Normalverteilung definiert und nicht hergeleitet
haben. Sie ist ein theoretisch formuliertes Verteilungsgesetz. Ob es überhaupt Häufigkeitsverteilungen gibt, die diesem Gesetz genügen bzw. ihm hinreichend“ nahe kommen, ist eine
”
statistische Fragestellung. Wir werden allerdings beweisen, dass die Normalverteilung gut
zur Approximation der Binomialverteilung geeignet ist. Der zentrale Grenzwertsatz zeigt
ebenfalls, inwiefern sich Zufallsgrößen durch die Normalverteilung approximieren lassen.
Einige Eigenschaften der Normalverteilung sollen in der folgenden Aufgabe ermittelt werden.
Wir zeigen nun, dass f eine Dichte mit Mittelwert µ und Streuung σ ist. Zur Veranschaulichung
sind in Abbildung 10.2 die Dichte f (x) und die Verteilungsfunktion F (x) graphisch dargestellt.
Satz 10.2:
f ist eine Wahrscheinlichkeitsdichte, d.h.
Z∞
−∞
f (t) dt =
Z∞
−∞
1 t−µ 2
1
√ e− 2 ( σ ) dt = 1 .
σ 2π
114
1
F
115
10.2 Die standardisierte Normalverteilung
Beweis: Aufgabe. 2
f
Aufgabe 10.2:
Man bestimme die Schiefe der Normalverteilung.
F(x)
0,5
F(x)
f(x)
µ
R
x
0
µ
Abb. 10.2 a
x
Für den Mittelwert µ = 0 und die Streuung σ = 1 ist die Normalverteilung tabelliert (s.
Anhang). In diesem Fall bezeichnen wir die Dichte und die Verteilungsfunktion mit
1 2
1
ϕ(z) = √ e− 2 z
2π
Mit der Substitution v =
−∞
R
Die standardisierte Normalverteilung
Abb. 10.2 b
Beweis:
Z∞
10.2
t−µ
√
σ 2
⇒
1 t−µ 2
1
1
√ e− 2 ( σ ) dt = √
π
σ 2π
dv
dt
=
Z∞
1
√
σ 2
1 t−µ 2
)
σ
Z∞
−∞
f (x) =
dt = µ .
1
ϕ(z) und F (x) = Φ(z) ,
σ
wobei z =
x−µ
.
σ
Satz 10.5:
Sei X eine normalverteilte Zufallsgröße mit Mittelwert µ und Streuung σ, und Z =
die zugehörige standardisierte Zufallsgröße.
Beweis:
1
E(X) = √
π
2
Man beweise, dass zwischen der Dichte f (x) und Verteilungsfunktion F (x) der Gaussverteilung mit Mittelwert µ und Streuung σ und den standardisierten Formen ϕ(z) und Φ(z)
folgender Zusammenhang besteht:
−∞
Mit der Substitution v =
1
e− 2 t dt .
Aufgabe 10.3:
−∞
t e− 2 (
Zz
2
e−v dv = 1. 2
Der Erwartungswert der Normalverteilung ist µ, d.h.
Z∞
1
Φ(z) = √
2π
Um die Tabellen für eine beliebige normalverteilte Zufallsgröße X gebrauchen zu können, muss
man diese in die zugehörige standardisierte Zufallsgröße Z mit dem Mittelwert µ = 0 und der
Streuung σ = 1 transformieren (s. Definition 9.7).
erhält man
Satz 10.3:
1
E(X) = √
σ 2π
und
t−µ
√ ,
σ 2
−v 2
(µ + vσ 2)e
Z∞
µ
dv = √
π
−∞
−v 2
e
−∞
√ Z∞
σ 2
2
dv + √
ve−v dv = µ ,
π
−∞
2
denn das zweite Integral hat den Wert 0, da ve−v eine ungerade Funktion ist. 2
Satz 10.4:
Beweis:
Wegen Aufgabe 10.3 gilt mit den dort verwendeten Bezeichnungen
X −µ
x−µ
P (Z ≤ z) = P
≤
= P (X ≤ x) = F (x) = Φ(z) ,
σ
σ
d.h. Φ(z) ist die Verteilungsfunktion von Z. Wegen Φ′ (z) = ϕ(z) ist ϕ(z) die Dichte von Z. 2
Bemerkung 10.1:
Die Varianz der Normalverteilung ist σ 2 , d.h.
1
V (X) = E(X − µ)2 = √
σ 2π
sei
Dann ist Z ebenfalls normalverteilt mit der Dichte ϕ und der Verteilungsfunktion Φ.
√
also t = µ + vσ 2, erhalten wir
√
X−µ
σ
Z∞
−∞
1 t−µ 2
)
σ
(t − µ)2 e− 2 (
dt = σ 2 .
In Satz 10.5 wurde gezeigt, dass die standardisierte Zufallsgröße einer normalverteilten Zufallsgröße normalverteilt ist. In Satz 17.3 wird allgemeiner bewiesen, dass jede lineare Transformation einer normalverteilten Zufallsgröße normalverteilt.
Außerdem wird im gleichen Abschnitt gezeigt, dass die Summe unabhängiger normalverteilter
Zufallsgrößen stets normalverteilt ist. (s. Satz 17.2).
116
Zu vorgegebenem a und b setzt man also α =
a−µ
σ
und β =
b−µ
σ
und erhält
P (a < X ≤ b) = P (α < Z ≤ β) = Φ(β) − Φ(α).
Diese Werte lassen sich für positive Argumente aus der Tabelle im Anhang ablesen. Bei negativen Argumenten hilft die folgende Aufgabe:
Wir verzichten auf den aufwändigen Beweis. Er findet sich in einschlägigen Analysislehrbüchern.
Bemerkung 10.2:
√
Die Tilde ∼ bedeutet, dass n! und 2πn
lim √
Aufgabe 10.4:
n→∞
Zeigen Sie, dass für die Verteilungsfunktion Φ der standardisierten Normalverteilung gilt:
Φ(−z) = 1 − Φ(z).
Beispiel 10.1:
P (24 < X ≤ 28) = P (0, 25 < Z ≤ 1, 25) = Φ(1, 25)−Φ(0, 25) = 0, 89435−0, 59871 = 0, 29564 .
asymptotisch gleich sind, d.h.
Satz 10.7: (Lokaler Grenzwertsatz von de Moivre und Laplace)
Sei 0 < p < 1 und q = 1 − p. Weiterhin sei (xn ) eine Folge mit den Eigenschaften
(i) xn ∈ {0, 1, . . . , n}
(ii) (zn ) mit zn =
und
xn −np
√
npq
ist eine beschränkte Folge.
Dann genügt die Binomialverteilung bn,p (xn ) der Beziehung
Aufgabe 10.5:
Die Zufallsgröße X sei normalverteilt mit Mittelwert µ und Streuung σ. Man bestimme die
Wahrscheinlichkeit dafür, dass die Werte von X in folgenden Intervallen liegen:
[µ − σ, µ + σ] ,
n!
n = 1 .
2πn ne
n n
e
Der folgende Satz zeigt, dass für große n die Binomialverteilung bn,p (x) gut durch die Normalverteilung fn (x) mit gleichem Mittelwert und gleicher Streuung angenähert wird.
Die maximale Tagestemperatur X im Juli sei normalverteilt mit dem Mittelwert 23◦ und der
Streuung 4◦ . Wie groß ist die Wahrscheinlichkeit, dass sie zwischen 24◦ und 28◦ liegt?
24 − 23
28 − 23
a = 24◦ −→ α =
= 0, 25 ,
b = 28◦ −→ β =
= 1, 25 ;
4
4
Aus der Tabelle auf Seite 236/237 entnimmt man also
(a)
117
10.3 Die Grenzwertsätze von de Moivre und Laplace
(b)
[µ − 2σ, µ + 2σ] ,
(c)
[µ − 3σ, µ + 3σ] .
Man vergleiche diese Ergebnisse mit den Werten, die die Tschebyschewsche Ungleichung
(Satz 9.9) liefert.
bn,p (xn ) ∼ fn (xn ) =
1
ϕ(zn ) ;
σn
hierbei sei fn die Normalverteilung mit µn = np und σn =
√
npq .
Beweis:
Aufgabe 10.6:
Wir schreiben im folgenden aus Gründen der Übersichtlichkeit x statt xn und z statt zn .
Die Masse m von 800 Männern sei normalverteilt mit dem Mittelwert µ = 71 kg und der
Standardabweichung σ = 6 kg. Wieviele Männer wiegen
Der Beweis erfolgt in mehreren kleinen Schritten.
(a) zwischen 70 und 75 kg?
10.3
(b) über 78 kg?
Die Grenzwertsätze von de Moivre und Laplace
In diesem Abschnitt beweisen wir die Grenzwertsätze von de Moivre und Laplace. Mit
ihnen lassen sich Werte der Binomialverteilung näherungsweise mittels der Normalverteilung zu berechnen. Für den Beweis braucht man eine von Stirling gefundene Formel,
die Fakultäten durch Potenzen approximiert.
Satz 10.6: (Formel von Stirling)
n n
√
n! ∼
2πn
.
e
1. Mit y := n − x erhalten wir
n! x y
n x n−x
p q .
p q
=
bn,p (x) =
x! y!
x
Aus z =
x−np
√
npq
ergibt sich
r
q npq = np 1 + z
;
np
r
p √
y = n − x = nq − z npq = nq 1 − z
.
nq
x
= np + z
√
(1)
Bei beschränktem z folgt x → ∞ und y → ∞ für n → ∞.
2. Wir ersetzen n!, x! und y! in bn,p (x) mit Hilfe der Stirlingschen Formel. Wegen ex+y = en
118
und nn = nx · ny erhält man
n n
√
r
2πn
n np x nq y
1
x x √e
y y p x q y = √
bn,p (x) ∼ √
.
y
2π xy x
2πx
2πy
e
e
6. Durch Einsetzen in (3) ergibt sich
Bemerkung 10.3:
Man kann zeigen, dass die in Satz 10.7 bewiesene Approximation der Binomial- durch die
Normalverteilung gleichmäßig“ ist. Das soll bedeuten:
”
Zu fest gewählten α, β ∈ R mit α < β sei F die Menge aller reellen Folgen (xn ) mit den
−np
Eigenschaften xn ∈ {0, 1, . . . , n} und α ≤ zn = x√n npq
≤ β.
r r q
p
xy
= npq 1 + z
1−z
,
n
np
nq
r
r
q
p
y
x
= 1+z
,
= 1−z
.
np
np
nq
nq
Das setzen wir in (2) ein:
(3)
4. Wir wenden die Taylorentwicklung des natürlichen Logarithmus
ln (1 + t) = t −
t2 t3
+ + höh. Potenzen von t ,
2
3
auf die beiden Potenzen in (3) an und verwenden (1):
r
r
q −x− 21
q 1+z
ln
= − x + 12 ln 1 + z
np
np
r
q
1
1
z2 q
c1
√
z
−
+ 1,5 + höh. Pot. von 1/2
= − np + z npq +
2
np
2 np n
n
z2
c2
1
√
2
= −z npq − z q + q + 1/2 + höh. Pot. von 1/2 ;
2
n
n
r
r
p −y− 21
p = − y + 21 ln 1 − z
1−z
ln
nq
nq
r
p
1
1
z2 p
c3
√
= − nq − z npq +
−z
−
+ 1.5 + höh. Pot. von 1/2
2
nq
2 nq n
n
2
z
1
c
√
4
= z npq − z 2 p + p + 1/2 + höh. Pot. von 1/2 .
2
n
n
5. Durch Addition erhalten wir den Logarithmus des Produkts der beiden letzten Terme aus
(3) (man beachte p + q = 1):
r
r
q −x− 21
p −y− 21
z2
1
c
1+z
ln
1−z
= − + 1/2 + höh. Pot. von 1/2 .
np
nq
2
n
n
Durch Davorschalten“ der Exponentialfunktion auf beiden Seiten erhält man
”
r
r
2
1
1
1 )
− z2 + c + (höh. Pot. von
z2
q −x− 2 p −y− 2
n1/2
n1/2
1−z
= e
∼ e− 2 .
1+z
np
nq
z2
1
1
1
e− 2 = fn (x) =
ϕ(zn ). 2
bn,p (x) ∼ √ √
npq
σ
2π
n
(2)
3. Aus (1) ergibt sich
r
r
1 1
q −x− 21 p −y− 21
1+z
1−z
.
bn,p (x) ∼ √ √
np
nq
2π npq
119
10.3 Die Grenzwertsätze von de Moivre und Laplace
Dann gibt es zu jedem ε > 0 ein N (ε), so dass für alle n ≥ N (ε) und für alle Folgen aus F gilt
bn (xn )
< ε.
−
1
fn (xn )
In der Praxis ist Satz 10.7 kaum eine Hilfe. Man ist z.B. im allgemeinen nicht an der Wahrscheinlichkeit für genau 100 fehlerhafte Stücke in einer Sendung von n = 10000 Stück interessiert, sondern möchte die Wahrscheinlichkeit dafür wissen, dass die Lieferung nicht mehr als
100 unbrauchbare Stücke enthält. Demnach wird nicht nach bn,p (100) gefragt, sondern nach
100
P
der Summe
bn,p (x). Da hilft der integrale Grenzwertsatz weiter.
x=0
Satz 10.8: (Integraler Grenzwertsatz von de Moivre und Laplace)
Die Zufallsgrößen Xn seien binomialverteilt mit P (Xn = x) = bn,p (x), wobei 0 < p < 1 und
q = 1 − p. Dann gilt für alle α ≤ β
1
Xn − np
≤β = √
lim P α < √
n→∞
npq
2π
Beweis:
Es gilt P
Xn − np
α< √
≤β
npq
=
X
Zβ
t2
e− 2 dt = Φ(β) − Φ(α) .
α
bn,p (x).
√
≤β
α< x−np
npq
Da hier Wahrscheinlichkeiten der Zufallsgrößen Xn summiert werden, bei denen die Werte der
(x)
−np
= 1.
beschränkt sind, gilt nach Satz 10.7 lim bfn,p
normalisierten Zufallsgrößen Zn = X√nnpq
n (x)
n→∞
Wegen der Gleichmäßigkeit dieser Approximation (s. Bemerkung 10.3) gilt mit der Abkürzung
√
z = z(x) = x−np
für genügend großes n
npq
b (x)
z2 1
n,p
−
< √ ε
2
√
·e
− 1 < ε , und weiter bn,p (x) −
z2
1
2πnpq
2πnpq
−
√2πnpq e 2
120
z2
wegen e− 2 ≤ 1. Wir erhalten unter Verwendung der Dreiecksungleichung
X
X X
z 2 z2
1
1
√
bn,p (x) −
bn,p (x) − √
· e− 2 = e− 2 x−np
2πnpq
2πnpq
α< √npq ≤β
α< x−np
√
√
≤β
≤β
α< x−np
npq
npq
≤
X
√
≤β
α< x−np
npq
wobei Kn = int(np +
ist.
z2
bn,p (x) − √ 1
· e− 2
2πnpq
√
npq β) − int(np +
Wegen z(x) − z(x − 1) =
X
√
≤β
α< x−np
npq
√
x−np
√
npq
z2
1
e− 2
2πnpq
−
=
x−1−np
√
npq
√
=
X
npq α) ≈
√1
npq
X
√
≤β
α< x−np
npq
√
Rβ
npq (β − α) die Anzahl der Summanden
→ 0 für n → ∞ ist
α
+
√
≤β
α< x−np
npq
Für 0 < p < 1 gilt
lim P
n→∞
10.4
Xn − np
≤z
√
npq
Zβ
α
t2
e− 2
dt
X
2 X
z
1
−
√
≤ e 2 bn,p (x) −
x−np
2πnpq
x−np
α< √npq ≤β
α< √npq ≤β
Zβ
X
2
2
t
z
1
1 −
−
√ e 2 (z(x) − z(x − 1)) − √
e 2 dt +
x−np
2π
2π
α< √npq ≤β
α
δ δ
<
+
= δ,
2 2
was schon die behauptete Aussage darstellt. 2
= lim
n→∞
X
x−np
√
≤z
npq
1
bn,p (x) = √
2π
Zz
t2
e− 2 dt = Φ(z) .
−∞
x
0
1
2
3
4
5
6
7
8
bn,p (x)
1
256
8
256
28
256
56
256
70
256
56
256
28
256
8
256
1
256
t2
z2
1
1
√ e− 2 (z(x) − z(x − 1)) − √
2π
2π
Anwendungen der Normalapproximation
e− 2 dt. Für großes n kann man deshalb folgen-
dermaßen abschätzen:
Zβ
t2
X
−
np
1
−
P α < √
2 dt √
e
≤
β
−
npq
2π
α
X
X
z2
1
√ e− 2 (z(x) − z(x − 1))
= bn,p (x) −
x−np
2π
α< √npq ≤β
√
≤β
α< x−np
npq
X
Mit etwas anderen Methoden10 kann man auf die Beschränktheit der standardisierten Zufallsgröße Z verzichten und erhält direkt die Konvergenz der Verteilungsfunktion der standardisierten Binomialverteilung gegen die Verteilungsfunktion der Normalverteilung:
Wir bezeichnen die Approximation der Binomialverteilung nach den Sätzen 10.7 und 10.8
durch die Normalverteilung als Normalapproximation. Zur Anschauung vergleichen
wir in Abb. 10.3 die Binomialverteilung graphisch mit n = 8 und p = q = 21 mit ihrer Normalapproximation. Die Werte der Binomialverteilung sind
1
√ e− 2 (z(x) − z(x − 1))
2π
√1
2π
Bemerkung 10.4:
ε
εKn
√
= √
,
2πnpq
2πnpq
z2
√
≤β
α< x−np
npq
eine Riemannsche Summe des Integrals
<
121
10.4 Anwendungen der Normalapproximation
80
70
60
50
40
30
20
10
y [
]
0
Normalverteilung
Binomialverteilung
1
2
3
4
5
6
7
8
x
Abb. 10.3
Beispiel 10.2:
56
= 0, 21875 der Binomialverteilung (vgl. Abb.10.3) auf zwei
Wir wollen den Wert b8, 1 (3) = 256
2
verschiedene Arten mit Hilfe der Normalverteilung annähern. Hierzu bestimmen wir zunächst
r
1
1 1 √
√
µ = n · p = 8 · = 4 und σ = npq = 8 · · = 2 ≈ 1, 41 .
2
2 2
Nach Satz 10.7 erhält man
1
3−4
−1
1
1
1
=√ ϕ √
= √ e− 4 ≈ 0, 21970.
b8, 1 (3) ≈ √ ϕ √
2
2 π
2
2
2
2
10
vgl. z.B. M. Fisz, Wahrscheinlichkeitsrechnung und mathematische Statistik, S. 167 f.
122
123
11
Die Abschätzung ist recht genau: Der Fehler beträgt weniger als 0, 5 %.
Man kann aber auch Satz 10.8 anwenden. Hierbei ist es naheliegend, die Wahrscheinlichkeit
P (2, 5 < X ≤ 3, 5) = P (X = 3) = b8, 1 (3) durch die Normalapproximation auszuwerten (man
2
beachte, dass die Binomialverteilung nur ganzzahlige Werte annimmt).
Wir setzten also a = 2, 5 → α =
Aufgabe 10.4 erhält man dann
2,5−4
√
2
≈ −1, 061 und b = 3, 5 → β =
3,5−4
√
2
≈ −0, 354. Mit
Verteilungen von Zufallsvektoren
Häufig betrachtet man mehrere auf der gleichen Menge definierte Zufallsgrößen. Körpergröße
und Gewicht der Personen einer Gruppe sind ein Beispiel dafür. Fasst man zwei oder mehr
Größen zu Paaren oder n–Tupeln zusammen, so erhält man Zufallsvektoren
(X, Y )
bzw.
(X1 , . . . , Xn ) ;
man spricht auch von mehrdimensionalen Zufallsgrössen.
b8, 1 (3) = P (2, 5 < X ≤ 3, 5) ≈ Φ(−0, 354) − Φ(−1, 061) = 1 − Φ(0, 354) − (1 − Φ(1, 061))
Wir wollen uns hier mit Verteilungen von Zufallsvektoren beschäftigen. Die damit zusammenhängenden Begriffe erklären wir zunächst an einem Beispiel.
Hierbei wurden die Werte der Normalverteilung aus den Tabellenwerten interpoliert.
Beispiel 11.1:
Aufgabe 10.7:
Beim Roulettespiel wird stets eine der 37 Zahlen 0, 1, . . . , 36 ausgespielt. Wir betrachten das
Setzen auf die Kolonne K = {1, 2, . . . , 12} bzw. auf die Impair genannte Menge der ungeraden
Zahlen U = {1, 3 . . . , 35}.
2
= Φ(1, 061) − Φ(0, 354) ≈ 0, 85566 − 0, 63833 = 0, 21733 .
Mit Hilfe der Normalapproximation schätze man folgende Werte der Binomialverteilung b20; 1 :
2
b20; 1 (12) ≈ 0, 12013 und
2
12
X
P (8 < X ≤ 12) =
b20; 1 ≈ 0, 16018 + 0, 17620 + 0, 16018 + 0, 12013 = 0, 61669 .
2
x=9
Es handle sich um ein Laplace–Experiment, und die Zufallsgrößen X bzw. Y mögen den
Reingewinn beim Setzen einer Einheit auf K bzw. U angeben.
Beim Eintreten von K erhält man den dreifachen Einsatz ausbezahlt (Reingewinn 2 Einheiten),
hat X die Verteilung
andernfalls verliert man den Einsatz. Wegen P (K) = 12
37
Aufgabe 10.8:
Eine homogene Münze wird 75–mal geworfen. Man bestimme die Wahrscheinlichkeit dafür,
dass die Anzahl mit der Kopf“ fällt, zwischen 40 (einschließlich) und 50 (einschließlich) liegt.
”
Aufgabe 10.9:
Man bestimme die Lösungen der Aufgaben 8.10 und 8.11 mit Hilfe der Normalapproximation.
Eine ideale Münze wird 2n–mal geworfen, und X zählt, wie oft Kopf“ erscheint. Zeigen Sie,
”
dass für großes n für die Wahrscheinlichkeit, genau n Erfolge zu erzielen, gilt
Aufgabe 10.11:
Lösen Sie das Buffonsche Münzwurfproblem (vgl. Aufgabe 7.9) mit Hilfe des Satzes 10.8.
2
12
37
−1
25
37
Beim Spiel auf einfache Chancen gibt es eine Sonderregelung. Wird eine ungerade Zahl ausgespielt, bekommt man den doppelten Einsatz ausbezahlt, erscheint die 0, kann man den halben
Einsatz herausnehmen, in allen anderen Fällen verliert man den Einsatz. Y hat daher die
folgende Verteilung:
Aufgabe 10.10:
1
P (X = n) ≈ √ .
πn
xi
P (X = xi ) = f1 (xi )
yi
1
P (Y = yi ) = f2 (yi )
18
37
− 21
1
37
−1
18
37
Setzen wir jetzt je eine Einheit auf K und auf U , so werden die beiden Gewinne durch den
Zufallsvektor (X, Y ) beschrieben. Treten z.B. die Ereignisse K und U zugleich ein, d.h.
das Ereignis K ∩ U = {1, 3, 5, 7, 9, 11}, dann nimmt X den Wert 2 und Y den Wert 1 an. Wir
schreiben dafür
6
.
P (X = 2, Y = 1) := P (K ∩ U ) =
37
Analog ergibt sich
P (X = 2, Y = − 21 )
P (X = 2, Y = −1)
P (X = −1, Y = 1)
:=
:=
:=
P (X = −1, Y = − 21 ) :=
P (K ∩ {0})
C
P (K ∩ (U \ {0}))
C
P (K ∩ U )
P (K C ∩ {0})
C
C
=
P (∅)
=
P ({2, 4, . . . , 12})
= 0,
=
= P ({13, 15, . . . , 35}) =
=
P ({0})
=
P (X = −1, Y = −1) := P (K ∩ (U \ {0})) = P ({14, 16, . . . , 36}) =
6
37
12
37
1
37
12
37
,
,
,
.
124
11 VERTEILUNGEN VON ZUFALLSVEKTOREN
Wir fassen diese Ergebnisse in einer Tabelle zusammen:
Y = − 12
Y =1
X=2
X = −1
f2 (y)
6
37
12
37
f2 (1) =
Definition 11.2: (gemeinsame Verteilung eines diskreten Zufallsvektors)
Y = −1
1
37
f2 (− 21 )
=
1
37
f2 (−1) =
(X, Y ) sei ein diskreter Zufallsvektor. Dann heißt die Funktion f : R × R → [0, 1] mit
f1 (x)
6
37
12
37
0
18
37
125
11.1 Diskrete zweidimensionale Verteilungen
12
37
25
= 37
f1 (2) =
f1 (−1)
18
37
1
f (x, y) := P (X = x, Y = y) = P ({ω | X(ω) = x ∧ Y (ω) = y})
gemeinsame Verteilung der beiden diskreten Zufallsgrößen X und Y oder auch Wahrscheinlichkeitsfunktion des Zufallsvektors (X, Y ).
Die Summen der Zeilen liefern die Wahrscheinlichkeiten, mit denen die Zufallsgröße X ihre
Werte annimmt; die Summen der Spalten ergeben die Wahrscheinlichkeiten für die Werte von
Y.
Man beachte, dass f (x, y) = 0 ist, sofern x nicht in der Bildmenge {xi } von X oder y nicht in
der Bildmenge {yj } von Y liegt.
Die Tabelle enthält die Werte einer Funktion f : R × R → [0, 1] der beiden Variablen x und y.
Abbildung 11.1 zeigt ihren Graphen als Stabdiagramm.
Satz 11.1:
f(x,y) = P(X=x,Y=y)
x
X und Y seien diskrete Zufallsgrößen, die Werte aus {xi } bzw. {yj } annehmen, und f sei ihre
gemeinsame Verteilung. Dann gilt
XX
f (xi , yj ) = 1.
xi
yj
y
Beweis:
(2,1)
2
Wir betrachten die Ereignisse
(2,-0.5)
1
(2,-1)
1
0
(-1,1)
-0.5
-1
-1
(-1,-0.5)
(-1,-1)
Abb. 11.1
Wir kommen nun zur allgemeinen Begriffsbildung. Dabei werden wir uns weitgehend auf die Betrachtung zweidimensionaler Zufallsvektoren beschränken und auf Verallgemeinerungsmöglichkeiten nur hinweisen.
11.1
Diskrete zweidimensionale Verteilungen
Definition 11.1: (diskreter Zufallsvektor)
Ein Zufallsvektor (X, Y ) : Ω 7→ R × R heißt diskret, wenn X und Y jeweils nur
abzählbar viele Werte xi und yj annehmen.
Ai := X −1 (xi ) = {ω | X(ω) = xi } und Bj := Y −1 (yj ) = {ω | Y (ω) = yj .}
S
Die Ereignisse Ai sind paarweise disjunkt, und es gilt Ai = Ω, denn jedes ω ∈ Ω wird durch X
i
S
auf genau ein xi abgebildet. Entsprechend sind auch die Bj paarweise disjunkt mit Bj = Ω.
j
S S S
Man erhält daher Ω = Ω ∩ Ω =
Ai ∩
Bj = (Ai ∩ Bj ) . Wegen der Disjunktheit der
i
j
i,j
Ereignisse Ai ∩ Bj erhält man nach dem 1. und dem 3. Axiom von Kolmogorow
X
X
X
P (Ai ∩ Bj ) =
1 = P (Ω) =
P (X = xi , Y = yj ) =
f (xi , yj ) . 2
xi ,yj
i,j
xi ,yj
Satz 11.2:
X und Y seien diskrete Zufallsgrößen, die Werte aus {xi } bzw. {yj } annehmen, und f sei ihre
gemeinsame Verteilung.
Dann sind die Wahrscheinlichkeitsverteilung f1 der Zufallsgröße X und die zugehörige Verteilungsfunktion F1 bestimmt durch
X
XX
f1 (x) = P (X = x) =
f (x, yj ) und F1 (x) = P (X ≤ x) =
f (xi , yj ).
yj
Eine entsprechende Aussage gilt für die Zufallsgröße Y .
xi ≤x yj
126
Beweis:
S
S
Mit den in Satz 11.1 verwendeten Bezeichnungen gilt Ai = Ai ∩ ( Bj ) = (Ai ∩ Bj ), und
j
j
diese Mengen sind paarweise disjunkt. Daher gilt für alle xi aus der Wertemenge von X
X
X
X
f (xi , yj ) .
P (X = xi , Y = yj ) =
P (Ai ∩ Bj ) =
f1 (xi ) = P (X = xi ) = P (Ai ) =
Satz 11.3:
Für die Verteilungsfunktion eines diskreten Zufallsvektors (X, Y ) gilt
X
f (xi , yj ) .
F (x, y) = P (X ≤ x, Y ≤ y) =
xi ≤x
yj ≤y
yj
yj
j
127
11.1 Diskrete zweidimensionale Verteilungen
Für alle x ∈ R, die nicht im Wertebereich von X liegen, gilt f1 (x) = 0 und f (x, yj ) = 0 für alle
yj , d.h. die Gleichung gilt in diesem Fall auch.
Beweis:
Die behauptete Darstellung für F1 folgt durch Einsetzen der Darstellung von f1 in
X
X
F1 (x) = P (X ≤ x) =
P (X = xi ) =
f1 (xi ). 2
Die Funktion F ist also eine 2–dimensionale Treppenfunktion über der x–y–Ebene. Die Treppe
steigt zur Höhe 1 auf. Ein qualitatives Bild der Verteilungsfunktion, die man aus der Tabelle auf
Seite 124 entnehmen kann, zeigt Abb. 11.2. In dieser Graphik sind die Verteilungsfunktionen
F1 und F2 der beiden Zufallsgrößen X und Y , die in Richtung der beiden Koordinatenachsen
definiert sind, durch dickere Linien hervorgehoben.
xi ≤x
xi ≤x
Aufgabe. 2
Demnach erhält man die Wahrscheinlichkeitsfunktionen der Zufallsgrößen X und Y direkt aus
der gemeinsamen Verteilung durch geeignete Summenbildung. Trägt man wie auf Seite 124
die Werte P (X = xi , Y = yj ) in eine Matrix ein und addiert über die einzelnen Zeilen bzw.
Spalten, so ergeben sich am Rand die Werte der Wahrscheinlichkeitsfunktionen von X und Y ,
also f1 (xi ) = P (X = xi ) bzw. f2 (yj ) = P (Y = yj ).
F(x,y)
F2
y
Definition 11.3: (Randverteilungen diskreter Zufallsvektoren)
f : R × R → [0, 1] sei die Verteilung des diskreten Zufallsvektors (X, Y ). Dann heißen
X
X
f1 (x) = P (X = x) =
f (x, yj ) bzw. f2 (y) = P (Y = y) =
f (xi , y)
yj
x
F1
y
xi
1
Randverteilung der Zufallsgröße X bzw. der Zufallsgröße Y .
Die zugehörigen Verteilungsfunktionen F1 (x) = P (X ≤ x) bzw. F2 (y) = P (Y ≤ y) heißen
Verteilungsfunktion der Randverteilung von X bzw. von Y .
(2,-1)
-1
0
1
2
(-1,1)
Man beachte: Statt f benutzten wir früher den Buchstaben p.
x
Analog zur Verteilungsfunktion einer eindimensionalen Zufallsgröße legen wir eine Verteilungsfunktion mit zwei Variablen für den Zufallsvektor (X, Y ) fest.
y
(-1,-0.5)
(-1,-1)
3D-Darstellung
Abb. 11.2 a
x
-0,5
-1
Grundriß
Abb. 11.2 b
Definition 11.4: (Verteilungsfunktion eines Zufallsvektors)
Bemerkung 11.1:
Die Funktion F : R × R → [0, 1] mit
Die in diesem Abschnitt eingeführten Bezeichnungen lassen sich leicht für n-dimensionale Zufallsvektoren (X1 , . . . , Xn ) : Ω → Rn verallgemeinern:
F (x, y) := P (X ≤ x, Y ≤ y) := P ({ω ∈ Ω | X(ω) ≤ x ∧ Y (ω) ≤ y})
heißt Verteilungsfunktion des Zufallsvektors (X, Y ).
(X1 , . . . , Xn ) heißt diskret, wenn jede der Zufallsgrößen Xj nur abzählbar viele Werte annimmt.
Auch die Verteilungsfunktion des Zufallsvektors erhält man im diskreten Fall duch Summation:
f (y1 , . . . , yn ) = P (X1 = y1 , . . . , Xn = yn ) heißt gemeinsame Verteilung der Zufallsgrößen
X1 , . . . , Xn oder Wahrscheinlichkeitsverteilung des Zufallsvektors (X1 , . . . , Xn ). Es gilt
128
P
x1
···
P
f (x1 , . . . , xn ) = 1, wobei xj in der Summe alle Werte durchläuft, die die Zufallsgröße
diese (mit noch zu bestimmendem Proportionalitätsfaktor α)
xn
Xj annimmt.
fj (yj ) = P (Xj = yj ) ist die Randverteilung der Zufallsgröße Xj . Man erhält ihre Werte,
indem man die Werte von f (x1 , . . . , yj , . . . , xn ) aufsummiert, wobei yj an der j-ten Stelle festgehalten wird und die anderen Variablen alle angenommenen Werte der jeweils zugehörigen
Zufallsgröße durchlaufen.
F (y1 , . . . , yn ) = P (X1 ≤ y1 , . . . , Xn ≤ yn ) ist die Verteilungsfunktion des Zufallsvektors (X1 , . . . , Xn ) und Fj (yj ) = P (Xj ≤ yj ) die Verteilungsfunktion der Randverteilung von Xj . Man erhält diese Verteilungsfunktionen ebenfalls durch geeignete Summenbildung.
11.2
f (x, y) =
(
αH
(R −
R
p
x2 + y 2 )
für
0
p
x2 + y 2 ≤ R,
sonst.
Wir betrachten jetzt den Kreiskegel von oben. Dabei stechen wir durch achsenparallele, senkrechte Schnitte aus ihm ein Stück heraus und durchsuchen es (siehe Abb. 11.4).
Die Wahrscheinlichkeit, dabei erfolgreich zu sein, bezeichnen wir mit F (x, y). Die Dichte f ist
so festgelegt, dass ihr Integral gerade F liefert:
F (x, y) = P (X ≤ x, Y ≤ y) =
Stetige zweidimensionale Verteilungen
129
11.2 Stetige zweidimensionale Verteilungen
Zx Zy
f (ξ, η) dη dξ .
−∞ −∞
Die Definition 11.4 für die Verteilungsfunktion lässt sich nicht nur auf diskrete, sondern auf alle
Zufallsgrößen anwenden. Man bezeichnet einen Zufallsvektor als stetig, wenn seine Verteilungsfunktion stetig ist. In den meisten Fällen setzt man allerdings die Existenz einer Wahrscheinlichkeitsdichte voraus. Wir motivieren die Dichte eines Zufallsvektors anhand eines geometrischen
Problems.
Beispiel 11.2:
Durch ein Sieb geworfener Kies bildet einen geraden Kreiskegel der Höhe H mit dem Grundkreisradius R (Abb. 11.3). Ist in diesem Haufen eine Stecknadel versteckt, die es zu suchen gilt,
so ist die Wahrscheinlichkeit, fündig zu werden, proportional zum durchsuchten Volumen. Wir
denken uns nun den Kegel in sehr schmale, senkrecht stehende Säulen aufgeteilt. Deren Volumen ist jeweils der Höhe h und der Grundfläche I proportional. Also ist die Wahrscheinlichkeit,
in einer solchen Säule das Objekt zu finden αhI, α Proportionalitätsfaktor.
Allgemein ergibt sich der Begriff der Verteilungsfunktion einer zweidimensionalen Zufallsgröße
(X, Y ) im stetigen Fall genauso wie im diskreten, d.h. Definition 11.4 bezieht sich auf beide
Sachverhalte.
Definition 11.5: (gemeinsame Dichte eines stetigen Zufallsvektors)
Eine zweidimensionale Zufallsgröße (X, Y ) heißt stetig, wenn ihre Verteilungsfunktion
F (x, y) = P (X ≤ x, Y ≤ y) stetig ist.
Existiert eine (bis auf endlich viele stetig differenzierbare Kurven) überall stetige Funktion
f : R × R → R+
0 , so dass für die Verteilungsfunktion F von (X, Y ) gilt
F (x, y) := P (X ≤ x, Y ≤ y) =
Zx Zy
f (ξ, η) dη dξ ,
−∞ −∞
so heißt f Wahrscheinlichkeitsdichte von (X, Y ) oder gemeinsame Dichte der
Zufallsgrößen X und Y .
η
Bemerkung 11.2:
Wir werden hier i.a. davon ausgehen, dass die Verteilung eines stetigen Zufallsvektors durch
eine Dichte bestimmt ist.
H
(x,y)
h
ξ
r
R
(0,0)
Abb. 11.3
Existiert eine Dichte f , so bestimmt sie die Verteilungsfunktion F . Umgekehrt wird aber wegen
f (x, y) =
(x,y)
Abb. 11.4
Dividiert man durch den Flächeninhalt I des Grundelements, so erhält man die Wahrscheinp
(R − r) = H
(R − x2 + y 2 ) ist
lichkeitsdichte an der betreffenden Stelle. Wegen h = H
R
R
∂ 2 F (x, y)
∂ 2 F (x, y)
=
,
∂x ∂y
∂y ∂x
die Dichte eindeutig durch die Verteilungsfunktion bestimmt, sofern diese zweimal stetig partiell
differenzierbar ist.
Analog zum eindimensionalen Fall beweist man den folgenden Satz:
130
x2
x1
Satz 11.4:
Für die Verteilungsfunktion F einer zweidimensionalen Zufallsgröße (X, Y ) gilt
lim F (x, y) =
x→∞
y→∞
Z∞ Z∞
R
f (ξ, η) dη dξ = 1 .
R2
11.5
Der Graph der Dichte beschreibt über der x, y–Ebene eine Fläche. Der Körper zwischen dieser
Fläche und der x, y–Ebene besitzt das Volumen 1. Die Verteilungsfunktion F (x, y) ist das
Volumen des Teilkörpers über der Grundfläche {(ξ, η) | ξ ≤ x, η ≤ y} .
Beispiel 11.2: (Fortsetzung)
f (ξ, η) dη dξ =
−∞ −∞
ZZ
α
ξ 2 +η 2 ≤R2
(X, Y ) bildet
p
H
(R − ξ 2 + η 2 ) dη dξ = α
R
ZZ
h(ξ, η) dη dξ
ξ 2 +η 2 ≤R2
1
1
= α · Volumen des Kegels = α · · Grundfläche · Höhe = α · · πR2 · H .
3
3
Demnach ist α =
f (x, y) =
(
3
πR2 H
3
πR3
und
(R −
R = ] − ∞, x2 ] × ] − ∞, y2 ]
= ]x1 , x2 ] × ]y1 , y2 ] ∪ ] − ∞, x1 ] × ]y1 , y2 ] ∪ ]x1 , x2 ] × ] − ∞, y1 ] ∪ ] − ∞, x1 ] × ] − ∞, y1 ]
= R0 ∪ R1 ∪ R2 ∪ R3
mit den Bezeichnungen der Abbildung.
Die Konstante α in der Dichte bestimmt sich aus
Z∞ Z∞
y1
R3
−∞ −∞
y
2
R0
R1
Beweis: Aufgabe. 2
1 =
131
p
0
x2 + y 2 )
für
p
x2 + y 2 ≤ R ,
sonst.
Der nächste Satz gilt sowohl für stetige als auch für diskrete Zufallsgrößen.
Satz 11.5:
(X, Y ) sei ein auf dem Stichprobenraum Ω definierter zweidimensionaler Zufallsvektor und
F : R × R → [0, 1] seine Verteilungsfunktion. Dann ist die Wahrscheinlichkeit, dass der
Zufallsvektor in das Rechteck R0 :=]x1 , x2 ]×]y1 , y2 ] abbildet
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) := P ({ω | x1 < X(ω) ≤ x2 ∧ y1 < Y (ω) ≤ y2 })
= F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) .
Beweis:
Wir argumentieren geometrisch (vgl. Abb. 11.5). Hierzu zerlegen wir R = ] − ∞, x2 ]×] − ∞, y2 ]
in vier paarweise punktfremde Mengen und wenden die Axiome von Kolomogorow an:
nach R3
mit der
Wahrscheinlichkeit
“
“
“
R2
“
“
“
“
“
“
R1
“
“
“
“
“
“
R
“
“
“
F (x1 , y1 )
ab.
F (x2 , y1 ) − F (x1 , y1 )
F (x1 , y2 ) − F (x1 , y1 )
F (x2 , y2 )
“
“
“
Damit ergibt sich für die gesuchte Wahrscheinlichkeit P (R0 ) als
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = P R \ (R1 ∪ R2 ∪ R3 ) = P (R) − P (R1 ) − P (R2 ) − P (R3 )
= F (x2 , y2 ) − F (x1 , y2 ) − F (x1 , y1 ) − F (x2 , y1 ) − F (x1 , y1 ) − F (x1 , y1 )
= F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) . 2
Satz 11.6:
(X, Y ) sei eine stetige zweidimensionale Zufallsgröße mit der Verteilungsfunktion F und der
gemeinsamen Dichte f . Dann gilt
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) =
Zx2 Zy2
f (x, y) dy dx .
x1 y1
Beweis:
Nach Satz 11.5 ist
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 )
=
=
Rx2 Ry2
−∞ −∞
Rx2 Ry2
x1 −∞
f (x, y) dy dx −
f (x, y) dy dx −
Rx1 Ry2
−∞ −∞
Rx2 Ry1
f (x, y) dy dx −
f (x, y) dy dx =
x1 −∞
Rx2 Ry1
−∞ −∞
Rx2 Ry2
f (x, y) dy dx +
f (x, y) dy dx . 2
x1 y1
Rx1 Ry1
−∞ −∞
f (x, y) dy dx
132
Bemerkung 11.3:
Allgemein lässt sich für beliebige reguläre Gebiete G in der x, y–Ebene zeigen
P (X, Y ) ∈ G =
ZZ
133
(a) Für (x, y) ∈ B1 gilt
F (x, y) =
f (x, y) dy dx .
Zy Zξ
0
G
1
dη dξ +
ξ
0
Zx Zy
y
1
dη dξ =
ξ
0
Zy
dξ +
0
Zx
y
x
dξ = y + y ln .
ξ
y
y
Für (x, y) ∈ B2 erhält man F (x, y) = F (1, y) = y + y ln y1 .
Beispiel 11.3:
Die Zufallsgröße (X, Y ) besitze die Dichte
f (x, y) =
(
1
x
Für (x, y) ∈ B3 erhält man F (x, y) = F (x, x) = x .
für 0 < y < x < 1 ,
0
Für (x, y) ∈ B4 gilt analog F (x, y) = F (1, 1) = 1 .
sonst.
Für (x, y) ∈ B5 ist F (x, y) = 0 .
(a) Wie lautet die Verteilungsfunktion von (X, Y )?
(b) Wie groß ist die Wahrscheinlichkeit dafür, dass die Werte von (X, Y ) innerhalb des achsenparallelen Quadrats mit Seiten der Länge 0.2 liegen, dessen Mittelpunkt in (0.5, 0.3) liegt?
(c) Wie groß ist die mittlere Wahrscheinlichkeitsdichte innerhalb dieses Quadrats?
(b) P (0.4 < X ≤ 0.6 , 0.2 < Y ≤ 0.4) = F (0.6, 0.4) − F (0.6, 0.2) − F (0.4, 0.4) + F (0.4, 0.2)
0,6
0,4
= 0, 4 + 0, 4 ln 0,4
− 0, 2 − 0, 2 ln 0,6
− 0, 4 − 0, 4 ln 0,4
+ 0, 2 + 0, 2 ln 0,4
0,2
0,2
= 0, 4 ln 23 − 0, 2 ln 3 + 0, 2 ln 2 = 0, 2 · ln 32 ≈ 0, 0811 .
(c) Wir dividieren die Wahrscheinlichkeit durch die Fläche 0, 22 :
Wir teilen die Ebene in 5 Bereiche B1 , . . . , B5 ein (s. Abb. 11.6):
B1 = {(x, y) | 0 < x < 1 und 0 < y < x} ,
B3 = {(x, y) | 0 < x < 1 und x ≤ y} ,
2
B5 = R \ (B1 ∪ . . . ∪ B4 ) .
B4 = {(x, y) | 1 ≤ x und 1 ≤ y} ,
η
1
f (x, y) ≈
B2 = {(x, y) | 1 ≤ x und 0 < y < 1} ,
0, 0811
= 2, 0275 .
0, 04
An der Stelle (0.5, 0.3) selbst ist die Dichte f (0.5, 0.3) =
kleiner als 1,5 %.
1
0.5
= 2 . Die Abweichung ist
Auch zu den Verteilungen stetiger Zufallsvektoren existieren Randverteilungen. Sie werden
analog zum diskreten Fall definiert, wobei die Integration an die Stelle der Summation tritt.
B4
B3
Satz 11.7:
Es sei f (x, y) die Dichte einer zweidimensionalen Zufallsgröße (X, Y ). Dann sind
B5
F1 (x) =
B2
B1
Zx Z∞
−∞ −∞
f (ξ, η) dη dξ
und f1 (x) =
Z∞
f (x, η) dη
−∞
die Verteilungsfunktion und die Dichte der Zufallsgröße X. Entsprechendes gilt für Y .
1
ξ
Beweis:
Abb. 11.6
Der erste Teil der Behauptung folgt aus F1 (x) = P (X ≤ x) = P (X ≤ x, Y < ∞). Der zweite
Teil ergibt sich aus f1 (x) = F1′ (x). 2
134
Definition 11.6: (Randverteilungen eines stetigen Zufallsvektors)
f sei die Wahrscheinlichkeitsdichte einer stetigen Zufallsgröße (X, Y ). Dann heißen
f1 (x) =
Z∞
f (x, η) dη
bzw. F1 (x) =
Zx
f1 (ξ) dξ =
Z∞
f (ξ, y) dξ
bzw. F2 (y) =
Zy
f2 (η) dη =
(a) Man bestimme die Konstante k so, dass
(
k(x + y)
für 0 ≤ x, y und x + y ≤ 2
f (x, y) =
0
sonst
die Dichtefunktion einer Zufallsgröße (X, Y ) wird.
f (ξ, η) dη dξ .
(b) Bestimmen Sie die zugehörige Verteilungsfunktion F (x, y).
−∞ −∞
−∞
−∞
Z∞ Zy
Entwickeln Sie eine Verallgemeinerung des Satzes 11.5 für 3 (bzw. n) Dimensionen.
Aufgabe 11.3:
Randverteilung der Zufallsgröße X bzw. Verteilungsfunktion der Randverteilung von X. Entsprechend sind die Randverteilung von Y bzw. die zugehörige
Verteilungsfunktion
f2 (y) =
Aufgabe 11.2:
f (ξ, η) dη dξ
−∞ −∞
−∞
−∞
Zx Z∞
Aufgabe 11.4:
Aufgabe 11.1:
Bestimmen Sie für die Zufallsgröße (X, Y ) aus Beispiel 11.3
(a) die Randverteilungen f1 von X und f2 von Y ,
(b) die Verteilungsfunktionen F1 von X und F2 von Y .
Die Zufallsgröße (X, Y ) besitze die Verteilungsfunktion F mit
(
(1 − e−x )(1 − e−y )
für 0 < x, y
F (x, y) =
0
sonst.
Bestimmen Sie
(a) die Dichte f von (X, Y );
Bemerkung 11.4:
Wie schon im diskreten Fall lassen sich die verwendeten Begriffe auch hier für n-dimensionale
Zufallsvektoren verallgemeinern:
Der Zufallsvektor (X1 , . . . , Xn ) heißt stetig, wenn seine Verteilungsfunktion F (x1 , . . . , xn )
eine stetige Funktion ist.
Gibt es eine – bis auf Nullmengen des Rn – überall stetige Abbildung f : Rn → R+
0 , so dass für
die Verteilungsfunktion gilt
Zx1 Zxn
. . . f (ξ1 , . . . , ξn ) dξn . . . dξ1 ,
F (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) =
−∞
−∞
so heißt f gemeinsame Dichte der Zufallsgrößen X1 , . . . , Xn oder Wahrscheinlichkeitsdichte des Zufallsvektors (X1 , . . . , Xn ). Falls f überall stetig ist, gilt
∂ n F (x1 , . . . , xn )
.
∂x1 . . . ∂xn
Die Randverteilung fj der Zufallsgröße Xj erhält man dann durch vollständige Integration
der Funktion f (x1 , . . . , xn ) über alle bis auf die j-te Variable.
f (x1 , . . . , xn ) =
Die Verteilungsfunktion der Randverteilung von Xj ist entsprechend
Z∞
Z∞ Zxj
Fj (xj ) =
. . . . . . f (ξ1 , . . . , ξj , . . . , ξn ) dξn . . . dξj . . . dξ1 .
−∞
−∞
−∞
(b) P (Y < X) .
135
136
12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN
12
12.2 Erwartungswerte
137
Weitere Eigenschaften von Zufallsvektoren
12.1
Nach Satz 12.2 ist daher bei unabhängigen Zufallsgrößen die gemeinsame Verteilung bzw.
Dichte durch die Verteilungen der einzelnen Zufallsgrößen bereits bestimmt.
Unabhängige Zufallsgrössen
Zwei Ereignisse A, B sind unabhängig, wenn P (A ∩ B) = P (A) · P (B) gilt. Da die Urbilder
von Intervallen unter Zufallsgrößen Ereignisse sind, liegt es nahe, die Unabhängigkeit von Zufallsgrößen über die Unabhängigkeit der Urbilder bestimmter Intervalle zu definieren.
Beweisen Sie Satz 12.2 für diskrete Zufallsgrößen.
Definition 12.1: (Unabhängigkeit zweier Zufallsgrößen)
Bemerkung 12.1:
(X, Y ) sei ein (diskreter oder stetiger) Zufallsvektor mit der Verteilungsfunktion F und den
Randverteilungsfunktionen F1 und F2 .
Für diskrete Zufallsgrössen bedeutet Satz 12.2, dass P (X = x, Y = y) = P (X = x) · P (Y = y)
eine zur Unabhängigkeit äquivalente Bedingung ist.
X und Y heißen unabhängig, wenn für alle x, y ∈ R gilt
Für stetige Zufallsgrößen lässt sich die Voraussetzung, dass f , f1 und f2 überall stetig sind,
folgendermassen abschwächen:
P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y),
d.h. F (x, y) = F1 (x) · F2 (y) .
Aufgabe 12.1:
In der Äquivalenz X, Y unabh. ⇔ f (x, y) = f1 (x)f2 (y)“ gilt ⇐“ auch, wenn die Funktionen
”
”
nicht überall stetig sind und ⇒“ jedenfalls an allen Stetigkeitsstellen von f , f1 und f2 .
”
Satz 12.1:
Beispiel 12.1:
X und Y sind genau dann unabhängig, wenn für alle x1 , x2 , y1 , y2 ∈ R gilt
Die beiden in Beispiel 11.1 behandelten Zufallsgrößen X und Y sind nicht unabhängig. Das
zeigt die Tabelle auf Seite 124. Man erkennt z.B.
12 18
6
6=
·
= f1 (2) · f2 (1) .
f (2, 1) =
37
37 37
P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = P (x1 < X ≤ x2 ) · P (y1 < Y ≤ y2 ) .
Beweis: Aufgabe. 2
Definition 12.2: (Unabhängigkeit von n Zufallsgrößen)
Satz 12.2:
X und Y seien Zufallsgrößen, f ihre gemeinsame Verteilung bzw. Dichte und f1 bzw. f2 die
Randverteilungen. X und Y seien entweder beide diskret oder beide stetig; im zweiten Fall
sollen f , f1 und f2 überall stetige Funktionen sein.
Dann sind X und Y genau dann unabhängig, wenn für alle x, y ∈ R gilt
Die Zufallsgrößen X1 , . . . , Xn mit der gemeinsamen Verteilungsfunktion F und den Verteilungsfunktionen Fj der Randverteilungen von Xj heißen unabhängig, wenn für alle
x1 , . . . , xn ∈ R gilt
F (x1 , . . . xn ) = F1 (x1 ) · . . . · Fn (xn ) .
Zufallsgrößen, die nicht unabhängig sind, heißen abhängig.
f (x, y) = f1 (x) · f2 (y) .
Bemerkung 12.2:
Beweis:
Wir beweisen die Behauptung für den Fall, dass X und Y stetig sind.
X und Y seien unabhängig. Dann gilt wegen Bemerkung 11.2
∂ 2 F1 (x) · F2 (y)
∂ 2 F (x, y)
∂F1 (x) ∂F2 (y)
f (x, y) =
=
=
·
= f1 (x)f2 (y).
∂x ∂y
∂x ∂y
∂x
∂y
Umgekehrt gelte f (x, y) = f1 (x)f2 (y). Dann erhält man
Zy
Zx
Zx Zy
Zx Zy
f1 (ξ) f2 (η) dη dξ =
f1 (ξ) dξ · f2 (η) dη = F1 (x)F2 (y). 2
f (ξ, η) dη dξ =
F (x, y) =
−∞ −∞
−∞ −∞
−∞
−∞
Man kann analog zu Satz 12.2 zeigen, dass bei nur stetigen oder nur diskreten Zufallsgrößen
X1 , . . . , Xn im Wesentlichen die Bedingung
f (x1 , . . . , xn ) = f1 (x1 ) · . . . · fn (xn ) für alle x1 , . . . , xn ∈ R
notwendig und hinreichend für die Unabhängigkeit ist.
12.2
Erwartungswerte
In Beispiel 11.1 betrachteten wir das Roulettespiel, wobei auf die Kolonne K = {1, . . . , 12}
bzw. die Menge der ungeraden Zahlen U = {1, 3, . . . , 35} gesetzt werden sollte.
138
139
Beispiel 12.2:
Der Roulettespieler interessiert sich nach jedem Einzelspiel für die Gewinnsumme, die ihm seine
beiden Einsätze eingebracht haben. Diese wird durch die Zufallsgröße X + Y angegeben. Die
Verteilung dieser Summengröße ist durch die gemeinsame Verteilung der beiden Zufallsgrößen
X und Y bestimmt. Aus der Tabelle auf Seite 124 lassen sich die Werte, die X + Y annehmen
kann und die zugehörigen Wahrscheinlichkeiten entnehmen.
−1
x
2
2
2
y
1
x+y
3
− 21
−1
1
0
P (X = x, Y = y)
6
37
0
6
37
12
37
3
2
1
−1
−1
− 32
−2
− 21
1
37
Beweis: Aufgabe. 2
Aufgabe 12.3:
Die Zufallsgröße (X, Y ) besitze eine konstante Dichte in dem Quadrat ]0, 1] × ]0, 1].
(a) Man bestimme die Funktionen H(z) und h(z) zur Zufallsgröße Z = X + Y .
(b) Man berechne die Randverteilungen von X und Y , deren Mittelwerte und Varianzen.
−1
Aufgabe 12.4:
12
37
In diesem Beispiel ist P (X = x, Y = y) = P (X + Y = x + y), denn jede Summe kann nur
auf eine Art zustande kommen. Für den Erwartungswert der Summengröße X + Y ergibt sich
daher
3
6
12 3 1
12
6
+ ·0+1·
+0·
− ·
−2·
37 2
37
37 2 37
37
36 + 12 − 3 − 48
3
1
1
=
=− =− −
= E(X) + E(Y ) .
74
74
37 74
E(X + Y ) = 3 ·
Der Erwartungswert der Summe X + Y ist hier gleich der Summe der Erwartungswerte von
X und Y . Wir werden in Satz 12.6 beweisen, dass sich hinter dieser Übereinstimmung ein
allgemeines Gesetz verbirgt.
Aufgabe 12.2:
(a) Die unabhängigen Zufallsgrößen X1 und X2 seien Poissonverteilt zu den Parametern µ1
und µ2 . Zeigen Sie, dass die Zufallsgröße Z = X1 + X2 ebenfalls Poissonverteilt ist, und
zwar zum Parameter µ = µ1 + µ2 .
(b) Verallgemeinern Sie die Aussage aus Teil (a) auf eine Summe von n unabhängigen, Poissonverteilten Zufallsgrößen.
Satz 12.4:
Es sei (X, Y ) eine zweidimensionale Zufallsgröße, g : R2 → R eine Funktion und Z = g(X, Y ).
(a) (X, Y ) sei diskret mit der Wahrscheinlichkeitsfunktion
f . Dann existiert der
XX
|g(xi , yj )| f (xi , yj ) existiert, und es gilt
Erwartungswert E(Z) denau dann, wenn
i
2
E(Z) = E g(X, Y ) =
Es sei (X, Y ) ein Zufallsvektor und g : R → R eine stetige Funktion. Zeigen Sie, dass
Z = g(X, Y ) ebenfalls eine Zufallsgröße ist.
Satz 12.3:
Es sei (X, Y ) ein Zufallsvektor und g : R2 → R eine stetige Funktion. Wir betrachten die
Zufallsgröße Z = g(X, Y ).
(a) Sind X und Y diskret mit gemeinsamer Verteilung f und Werten xi und yj , so erhält
man die Wahrscheinlichkeitsfunktion h(z) und die Verteilungsfunktion H(z) von Z durch
X
XX
h(z) = P (Z = z) =
f (xi , yj ) und H(z) = P (Z ≤ z) =
f (xi , yj ) .
g(xi ,yj )=z
g(x,y)≤z
i
j
g(xi , yj ) f (xi , yj ) .
j
(b) (X, Y ) sei stetig mit der gemeinsamen Dichte f , und g sei eine stetige Funktion.
Dann existiert der Erwartungswert E(Z) genau dann, wenn
Z∞ Z∞
|g(x, y)| f (x, y) dy dx existiert, und es gilt
−∞ −∞
E(Z) = E g(X, Y ) =
g(xi ,yj )≤z
(b) Sind X und Y stetig mit gemeinsamer Dichte f , so erhält man die Verteilungsfunktion
H(z) von Z durch
Z Z
H(z) = P (Z ≤ z) =
f (x, y) dx dy .
XX
Z∞ Z∞
g(x, y) f (x, y) dy dx .
−∞ −∞
Beweis:
Der Erwartungswert der Zufallsgröße Z = g(X, Y ) ergibt sich im diskreten Fall als
X X
X X
X
zk · h(zk ) =
zk · f (xi , yj ) =
E(Z) =
g(xi , yj ) f (xi , yj ) ,
zk
zk g(xi ,yj )=zk
zk g(xi ,yj )=zk
140
wobei die zk alle möglichen Werte der Zufallsgröße Z durchlaufen. Diese erhält man aber gerade
als g(xi , yj ) mit allen möglichen Werten xi für X und yj für Y . Daher gilt weiter
X X
XX
g(xi , yj ) f (xi , yj ) .
E(Z) =
g(xi , yj ) f (xi , yj ) =
zk g(xi ,yj )=zk
yj
xi
Zur Ermittlung des Erwartungswertes von Z muss man daher g(x, y)f (x, y) über alle auftretenden x, y summieren.
Bei stetigen Zufallsgrößen tritt wie üblich die Integration an Stelle der Summation. Wir verzichten hier auf den technisch etwas aufwändigeren Beweis. 2
Beispiel 12.3:
Wir bestimmen E(XY ) für die zweidimensionale Zufallsgröße (X, Y ) mit der Dichte
(
6(1 − x − y)
für 0 < y < 1 − x und 0 < x < 1 ,
f (x, y) =
0
sonst.
E(XY ) =
Z1 Z1−ξ
Z1 Z1−ξ
6 ξ (1 − ξ) η − 6 ξ η 2 dη dξ
6 ξ η (1 − ξ − η) dη dξ =
0
=
Z1
0
=
Z1
0
0
0
1−ξ
3 ξ (1 − ξ) η 2 − 2 ξ η 3 dξ =
0
ξ (1 − ξ)3 dξ =
Z1
0
Z1
3
3
3 ξ (1 − ξ) − 2 ξ (1 − ξ) dξ
0
(1 − ξ)3 − (1 − ξ)4 dξ
0
1
−1
1
1
1 1
4
5 =
(1 − ξ) + (1 − ξ) = − =
.
4
5
4 5
20
0
141
Beweis:
(a) Diskreter Fall:
f sei die Wahrscheinlichkeitsfunktion von (X, Y ). Nach Voraussetzung gilt
XX
XX
|h(xi , yj )| f (xi , yj ) < ∞. Das garantiert die
|g(xi , yj )| f (xi , yj ) < ∞ und
i
i
j
j
Existenz des Erwartungswertes von ag+bh. Weiterhin sind alle in der folgenden Rechnung
auftretenden Reihen absolut konvergent und dürfen beliebig umsortiert werden. Man
erhält also
XX
ag(xi , yj ) + bh(xi , yj ) f (xi , yj )
E ag(X, Y ) + bh(X, Y ) =
i X
j
XX
X
bh(xi , yj ) f (xi , yj )
ag(xi , yj ) f (xi , yj ) +
=
i Xj X
iXjX
h(xi , yj ) f (xi , yj )
g(xi , yj ) f (xi , yj ) + b
= a
i
j
i j
= a E g(X, Y ) + b E h(X, Y ) .
(b) Stetiger Fall: Aufgabe. 2
Bemerkung 12.3:
Hängt die Funktion g i nur von einer Variablen X ab, so erhält man aus Satz 12.4
X
X
X
XX
g(xi ) f1 (xi ) bzw.
f (xi , yj ) =
g(xi )
g(xi )f (xi , yj ) =
E g(X) =
i
E g(X) =
g(x) f (x, y) dy dx =
−∞ −∞
i
j
i
j
Z∞ Z∞
Z∞
g(x)
−∞
Z∞
f (x, y) dy dx =
−∞
Z∞
g(x) f1 (x) dx ,
−∞
wobei f1 die Wahrscheinlichkeitsfunktion bzw. Dichte der Randverteilung von X bezüglich
(X, Y ) ist. Dies stimmt also mit der ursprünglichen Definition des Erwartungswertes überein.
Summen (oder allgemeiner Linearkombinationen) oder Produkte von mehreren Zufallsgrößen
treten recht häufig auf. Daher werden wir untersuchen, unter welchen Bedingungen der Mittelwert oder die Varianz von Summen oder Produkten von Zufallsgrößen aus den Mittelwerten
oder Varianzen der einzelnen Größen abgeleitet werden kann.
Insbesondere ergibt sich damit als Spezialfall des Satzes 12.5 E(X +Y ) = E(X)+E(Y ) . Durch
vollständige Induktion folgt weiter
Der folgende Satz befasst sich zunächst mit Linearkombinationen von Zufallsgrößen.
Existieren die Mittelwerte der n Zufallsgrößen X1 , . . . , Xn , so gilt
!
n
n
X
X
E(Xi ) .
E
Xi =
Satz 12.5:
(X, Y ) sei ein Zufallsvektor, und es seien g(X, Y ) und h(X, Y ) Zufallsgrößen, deren Erwartungswerte existieren. Dann gilt für beliebige a, b ∈ R
E ag(X, Y ) + bh(X, Y ) = a E g(X, Y ) + b E h(X, Y ) .
Satz 12.6: (Additionssatz für Mittelwerte)
i=1
i=1
Beispiel 12.4:
Sei p die Erfolgswahrscheinlichkeit bei einem Bernoulli Experiment. Das Experiment werde n–mal durchgeführt, wobei die Zufallsgröße Xi die Anzahl der Erfolge“ bei der i–ten
”
142
Durchführung angibt. Die zugehörige Wahrscheinlichkeitsfunktion hat die Werte fi (0) = 1 − p
und fi (1) = p, und man erhält E(Xi ) = 0 · (1 − p) + 1 · p = p .
Die Gesamtzahl der Erfolge bei n Ausführungen
ist Z = X1 + . . . + Xn . Diese Zufallsgröße hat
P
nach Satz 12.6 den Mittelwert E(Z) =
E(Xi ) = np . Das hatten wir schon früher ermittelt.
i
Aufgabe 12.5:
Die zweidimensionale Zufallsgröße (X, Y ) besitze die Dichte
(
x+y
für 0 ≤ x, y ≤ 1 ,
f (x, y) =
0
sonst.
143
12.3 Kovarianz und Korrelation zweier Zufallsgrößen
Wir bestimmen nun die Varianz einer Summe von Zufallsgrößen.
Satz 12.8:
Die Varianz V (X + Y ) der Summe zweier Zufallsgrößen X und Y , deren Varianzen und
Kovarianz existieren, ist
2
2
σX+Y
= V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ) = σX
+ σY2 + 2σXY .
Beweis:
Für Z = X + Y erhält man zunächst
E(Z 2 ) = E(X 2 + 2XY + Y 2 ) = E(X 2 ) + 2E(XY ) + E(Y 2 ) ,
(a) Berechnen Sie die Verteilungsfunktion F und begründen Sie, dass f eine Dichte ist.
(b) Bestimmen Sie die Randverteilungen f1 bzw. f2 der Zufallsgrößen X bzw. Y und berechnen Sie E(X), E(Y ), V (X), V (Y ).
(c) Zeigen Sie, dass die Zufallsgrößen X und Y nicht unabhängig sind.
(d) Wählen Sie als Dichte der zweidimensionalen stetigen Zufallsgröße (X, Y ) die Funktion
f , gegeben durch f (x, y) = f1 (x) · f2 (y).
Welche Randverteilungen haben dann die Funktionen X und Y ? Sind X und Y abhängig
oder unabhängig? Was fällt Ihnen auf?
E 2 (Z) = E 2 (X + Y ) = E(X) + E(Y )
2
= E 2 (X) + 2E(X) E(Y ) + E 2 (Y ) .
Einsetzen in die Formel V (Z) = E(Z 2 ) − E 2 (Z) ergibt
V (Z) = E(X 2 ) − E 2 (X) + E(Y 2 ) − E 2 (Y ) + 2 E(XY ) − E(X) E(Y )
= V (X) + V (Y ) + 2 Cov(X, Y ) . 2
Bemerkung 12.4:
Allgemeiner erhält man für die Zufallsgrößen X1 , . . . , Xn
12.3
Kovarianz und Korrelation zweier Zufallsgrößen
Die Varianz einer Zufallsgröße X ist V (X) = E (X − E(X))2 = E (X − E(X)) ·(X − E(X)) ,
2
2
und nach Satz 6.5 gilt V (X) = E(X ) − E (X) = E(X · X) − E(X) · E(X).
Wir definieren die Kovarianz zweier Zufallsgrößen durch einen ähnlichen Term.
Definition 12.3: (Kovarianz zweier Zufallsgrößen)
Die Kovarianz zweier Zufallsgrößen X und Y ist, sofern die auftretenden Größen existieren
σXY := Cov(X, Y ) := E X − E(X) · Y − E(Y ) .
Satz 12.7:
Existieren für X und Y die Erwartungswerte sowie die Kovarianz, so gilt
Cov(X, Y ) = E(XY ) − E(X) · E(Y ) .
Beweis: Aufgabe. 2
V
n
X
i=1
n
n
X
X
X
X
Cov(Xi , Xj ) .
Xn =
Cov(Xi , Xj ) =
V (Xi ) +
V (Xn ) + 2
i<j
i=1
i=1
i6=j
Satz 12.9:
Sind die Zufallsgrößen X und Y unabhängig, dann gilt
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0
Beweis:
Wir betrachten exemplarisch den stetigen Fall. Für die gemeinsame Dichte von X und Y gilt
f (x, y) = f1 (x) · f2 (y). Daher erhält man
E(XY ) =
=
R∞ R∞
−∞ −∞
R∞
xy f (x, y) dy dx =
x f1 (x) dx
−∞
R∞
−∞
Aus Satz 12.7 folgt die Behauptung.
R∞ R∞
xy f1 (x)f2 (y) dy dx
−∞ −∞
y f2 (y) dy = E(X) · E(Y ) .
2
144
12.3 Kovarianz und Korrelation zweier Zufallsgrößen
145
eines so gebildeten Stapels von der mittleren Stapelhöhe ist offenbar jeweils 10–mal so groß wie
die Abweichung der einzelnen Plattendicke von µ. Für die Höhe der so gebildeten Stapel ergibt
sich deshalb die Standardabweichung 10σ.
Aus Satz 12.9 und Bemerkung 12.4 folgt unmittelbar
Satz 12.10: (Additionssatz für Varianzen unabhängiger Zufallsgrößen)
Die Varianz einer Summe unabhängiger Zufallsgrößen, deren Varianzen existieren, ist gleich
der Summe dieser Varianzen, d.h.
V (X1 + . . . + Xn ) = V (X1 ) + . . . + V (Xn ) .
Legt man demgegenüber die Platten so übereinander, wie sie aus der Herstellung kommen,
so sind Dicken der einzelnen Platten in einem Stapel voneinander unabhängig. Dicke und
dünne Platten folgen ganz zufällig aufeinander, so dass sich die Abweichungen vom Mittelwert
in gewissen Grenzen gegenseitig aufheben können. Für die Höhe der Zehnerstapel wird man
also geringere Schwankungen erwarten als im ersten Fall. In der Tat beträgt
√ nach dem oben
bewiesenen Satz jetzt die Varianz nur 10σ 2 bzw. die Standardabweichung 10 σ.
Insbesondere gilt V (X + Y ) = V (X) + V (Y ), falls X und Y unabhängig sind.
Beispiel 12.5:
Wir betrachten das n–mal ausgeführte Bernoulliexperiment aus Beispiel 12.4. Jedes Xi hat
die Bilder 0 oder 1, also gilt Xi2 = Xi . Die Varianz von Xi ist daher
V (Xi ) = E(Xi2 ) − E 2 (Xi ) = E(Xi ) − E 2 (Xi ) = p − p2 = p(1 − p) = pq .
Sind die einzelnen Ausführungen des Experiments unabhängig, so ergibt sich als Varianz der
Summe Z = X1 + · · · + Xn , die die Anzahl der Erfolge zählt, die früher schon ermittelte Größe
V (z) = V (X1 + . . . + Xn ) =
n
X
pq = npq .
Satz 12.11: (Multiplikationssatz für Mittelwerte unabh. Zufallsgrößen)
X1 , . . . , Xn seien unabhängig und E(Xi ) existiere für jedes i ∈ {1, . . . , n}. Dann ist
E(X1 · . . . · Xn ) =
n
Y
E(Xi ) .
i=1
Insbesondere gilt E(XY ) = E(X) · E(Y ), falls X und Y unabhängig sind.
i=1
Das Ergebnis von Satz 12.10 ist etwas überraschend, wenn wir es mit Satz 9.6 auf Seite 107
vergleichen. Haben wir nämlich eine Zufallsgröße X mit der Varianz σ 2 und bestimmen die
n
P
Varianz der n–fachen Zufallsgröße nX, die sich auch als Summe nX =
X darstellen lässt,
i=1
so ergibt sich nach Satz 9.6
Bei Produkten ist die Bestimmung des Erwartungswertes im allgemeinen nicht so einfach wie bei
Summen. Allerdings folgt direkt aus Satz 12.9, dass sich die Erwartungswerte unabhängiger
Zufallsgrößen multiplizieren. Durch vollständige Induktion ergibt sich hieraus der Satz für den
Mittelwert des Produkts n unabhängiger Zufallsgrößen:
Der Korrelationskoeffizient zweier Zufallsgrössen wird mit Hilfe von Kovarianz und Varianzen
definiert. Hierbei müssen die Varianzen der Zufallsgrössen 6= 0 sein. Man mache sich klar, dass
eine Zufallsgrösse, deren Varianz verschwindet, nur einen einzigen Wert annehmen kann, also
konstant ist. Daher ist das Nichtverschwinden der Varianz keine wirkliche Einschränkung.
V (nX) = n2 V (X) = n2 σ 2 .
Hat man dagegen n unabhängige Zufallsgrößen Xi , die alle dieselbe Varianz σ 2 haben, so ist
V (X1 + . . . + Xn ) =
n
X
V (Xi ) = nσ 2 .
i=1
Wir klären diesen Sachverhalt mit Hilfe des folgenden Beispiels:
Definition 12.4: Für zwei Zufallsgrößen X und Y mit σX 6= 0 6= σY heißt
ρ(X, Y ) =
σXY
σX σY
Korrelationskoeffizient, sofern dieser Ausdruck existiert.
Verschwindet ρ(X, Y ), so heißen X und Y unkorreliert.
Beispiel 12.6:
Eine Firma stellt Platten her, die in der Dicke um einen bestimmten Mittelwert µ schwanken.
Die Streuung sei σ. Je 10 Platten werden auf einen Stapel gelegt. Die mittlere Stapelhöhe ist
offenbar 10µ.
Man kann nun aber nach zwei Prinzipien stapeln:
Legt man jeweils nur Platten (fast) genau gleicher Dicke auf einen Stapel, so ist die Dicke jeder
weiteren Platte von der Dicke der ersten Platte im Stapel abhängig. Die Abweichung der Höhe
Satz 12.12:
Für den Korrelationskoeffizienten zweier Zufallsgrößen X und Y gilt −1 ≤ ρ(X, Y ) ≤ 1.
146
Beweis:
147
12.4 Der zentrale Grenzwertsatz
Satz 12.13: (Zentraler Grenzwertsatz)
Da Varianzen nicht-negativ sind, gilt für jede Zahl λ ∈ R
0 ≤ V (λX + Y ) =
=
2
λ 2 σX
λσX + ρ(X, Y )σY
Einsetzen von λ = −ρ(X, Y ) ·
2
+ 2λσXY +
σY2
2
λ 2 σX
=
+ 1 − (ρ(X, Y ))2 σY2 .
+ 2λρ(X, Y )σX σY +
σY2
σY
und Division durch σY2 liefert die Behauptung. 2
σX
Bemerkung 12.5:
Unabhängige Zufallsgrößen sind unkorreliert, denn nach Satz 12.9 verschwindet dann die Kovarianz und damit auch der Korrelationskoeffizient. Andererseits kann es durchaus sein, dass
der Korrelationskoeffizient ρ(X, Y ) den Wert 0 hat, obwohl X und Y nicht unabhängig sind.
In Kapitel 18 werden wir eine Interpretation des Korrelationskoeffizienten als Maß für die lineare
Abhängigkeit zwischen X und Y kennenlernen.
Es seien X1 , . . . , Xn unabhängige, identisch verteilte Zufallsgrößen, deren Erwartungswerte
und Varianzen existieren, und Sn∗ die Standardisierung ihrer Summe. Dann gilt
lim P (Sn∗ ≤ z) = Φ(z).
n→∞
Hierbei sei Φ die Verteilungsfunktion der Standard-Normalverteilung.
Um den zentralen Grenzwertsatz anwenden zu können, berechnen wir die Standardisierung
einer Summe unabhängiger, identisch verteilter Zufallsgrößen explizit.
Satz 12.14:
Es seien X1 , . . . , Xn unabhängige, identisch verteilte Zufallsgrößen mit Mittelwert µ und Streun
P
Xi
ung σ. Dann ist die standardisierte Zufallsgröße zu ihrer Summe Sn =
i=1
12.4
Der zentrale Grenzwertsatz
Wir haben gezeigt, dass sich für große Werte von n die Binomialverteilung durch die Normalverteilung approximieren lässt. Nun kann eine mit den Parametern n und p binomialverteilte
Zufallsgröße Sn aufgefasst werden als die Summe Sn = X1 + · · · + Xn von n Zufallsgrößen, die
Erfolg oder Misserfolg von n unabhängig durchgeführten Bernoulli-Experimenten angeben.
Der zentrale Grenzwertsatz besagt im Wesentlichen, dass sich unter gewissen Voraussetzungen die Summe einer großen Anzahl unabhängiger Zufallsgrößen durch die Normalverteilung
approximieren lässt. Um die Voraussetzungen einfach zu halten, betrachten wir hier nur den
Spezialfall, dass n Zufallsgrößen mit der gleichen Verteilung summiert werden.
Sn∗ =
Sn − nµ
√
=
nσ
n
P
i=1
Xi − nµ
√
.
nσ
Beweis:
Nach Satz 12.6 gilt E(Sn ) = nµ. Da X1√
, . . . , Xn unabhängig sind, erhält man nach Satz 12.10
V (Sn ) = nσ 2 , d.h. Sn hat die Streuung nσ.
Einsetzen dieser Größen in Definition 9.7 ergibt die Behauptung. 2
Aufgabe 12.6:
Definition 12.5: (identisch verteilte Zufallsgrößen)
Die Zufallsgrößen X1 , . . . , Xn heißen identisch verteilt, wenn ihre Verteilungsfunktionen
gleich sind, d.h. wenn für alle i, j gilt P (Xi ≤ x) = P (Xj ≤ x).
X1 , . . . X1000 seien unabhängige, identisch verteilte diskrete Zufallsvariable mit den Wahrschein3
.
lichkeitsverteilungen p(1) = 15 , p(3) = 41 , p(6) = 52 , p(11) = 20
Bestimmen Sie mit dem zentralen Grenzwertsatz näherungsweise die Wahrscheinlichkeit dafür,
1000
P
Xi Werte zwischen 4820 und 5180 annimmt.
dass die Zufallsvariable S1000 =
i=1
Offensichtlich haben identisch verteilte Zufallsgrößen den gleichen Erwartungswert und die
gleiche Varianz, sofern diese existieren.
Wir zitieren nun eine einfache Version des zentralen Grenzwertsatzes ohne Beweis:
Aufgabe 12.7:
Die mittlere Lebensdauer (in Stunden) eines sehr empfindlichen Maschinenteils betrage 50 mit
der Varianz 900. Fällt dieses Maschinenteil aus, so wird es sofort ohne Zeitverlust durch ein
Reserveteil ersetzt, dessen Lebensdauer die gleiche Verteilung besitzt.
Wie viele Maschinenteile sind erforderlich, damit mit einer Wahrscheinlichkeit von 0, 95 die
Maschine mindestens 5000 Stunden mit diesen Maschinenteilen läuft?
148
13
13.1
13 HOMOGENE MARKOWKETTEN
Homogene Markowketten
149
13.1 Eigenschaften von Markowketten
Definition 13.1: (Zustandsraum, Verteilung)
Es sei Ω der Stichprobenraum eines Zufallsexperiments.
Eigenschaften von Markowketten
In vielen Prozessen der Natur, Technik oder Wirtschaft sind eintretende Ereignisse von (örtlich
oder zeitlich) vorausgegangenen abhängig. So ist z.B. die heutige Einwohnerzahl eines Ortes
durch die gestrige bedingt.
Der Zustandsraum A sei eine abzählbare Menge. Yi : Ω → A sei eine Abbildung mit der
Eigenschaft, dass die Urbilder Yi−1 (k) für alle k ∈ A Ereignisse sind.
Dann heißt Yi Zustand. Man sagt, das System ist im Zustand Yi oder mit der Wahrscheinlichkeit P (Yi = k) im lokalen Zustand k.
(i)
Markow hat zur Beschreibung und Untersuchung von solchen abhängigen Ereignissen Methoden entwickelt, die man Markowketten nennt. Wir betrachten den einfachsten Typ und
verwenden nur elementare Hilfsmittel.
Die Verteilung von Yi ist die Abbildung a(i) : A → R mit k → ak = P (Yi = k) für k ∈ A.
Beispiel 13.1:
Bemerkung 13.1:
Eine Maus bewegt sich in einem Labyrinth (Abb. 13.1). Zur Zeit i liegt eine bestimmte Wahrscheinlichkeit dafür vor, dass sie sich im Knoten k befindet. Wir sagen, das System sei in einem
bestimmten Zustand Yi .
Häufig ist A = {1, . . . , n} oder A = N; in diesem Fall ist Yi eine Zufallsgröße. Manchmal bieten
sich aber auch andere Bezeichnungen an, weil sie suggestiver sind. Wir werden hier nicht zu
streng sein und Yi immer als Zufallsgröße bezeichnen.
Durchläuft die Maus eine Röhre zum nächsten Knoten, so geht das System vom Zustand Yi
in den Zustand Yi+1 über. Die Aufenthaltswahrscheinlichkeit in den einzelnen Knoten ändert
sich. Jeder Übergang von einem Knoten k zu einem Knoten ℓ wird mit einer gewissen Übergangswahrscheinlichkeit pkℓ vollzogen.
In Beispielen und Herleitungen gehen wir der Einfachheit halber oft von A = {1, 2, 3, . . . } aus.
Falle
2
4
3
Die Übergangswahrscheinlichkeiten könnten hierbei von vorausgegangenen Zuständen abhängen.
Typisch für Markowketten ist aber gerade die Unabhängigkeit der Übergangswahrscheinlichkeiten von vorangegandenen Zuständen.
Definition 13.2: (Markow-Kette, homogene Markowkette)
1
7
Ändert sich der Zustand eines Systems, so wird Ω durch eine andere Zufallsgröße Yj (anders)
in A abgebildet. Wir betrachten hier Folgen von Zuständen, also von Zufallsgrößen (Yi )i∈N0 .
Dabei beobachten wir, dass mit gewissen Wahrscheinlichkeiten pkℓ Übergänge zwischen lokalen
Zuständen k und ℓ stattfinden (die Maus läuft vom Knoten k in den Knoten ℓ).
5
6
Eine Folge von Zuständen (Yi )i∈N0 mit Yi : Ω → A heißt eine Markowkette auf Ω, wenn
die Übergangswahrscheinlichkeiten zwischen aufeinanderfolgenden Zuständen nur von
diesen abhängen und von keinem der vorangegangenen Zustände, d.h.
P (Yi+1 = ℓ / Yi = ki , Yi−1 = ki−1 , . . . , Y0 = k0 ) = P (Yi+1 = ℓ / Yi = ki )
(Markoweigenschaft).
Abb. 13.1
Setzt man beispielsweise die Maus am Anfang in den Knoten 3, so gilt für den Anfangszustand
P (Y0 = 3) = 1 und P (Y0 = k) = 0 für k 6= 3.
Wählt die Maus jede der 6 angrenzenden Röhren mit gleicher Wahrscheinlichkeit, so gilt für
den nachfolgenden Zustand
1
P (Y1 = 2) = P (Y1 = 4) = P (Y1 = 5) = P (Y1 = 6) = ,
6
1
P (Y1 = 3) = , P (Y1 = 1) = P (Y1 = 7) = 0.
3
Eine Markowkette heißt weiterhin homogen, wenn jede Übergangswahrscheinlichkeit nur
von k und ℓ und nicht von i ( der Zeit“) abhängt. Wir setzen dann
”
pkℓ = P (Yi+1 = ℓ / Yi = k)
für
i ∈ N0 .
Beispiel 13.2:
Wir untersuchen die Bedeutung der Begriffe aus Definition 13.2 anhand von Beispiel 13.1.
150
Nimmt man z.B. an, dass die Maus nach genau 20 Übergängen müde ist und sich im 21. Übergang ausruht (d.h. in ihrem Knoten bleibt), dann erhält man eine inhomogene Markowkette,
denn die Übergangswahrscheinlichkeiten hängen von der Zeit“, d.h. von der Nummer des
”
Übergangs ab.
Nimmt man dagegen an, dass die Maus müde wird, wenn sie zum dritten Mal im Knoten 2
ankommt, dann liegt gar keine Markow-Kette vor. In diesem Fall hängen die Überganswahrscheinlichkeiten nämlich von vorangegangenen Zuständen ab.
Wir werden uns hier nur mit homogenen Markowketten beschäftigen.
13.2
Stochastische Matrizen und gerichtete Graphen
Die Übergangswahrscheinlichkeiten zwischen den Zuständen einer homogenen Markowkette lassen sich gut in einer Übergangsmatrix Ü anordnen.


 p11 p12 p13 . . . 


 p21 p22 p23 . . . 





 p
p
p
.
.
.

 31 32 33
Ü = 


 p
p
p
.
.
.

 41 42 43


..
.. . . 
 ..
. 
.
.
 .


Dabei bezieht sich jede Zeile der Matrix auf einen Ausgangszustand und jede Spalte auf einen
Zielzustand. Man beachte, dass die Matrix im abzählbar unendlichen Fall unendlich viele Zeilen
und Spalten besitzt.
Für Übergangsmatrizen gilt der folgende
151
13.2 Stochastische Matrizen und gerichtete Graphen
landet und in den anderen Zuständen jeden angrenzenden Weg mit gleicher Wahrscheinlichkeit
einschlägt. Die zugehörige Übergangsmatrix ist dann








Ü = 






0 1 0 0 0 0 0





1
1
1
1

0
0 6
6
6
6


0 0 0 1 0 0 0 .

0 0 13 31 0 31 0 


0 0 13 0 31 0 13 

0 21 0 0 0 21 0
1
3
0
1
3
2
6
0 0 0
1
3
Definition 13.3: (stochastische Matrix)
Matrizen mit den Eigenschaften (1), (2) aus Satz 13.1 heißen stochastisch.
Zur Veranschaulichung von homogenen Markowprozessen dienen häufig auch gerichtete Graphen. Das sind Systeme von Knoten, die den Zuständen entsprechen, und Verbindungslinien,
die den Übergängen mit nicht-verschwindender Übergangswahrscheinlichkeit entsprechen.
Abbildung 13.2 zeigt den Graphen für die Maus im Labyrinth. Hier soll von jedem Knoten aus
jeder der wegführenden Pfeile mit gleicher Wahrscheinlichkeit gewählt werden. Dass von der
Falle“ 4 kein Pfeil wegführt ist so zu interpretieren, daß p44 = 1 und p4k = 0 für alle k 6= 4 ist.
”
Oft trägt man aber auch neben den Pfeilspitzen die zugehörigen Übergangswahrscheinlichkeiten
ein.
1
2
3
4
7
6
5
Satz 13.1:
pkℓ ≥ 0 für alle k, ℓ ∈ A.
P
(2) Die Summe über jede Zeile ist 1:
pkℓ = 1 für alle k ∈ A.
(1) Kein Koeffizient ist negativ:
ℓ
Beweis:
(1) Die pkℓ sind Wahrscheinlichkeiten.
(2) Jeder Zustand hat mit Sicherheit, also der Wahrscheinlichkeit 1, einen Folgezustand. 2
Beispiel 13.3:
Wir gehen davon aus, dass die Maus im Labyrinth (Abb. 13.1) im Zustand 4 in einer Falle
Abb. 13.2
Jede Versuchsfolge einer Markowkette beginnt mit einem bestimmten Anfangszustand Y0 .
Hierzu wird die sogenannte Anfangsverteilung
a = (a1 , a2 , a3 , . . . ) = P (Y0 = 1), P (Y0 = 2), P (Y0 = 3), . . . ,
also die Verteilung a := a(0) der Zufallsgröße Y0 der Markowkette, vorgegeben.
Man spricht
P
auch vom Anlaufvektor a. Da eine Verteilung vorliegt, gilt ak ≥ 0 und
ak = 1 .
k
152
153
13.3 Die Pfadregeln
Oft wird durch Y0 ganz Ω auf ein bestimmtes Element k ∈ N abgebildet (z.B. wenn die Maus
in den Knoten k des Labyrinths gesetzt wird). Dann gilt aℓ = P (Y0 = ℓ) = 0 für ℓ 6= k und
ak = P (Y0 = k) = 1. Der Anlaufvektor ist also a = (0, . . . , 0, 1, 0, . . . ). Der Anfangszustand
kann aber auch anders festgelegt werden.
Übergangsmatrix:
Beispiel 13.4:
Die beiden Behauptungen folgen leicht mit vollständiger Induktion aus dieser Formel. 2

p11 p12 . . .


(i+1) (i+1)
(i) (i)
(a1 , a2 , . . . ) = (a1 , a2 , . . . )  p21 p22 . . .  ,
..
.. . .
.
.
.

oder kurz
a(i+1) = a(i) · Ü .
Wir bestimmen den Startplatz der Maus in Abb. 13.1 nach dem folgenden Verfahren:
Wir werfen 6 mal eine Münze. Fällt dabei k–mal (0 ≤ k ≤ 6) Zahl, setzen wir die Maus
in den Knoten k + 1. Aus der Tabelle der Binomialverteilung (s. S. 229) ergibt sich nun der
Anlaufvektor
a = ( 0.016 ; 0.094 ; 0.234 ; 0.313 ; 0.234 ; 0.094 ; 0.016 ) .
Bemerkung 13.2:
Man beachte, dass der Anlaufvektor bzw. die Verteilungen stets von links an die Übergangsmatrix multipliziert werden.
Beispiel 13.5:
Der Anlaufvektor beschreibt die Zustandsverteilung zu Beginn der Versuchsreihe. Bei jedem
Versuch ändert sich die Verteilung. Hierdurch entstehen die Verteilungen a(1) , a(2) , . . . mit
(i) (i)
a(i) = (a1 , a2 , . . . ) = (P (Yi = 1), P (Yi = 2), . . . ), die man auchX
als Wahrscheinlichkeits(i)
(i)
ak = 1.
vektoren i-ter Stufe bezeichnet. Auch hier gilt ak ≥ 0 und
k
Die Maus wird in den Knoten 3 des Labyrinths der Abb. 13.1 gesetzt. Wo ist sie mit welcher
Wahrscheinlichkeit nach zwei Durchläufen?
Wir nehmen die Übergangsmatrix Ü aus dem Beispiel 13.3, und multiplizieren sie zweimal mit
dem Anlaufvektor:
1 2 1 1 1
1 1 5 5 2 2 2
a(2) = aÜ 2 = (0, 0, 1, 0, 0, 0, 0)Ü 2 = (0, , , , , , 0)Ü = ( ,
,
,
, ,
,
).
6 6 6 6 6
18 18 18 18 18 18 18
Wir wollen die Verteilung in jeder Stufe berechnen.
13.3
Die Pfadregeln
Satz 13.2:
Es sei (Yi )i∈N0 eine homogene Markowkette. a(i) sei die Verteilung von Yi und Ü = (pkℓ ) die
Übergangsmatrix. Dann gilt
(i)
a
= a · Ü
i
für i ∈ N0
und
(i+j)
a
(j)
=a
· Ü
i
Für Ereignisse A0 , . . . , An eines Wahrscheinlichkeitsraumes gilt der Multiplikationssatz 4.7
P (A0 ∩ . . . ∩ An ) = P (A0 ) · P (A1 /A0 ) · P (A2 /A1 ∩ A0 ) · . . . · P (An /An−1 ∩ . . . ∩ A0 ) .
Für die Ereignisse Ai = Yi−1 (ki ) heißt das unter Berücksichtigung der Markoweigenschaft
für i, j ∈ N0
wobei a = a(0) der Anlaufvektor ist.
P (Yi = k0 , . . . , Yi+r = kr ) = P (Yi = k0 ) · P (Yi+1 = k1 / Yi = k0 )
·P (Yi+2 = k2 / Yi+1 = k1 ) · . . . · P (Yi+r = kr / Yi+r−1 = kr−1 )
Beweis:
Wir verwenden die Formel von der totalen Wahrscheinlichkeit
(Satz 4.8). Dazu betrachten wir
S
Ak := Yi−1 (k). Es ist Ak ∩Aj = ∅ für k 6= j und
Ak = Ω. Daher ist Ak eine Klasseneinteilung.
k∈A
−1
Für Bℓ = Yi+1
(ℓ) ergibt sich durch Einsetzen in die Formel
X
(i+1)
P (Ak ) P (Bℓ /Ak )
aℓ
= P (Yi+1 = ℓ) = P (Bℓ ) =
k∈A
=
X
k∈A
P (Yi = k) · P (Yi+1 = ℓ / Yi = k) =


p1ℓ


(i)
(i) (i)
ak · pkℓ = (a1 , a2 , . . . )  p2ℓ  .
.
..
k∈A
X
Die ℓ–te Komponente des Wahrscheinlichkeitsvektors (i + 1)–ter Stufe ist also das Produkt aus
dem Wahrscheinlichkeitsvektor i–ter Stufe und der ℓ–ten Spalte der Übergangsmatrix. Also
erhält man den ganzen Vektor (i + 1)–ter Stufe als Produkt des Vektors i–ter Stufe mit der
= P (Yi = k0 ) · pk0 k1 · pk1 k2 · . . . · pkr−1 kr .
Die Division durch P (Yi = k0 ) liefert die Wahrscheinlichkeit, ausgehend von k0 über k1 , k2 , . . . , kr−1
nach kr zu gelangen, als bedingte Wahrscheinlichkeit
P (Yi = k0 , . . . , Yi+r = kr / Yi = k0 ) = pk0 k1 · pk1 k2 · . . . · pkr−1 kr .
Jeder der in dem Produkt vorkommenden Übergangswahrscheinlichkeiten entspricht eine Kante
in einem gerichteten Graphen. Eine Folge aneinanderhängender Kanten nennen wir Pfad (s.
Abb. 13.3). Es gilt also
Satz 13.3: (Pfadregel 1)
Die Wahrscheinlichkeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten längs
des Pfades.
154
k2
kr
k2
q k3
q k4
k
-1 k
r
p
k1
p
k0
q k5
kr
k1
p k0 k1
155
13.3 Die Pfadregeln
k r-1
T
q k2
Abb. 13.3
q k1
Definition 13.4: (Rand, absorbierende Markow-Kette)
Ein Zustand r einer Markowkette heißt absorbierend, wenn prr = 1 ist.
Die Gesamtheit der absorbierenden Zustände des Zustandsraumes A heißt Rand R, ihre
Komplementärmenge A \ R heißt Menge der inneren Zustände.
Wir sprechen von einer absorbierenden Markowkette, wenn der Rand R nicht leer ist
und von jedem Zustand aus erreicht werden kann.
Die Maus, die durch ein Röhrensystem (Abb. 13.1) läuft, befindet sich auf einer sogenannten
Irrfahrt, wenn in jedem Knoten der Zufall darüber entscheidet, durch welche Röhre sie sich
weiterbewegt. Markowketten lassen sich als Irrfahrten auf gerichteten Graphen deuten,
deren Knoten den Zustandsraum bilden. Auf dem Rand endet die Irrfahrt.
In der Regel interessiert man sich für zwei Fragestellungen:
• die Wahrscheinlichkeit für die Absorption in einer bestimmten Teilmenge T ⊂ R des
Randes;
• die mittlere Dauer“, also die durchschnittliche Anzahl der durchlaufenen Kanten, bis zur
”
Absorption auf dem Rand.
Abb. 13.4
Die mittlere Dauer einer Irrfahrt lässt sich durch Mittelwertbildung bestimmen:
Xk zähle die Anzahlen der Kanten, aus denen ein Pfad besteht, der vom Zustand k aus zum
Rand R führt. Sei P (Xk = x) = rk,x . Dann ist die mittlere Dauer (Länge) einer Irrfahrt vom
Zustand k aus
X
µk := E(Xk ) =
x · rk,x .
x∈N0
Die Pfadregeln stellen für sich genommen nichts Neues dar. Sie sind nur Anwendungen bekannter Sätze in einem speziellen Problemkreis. Man stößt mit ihnen an Grenzen, wenn ein Graph
mehrere geschlossene Teile (sog. Zyklen) enthält, wodurch die Anzahl der möglichen Pfade unendlich und – vor allem – unübersehbar wird. Das folgende Beispiel lässt sich allerdings noch
gut überblicken:
Beispiel 13.6:
Die Sätze 13.4 und 13.5 liefern erste Hilfsmittel zur Behandlung dieser Fragestellungen. Die
Lösung dieser Probleme wird dann von den Mittelwertregeln ermöglicht.
Sie besitzen 2000 Euro, benötigen aber 10000 Euro. Dazu gehen Sie in eine Spielbank und
setzen in einem fairen Glücksspiel stets so viel von Ihrem Geld, dass Sie im Gewinnfall Ihrem
Ziel möglichst nahe kommen.
Diesem Vorgehen entspricht ein Graph, der mit dem Zustand 2000 beginnt und der den Rand
R = {0, 10000} hat. Die möglichen Gewinne und Verluste führen auf den in Abbildung 13.5
dargestellten Zustandsgraphen.
Die Wahrscheinlichkeit pk , vom Zustand k ausgehend in der Teilmenge T ⊂ R absorbiert
zu werden, ist gleich der Summe der Wahrscheinlichkeiten qk,t aller Pfade, die von k nach T
führen:
X
qk,t .
pk =
6.000
2.000
t
Hierbei sind die Pfade durch den Index t numeriert. Jedes qk,t ist ein Produkt aus den pℓm
längs des betreffenden Pfades (s. Abb 13.4).
Beweis:
Die durch paarweise verschiedene Pfade dargestellten Ereignisse sind durchschnittsfremd. Daher ergibt sich nach dem 3. Kolmogorowschen Axiom die Behauptung. 2
0
10.000
4.000
8.000
Abb. 13.5
Jede Übergangswahrscheinlichkeit 6= 0 hat den Wert pkℓ =
1
2
. Wir ermitteln
156
157
13.4 Die Mittelwertregeln
a) die Gewinnwahrscheinlichkeit p2000 , d.h. die Wahrscheinlichkeit, vom Zustand 2000 ausgehend im Zustand 10000 absorbiert zu werden,
1
11
111
1111
0
00
001
0011
Start
b) die Verteilung der Spieldauer (= Spieleanzahl) X,
c) E(X) und V (X).
Lösung:
a) Wegen des Kreises 2000 → 4000 → 8000 → 6000 → 2000 gibt es unendlich viele Pfade
von 2000 nach 10000.
Sie haben die Längen 3 bzw. 4, vermehrt um eine vielfache Länge des Kreises. Nach der
2. und der 1. Pfadregel erhalten wir deshalb p2000 als unendliche Reihe
p2000 =
=
1
1
1 1
1
1 1 2
1
+ 3+ 4 4+ 3+ 4
+ ...
+
23 24
2
2 2
2
2
24
3
1
3
3
3
16
=
+ 2 + 3 + ... =
.
1
16 16
16
5
1 − 16
b) Für jedes x ∈ N gibt es genau einen Pfad der Länge x von 2000 nach R = {0, 10000}.
Die Pfade der Längen 3 und 4 mod 4 enden in 10000, die der Längen 1 und 2 mod 4 in
0. Die Verteilung der Pfadlängen ist
r2000,x : = P (X = x) =
c)
1
,
2x
σ 2 = V (X) = E(X 2 ) − E 2 (X) =
Dabei wurde
∞
P
n=0
nq n =
q
(1−q)2
und
∞
P
n=0
x=1
b) wie lange das Spiel im Mittel dauert.
Mit den Pfadregeln ist das Problem höchstens noch für Virtuosen zu bearbeiten. Vor der
Lösung stellen wir deshalb schlagkräftigere Werkzeuge bereit.
Satz 13.6: (Mittelwertregel 1)
Dann gilt:
x2 ·
n2 q n =
a) mit welcher Wahrscheinlichkeit man gewinnt, wenn man auf die Folge 0011 setzt ;
pk sei die Wahrscheinlichkeit, bei einer in k startenden Irrfahrt auf T absorbiert zu werden.
pkℓ seien die Übergangswahrscheinlichkeiten vom k–ten in den ℓ–ten Zustand, k, ℓ ∈ A .
1
x· x = 2
x · qx =
µ = E(X) =
2
x=1
x=1
∞
X
Die Ecken sind hierbei durch die geworfenen Teilergebnisse gekennzeichnet (Zustandsraum A).
Uns interessiert,
A sei der Zustandsraum einer absorbierenden Markowkette, R der Rand und T eine nichtleere Teilmenge des Randes.
x = 1, 2, . . . .
∞
X
∞
X
Abb. 13.6
1
− 4 = 6 − 4 = 2.
2x
q(1+q)
(1−q)3
für |q| < 1 benutzt.
pk
Aufgabe 13.1:
 X

pkℓ pℓ für k ∈ A\R



 ℓ∈A
=
1
für k ∈ T





0
für k ∈ R \T .
Berechnen Sie den Gewinnerwartungswert in Beispiel 13.6 und interpretieren Sie das Ergebnis.
Beweis:
13.4
Die Mittelwertregeln
Beispiel 13.7:
Eine Laplace–Münze, deren Seiten mit 0 bzw. 1 beschriftet sind, wird so lange geworfen bis
1
. Auf
eine der Folgen 1111 oder 0011 aufgetreten ist. Beide haben die Wahrscheinlichkeit 16
welche Folge würden Sie setzen?
Das Spiel entspricht einer bei Start beginnenden Irrfahrt auf dem in Abbildung 13.6 dargestellten Graphen.
Die beiden letzten Teile der Aussage über pk sind klar.
Für k ∈ A \ R führt jeder Pfad von k nach T zunächst zu einem Knoten ℓ ∈ A (s. Abb. 13.7;
ℓ kann auch in R liegen). Die Wahrscheinlichkeit, von k direkt über ℓ nach T zu gelangen ist
nach der 1. Pfadregel pkℓ pℓ . Aus der 2. Pfadregel folgt dann die Behauptung. 2
Bemerkung 13.3:
P
Die Formel pk =
pkℓ pℓ gilt auch für k ∈ R, denn dann ist pkk = 1 und pkℓ = 0 für ℓ 6= k.
ℓ∈A
Insgesamt gilt also p = Ü · p, wobei p = (p1 , p2 , . . . )T der Vektor ist, dessen k-te Komponente
158
1
p k1
p k2
2
p k3
p kn
3
.....
k
p1
Satz 13.8: (Mittelwertregel 2)
p2
p3
159
A = {1, 2, . . . , n} sei der Zustandsraum einer absorbierenden Markowkette mit n Zuständen,
und R sei der Rand. Die pkl seien die Übergangswahrscheinlichkeiten zwischen den Zuständen.
T
pn
n
Dann ist die mittlere Dauer µk bis zur Absorption im Rand R vom Zustand k aus
P
(
1 + pkℓ µℓ für k ∈ A\R ,
ℓ
µk =
0
für k ∈ R.
Abb. 13.7
Beweis:
die Wahrscheinlichkeit angibt, von k aus in T ⊂ R absorbiert zu werden.
Man beachte, dass p hierbei von rechts an die Übergangsmatrix Ü multipliziert wird.
Aufgabe 13.2:
Man übersetze die Aussage von Satz 13.6 in ein Eigenwertproblem.
Für k ∈ R ist die Behauptung klar.
Die Zufallsgröße Xk gebe die Länge eines Pfades von k bis zur Absorption in R an, und es sei
rk,x = P (Xk = x) die Wahrscheinlichkeit
P für die Absorption nach genau x Schritten. Da nach
rk,x = 1. Die mittlere Dauer bis zur Absorption von k
Satz 13.7 alle Pfade in R enden, gilt
x
P
aus ist dann µk := E(Xk ) =
x rk,x .
x
Bevor wir uns mit der mittleren Dauer eines Markowprozesses befassen, untersuchen wir,
unter welchen Bedingungen ein solcher Prozess mit Sicherheit enden muss.
Satz 13.7:
Jeder Prozess in einer absorbierenden Markowkette mit endlich vielen Zuständen
endet mit der Wahrscheinlichkeit 1 in einer Absorptionsstelle.
Für k 6∈ R werden die Längen der Pfade von k direkt über ℓ nach R von der Zufallsgröße
(1 + Xℓ ) angegeben, denn diese Pfade sind um einen Zustandsübergang länger als die von k
ausgehenden. Nach dem Multiplikationssatz (Satz 4.7) ist pkℓ rℓ,y die Wahrscheinlichkeit für die
Absorption nach y + 1 Schritten, wobei der 1. Schritt nach ℓ führt.
P
Der Satz 4.8 von der totalen Wahrscheinlichkeit ergibt dann rk,x =
pkℓ rℓ,x−1 für x ≥ 1. Für
µk =
Beweis:
ℓ
x = 0 ist rk,x = 0, da k 6∈ R. Man erhält also
X
x
x rk,x =
X
x≥1
x
X
ℓ
pkℓ rℓ,x−1 =
X
pkℓ
X
y
ℓ
(1 + y)rℓ,y =
X
pkℓ (1 + µℓ ) = 1 +
ℓ
Beim Start eines Teilchens in k ∈ A, sei dk die minimale Schrittzahl bis zur Absorption und rk
die Wahrscheinlichkeit, dass das Teilchen nach dk Schritten absorbiert ist. Dann ist dk < ∞
und rk > 0.
Hierbei wurde im letzten Schritt die Formel
Da A endlich ist gilt r := min {rk | k ∈ A} > 0 und d := max {dk | k ∈ A} < ∞.
Beispiel 13.7: (Lösung)
Die Wahrscheinlichkeit qk,m , dass ein im Zustand k startendes Teilchen nach m Schritten noch
nicht absorbiert ist, fällt mit m monoton (warum?). Daher gilt
Mit Hilfe der Mittelwertregeln kann Beispiel 13.7 leicht bearbeitet werden.
P
X
pkℓ µℓ .
ℓ
pkℓ = 1 verwendet. 2
ℓ
a) Da es sich um Münzwürfe handelt, sind alle Übergangswahrscheinlichkeiten 12 .
qk,d ≤ qk,dk = 1 − rk ≤ 1 − r < 1 .
Wir suchen die Gewinnwahrscheinlichkeit pStart , d.h. die Wahrscheinlichkeit in 0011 absorbiert zu werden, wenn man in der Ecke Start startet.
Für jedes Teilchen – unabhängig vom Startzustand – erfüllt also die Wahrscheinlichkeit qed , nach
d Schritten noch nicht absorbiert zu sein, qed ≤ 1 − r. Daher ist jedes Teilchen nach nd Schritten
mit einer Wahrscheinlichkeit qe(nd) ≤ (1 − r)n nicht absorbiert. Es gilt aber
Nach der 1. Mittelwertregel erhält man jede Absorptionswahrscheinlichkeit als Linearkombination der Absorptionswahrscheinlichkeiten der Nachfolgezustände mit den Übergangswahrscheinlichkeiten als Koeffizienten.
Die Wahrscheinlichkeit, nie absorbiert zu werden, ist demnach 0. 2
Aus Abbildung 13.7 lässt sich damit folgendes Gleichungssystem ablesen:
0 ≤ lim qe(nd) ≤ lim (1 − r)
n→∞
n→∞
n
= 0.
160
pStart
=
1
1
p0 + p1
2
2
p0
=
1
1
p1 + p00
2
2
p1
=
1
1
p0 + p11
2
2
p00
=
1
1
p00 + p001
2
2
p11
=
1
1
p0 + p111
2
2
p001
=
1
1
p0 + p0011
2
2
p111
=
1
1
p0 + p1111
2
2
p0011
= 1
p1111
= 0
161
4
5
Leim
1
2
3
Abb. 13.8
Löst man dieses System, so findet man insbesondere
4
p0 = ,
5
7
p1 =
10
und
pStart
b) Die Aussagen der Mittelwertregel 2 lauten hier
µ0
1
1
= 1 + µ1 + µ00
2
2
µ00
= 1+
µ001
= 1+
µ0011
= 0
Hinweis: Duch geschicktes Ausnutzen von Symmetrien kommt man mit nur 4 Zuständen aus.
Aufgabe 13.5:
Im Arbeitszimmer von Prof. Leßner herrscht totale Unordnung. Hunderte von Skriptblättern,
Entwürfen und Büchern liegen vermischt auf dem Schreibtisch und dem Fußboden herum.
Wenn er davon etwas braucht, sucht er es in einer Folge von Runden.
1
1
µ0 + µ1
2
2
= 1+
Abb. 13.9
sie in jeder Ecke eine der angrenzenden Kanten mit gleicher Wahrscheinlichkeit. Eine Kante ist
mit Leim bestrichen. Nach wie vielen durchlaufenen Kanten klebt die Raupe im Durchschnitt
fest, wenn sie in der mit Start gekennzeichneten Ecke startet?
3
= .
4
Also wird mit der Wahrscheinlichkeit 43 die Ziffernfolge 0011 vor der Ziffernfolge 1111
geworfen, obwohl die beiden Zifferfolgen gleich wahrscheinlich sind.
µStart
Start
µ1
1
1
= 1 + µ0 + µ11
2
2
1
1
µ00 + µ001
2
2
µ11
= 1+
1
1
µ0 + µ111
2
2
1
µ0 + 12 µ0011
2
µ111
= 1+
1
µ0 + 12 µ1111
2
µ1111
= 0
= 10, 8 und µ1 = 56
= 11, 2. Also hat das Spiel im
Daraus bestimmt man µ0 = 54
5
5
1
1
Durchschnitt µStart = 1 + µ0 + µ1 = 12 Übergänge.
2
2
Aufgabe 13.3:
In dem in Abb. 13.8 dargestellten Labyrinth bewegt sich eine stochastische“ Maus. Wieviele
”
Kanten durchläuft sie im Durchschnitt, ehe sie in der Falle“ 5 gefangen wird, wenn man sie in
”
1 aussetzt und sie in jeder erreichten Ecke“ jede Kante zur Fortbewegung mit gleicher Chance
”
wählt (auch die, über die sie eintraf)?
Aufgabe 13.4:
Eine stochastische“ Raupe irrt entlang der Kanten eines Würfels (s. Abb. 13.9). Dabei wählt
”
In der ersten Runde ist seine Erfolgswahrscheinlichkeit p1 = 21 . Von Runde zu Runde wird er
müder: Hat er in der (i − 1)–ten Runde keinen Erfolg, ist seine Erfolgsaussicht in der i–ten
1
.
Runde nur noch pi = i+1
Die Zufallsgröße X gebe die Nummer der Runde an, in der der Erfolg eintritt. Ermitteln Sie:
a)
P (X = n) ,
b)
P (X ≤ n) ,
c) P (X > n) ,
d) E(X) .
Hinweis: Benutzen Sie einen Graphen mit unendlich vielen Suchzuständen 1, 2, 3, . . . und einem
Erfolgszustand E. Deuten Sie die Erfolgswahrscheinlichkeiten als Übergangswahrscheinlichkeiten von den Suchzuständen in den Erfolgszustand. Starten Sie im Suchzustand 1.
Aufgabe 13.6:
Die Herren A und B verwickeln Sie in ein Pistolentriell. A besitze die Trefferwahrscheinlichkeit
9
, die von B sei 45 . Sie sind C und haben nur eine Trefferwahrscheinlichkeit von 21 .
10
Die Reihenfolge wurde folgendermaßen ausgelost: A beginnt, anschließend schießt B, dann
C. In dieser Reihenfolge wird dann zyklisch geschossen (wobei Tote naturgemäß übersprungen
werden) bis nur noch einer am Leben ist. Jeder darf sich jedesmal sein Ziel frei wählen. Ein
Ehrenkodex verbietet allen Teilnehmern, einfach in die Luft zu schießen.
a) Wie groß sind Ihre Überlebenschancen, wenn Sie und die beiden anderen sich optimal
verhalten?
b) Mit welcher Wahrscheinlichkeit überleben A bzw. B?
162
163
13.5 Irrfahrten auf einer Geraden
Hinweis: Machen Sie sich klar, wie jeder der Schussberechtigten sich optimalerweise verhalten
muss. Was passiert insbesondere, nachdem er getroffen hat?
Rechtfertigen Sie dann den Graphen in Abbildung 13.10 für den Verlauf des Triells (in dem
Graphen wurden als Bezeichnung der Zustände die noch lebenden Personen in der Reihenfolge
ihrer Schussberechtigung angegeben).
1/2
CA
1/10
AC
10
9/
2
4/5
CAB
CB
1/2
BC
Abb. 13.12
Eine ideale Münze mit den Seiten 1 und 0 wird geworfen, bis zum ersten Mal das Wort
1/2
C
1/2
1/
BCA
1/5
1/10
Abb. 13.11
A
1/2
1/5
ABC
(Start)
9/10
4/5
B
Abb. 13.10
Aufgabe 13.7:
Eine asymmetrische Münze mit der Wahrscheinlichkeit p für das Ereignis {1} und der Wahrscheinlichkeit q = 1 − p für das Gegenereignis {0} wird solange geworfen, bis ein symmetrisches
Wort aus mehr als einem Zeichen entstanden ist (z.B. 00 oder 101). Wie lange muss man im
Mittel auf ein solches Palindrom warten?
Hinweis: Wir konstruieren einen Graphen mit 3 Zuständen: Bei Start geht es los, wir werfen
0 oder 1 und dann solange wiederholt das Gegenereignis, bis wieder die 0 bzw. die 1 erscheint
(Absorption).
Aufgabe 13.8:
Bestimmen Sie die Wahrscheinlichkeit dafür, dass bei wiederholtem Würfeln die 1 und die 3
vor 2 oder 4 oder 6 fällt.
Hinweis: x1 sei die erste der beiden Zahlen 1, 3, die erscheint, x2 die zweite. Start reproduziert
sich, wenn 5 fällt; x1 , wenn 5 oder x1 fällt. Gesucht ist die Wahrscheinlichkeit pStart für
Absorption in der Teilmenge T = {x2 } des Randes.
a) 111,
b) 001
erscheint. Bestimmen Sie die mittlere Wartezeit für jedes dieser Wörter.
13.5
Irrfahrten auf einer Geraden
Durch Werfen einer Münze wird ein Teilchen auf der Menge {0, 1, . . . , n} gesteuert. Es startet
in x, und mit jedem Wurf springt es mit der Wahrscheinlichkeit p eine Nummer höher oder mit
der Wahrscheinlichkeit q = 1 − p eine Nummer tiefer. R = {0, n} sei der absorbierende Rand.
Symmetrische Irrfahrt:
Die Münze ist symmetrisch, also p = q = 12 .
1. Wie groß ist die Wahrscheinlichkeit, von x ∈ {0, 1, . . . , n} aus in 0 absorbiert zu werden?
Ist px diese Wahrscheinlichkeit, so liefert Mittelwertregel 1
px =
1
1
· px−1 + · px+1
2
2
für
x 6∈ {0, n}
und
p0 = 1 ,
pn = 0 .
Dies bedeutet, dass je 3 benachbarte Werte der Wahrscheinlichkeitsfunktion auf einer Geraden
liegen (1. Gleichung), welche durch (0, 1) und (n, 0) geht (s. Abb. 13.13).
px
1
Aufgabe 13.9:
Zwei stochastische Käfer starten gleichzeitig eine Irrfahrt auf dem Graphen in Abb. 13.11. Wie
groß ist die mittlere Laufzeit bis zur Begegnung?
Aufgabe 13.10:
Zwei stochastische Käfer starten auf den gegenüberliegenden Ecken eines regulären 8–Ecks (s.
Abb. 13.12). Man bestimme die mittlere Laufzeit bis zur Begegnung.
Aufgabe 13.11:
px-1
px
px+1
0
1 2
x-1 x x+1
Abb. 13.13
n
x
164
165
13.5 Irrfahrten auf einer Geraden
Die Gleichung dieser Geraden lautet daher px = 1 − nx . Ein in x befindliches Teilchen wird
demnach mit der Wahrscheinlichkeit px = 1 − nx in 0 absorbiert.
Beweis:
2. Wieviele Schritte macht das Teilchen im Durchschnitt bis zur Absorption auf dem Rand
R = {0, n} ?
Überraschend an dieser Aussage ist ihre Unabhängigkeit von x. Für x = 1 z.B. gilt µ1 = ∞,
obwohl die Hälfte aller Wege von 1 aus nur die Länge 1 hat!
Mit n → ∞ folgt aus Satz 13.9 px → 1 und µx → ∞ für jedes feste x. 2
µx sei die mittlere Schrittzahl von x aus. Damit liefert Mittelwertregel 2
µx = 1 +
1
1
µx−1 + µx+1
2
2
für x 6∈ {0, n}
und
µ0 = µn = 0 .
Hieraus ergibt sich die Rekursionsformel
µx+1 = 2µx − µx−1 − 2 .
Auf A = {0, 1, . . . , n} finde eine symmetrische Irrfahrt statt. n sei absorbierend, 0 reflektierend
(d.h. die Übergangswahrscheinlichkeit von 0 nach 1 ist p01 = 1).
a) Bestimmen Sie die mittlere Schrittzahl µx von x aus bis zur Absorption.
Wir verwenden µ0 = 0 und lassen µ1 zunächst offen. So finden wir nacheinander
µ2 = 2µ1 − 2 = 2 (µ1 − 1),
Aufgabe 13.13:
µ3 = 3µ1 − 6 = 3 (µ1 − 2),
µ4 = 4µ1 − 12 = 4 (µ1 − 3) .
Wir vermuten µx = x(µ1 − x + 1), was sich durch vollständige Induktion beweisen lässt.
b) Zeigen Sie, dass px = 1 die Wahrscheinlichkeit dafür ist, dass ein in x startender Irrfahrer
in n absorbiert wird.
Setzt man x = n, so erhält man 0 = µn = n (µ1 −n+1). Daher ist µ1 = n−1 und µx = x(n−x) .
Asymmetrische Irrfahrt
Insgesamt haben wir also bewiesen
Der Zustandsraum des Irrfahrers sei wieder {0, . . . , n} mit dem Rand {0, n}. Die steuernde
Münze sei asymmetrisch, d.h. die Übergangswahrscheinlichkeiten p von x nach x + 1 seien
verschieden von den Übergangswahrscheinlichkeiten q = 1 − p von x nach x − 1.
Satz 13.9:
Bei einer symmetrischen Irrfahrt auf der Menge {0, . . . , n} gilt für die Wahrscheinlichkeit px ,
von x aus in 0 absorbiert zu werden und für die mittlere Dauer µx bis zur Absorption in 0
oder n
px = 1 −
x
n
und µx = x(n − x).
Wie groß ist die Wahrscheinlichkeit px , von x aus in 0 absorbiert zu werden?
Nach der ersten Mittelwertregel ist
px = ppx+1 + qpx−1
x 6∈ {0, n}
für
und
p0 = 1 ,
pn = 0 .
Wegen p + q = 1 ergibt sich aus der ersten Gleichung
Aufgabe 13.12:
X hat x Euro und Y hat y Euro. In jedem Spiel setzen sie je 1 Euro und werfen eine ideale
Münze. Sie spielen so lange bis einer von ihnen ruiniert ist.
a) Mit welcher Wahrscheinlichkeit wird X ruiniert?
b) Wie lange dauert das Spiel im Mittel?
c) Beantworten Sie a) und b) konkret für x = 1 und y = 10000.
Satz 13.10:
Bei einer symmetrischen Irrfahrt auf dem Zustandsraum N0 mit absorbierendem Rand {0}
ist für jedes x > 0 die Absorptionswahrscheinlichkeit px = 1 und die Länge des mittleren
Absorptionsweges µx = ∞.
ppx + qpx = ppx+1 + qpx−1 ,
also
Das führt rekursiv auf px+1 − px =
px+1 − px =
q x
(p1
p
q
(px − px−1 ) .
p
− p0 ) für x ∈ {0, . . . , n − 1} .
Addiert man die ersten x dieser Gleichungen, so kommt man auf
px − p0 = (p1 − p0 )
x−1 X
1 − ( pq )x
q j
.
= (p1 − p0 )
p
1 − pq
j=0
Wegen p0 = 1 und pn = 0 erhält man durch Einsetzen von x = n
−1 = (p1 − p0 )
1 − ( pq )n
1−
q
p
,
woraus folgt p1 − p0 = −
Durch Einsetzen und Grenzwertbildung ergibt sich der
q
p
q n.
(p)
1−
1−
166
167
14
Satz 13.11:
Bei einer asymmetrischen Irrfahrt auf {0, . . . , n} ist die Wahrscheinlichkeit px , von x aus in 0
absorbiert zu werden
q x
q x
q n
1−
−
p
p
p
px = 1 −
q n =
q n .
1−
1−
p
p
Bei einer asymmetrischen Irrfahrt auf N0 mit {0} als Rand gilt für die Wahrscheinlichkeit px
von x aus in 0 absorbiert zu werden,

für q > p
 1
px =
q x

für q < p .
p
In Abbildung 13.14 ist px für die Irrfahrt auf N0 veranschaulicht.
px
px = 1
1
0
1
x
(p > q)
x
Aufgabe 13.14:
Zeigen Sie, dass bei der asymmetrischen Irrfahrt auf {0, 1, . . . , n} für die mittlere Schrittzahl
µx von x bis zur Absorption gilt
1 − ( pq )x
n
x
−
·
,
q − p q − p 1 − ( pq )n
p 6= q .
Berechnen Sie lim µx sowohl für q > p als auch für q < p.
n→∞
Die Objekte müssen der Grundgesamtheit zufällig und unabhängig entnommen werden.
Die Zufälligkeit wird durch ein Losverfahren erreicht, das Chancengleichheit garantiert, die Unabhängigkeit dadurch, dass die Lose einzeln gezogen und vor der nächsten Ziehung zurückgelegt
werden.
Stichproben müssen repräsentativ sein. Bei Meinungsumfragen ist also der Anteil der verschiedenen Bevölkerungsgruppen zu berücksichtigen, bei Handwerksprodukten die im Tagesverlauf zunehmende Ermüdung der Handwerker und die damit abnehmende Qualität der Arbeit.
(a) Welche Aussage kann man damit über die mittlere Betriebsdauer µ der Gesamtheit der
produzierten Staubsauger diesen Typs machen?
x
Abb. 13.14
µx =
Stichproben werden aus Grundgesamtheiten entnommen. Beispiele dafür sind etwa die
Menge der Staubsauger einer Wochenproduktion oder die Menge der im Jahre 1989 in Deutschland Geborenen.
Beispiel 14.1:
p1
px
Statistische Verfahren wendet man an, wenn eine Untersuchung grundsätzlich an sehr vielen
Einzelobjekten durchgeführt werden müsste, es aber zu aufwendig, zu teuer oder gar unmöglich
ist, alle Objekte der Menge in die Untersuchung einzubeziehen. Man nimmt dann stattdessen
Stichproben.
Eine Elektrofirma möchte die mittlere Lebensdauer in Betriebstunden der von ihr produzierten
Staubsauger ermitteln. Da man nicht alle Geräte prüfen kann, wird die Untersuchung an einer
zufällig aus einer Wochenproduktion ausgewählten Stichprobe von 10 Stück durchgeführt. Es
ergibt sich eine mittlere Betriebsdauer von x Stunden.
(p < q)
q
px =
p
Stichproben und ihre Parameter
(b) Welche Mindestbetriebsdauer kann die Firma garantieren, wenn sie ihrer Prognose zu
95% sicher sein will?
Definition 14.1: (Stichprobe, Stichprobenwert)
Werden n (nicht notwendig paarweise verschiedene) Werte x1 , . . . , xn eines Merkmals X
beobachtet, dann nennt man das n–Tupel x = (x1 , . . . , xn ) Stichprobe vom Umfang n.
Jedes xi heißt ein Stichprobenwert.
Beispiel 14.2:
Das Durchschnittsgewicht eines ausgewachsenen Löwen soll ermittelt werden. Dazu kann man
nicht sämtliche Löwen in der Wüste einsammeln und wiegen, sondern muss sich mit einer
Stichprobe begnügen. 25 Löwen werden gewogen. Ihre Massen in kg seien
191, 195, 200, 181, 209, 172, 196, 192, 201, 229,
183, 194, 199, 206, 203, 219, 192, 186, 213, 197,
211, 188, 195, 205, 197.
168
169
14 STICHPROBEN UND IHRE PARAMETER
Da kaum zwei Löwen die gleiche Masse haben, ist diese Stichprobe wenig aufschlussreich. Wir
ordnen sie daher nach der Größe und nehmen eine Klasseneinteilung vor, wobei wir die Grenzen
der Klassen so legen, dass auf sie kein Wert fällt. Wir nehmen die Grenzen 169, 5 − 179, 5 −
189, 5 − 199, 5 − 209, 5 − 219, 5 − 229, 5. Das ergibt sechs Klassen:
172
181,
191,
200,
211,
229
183,
192,
201,
213,
Bemerkung 14.1:
Bei einer durch eine Klasseneinteilung gegebenen Stichprobe nimmt man als Spannweite die
Differenz aus dem rechten Randwert der obersten Klasse und dem linken Randwert der untersten Klasse.
Histogramme geben grobe Hinweise auf die zugrundeliegenden Verteilungen. Deren Parameter wie Mittelwert, Varianz, Erfolgswahrscheinlichkeit u.a. lassen sich aber ohne
weiteres nicht entnehmen. Näherungswerte für die Parameter müssen direkt aus den Messwerten gewonnen werden.
186, 188
192, 194, 195, 195, 196, 197, 197, 199
203, 205, 206, 209
219
Trägt man die Anzahl der Werte jeder Klasse wie in Abbildung 14.1 als Histogramm über der
Klasse auf, so erkennt man besser, wie die Massen verteilt sind.
h
Wir wollen einige Grundbegriffe einführen. Dabei benutzen wir Bezeichnungen, die der Wahrscheinlichkeitsrechnung entlehnt sind. Die zugehörigen Begriffe sind hier aber in der Regel von
jenen verschieden. Die Namensgleichheit wird lediglich durch das gleiche Konstruktionsprinzip
nahegelegt.
Definition 14.3: (Mittelwert einer Stichprobe)
Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt die Zahl
10
n
x=
8
1X
xi
n i=1
Mittelwert der Stichprobe (x1 , x2 , . . . , xn ).
6
4
Defintion 14.4: (absolute und relative Häufigkeit)
2
169,5
179,5
189,5
199,5
209,5
219,5
229,5
G [Kp]
Abb. 14.1
Infolge der Verschiedenheit der Werte mussten wir hier einzelnen Klassen absolute Häufigkeiten
zuordnen. Vielfach liegt diese Klassenbildung von vornherein in der Natur der Sache. Verteilt
man etwa bei einer Prüfungsarbeit die Noten 1, 2, . . . , 6, so ist jede Note mit einer gewissen
Häufigkeit vertreten.
Tritt unter n Beobachtungen eines Merkmals X ein Wert xi k–mal auf, so heißt die Anzahl
h(xi ) = k absolute Häufigkeit und die Zahl r(xi ) = n1 h(xi ) relative Häufigkeit von
xi .
Bemerkung 14.2:
Sind genau die m Werte x1 , . . . , xm paarweise voneinander verschieden, also xm+1 , . . . , xn Wiederholungen von einigen dieser Werte, so lässt sich der Mittelwert unter Verwendung von Definition 14.4 auch wie folgt berechnen:
m
Definition 14.2: (Spannweite)
Ist x(1) der kleinste und ist x(n) der größte Wert einer Stichprobe vom Umfang n, dann heißt
x(n) − x(1) die Spannweite der Stichprobe.
Beispiel 14.3:
Die Spannweite unserer Löwensstichprobe beträgt 229 kg − 172 kg = 57 kg. Kann man daraus
schließen, wie schwer ein Löwe schlechthin werden kann?
x=
m
X
1X
xi h(xi ) =
xi r(xi ) .
n i=1
i=1
Die Mittelwertbildung für eine Stichprobe ist demnach eine Kopie des aus der Wahrscheinlichkeitsrechnung bekannten Verfahrens, wobei die relativen Häufigkeiten die Rolle der Wahrscheinlichkeiten einnehmen.
Zur Berechnung der Varianz einer Stichprobe x1 , . . . , xn kann man entsprechend vorgehen:
170
171
Definition 14.5: (empirische Varianz)
Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt die Zahl
!
!
!
n
n
n
X
1X
1
1X 2
2
2
2
2
2
xi − nx
(xi − x) =
x −x =
s =
n i=1
n i=1 i
n
i=1
die empirische Varianz der Stichprobe.
Ergibt sich z.B. bei einem Leistungstest für zwei Schulklassen derselbe Mittelwert so kann es
für die Beurteilung der angewandten Lehrmethoden entscheidend sein, ob auch die Varianzen
annähernd übereinstimmen oder nicht. Die Maßzahlen x und s2 liefern hier genauere Information als nur die graphischen Darstellungen.
Sind die Mittelwerte für die zu vergleichenden Gruppen von Testpersonen verschieden, so lassen
sich die Streuungen nicht unmittelbar vergleichen, denn zu im Mittel höheren Werten gehört
in der Regel auch eine (absolut) größere Streuung.
Aufgabe 14.1:
Bemerkung 14.3:
Sind unter n genau m paarweise verschiedene Werte x1 , . . . , xm , so kann man die empirische
Varianz auch folgendermaßen ausrechnen:
s2 =
1
n
m
X
i=1
(xi − x)2 h(xi ) =
m
X
i=1
(xi − x)2 r(xi ) .
Häufig wird die Varianz für Stichproben nicht durch die empirischen Varianz sondern durch
die sogenannte Stichprobenvarianz festgelegt. Vorsicht: Diese beiden Bezeichnungen werden in der Literatur nicht einheitlich verwendet!
Definition 14.6: (Stichprobenvarianz)
Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt
!
!
n
n
X
1 X
1
2
2
2
2
se =
xi − nx
(xi − x) =
n − 1 i=1
n−1
i=1
Stichprobenvarianz der Stichprobe.
Ist x = (x1 , . . . , xn ) eine Stichprobe mit dem Mittelwert x, dann hat ihre lineare Transformation
ax + b := (ax1 + b, . . . , axn + b) den Mittelwert
ax + b = ax + b .
Aufgabe 14.2:
x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) seien zwei Stichproben gleichen Umfangs. Dann gilt für
den Mittelwert ihrer Linearkombination ax + by := (ax1 + by1 , . . . , axn + byn )
ax + by = ax + by .
Häufig ist der Mittelwert keine geeignete Größe zur Beurteilung der Mehrheit einer gewissen
Gesamtheit.
Beispiel 14.4:
Zum Spaß springe ich mit 3 Freunden über eine Hochsprunglatte. Ich schaffe 1,20 m, meine
Freunde 1,23, 1,28 und 1,31. Ein langer Fremder tritt hinzu und fragt höflich, ob er mitspringen
dürfe. Wir sind einverstanden. Er überquert die Latte bei 2,47 m. Wie sich später herausstellt,
ist es Valentin Hüpverrenkow, der Weltrekordler.
Wir kommen nach Hause und erzählen, dass wir im Durchschnitt
x=
Bemerkung 14.4:
n
s2 und se2 hängen durch die Beziehung se2 = n−1
s2 voneinander ab. Der Unterschied ist bei
größeren Stichproben praktisch ohne Bedeutung. Er ist jedoch von großem theoretischen Interesse:
Stichproben werden genommen, um von ihnen auf die Grundgesamtheit zu schließen. Mit der
Varianz der Stichprobe möchte man ein Maß für die Varianz der Grundgesamtheit gewinnen.
Merkwürdigerweise ist nun se2 dafür in gewissem Sinne ein besserer Näherungswert als s2 . Deshalb ist die Stichprobenvarianz in der Statistik der gängigere Begriff. Wir kommen in Satz
16.5 darauf zurück.
Die Bedeutung der definierten Maßzahlen entspricht ganz dem, was bei Wahrscheinlichkeitsverteilungen ausgeführt wurde: Der Mittelwert charakterisiert grob die Lage der Werte, die
Varianz kennzeichnet ihre Streuung um das Mittel.
1, 20 + 1, 23 + 1, 28 + 1, 31 + 2, 47
m ≈ 1, 50m
5
geschafft haben, und unsere Leistung klingt ganz passabel.
Unsere Auskunft spiegelt aber ganz und gar nicht das Leistungsvermögen der Mehrheit. Denn
wir allein sprangen im Schnitt nur etwa 1, 25 m. Der Mittelwert x ist sehr empfindlich gegen
sogenannte Ausreißer“.
”
Weniger empfindlich auf Außreißerwerte reagiert der Zentralwert oder empirischen Median einer Stichprobe.
172
173
Definition 14.7: (empirischer Median)
x(1) ≤ x(2) ≤ . . . ≤ x(n) seien die der Größe nach geordneten Werte eine Stichprobe vom
Umfang n. Dann heißt der Wert

, falls n ungerade ist,
x( n+1 )

2
x
e=
x( n2 ) + x( n2 +1)

, falls n gerade ist,
2
Zentralwert oder empirischer Median der Stichprobe.
Demnach ist der Zentralwert bei ungeradem n der Wert in der Mitte und bei geradem n das
arithmetische Mittel der beiden in der Mitte stehenden Werte.
Beispiel 14.5:
Der Zentralwert im Beispiel 14.4 ist x
e = x( 5+1 ) = x(3) = 1.28 m. Er beschreibt die Leistung der
2
Allgemeinheit besser als der Mittelwert x.
In unserem Beispiel liegen Mittelwert und Median weit auseinander. Diese Art der Abweichung
der beiden Werte voneinander enthält eine Aussage über die Asymmetrie einer Verteilung und
ist damit ein einfaches Interpretationsinstrument einer gegebenen Häufigkeitsverteilung.
Der Mittelwert einer Stichprobe besitzt eine entsprechende Minimaleigenschaft wie der Mittelwert einer Zufallsgröße (vgl. hierzu Satz 9.5; der Beweis verläuft genauso wie dort).
Der Beweis dieser Aussage ist nicht schwer, aber recht umständlich, weswegen wir darauf verzichten.
Aufgabe 14.3:
Im Rahmen einer Lebensmittelkontrolle wurde das Füllgewicht von 40 Dosen Kaffee–Extrakt
einer bestimmten Sorte auf 0,5 g genau ermittelt. Dabei ergaben sich folgende Rohwerte:
40, 5
45, 0
42, 0
43, 0
49, 0
43, 0
47, 0
48, 0
46, 0
46, 5
44, 5
50, 0
49, 0
42, 5
43, 5
48, 0
49, 0
46, 0
53, 0
40, 0
47, 0
55, 0
47, 0
48, 5
42, 0
47, 5
45, 5
48, 0
47, 0
47, 0
52, 0
48, 0
46, 5
45, 5
45, 0
51, 0
44, 0
50, 0
43, 0
45, 0
Man erstelle für die Klasseneinteilung mit der Klassenbreite 2 und Klassengrenzen bei 39, 5 −
41, 5 usw. eine Strichliste und zeichne das Histogramm (Werte, die auf eine Klassengrenze fallen,
kann man beiden Klassen je zur Hälfte zurechnen).
Man berechne für die Werte den Mittelwert x und die empirische Varianz s2 , und dabei x einmal
exakt aufgrund der gegebenen Rohwerte und einmal unter Verwendung der durchgeführten
Klasseneinteilung.
Warum kann die Abweichung, die sich ergibt, hier nur gering sein?
Aufgabe 14.4:
Gegeben sei folgende Häufigkeitsverteilung:
Satz 14.1:
(x1 , . . . , xn ) sei eine Stichprobe und x ihr Mittelwert. Dann gilt für jede Zahl c 6= x
n
X
i=1
(xi − x)2 <
n
X
i=1
(xi − c)2 .
Zur Festlegung eines Streumaßes einer Stichprobe um eine Zahl c ∈ R kann man statt der
Summe der Abstandsquadrate (xi − c)2 wie in Satz 14.1 auch die Summe der Abstandsbeträge
|xi −c| betrachten. Bezüglich dieses Streumaßes hat dann der Median eine Minimaleigenschaft.
Satz 14.2:
Bei jeder Stichprobe x1 , . . . , xn ist die Summe der Abstände vom empirischen Median x
e
minimal:
n
X
i=1
|xi − x
e| ≤
n
X
i=1
|xi − c|
für alle c ∈ R.
Klassenmitten
0
1
2
3
4
5 6
7
8
9
10 11 12
13 14 15
Klassenhäufigkeit (absolut)
0
8
12 15
6
4 2
5
3
4
2
0
Man berechne den Mittelwert x und den Median x
e.
0
1
2
0
174
15
15.1
15 EINFACHE ENTSCHEIDUNGSVERFAHREN
Einfache Entscheidungsverfahren
175
15.1 Das Testen einer Hypothese
Die Nullhypothese H0 :
Mäuse verhalten sich (innerhalb gewisser Grenzen) gegen Wärme bzw. Kälte indifferent; die
Wahrscheinlichkeit für die Wahl jedes der temperierten Zweige ist also p = 21 .
Das Testen einer Hypothese
Eine typische Problemstellung der Statistik ist das Testen von Hypothesen.
Im Gegensatz zur Wahrscheinlichkeitstheorie, in der aus gegebenen Wahrscheinlichkeiten auf
andere Wahrscheinlichkeiten geschlossen wird, geht es darum, aus Einzelergebnissen eines wiederholten Experiments auf die Wahrscheinlichkeiten zu schließen, die den Ausfall des Experiments bestimmen. Im einfachsten Fall ist zu prüfen, ob die tatsächliche Wahrscheinlichkeit p
einer vermuteten Wahrscheinlichkeit p0 gleich ist.
Wir wollen zunächst den sehr bedeutend klingenden Ausdruck Testen einer Hypothese“
”
an einigen einfachen Beispielen erläutern.
Beispiel 15.1:
Wir prüfen, ob eine Münze ideal“ ist, d.h. ob gleich oft Kopf“ oder Zahl“ fällt. Wir nehmen
”
”
”
uns dazu vor, sie 5–mal zu werfen und die Hypothese, die Münze sei ideal, genau dann zu
verwerfen, wenn 5–mal Kopf“ oder 5–mal Zahl“ fällt.
”
”
Das ist ein Test der genannten Hypothese. Die Absprache, die Idealannahme zu verwerfen,
wenn man als Ergebnis entweder 5–mal Kopf oder 5–mal Zahl erhält, heißt die Entscheidungsvorschrift für den Test.
Die Gegenhypothese H1 :
Mäuse unterscheiden zwischen Laufgängen unterschiedlicher Temperatur, d.h. es ist p >
p < 21 .
Wir testen also p = 12 gegen p 6= 21 . Da p sowohl größer als auch kleiner als p =
sprechen wir von einem zweiseitigen Test.
Beispiel 15.3:
oder
sein kann,
Wir legen folgende Vorgehensweise fest: Die Nullhypothese wird verworfen, wenn das Ergebnis signifikant auf dem 5%–Niveau ist. Was heißt das?
Die Anzahl der möglichen Erfolge liegt zwischen 0 und n (im Beispiel ist n = 20). Besonders
große oder auffällig kleine Werte von X lassen uns an der Nullhypothese zweifeln.
Wir zerlegen daher Die Menge [0, n] in zwei Teilmengen K = [0, a]∪[n−b, n] und K C =]a, n−b[
(vgl. Abb. 15.2). Dabei enthält K die Erfolgsanzahlen mit den geringsten Wahrscheinlichkeiten und K C die mit den größten, wobei zur Berechnung der Wahrscheinlichkeiten der in der
Nullhypothese angegebene Parameter p = 12 verwendet wird.
Insgesamt sollen die Wahrscheinlichkeiten für die Erfolgsanzahlen aus K einen vorgegebenen
Wert α, das sogenannte Signifikanzniveau, nicht überschreiten.
K
Beispiel 15.2:
Eine Urne enthält zwei Kugeln. Wir vermuten, dass beide rot sind. Um diese Hypothese
zu testen, ziehen wir eine Kugel. Ist sie rot, erkennen wir die Hypothese an. Die Entscheidungsvorschrift lautet: Nimm an, dass beide Kugeln rot sind, wenn die gezogene Kugel rot
ist.
1
2
1
2
K
c
[
]
[
]
0
a
n-b
n
R
Abb. 15.2
Wir fassen dies zunächst zu einer Definition zusammen:
Wir lassen 20 Mäuse durch einen Gang mit Zimmertemperatur (20◦ ) laufen, der sich in zwei
Gänge verzweigt, von denen der eine auf 0◦ gekühlt, der andere auf 40◦ erwärmt ist (s. Abb.
15.1). X sei die Zufallsgröße, die die Anzahl derjenigen Mäuse zählt, die den wärmeren Gang
vorziehen.
40°
20°
?
Definition 15.1: (Kritisches Gebiet, Signifikanzniveau)
Setzt man fest, die Nullhypothese H0 zu verwerfen, wenn das Ergebnis X des Zufallsexperiments in K liegt, so nennt man K kritisches Gebiet.
Zu einem kritischen Gebiet K gehört das Signifikanzniveau oder die Irrtumswahrscheinlichkeit α, wenn gilt P (X ∈ K) = P ({ω | X(ω) ∈ K}) ≤ α.
Ein Ergebnis ω ∈ Ω heißt signifikant auf dem α–Niveau, wenn es durch X in ein
kritisches Gebiet K zum Signifikanzniveau α abgebildet wird, d.h. X(ω) = x ∈ K.
0°
Abb. 15.1
Unser Experiment hat folgenden Ausfall: 01000110000110010000. Dabei bezeichnen die Einsen
die von X gezählten Erfolge. Wir stellen zwei Hypothesen einander gegenüber.
Im vorliegenden Fall ist laut Nullhypothese p = 21 . Wegen der Symmetrie des Problems wählt
man daher a = b. Dann besteht K = [0, a] ∪ [n − a, n] aus zwei gleich wahrscheinlichen,
symmetrisch zu K C gelegenen Mengen.
Wir berechnen das zum 5%–Niveau gehörige kritische Gebiet. Dazu entnehmen wir nach stei-
176
gender Größe geordnet der Tabelle für die Binomialfunktion solange Werte bn,p (x) = b20;0.5 (x),
wie die Summe 0, 05 = 5% nicht übersteigt (die genauen Zahlen stehen in Abb. 15.3). Die
zugehörigen x-Werte bilden das kritische Gebiet.
x
b(x)
0
20
1
19
2
18
3
17
4
16
5
15
6
14
0, 00000
0, 00000
0, 00002
0, 00002
0, 00018
0, 00018
0, 00109
0, 00109
0, 00462
0, 00462
0, 01479
0, 01479
0, 03696
0, 03696
P
177
15.1 Das Testen einer Hypothese
geburten sind, d.h. H0 ist p = 21“.
”
Die Gegenhypothese lautet: Knabengeburten sind häufiger. H1 ist also p > 12 “. Es handelt
”
sich hier um einen einseitigen Test.
1984 verteilten sich die ersten 2000 Einzelgeburten in einem westeuropäischen Gebiet wie folgt:
b(x)
Knaben: 1059,
Mädchen: 941.
Ist die Abweichung vom Erwartungswert signifikant auf dem 1%–Niveau?
Wir stellen das zum 1%–Niveau gehörige kritische Gebiet K fest. Hier suchen wir eine möglichst
große Menge K = [a, n] mit P (X ∈ K) ≤ 0, 01, denn da wir p = 21 gegen p > 12 einseitig
testen, unterstützen nur große Werte von X die Gegenhypothese.
0,00004
0, 00040
Zum Signifikanzniveau α = 0, 01 bestimmen wir also ein möglichst kleines a so, dass
0, 00258
P (X ≥ a) ≤ 0, 01 d.h.
0, 01182
0, 04140
< 5%
Abb. 15.3
Das kritische Gebiet ist die Menge K = [0, 5] ∪ [15, 20].
Im Beispiel 15.3 wurden 6 Erfolge gezählt. Da 6 nicht im kritischen Gebiet liegt, können wir
trotz des augenscheinlich“ einseitigen Ausfalls die Nullhypothese H0 nicht auf dem 5%-Niveau
”
verwerfen. 6 Erfolge sind nicht einmal signifikant auf dem 10%–Niveau, und daher, wie man in
der Statistik sagt, auch nicht verdächtig.
x=a
Einsetzen von n = 2000 und p =
a = 1053. Daher ist
K = [1053, 2000]
0, 11532 > 11%
n
X
und
bn,p (x) ≤ 0, 01 .
1
2
führt nach Anwendung der Normalapproximation auf
1059 ∈ K .
Der gefundene Wert ist signifikant auf dem 1%–Niveau, und die Nullhypothese, dass Knabenund Mädchengeburten gleich wahrscheinlich sind, kann mit 99%iger statistischer Sicherheit
verworfen werden.
Aufgabe 15.1:
Man prüfe, wie die Entscheidung im Beispiel 15.4 ausgefallen wäre, wenn man nur die ersten
200 Einzelgeburten untersucht hätte und dabei folgende Verteilung entdeckt hätte:
Knaben: 106
Mädchen: 94 .
Bemerkung 15.1:
Richtet man sich nach der Entscheidungsregel, Nullhypothesen zu verwerfen, wenn das Ergebnis
eines Zufallsexperiments signifikant auf dem 5%–Niveau ist, so begeht man im Mittel nur in 5%
1
aller Fälle oder mit der Wahrscheinlichkeit 20
den Fehler, die Nullhypothese H0 zu verwerfen,
obwohl sie wahr ist. Diesen Fehler nennt man α–Fehler oder Fehler erster Art.
In der Praxis sind Signifikanzniveaus von 5%, 1% und 0, 5% üblich, je nachdem, wie sicher man
sein möchte, wenn man eine Nullhypothese verwirft. Je niedriger das Niveau, desto sicherer ist
die Entscheidung. Die Zahl 1 − α heißt statistische Sicherheit.
Man begeht natürlich auch einen Fehler, wenn man die Nullhypothese nicht verwirft, obwohl
sie falsch ist. Dies nennt man einen Fehler 2. Art oder einen β–Fehler.
Beispiel 15.4:
Werden im Durchschnitt mehr Knaben als Mädchen geboren, oder ist der öfter festgestellte
Überhang an Knabengeburten auf statistische Streuung der Gleichverteilung zurückführbar?
Wir stellen die Nullhypothese auf, dass Knabengeburten genau so wahrscheinlich wie Mädchen-
Nehmen wir das Ergebnis von Aufgabe 15.1 vorweg: Obwohl die Zahlenverhältnisse praktisch
dieselben sind, lässt sich die Nullhypothese nicht einmal auf dem 10%–Niveau verwerfen.
Eine Stichprobe von 200 Geburten ist einfach zu klein, um eine sichere Aussage zu machen,
wenn sich p0 und p nur wenig unterscheiden. Für sichere Aussagen müssen Stichproben hinreichend groß sein. Andererseits begrenzen die anfallenden Kosten die Größe nach oben.
Aufgabe 15.2:
Einem gerade geschlüpften Küken werden dreieckige und runde falsche Körner aus Papier vorgeworfen. Ist das Erkennen der runden Kornform“ angeboren?
”
Das Küken pickt 18 Körner“ auf, davon 13 runde.
”
Welchen Schluss können wir daraus ziehen? Testen wir einseitig oder zweiseitig?
Aufgabe 15.3:
Dieselben Ratten werden zweimal nacheinander durch einen Gang geschickt, der sich in zwei
178
Gänge gabelt. Wir wollen prüfen, ob Ratten neugierig sind. Als Erfolg zählen wir, wenn sich
eine Ratte beim zweiten Mal an der Gabelung anders entscheidet.
a) Bei 10 Ratten zählen wir 8 Erfolge.
b) Bei 15 Ratten zählen wir 12 Erfolge.
Welchen Schluss können wir jeweils ziehen?
15.2
Der exakte Test von Fisher
Bei großen Zahlen kann man oft ohne Rechnung erkennen, dass Versuchsergebnisse signifikant
voneinander abweichen.
179
15.2 Der exakte Test von Fisher
davon mindestens 5, d.h. 5 oder 6, zufällig mit Capelli behandelt werden, denn eine große
”
Zahl“ im rechten unteren Eintrag der Tabelle lässt zugunsten der Gegenhypothese H1 an H0
zweifeln.
Die hypergeometrische Verteilung liefert
5
7
· 1 + 76 · 50
105 + 7
= 0, 12 .
=
α = 5
12
924
6
Das Ergebnis des Tests reicht nicht aus, um die Nullhypothese Capelli wirkt genauso wie No”
glatz“ zu verwerfen.
Aufgabe 15.4:
Beispiel 15.5:
Der Salk–Impfstoff gegen Kinderlähmung wurde in den USA im Jahre 1954 erprobt. 401974
Kinder wurden geimpft, der eine Teil, die Versuchsgruppe, mit Salk–Impfstoff, der andere Teil,
die Kontrollgruppe, mit Salzwasser. Die folgende Tabelle zeigt die Ergebnisse:
Polio kein Polio
Versuchsgruppe
Kontrollgruppe
Summe
Dr. Wolle testet die Nullhypothese, dass das Haarwuchsmittel Capelli“ in 50% aller Fälle
”
Haarausfall stoppt, gegen die Gegenhypothese, dass das Mittel den Haarausfall mit einer Wahr1
scheinlichkeit von p > 2 stoppt, an 6 Patienten. Er erhält folgendes Resultat:
Summe
33
115
200712
201114
200745
201229
148
401826
401974
Anzahl
weiter Haarausfall
1
Haarausfall gestoppt
5
a) Kann man demnach die Nullhypothese verwerfen? Falls ja, auf welchem Niveau?
b) Wieviel Patienten müsste er testen, um bei im Verhältnis gleichem Ausfall die Nullhypothese auf dem 0, 5%–Niveau verwerfen zu können?
Eine solche Tabelle heißt Vierfeldertafel.
Dass sich durch Impfen die Erkrankungsgefahr wesentlich vermindert, erkennt man auf den
ersten Blick. Bei kleinen Zahlen muss man jedoch mit solchen Urteilen sehr vorsichtig sein.
Ohne Rechnung lassen sich die Ergebnisse nicht zuverlässig deuten. Das zeigt das folgende
Beispiel 15.6:
Dr. Wolle bringt das neue Haarwuchsmittel Capelli“ auf den Markt. Er verspricht, dass es
”
besser sei als das bekannte Präparat Noglatz“ , denn er hat beide Präparate an je 6 Versuchs”
personen getestet und folgendes Resultat gefunden:
Noglatz
Capelli
weiter Haarausfall
Haarausfall gestoppt
4
1
2
5
5
7
Aufgabe 15.5:
Eine gefährliche Krankheit wurde bisher mit dem Mittel A behandelt. Man hat ein neues Mittel
B gefunden, das es zu erproben gilt. 15 Patienten werden behandelt, 8 erhalten das neue Mittel
B, 7 das Mittel A.
Um psychologische Einflüsse auszuschalten, erfolgt der Versuch doppel-blind, d.h. weder der
Arzt noch der Patient weiß, welche Arznei jeweils genommen wird. Das Ergebnis zeigt die
folgende Vierfeldertafel:
6
6
Wie ist dieses Ergebnis zu beurteilen?
Wir testen die Nullhypothese Capelli wirkt genauso gut wie Noglatz“ gegen die Gegenhypo”
these Capelli wirkt besser als Noglatz“.
”
Wir gehen von der These aus, dass entweder beide Präparate einem Patienten helfen können
oder keines von beiden. Dann gibt es also unter den 12 Versuchspersonen genau 7, deren
Haarausfall gestoppt werden kann. Wir prüfen, wie groß die Wahrscheinlichkeit dafür ist, dass
sterben
überleben
Summe
Mittel A
Mittel B
4
2
3
6
7
8
Summe
6
9
15
Das neue Mittel scheint auf den ersten Blick viel wirksamer zu sein: Die mit A behandelten
Personen haben die Sterblichkeit 57%, die mit B behandelten 25%.
Testen Sie die Nullhypothese, dass A und B gleich wirksam sind mit dem exakten Test von
Fisher gegen die Gegenhypothese, dass B besser wirkt.
Aufgabe 15.6:
Härtet Stress ab (Zeitschrift Science“, Bd. 140 (1963), p. 1414 f)?
”
180
Von 23 Affen werden 11 Versuchsaffen ausgelost. Sie müssen 24 Stunden lang fleißig arbeiten
(einen Hebel fest drücken). Sobald sie nachlassen, werden sie durch einen Stromstoß bestraft.
Die übrigen 12 Kontrollaffen brauchen gar nichts zu tun. Danach werden alle 23 Affen mit dem
Polio–I–Virus geimpft.
Man wird vermuten, dass es den Versuchsaffen schlechter ergehen wird, denn sie sind durch
eine lange Tortur geschwächt. Die nachstehende Vierfeldertafel zeigt das überraschende
Ergebnis:
überlebt
gestorben
Summe
Versuchsaffen
Kontrollaffen
7
1
4
11
11
12
Summe
8
15
23
Zwei Hypothesen sind zu vergleichen:
H0 : Stress ist ohne Wirkung;
H1 : Stress macht widerstandsfähig.
181
15.3 Der Vorzeichentest
15.3
Der Vorzeichentest
Eine landwirtschaftliche Schule führt folgendes Anbauexperiment zur Ermittlung einer Düngerwirkung durch: Die zur Verfügung stehende Anbaufläche wird in 10 Felder, numeriert von 1
bis 10, aufgeteilt, und jede dieser Parzellen wird noch einmal halbiert. Durch Los wird bestimmt, welche Hälfte jeder Parzelle zu düngen ist. Dann wird die ganze Fläche bepflanzt. Als
Kontrollabschnitte dienen die nicht gedüngten Abschnitte. Die Nullhypothese lautet: Der bei
diesem Experiment verwendete Dünger hat keinen Einfluss auf den Ertrag.
Die folgende Tabelle zeigt das Ergebnis des Anbaus:
Nummer des Feldes
1
2
3
4
5
6
7
8
9
10
Ertrag ohne Dünger
Ertrag mit Dünger
91
100
97
94
80
103
72
89
108
102
98
99
95
87
101
113
83
96
88
93
Differenzen
Vorzeichen
+9
+
−3
−
+23 +17
+
+
−6
−
+1 −8
+ −
+12 +13 +5
+
+
+
Nach dem Zahlenmaterial halten wir H1 für richtig. Wir nehmen das Gegenteil, also H0 an:
Unabhängig vom Stress hätten von den 23 Affen 8 überlebt und 15 wären gestorben. Beim
Auslosen der 11 Versuchsaffen haben wir zufällig sehr viele Überlebende gezogen.
Wir werten die Anzahl der positiven und negativen Differenzen aus. Unter der Nullhypothese
ist die Wahrscheinlichkeit einer positiven Differenz gleich der einer negativen. Jedes der 210
möglichen 10–Tupel für die Plus- und Minuszeichen hat die gleiche Wahrscheinlichkeit. Demnach ist die Anzahl der Pluszeichen binomialverteilt mit n = 10 und p = 12 .
Kann man H0 verwerfen?
Wir haben 7 Pluszeichen. Die Signifikanzwahrscheinlichkeit des Versuchs ist daher
Aufgabe 15.7:
Es gibt zwei Arten von Zwillingen: Die eineiigen sind identische Kopien voneinander, sie haben
dasselbe genetische Material. Dagegen haben die zweieiigen Zwillinge nicht mehr gemeinsames
genetisches Material als gewöhnliche Geschwister.
Ist Kriminalität durch Umwelteinflüsse bedingt oder durch genetische Faktoren?
Von 13 Kriminellen, die eineiige Zwillinge waren, hatten 10 Zwillingsbrüder oder –schwestern,
die ebenfalls verurteilt waren, während in 3 Fällen der Zwillingspartner anscheinend nicht
kriminell war. Von 17 Kriminellen, die zweieiige Zwillinge (gleichen Geschlechts) waren, hatten
2 verurteilte Zwillingpartner, während die anderen 15 nicht als Kriminelle bekannt waren.
Zwillingspartner ist
verurteilt nicht verurteilt
Summe
eineiig
zweieiig
10
2
3
15
13
17
Summe
12
18
30
Prüfen Sie die Nullhypothese H0 , dass eineiige und zweieiige Zwillinge gleiches Verhalten zeigen
gegen eine geeignete Gegenhypothese.
P (X ≥ 7) =
X
x≥7
bn,p (x) =
10 X
10 1
= 0, 17189
x 210
x=7
und liegt oberhalb der üblicherweise benutzten Signifikanzniveaus. Damit können wir die Nullhypothese nicht verwerfen.
Bemerkung 15.2:
Der Vorzeichentest berücksichtigt nur die Anzahl positiver bzw. negativer Differenzen, vernachlässigt jedoch ihre Beträge. Betrachten wir die Daten, so fällt auf, dass die größte positive
Differenz +23 ist, während die kleinste negative Differenz nur −8 erreicht. Ein Einbeziehen der
Beträge könnte die Alternativhypothese, der Dünger sei ertragsfördernd, stützen.
Es gibt Testmethoden, die den Vorzeichentest so verfeinern, dass nicht nur die Vorzeichen sondernn auch die Beträge der Differenzen berücksichtigt werden. Wir werden auf diese Methoden
nicht eingehen.
Da man Messungen in der Praxis nicht unendlich fein machen kann, ist das Auftreten von
Nulldifferenzen möglich. Ist ihre Anzahl klein, so nimmt man sie am besten aus der Betrachtung
heraus. Bei größeren Anzahlen ist das aber nicht möglich, da man durch das Herausnehmen
prinzipiell eine Verfälschung des Ergebnisses vornimmt. Hierin besteht ein weiteres Problem
des Vorzeichentests in seiner einfachsten Version.
182
183
15.4
16
Weitere Aufgaben
Aufgabe 15.8:
Der Hersteller behauptet, alle 10 Geräte einer Lieferung seien einwandfrei. Ein Abnehmer führt
folgende Eingangskontrolle durch: Er prüft 5 Geräte. Sind sie alle einwandfrei, so nimmt er die
Sendung an, sonst läßt er sie zurückgehen.
Berechnen Sie die Irrtumswahrscheinlichkeit bei dieser Entscheidung, falls genau ein Gerät
fehlerhaft ist.
Aufgabe 15.9:
Eine Multiple-Choice-Prüfung bestehe aus 100 Einzelfragen, wobei bei jeder Frage in zufälliger
Reihenfolge 4 Antworten angegeben sind, von denen genau eine richtig ist. Der Prüfling darf
jeweils nur eine Antwort ankreuzen.
Wieviele richtig angekreuzte Antworten müssen zum Bestehen der Prüfung mindestens verlangt
werden, damit man die Prüfung durch Raten höchstens mit der Wahrscheinlichkeit
a) 0,05,
b) 0,01,
c) 0,001,
d) 0,0001
bestehen kann?
16.1
Punktschätzung von Parametern
Eigenschaften von Schätzfunktionen
Bei Schätzproblemen geht es darum, aus einer Stichprobe Näherungswerte für unbekannte
Konstanten zu ermitteln, die in der zugrundeliegenden Verteilung auftreten, also z.B. p in der
Binomialverteilung oder µ und σ in der Normalverteilung. Diese werden Parameter der
Verteilung genannt. Gleichzeitig versucht man, Aussagen über die Sicherheit der Schätzwerte
zu gewinnen.
Ist eine Stichprobe vom Umfang n gegeben, so können wir ihr, wie in Kapitel 14 angegeben,
einen Mittelwert und eine Varianz zuordnen. Um die entsprechenden Parameter für die Verteilung zu gewinnen, müssen wir geeignete Schätzfunktionen entwickeln.
Es ist z.B. naheliegend, den Mittelwert x = n1 (x1 + . . . + xn ) der n Stichprobenwerte x1 , . . . , xn
als Schätzwert für den Mittelwert µ der zugehörigen Zufallsgröße X zu verwenden. Wir können
jedes xi als Wert einer Zufallsgröße Xi ansehen und x als Wert einer aus den Zufallsgrößen
Xi zusammengesetzten Zufallsgröße X. Die Zufallsgröße Xi liefert den Wert bei der i–ten
Beobachtung des Merkmals X. Die Xi und X sind daher identisch verteilt und unabhängig.
n
P
Xi bezeichnete Zufallsgröße ist eine Schätzfunktion
Die als Stichprobenmittel X = n1
i=1
für µ. Damit haben wir ein Beispiel für folgende Konstruktion:
Aufgabe 15.10:
Ein Schüler verteilt an 1800 Haushalte eines Bezirks Prospekte. Falls mehr als 5% der Haushalte
keinen Prospekt erhalten, soll er keine Vergütung für seine unzuverlässige Arbeit erhalten.
Zur Nachprüfung werden
a) n=100,
b) n=400
der Haushalte befragt, ob sie den Prospekt erhalten haben.
Wieviele der befragten Haushalte müssen mindestens den Prospekt nicht erhalten haben, damit
die Nichthonorierung der Arbeit mit einer Irrtumswahrscheinlichkeit von höchstens α = 0, 02
zu recht erfolgt?
Aufgabe 15.11:
In einer Telefonzentrale sei die Anzahl der Anrufe pro Minute Poissonverteilt. Zum Einstellungszeitpunkt einer Telefonistin betrug der Mittelwert µ = 4, 1. Nach einer gewissen
Zeitspanne stellt die Telefonistin fest, dass innerhalb einer Stunde 273 Anrufe erfolgten.
Kann daraus mit einer Irrtumswahrscheinlichkeit von α = 0, 05 geschlossen werden, dass sich
die mittlere Anzahl der Anrufe pro Minute signifikant erhöht hat?
Hinweis: Setzen Sie die Anzahl der in den einzelnen Minuten eingehenden Anrufe als unabhängig voraus und verwenden Sie Aufgabe 12.4. Berechnen Sie dann die gesuchte Wahrscheinlichkeit näherungsweise mit Hilfe des zentralen Grenzwertsatzes.
Zu einem unbekannten Parameter u einer Verteilung betrachten wir eine reellwertige Funktion
g, die es gestattet, aus n Stichprobenwerten x1 , . . . , xn einen Näherungswert u von u in der
Gestalt u = g(x1 , . . . , xn ) zu berechnen.
Definition 16.1: (Schätzfunktion, Schätzwert)
Sind X1 , . . . , Xn und X identisch verteilt und liefert die Funktion
U = g(X1 , . . . , Xn )
Näherungswerte u des Parameters u, so heißt sie eine Schätzfunktion für u. Der Wert
u = g(x1 , . . . , xn ), der sich aus einer Stichprobe ergibt, heißt Schätzwert von u.
Für einen Parameter u gibt es oft mehrere Schätzmöglichkeiten. Wie entscheiden wir, ob eine
vorliegende Schätzfunktion überhaupt brauchbar ist?
Ein Kriterium hierfür ist, dass der Erwartungswert der Schätzfunktion mit dem zu schätzenden
Parameter der Verteilung übereinstimmt.
Definition 16.2: (Erwartungstreue einer Schätzfunktion)
Es seien X1 , . . ., Xn und X identisch verteilt. Eine Schätzfunktion U = g(X1 , . . . , Xn ) für
einen Parameter u der Verteilung von X heißt erwartungstreu, wenn gilt
E(U ) = u .
184
16 PUNKTSCHÄTZUNG VON PARAMETERN
185
16.1 Eigenschaften von Schätzfunktionen
Satz 16.2:
Wir erläutern den Begriff der Erwartungstreue anhand eines Beispiels.
Die Zufallsgrößen X1 , . . ., Xn seien unabhängig und identisch verteilt mit Streuung σ. Dann
gilt für die Varianz des Stichprobenmittels X = n1 (X1 + · · · + Xn )
Beispiel 16.1:
Ein Bernoulli-Experiment mit der unbekannten Erfolgswahrscheinlichkeit p wird dreimal ausgeführt. Eine naheliegende Schätzfunktion für p ist offensichtlich die relative Häufigkeit der
Erfolge P = 31 (X1 + X2 + X3 ), wobei Xj die Anzahl der Erfolge im j-ten Versuch angibt.
P nimmt die Werte 0, 31 ,
P (P = 0) = (1 − p)3 ,
2
3
und 1 an, und man erhält
1
P (P = ) = 3p(1 − p)2 ,
3
2
P (P = ) = 3p2 (1 − p),
3
V (X) =
σ2
.
n
Beweis:
P (P = 1) = p3 .
Die unabhängigen Zufallsgrößen Xi haben alle die Varianz V (Xi ) = V (X) = σ 2 . Nach den
Sätzen 6.6 und 12.10 erhält man also
Der Erwartungswert der Zufallsgröße P ist dann
n
1
2
E(P ) = 0 · (1 − p)3 + · 3p(1 − p)2 + · 3p2 (1 − p) + 1 · p3 = p(1 − 2p + p2 + 2p − 2p2 + p2 ) = p.
3
3
V (X) = V
1X
Xi
n i=1
!
2
1
V
=
n
n
X
i=1
Xi
!
=
n
1 X
V (X)
1
.2
V (Xi ) = 2 · nσ 2 =
n2 i=1
n
n
P ist daher eine erwartungstreue Schätzfunktion für p.
Ist z.B. der wahre Wert p = 12 , dann wird p = 0 und p = 1 jeweils mit der Wahrscheinlichkeit
1
und p = 31 und p = 32 jeweils mit der Wahrscheinlichkeit 83 geschätzt.
8
Im Durchschnitt schätzt man also p = 12 . Allerdings wird der wahre Wert p =
geschätzt!
1
2
selbst nie
Dieses Ergebnis bedeutet, dass die Varianz des Stichprobenmittels mit wachsendem Stichprobenumfang immer kleiner wird. Je größer die Stichproben sind, desto näher liegen im allgemeinen
ihre Mittelwerte beieinander.
Bemerkung 16.1:
σ(X)
√
n
Satz 16.1:
Die Standardabweichung σ(X) =
Die Zufallsgrößen X und Xi , i ∈ N seien identisch verteilt. Dann ist eine erwartungstreue
Schätzfunktion für den Mittelwert µ von X das Stichprobenmittel
Die Werte von X streuen weniger stark um den gemeinsamen Erwartungswert von X und X
als die Werte von X. Bei einer Stichprobe von nur 4 Elementen ist die Streuung von X schon
halb so groß wie die von X. Man nutzt dies z.B. bei physikalischen Messungen aus: Je häufiger
man eine Größe misst, um so weniger wird sich i.a. der Mittelwert aller Meßwerte vom Erwartungswert µ unterscheiden.
n
X=
1X
Xi .
n i=1
Beweis:
Sei µ der Mittelwert der identisch verteilten Zufallsgrößen X und Xi , i ∈ N. Dann ergibt sich
nach den Sätzen 12.5 und 12.6
!
n
n
1X
1
1X
Xi =
E(Xi ) = · nµ = µ . 2
E(X) = E
n i=1
n i=1
n
Die Schätzfunktion X hat demnach denselben Erwartungswert wie X selbst. Anders ausgedrückt: Die Werte von X sind Mittelwerte von Stichproben vom Umfang n der Zufallsgröße
X. Der Mittelwert aller dieser Stichprobenmittel ist gerade der Mittelwert von X.
Warum schätzen wir µ mit X und nicht einfach mit X? Das erkennen wir, wenn wir die Varianzen von X und X vergleichen:
des Stichprobenmittels heißt Stichprobenfehler.
Die Erwartungstreue einer Schätzfunktion U = g(X1 , . . . , Xn ) garantiert nicht, dass die durch
sie gefundenen Werte u gute Näherungswerte des zu schätzenden Parameters u sind. Von einer
guten Schätzfunktion verlangt man deshalb, dass ihre Werte u mit hoher Wahrscheinlichkeit nahe bei u liegen. Insbesondere soll diese Wahrscheinlichkeit mit wachsendem Stichprobenumfang
gegen den Wert 1 konvergieren.
Definition 16.3: (Konsistenz einer Schätzfunktion)
Eine Folge von Schätzfunktionen U n = gn (X1 , . . ., Xn ) für einen Parameter u heißt konsistent, wenn für alle ε > 0 gilt
lim P (|U n − u| < ε) = 1 .
n→∞
Ein einfaches Kriterium zur Überprüfung der Konsistenz liefert der folgende Satz.
186
187
Beweis:
Satz 16.3:
Es sei U n eine Folge erwartungstreuer Schätzfunktionen für den Parameter u.
Weiterhin gelte lim V (U n ) = 0. Dann ist U n konsistent.
n→∞
Beweis:
Wegen der Erwartungtreue haben alle U n den Mittelwert µn = u. Wir wenden die Ungleichung
von Tscherbyschew (Satz 9.9) an:
P (|U n − u| ≥ kσn ) = P (|U n − µn | ≥ kσn ) ≤
Wir erweitern die rechte Seite mit
P (|U n − u| ≥ ε) ≤
σn2
1
,
k2
Wir ermitteln zunächst mit Hilfe der Formel E(X 2 ) = V (X) + E 2 (X) aus Satz 6.5
n
n
n
n
P
P 2
P
P 2
2
2
2
(Xi − X)2 = E
E
Xi − 2X
Xi + nX = E
Xi − 2nX + nX
i=1
i=1
i=1
i=1
n
n
P 2
P
2
2
2
2
2
=E
Xi − nX =
E(Xi ) − nE(X ) = n · E(X ) − nE(X )
i=1
= (n − 1)V (X).
k ∈ R+ .
= V (U n ) und setzen kσn =: ε. Dann folgt:
V (U n )
.
ε2
Hat nun U n die Eigenschaft V (U n ) → 0 für n → ∞, so ergibt sich für jedes ε
P (|U n − u| < ε) = 1 − P (|U n − u| ≥ ε) → 1 − 0 = 1 . 2
Wir zeigen nun, dass das Stichprobenmittel konsistent ist:
Man erhält E(Se2 ) =
1
n
Die Folge U n = X = (X1 + . . . + Xn ) von Schätzfunktionen für den Mittelwert ist für jede
Verteilung mit endlicher Varianz konsistent.
Beweis:
Nach Satz 16.2 gilt V (Un ) = V (X) =
Behauptung. 2
1
n
1
E
n−1
n
P
i=1
(Xi − X)2
Se2 ) =
= V (X) und E(S 2 ) = E( n−1
n
n−1
V
n
(X). 2
Bisher stellten wir Eigenschaften von Schätzfunktionen zusammen. Nun gibt es aber kein allgemeingültiges Verfahren um Schätzfunktionen zu finden. Wir werden in Abschnitt 16.2 eine besonders zuverlässige erwartungstreue Schätzfunktion zur Schätzung eines Populationsumfangs
entwickeln.
In Abschnitt 16.3 stellen wir die häufig verwendete Maximum-Likelihood-Schätzmethode vor.
Diese erzeugt aber im allgemeinen keine erwartungstreue Schätzfunktion.
16.2
Satz 16.4:
i=1
= n · (V (X) + E 2 (X)) − n(V (X) + E 2 (X)) = nV (X) + nµ2 − V (X) − nµ2
Ein Beispiel: Schätzung eines Populationsumfangs
In diesem Abschnitt werden wir ein Beispiel untersuchen, bei dem mehrere erwartungstreue
Schätzfunktionen für ein und denselben Parameter bereitstehen. Wir wollen davon die beste
Schätzfunktion auswählen.
Beispiel 16.2:
V (X) → 0 für n → ∞. Aus Satz 16.3 folgt die
Wir wollen auch eine geeignete Schätzfunktion für die Varianz einer Zufallsgröße entwickeln.
Dabei stellt sich heraus, dass die Stichprobenvarianz erwartungstreu ist.
Für einen Waldlauf hat ein Sportverein die Teilnehmer von 1 bis N durchnumeriert. Die Nummern hängen nicht von der Leistungsfähigkeit ab. Ein Spaziergänger begegnet einer Gruppe
von 11 Läufern, aus deren Nummern er auf die ihm unbekannte Anzahl der Teilnehmer schließen möchte. Die beobachteten Nummern sind 27, 3, 38, 42, 15, 30, 26, 36, 45, 51, 24.
Bemerkung 16.2:
Satz 16.5:
Eine erwartungstreue Schätzfunktion der Varianz ist die Stichprobenvarianz
Wir beschreiben das Problem durch ein Urnenproblem:
n
Se2 =
1 X
(Xi − X)2 .
n − 1 i=1
Im Gegensatz dazu ist die empirische Varianz S 2 =
Dieses Schätzproblem trat im 2. Weltkrieg auf, als man aus den Seriennummern von erbeuteten
Waffen (Panzern, Kanonen) auf den Umfang der Waffenproduktion schließen wollte.
1
n
n
P
(Xi − X)2 nicht erwartungstreu.
i=1
Eine Urne enthalte N von 1 aufwärts durchnumerierte Kugeln. Die Anzahl N sei nicht bekannt.
Es werden n Kugeln ohne Zurücklegen entnommen. Die Zufallsgrößen X1 , . . . , Xn geben die
gezogenen Nummern an, und zwar Xk die der an k–ter Stelle gezogenen Kugel (k ∈ {1, . . . , n}).
Aus den Nummern der Stichprobe soll N geschätzt werden.
Zur Lösung des Schätzproblems gehen wir in folgenden Schritten vor:
188
- Wir sammeln zunächst Ideen zur Bestimmung von Schätzfunktionen und legen dadurch
vorläufige Schätzfunktionen fest.
- Wir berechnen den Erwartungswert der vorläufigen Schätzfunktionen und korrigieren diese so, dass wir erwartungstreue Schätzfunktionen erhalten (ab Seite 189).
- Wir berechnen die Varianzen der erwartungstreuen Schätzfunktionen (ab Seite 190).
- Wir vergleichen die berechneten Varianzen. Die Schätzfunktion mit der kleinsten Varianz
ist die zuverlässigste (s. Tabelle auf Seite 194).
Konstruktion verschiedener Schätzfunktionen
Aus den Zufallsgrößen X1 , . . . , Xn definieren wir neue Zufallsgrößen Y1 , . . . , Yn , indem wir die
Werte aufsteigend ordnen. Demnach gibt Y1 das kleinste, Yn das größte und allgemein Yk das
k–kleinste Beobachtungsergebnis an.
Seien also Y1 < Y2 < . . . < Yn die n geordneten Werte der Stichprobe. Ihre graphische
Veranschaulichung in Abbildung 16.1 hilft uns, die Entstehung der folgenden Schätzfunktionen
zu verstehen. Dabei geht es zunächst nur darum, Näherungswerte für N zu erzeugen. Eine
Feinkorrektur“ der Funktionen auf Erwartungstreue erfolgt später.
”
N?
y1
y2
y3
.....
yn
Abb. 16.1
(a) Der Mittelwert X der Xi wird ungefähr in die Mitte der Numerierung fallen.
n
n
1X
2X
Aus X =
Xk konstruiert man die vorläufige Schätzfunktion 2X =
Xk .
n k=1
n k=1
(b) Der Median (Zentralwert) wird ungefähr in die Mitte der Numerierung fallen. Bei geradem
n liegt er zwischen Y n2 und Y n2 +1 , bei ungeradem fällt er mit Y n+1 zusammen. Das ergibt
2
die vorläufige Schätzfunktion
(
Y n2 + Y n2 +1
für gerades n
Y =
für ungerades n.
2Y n+1
2
(c) Das Maximum Yn der beobachteten Werte weicht von N etwa um genausoviel ab wie das
Minimum Y1 von 0. Das ergibt die vorläufige Schätzfunktion Y1 + Yn .
(d) Eine zu (c) analoge Argumentation führt allgemeiner zu Yk + Yn+1−k ,
k ∈ {1, . . . , n}.
(e) N folgt auf den größten beobachteten Wert Yn etwa im mittleren Abstand aller beobachteten Werte. Man erhält die vorläufige Schätzfunktion
Yn +
(Y1 − 0) + (Y2 − Y1 ) + . . . + (Yn − Yn−1 )
n+1
=
Yn .
n
n
Man beachte, dass die in (b) und (c) angegebenen Schätzfunktionen Spezialfälle der in (d)
in (b) und k = 1 in (c)). Daher werden für (b)
angegebenen sind (mit k = n2 bzw. k = n+1
2
und (c) einige der Rechnungen nicht gesondert ausgeführt.
Prüfung der Schätzfunktionen auf Erwartungstreue
Zur Berechnung der Erwartungswerte werden die Wahrscheinlichkeitsfunktionen der Xk und
der Yk (k ∈ {1, . . . , n}) benötigt.
Bei N Kugeln in der Urne gilt zunächst

 N1 für i ∈ {1, 2, . . . , N } ,
P (Xk = i) =
 0
sonst .
Somit erhalten wir
In Beispiel 16.2 liefert Y1 den Wert 3, Y2 den Wert 15 und Y11 den Wert 51.
1
189
E(Xk ) =
N
X
i=1
i·
1
N (N + 1) 1
N +1
=
·
=
N
2
N
2
Dass die k–größte beobachtete Nummer Yk ein i ist, ergibt sich aus dem Ziehen der k − 1
kleineren Werte aus den mit 1, . . . , i − 1 benannten Kugeln und dem gleichzeitigen Ziehen der
n − k größeren Werte aus den mit i + 1, . . . , N benannten Kugeln. D.h. es sind k − 1 Kugeln
aus i − 1 und zugleich n − k Kugeln aus N − i zu ziehen, und das bei Nn Teilmengen mit n
Elementen. Also gilt
 i−1 N −i
n−k )
 (k−1)(
für i ∈ {k, k + 1, . . . , N − n + k} ,
(Nn )
P (Yk = i) =

0
sonst.
Die Erwartungswerte der Yk berechnet man unter Verwendung der Formeln i ·
N +1
und Nn = Nn+1
als
+1 n+1
E(Yk ) =
NX
−n+k
i=k
= k
N +1
n+1
i·
i−1
k−1
N
n
N −i
n−k
= k
(N +1)−(n+1)+(k+1)
X
i=k+1
NX
−n+k
i=k
i
k
i−1
(k+1)−1
N −i
n−k
N
n
(N +1)−i
(n+1)−(k+1)
N +1
n+1
(∗)
= k
i−1
k−1
=k·
i
k
N +1
.
n+1
(∗): Die Summanden lassen sich als die Wahrscheinlichkeiten P (Ybk+1 = i) interpretieren, allerdings beim Ziehen von n + 1 Kugeln aus einer Urne mit N + 1 durchnumerierten Kugeln.
Daher ist ihre Summe 1.
Die Berechnung der Erwartungswerte der Schätzfunktionen (a)–(e) ergibt also
190
n
(a) E(2X) =
2X
2
N +1
= N + 1,
E(Xi ) = · n
n i=1
n
2
(d) E(Yk + Yn+1−k ) = k
(e) E
n+1
Yn
n
Um die Kovarianzen zu ermitteln, benötigen wir die gemeinsame Verteilung (Wahrscheinlichkeitsfunktion) von Xk und Xm . Für k 6= m ist
N +1
N +1
+ (n + 1 − k)
= N + 1 (ebenso bei (b) und (c)),
n+1
n+1
N +1
n+1
·n
= N + 1.
=
n
n+1
Daraus ergeben sich die auf Erwartungstreue korrigierten Schätzfunktionen mit ihren
Schätzwerten für das Urnenproblem:
P (Xk = i, Xm = j) =
Schätzfunktion:
2X − 1 (



Wert in Beispiel 16.2:
N
X
ij
i,j=1
i6=j
60, 3
Y1 + Yn − 1
53
=
(d) Yk + Yn+1−k − 1
65 (für k = 3)
(c)
(e)
2
für ungerades n
n+1
Yn − 1
n
54, 6 .
Aufgabe 16.1:
Welche der Schätzfunktionen kann kleinere Werte annehmen als das beobachtete Maximum?
sonst.
i6=j
59
Y n2 + Y n2 +1 − 1 für gerades n
2Y n+1 − 1
0
N
X
1
1
ij
=
N (N − 1)
N (N − 1) i,j=1
1
=
N (N − 1)
(b) Y − 1 =
1
für i, j ∈ {1, 2, . . . , N } und i 6= j ,
N (N − 1)
Man erhält daher für k 6= m
E(Xk Xm ) =
(a)
191
1
N (N − 1)
N
X
i=1
i
!
N
X
j
j=1
N (N + 1)
2
2
!
!
−
−
N (N + 1) (2N + 1)
6
N
X
i=1
i
2
!
=
(N + 1) (3N + 2)
.
12
Damit ist
Cov (Xk , Xm ) = E(Xk Xm ) − E(Xk ) E(Xm )
2
(N + 1) (3N + 2)
(N + 1)
N +1
=
= −
−
.
12
2
12
Berechnung der Varianzen
Mit Satz 6.6 ergibt sich die gesuchte Varianz der Schätzfunktion aus (a) als
Wir berechnen für jede der Schätzfunktionen die Varianz. Hierbei verwenden wir die Abkürzung
n
(N + 1)(N − n)
,
A :=
(n + 1)(n + 2)
2
V (2X − 1) = 2 V (X) = 4V
da dieser Term in allen berechneten Varianzen vorkommt.
Zur
der Varianzen benutzen wir die in Bemerkung 12.4 angegebene Formel
Berechnung
n
n
P
P
P
V
Xi =
V (Xi ) +
Cov (Xi , Xk ). Man erhält zunächst
i=1
i=1
E(Xk2 ) =
i6=k
N
X
i=1
i2 ·
N (N + 1)(2N + 1) 1
(N + 1) (2N + 1)
1
=
·
=
N
6
N
6
V (Xk ) = E(Xk2 ) − (E(Xk ))2 =
(N + 1) (2N + 1)
−
6
N +1
2
2
=
(N + 1) (N − 1)
.
12
!
n
X
1
Xk
=4· 2 V
n
k=1

!

n
n
X
4 X

=
V (Xk ) +
Cov (Xk , Xm )

2
n
k,m=1
k=1
k6=m
4
(N + 1) (N − n)
N +1
(N + 1) (N − 1)
=
=
−
n(n
−
1)
n
n2
12
12
3n
=
und weiter
1X
Xk
n k=1
(n + 1)(n + 2)
A.
3n
Um die Varianzen der Yk zu ermitteln berechnen wir zunächst mit i(i + 1)
i−1
k−1
= k(k + 1)
i+1
k+1
192
und
N
n
=
(n+1) (n+2)
(N +1) (N +2)
·
N +2
n+2
E(Yk (Yk + 1)) =
NX
−n+k
i(i + 1)
i=k
= k(k + 1)
i−1
k−1
N
n
N −i
n−k
(N + 1) (N + 2)
(n + 1) (n + 2)
= k(k + 1)
NX
−n+k
i=k
(N +2)−(n+2)+(k+2)
X
i+1
k+1
N
n
i=k+2
(N + 1) (N + 2)
= k(k + 1)
.
(n + 1) (n + 2)
(∗)
i−1
(k+2)−1
Zur Ermittlung der Kovarianz von Yk und Ym für k < m verwenden wir die Formeln
(n+1) (n+2)
i−1
N −j
N +1−j
= k ki und (N + 1 − j) n−m
= (n + 1 − m) n+1−m
sowie Nn = (N
·
k−1
+1) (N +2)
i
N −i
n−k
(N +2)−i
(n+2)−(k+2)
N +2
n+2
E Yk · (N + 1 − Ym )
i(N + 1 − j)
= k(n + 1 − m)
NX
−n+k N −n+m
X
i=k
i=k
i
k
j=m−k+i
(N + 1) (N + 2)
(n + 1) (n + 2)
i=k+1
j−i−1
m−k−1
N
n
= k(n + 1 − m)
N −j
n−m
j=(m+1)−(k+1)+i
(∗)
j−i−1
N +1−j
m−k−1 n+1−m
N
n
i−1
(k+1)−1
X
X
·
k(n + 1 − k)
k(n + 1 − k)(N + 1)(N − n)
=
A.
(n + 1)2 (n + 2)
n+1
j=m−k+i
i−1
k−1
(N +2)−(n+2)+(k+1) (N +2)−(n+2)+(m+1)
V (Yk ) = E(Yk2 ) − E 2 (Yk ) = E(Yk (Yk + 1)) − E(Yk ) − E 2 (Yk )
=
NX
−n+k N −n+m
X
=
= k(n + 1 − m) ·
Als Varianz von Yk ergibt sich jetzt
(N + 1) (N + 2)
(N + 1)
(N + 1)2
−k
− k2
(n + 1) (n + 2)
(n + 1)
(n + 1)2
N +2
n+2
und berechnen zunächst
(∗): Deutet man die Summanden als Wahrscheinlichkeiten P (Yek+2 = i) beim Ziehen von n + 2
Kugeln aus einer Urne mit N + 2 durchnumerierten Kugeln, so erkennt man, dass die
Summe gleich 1 sein muss.
= k(k + 1)
193
(N + 1)(N + 2)
.
(n + 1)(n + 2)
j−i−1
(m+1)−(k+1)−1
N +2
n+2
(N +2)−j
(n+2)−(m+1)
(∗) Ähnlich wie auf den Seiten 189 und 192 wird hier mit Hilfe der Wahrscheinlichkeiten
P (Yek+1 = i, Yem+1 = j) für N + 2 Kugeln, aus denen n + 2 gezogen wurden, argumentiert,
dass die Doppelsumme den Wert 1 hat.
Man erhält mit den üblichen Rechenregeln für Erwartungswerte weiter für k < m
Daher erhält man für die Schätzfunktion aus (e)
2
2
n+1
n+1
n
n+1
n+1
V
V (Yn ) =
Yn − 1 =
A =
A.
n
n
n
n+1
n
Cov (Yk , Ym ) = E(Yk Ym ) − E(Yk )E(Ym ) = E(Yk ) E(N + 1 − Ym ) − E Yk (N + 1 − Ym )
=
(N + 1)(N + 2)
k(N + 1) (n + 1 − m)(N + 1)
·
− k(n + 1 − m)
n+1
n+1
(n + 1)(n + 2)
=
k(n + 1 − m)(N + 1)(N − n)
k(n + 1 − m)
=
A.
(n + 1)2 (n + 2)
n+1
In (b) erhält man für ungerades n
V 2Y n+1 − 1 = 4 · V Y n+1
2
2
=4·
n+1 2
2
n+1
A = (n + 1)A .
Für k < m ist die gemeinsame Verteilung von Yk und Ym

j−i−1 N −j für i, j ∈ {1, 2, . . . , N }

i−1



n−m
 k−1 m−k−1
mit
k ≤ i und j ≤ N − n + m
N
P (Yk = i, Ym = j) =
n
und j − i ≥ m − k





0
sonst.
Diese Wahrscheinlichkeit ergibt sich folgendermaßen:
Die k − 1 kleinsten Beobachtungsergebnisse werden aus i − 1 Zahlen ausgewählt;
die m − k − 1 Ergebnisse zwischen Yk und Ym werden aus j − i − 1 Zahlen gewählt;
die n − m größten Werte werden aus N − j Zahlen gewählt.
Speziell ergibt sich für k ≤
Cov (Yk , Yn+1−k ) =
n
2
k2
A.
n+1
Benötigt wird noch die Varianz von Yk + Yn+1−k für k ≤ n2 . Es ist
V (Yk + Yn+1−k ) = V (Yk ) + V (Yn+1−k ) + 2Cov(Yk , Yn+1−k )
=
k(n+1−k)
n+1
A+
(n+1−k)k
n+1
A+
2k2
n+1
A = 2kA .
Aus dieser Formel entnimmt man die Varianzen der Schätzfunktionen aus (d), aus (c) und aus
(b) für den Fall, dass n gerade ist.
194
Beispiel 16.3:
Ermittlung der besten Schätzfunktion
Wir stellen die Ergebnisse in der folgenden Tabelle zusammen. Hierbei verwenden wir wieder
+1)(N −n)
.
die Abkürzung A = (N
(n+1)(n+2)
Schätzfunktion:
(a)
(b) Y − 1 =
(c)
Varianz:
(n + 1) (n + 2)
·A
3n
2X − 1

Y n + Y n2 +1 − 1 für gerades n

 2


2Y n+1 − 1 für ungerades n
2
Y1 + Yn − 1
(e)
Bei einem Experiment werden die Werte einer Zufallsgröße X beobachtet, von der man weiß,
dass sie binomialverteilt mit n = 4 und unbekanntem p ist.
p soll nun geschätzt werden, d.h. jedem Beobachtungswert x ist eine Zahl p zuzuordnen. Die
Situation wird durch das Schaubild in Abbildung 16.2 illustriert. In Richtung der x–Achse ist
für jedes p die zugehörige Verteilung aufgetragen. Geht man bei festem x =
x0 in Richtung der
p–Achse, so durchläuft man die Werte der Funktionen p 7→ b4,p (x0 ) = x40 px0 (1 − p)4−x0 .
n·A
(n + 1) · A
b4,p (x)
x
2·A
n
(d) Yk + Yn+1−k − 1 für k ≤
2
4
1
2k · A
b4,p(4) = p
3
3
n+1
· A.
n
n+1
Yn − 1
n
195
16.3 Das Maximum–Likelihood–Prinzip
b4,p(3) = 4p (1-p)
2
2
b4,p(2) = 6p (1-p)
1
b4,p(1) = 4p (1-p)
Die Varianzen lassen sich daher ohne Kenntnis von N vergleichen. Insbesondere ist die Varianz
der Schätzfunktion aus (e) stets am kleinsten. Also ist
b4,p(0) = (1-p)
0
n+1
Yn − 1
N=
n
0,25
0,5
2
3
4
p
1
0,75
Abb. 16.2
die beste der angegebenen Schätzfunktionen. Um zu der besten Schätzung zu kommen, genügt
es daher, die größte Nummer aus den gezogenen Kugeln und den Umfang der Stichprobe zu
kennen.
Wird nun der Wert x0 beobachtet, so wird der Schätzwert p∗ = p(x0 ) für p so gewählt, dass die
Wahrscheinlichkeit b4,p (x0 ) maximal ist (maximum likelihood). Die zugehörige Schätzfunktion
bezeichnen wir mit P ∗ = p(X). Eine einfache Rechnung liefert
p(0) = 0,
Bemerkung 16.3:
p(1) = 0, 25,
p(2) = 0, 5,
p(3) = 0, 75,
p(4) = 1.
n+1
Man kann sogar zeigen, dass die Schätzfunktion N =
Yn − 1 von allen erwartungstreuen
n
n
P
Schätzfunktionen der Gestalt N =
αj Yj + β die kleinste Varianz hat.
Definition 16.4: (Maximum–Likelihood–Prinzip)
16.3
Für ein Beobachtungsergebnis (x1 , . . . , xn ) ist die Likelihood-Funktion definiert durch
j=1
Das Maximum–Likelihood–Prinzip
Im vorangegangenen Abschnitt haben wir Schätzfunktionen mehr oder weniger erraten. Wir
besprechen jetzt ein Prinzip, mit dessen Hilfe sich solche Funktionen ableiten lassen. Das Verfahren wurde in Sonderfällen bereits von Gauss angewandt und 1912 von R.A. Fisher für
statistische Zwecke weiterentwickelt. Wir veranschaulichen das Vorgehen zunächst an dem einfachen
X1 , . . . , Xn seien diskret oder stetig verteilte Zufallsgrößen, deren gemeinsame Verteilung bzw.
Dichte fu von einem Parameter u mit unbekanntem Wert abhängt.
u 7→ ϕ(u) = fu (x1 , . . . , xn ).
Ein Wert u∗ = u(x1 , . . . , xn ) des Parameters u, für den die Likelihood-Funktion ϕ
maximal ist, heißt Maximum-Likelihood-Schätzwert für u.
Die zugehörige Schätzfunktion U ∗ = u(X1 , . . . , Xn ) heißt Maximum-Likelihood-Schätzfunktion für u.
4
196
197
Bemerkung 16.4:
Beispiel 16.4:
Sind die Zufallsgrößen X1 , . . . , Xn diskret, dann maximiert der Maximum-Likelihood-Schätzwert gerade die Wahrscheinlichkeit Pu (X1 = x1 , . . . , Xn = xn ) = fu (X1 = x1 , . . . , Xn = xn ) des
tatsächlich eingetretenen Ereignisses. Daher kommt seine Bezeichnung.
Die Phenylketonurie ist eine erbliche Stoffwechselkrankheit, die zu geistiger Entwicklungshemmung führt und deshalb sofort behandelt werden muss. Jedes Neugeborene wird im Hinblick
auf sie untersucht. Die Vererbung ist rezessiv. Ist also der Genotyp am Genort A bestimmend
für die Krankheit und das Allel A dominant über a, so sind die Träger des Genotyps aa krank,
die der Genotypen aA und AA nicht krank. Zwischen den gesund erscheinenden Trägern der
Genotypen AA und aA kann man nicht unterscheiden. r sei die Wahrscheinlichkeit für das
Auftreten des Allels a.
Für stetige Zufallsgrößenn X1 , . . . , Xn mit gemeinsamer Wahrscheinlichkeitsdichte fu (x1 , . . . , xn )
erhält man nach dem Mittelwertsatz der Integralrechnung
Pu (x1 ≤ X1 ≤ x1 + △x1 , . . . , xn ≤ Xn ≤ xn + △xn ) ≈ fu (x1 , . . . , xn ) △x1 · . . . · △xn ,
was plausibel macht, dass im stetigen Fall die Dichte maximiert wird.
Nach den Gesetzen der Genetik (Hardy–Weinberg–Gleichgewicht) sind die Wahrscheinlichkeiten
für den Genotypen der Neugeborenen wie folgt:
Bemerkung 16.5:
Besonders wichtig ist folgender Spezialfall:
Genotyp
aa
Die Stichprobe (x1 , . . . , xn ) entstehe durch n-fache unabhängige Wiederholung eines Zufallsexperiments, wobei die zugehörige Zufallsgröße X die Wahrscheinlichkeitsverteilung bzw. Dichte
fu hat.
Wahrscheinlichkeit
r2
Da sich die Verteilungen bzw. Dichten multiplizieren ist in diesem Fall die Likelihoodfunktion
ϕ(u) = fu (x1 ) · . . . · fu (xn ).
Kann der Parameter u Werte aus einem Intervall annehmen, so ist – unter geeigneten Differenzierbarkeitsvoraussetzungen und wenn man von Maximalstellen am Rand absieht – eine
notwendige Bedingung für die Maximalstelle ϕ′ (u) = 0.
Da ln streng monoton ist haben die Funktionen ϕ und ln ϕ dieselben Maximalstellen. Treten
in der Likelihood-Funktion viele Produkte auf (vgl. Bemerkung 16.5), so ist es häufig sehr viel
einfacher, die Maximalstellen von ln ϕ zu bestimmen.
X gebe die Anzahl der Kranken unter n Neugeborenen an. Dann ist X bernoulliverteilt gemäß
für r2 ergibt sich nach Aufgabe 16.2 die Funkbn,r2 (x). Als Maximum–Likelihood-Schätzgröße
q
X
,
n
und r(X) =
Maximum–Likelihood–Schätzfunktionen sind nicht zwangsläufig erwartungstreu, und ihre quadratische Abweichung vom gesuchten Parameter muss nicht minimal sein.
Wir bestimmen nun einige Maximum–Likelihood–Schätzfunktionen.
Aufgabe 16.2:
Ein Experiment mit unbekannter Erfolgswahrscheinlichkeit p wird n–mal unabhängig wiederholt, wobei x Erfolge eintreten.
X
n
ist die Maximum–Likelihood–Schätzfunktion von r.
Beispiel 16.5: (rot-grün-Farbenblindheit)
Aus einem bestimmten genetischen Modell für die Rotgrünblindheit beim Menschen ergeben
sich die 4 Wahrscheinlichkeiten in der folgenden Tabelle:
männlich
Bemerkung 16.7:
Zeigen Sie, dass
X
n
normalsichtig
Die Likelihood-Funktion ϕ muss keine Maximalstelle haben, und diese muss im Falle der Existenz nicht eindeutig sein. In vielen Anwendungsproblemen gibt es aber eine eindeutig bestimmte Maximalstelle.
eine Maximum–Likelihood–Schätzfunktion für p ist.
AA
r2 ist damit die Wahrscheinlichkeit für kranke Neugeborene, 1 − r2 die für gesunde. Die Wahrscheinlichkeit r soll geschätzt werden.
tion
Bemerkung 16.6:
aA
2r(1 − r) (1 − r)2
rotgrünblind
1
2
(1 − p)
1
2
p
weiblich
1
2
(1 − p2 )
1
2
p2
Denn der Genort, an dem die Rotgrünblindheit verursacht wird, befindet sich auf dem XGeschlechtschromosom. Männliche Personen besitzen ein X– und ein Y –Chromosom, weibliche
zwei X–Chromosomen. Männer sind rotgrünblind, wenn sich auf dem X–Chromosom das Allel,
das die Rotgrünblindheit verursacht, befindet, dagegen Frauen, wenn sich dieses Allel auf beiden
X–Chromosomen befindet.
Das die Rotgrünblindheit verursachende Allel tritt auf den X–Chromosomen mit der Wahrscheinlichkeit p auf, die es zu schätzen gilt. Dazu werden n Personen zufällig ausgewählt und auf
Rotgrünblindheit untersucht. Die Zufallsgrößen X1 , X2 , X3 und X4 geben die Zahl der männlichen Gesunden, der weiblichen Gesunden, der männlichen Rotgrünblinden und der weiblichen
Rotgrünblinden an. Der Zufallsvektor (X1 , X2 , X3 , X4 ) ist multinomialverteilt (s. Definition
8.4) mit den Parametern
n
und
p1 =
1
(1 − p) ,
2
p2 =
1
(1 − p2 ) ,
2
p3 =
1
p,
2
p4 =
1 2
p .
2
198
Wenn die Xi die Werte xi angenommen haben, ist der Maximum–Likelihood-Schätzwert für p
die Stelle, an der die Funktion
x1 1
x2 1 x3 1 x4
1
n!
(1 − p)
(1 − p2 )
p
p2
p 7→
x1 ! x2 ! x3 ! x4 ! 2
2
2
2
199
maximal ist. Wir untersuchen das Monotonieverhalten:
K(N − K − n + x + 1)
K(N − K + x + 1) − Kn
hK (x)
=
=
.
hK−1 (x)
(K − x) (N − K + 1)
K(N − K + x + 1) − (N + 1)x
Daher gilt
=: Pp (X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 )
das Maximum annimmt. Um den Schätzwert zu ermitteln, differenzieren wir p 7→ ln Pp und
erhalten
x1 + x2
x2
x3 + 2x4
∂ ln Pp
=−
+
+
.
∂p
1−p
1+p
p
Es ist
∂ ln Pp
∂p
p2 +
= 0 genau dann, wenn gilt (mit n = x1 + x2 + x3 + x4 )
x3 + 2x4
x1
p−
= 0.
n + x2 + x4
n + x2 + x4
Im Intervall ]0, 1[ hat diese quadratische Gleichung die einzige Lösung
s
x1
x3 + 2x4
x21
p∗ = −
+
+
.
2(n + x2 + x4 )
4(n + x2 + x4 )2 n + x2 + x4
Wegen P0 = 0 = P1 und Pp > 0 für 0 < p < 1 muss Pp an der Stelle p∗ ein Maximum haben.
Beispielsweise ergaben sich bei der Untersuchung von n = 1000 Personen folgende Werte:
x2 x3 x4
x1
480 492 25 3
Daraus resultiert der Schätzwert p∗ = 0, 055.
Bemerkung 16.8:
Spart man sich die lästige Maximum–Likelihood–Rechnung und schätzt die Wahrscheinlichkeit
p einfach mit der Schätzfunktion n2 X3 , so erhält man den Schätzwert p = 0, 05.
Beispiel 16.6:
Ein Käufer elektronischer Bauelemente möchte die Qualität einer Lieferung beurteilen. Aus
einer Sendung von N = 125 Teilen nimmt er n = 24 und überprüft sie. Er findet x = 3 defekte
Teile und möchte die Zahl K aller defekten Teile der Lieferung schätzen.
Die Zufallsgröße X, die die Anzahl der defekten Teile angibt, ist hypergeometrisch verteilt, d.h.
K N −K
hK (x) =
x
n−x
N
n
.
Für K suchen wir die Maximum–Likelihood–Schätzfunktion. Das bedeutet: Bei gegebenem
Beobachtungsergebnis x ist der Wert K(x) des Parameters K zu bestimmen, für den
K 7→ hK (x)
hK (x) ≥ hK−1 (x)
⇐⇒
Kn ≤ (N + 1)x
⇐⇒
(N + 1)x
.
n
K≤
Wir suchen die Zahl K, die den maximalen Wert liefert, d.h. hK−1 (x) ≤ hK (x) ≥ hK+1 (x)
erfüllt. Nach obiger Rechnung muss für dieses K gelten
(N + 1)x
(N + 1)x
−1 ≤ K ≤
.
n
n
Ist also
(N +1)x
n
nicht ganzzahlig, so ist K(x) =
h
(N +1)x
n
Ist (N +1)x
∈ {1, . . . , N }, so kann entweder K 1 (x) =
n
werden.
i
die Maximum-Likelihood-Schätzung.
(N +1)x
n
Der Käufer elektronischer Bauteile würde daher K(3) =
Bemerkung 16.9:
− 1 oder K 2 (x) =
126·3 24
(N +1)x
n
geschätzt
= 15 schätzen.
Einfacher erhält man mit gesundem Menschenverstand“ die erwartungstreue Schätzfunktion
”
e
K(X)
= Xn N , denn der Anteil der defekten Teile insgesamt sollte etwa dem Anteil der defekten
Teile der Stichprobe entsprechen.
Diese Schätzfunktion liefert im Beispiel 16.6 den Schätzwert
125
24
· 2 ≈ 15, 6.
Aufgabe 16.3:
N sei die nicht bekannte Anzahl der Fische in einem Teich. Um N zu ermitteln, werden K
Fische gefangen, durch einen roten Fleck gekennzeichnet und wieder ausgesetzt. Einige Tage
später werden n Fische gefangen; x von ihnen haben einen roten Fleck.
Führen Sie eine Maximum–Likelihood–Schätzung für N durch. Bestimmen Sie dazu die Verteilung und suchen Sie ihren Maximalwert in Abhängigkeit von N .
Aufgabe 16.4:
Eine durch unabhängige Wiederholungen gewonnene Stichprobe einer poissonverteilten Zufallsgröße habe die Werte x1 , . . . , xn . Man bestimme durch eine Maximum–Likelihood-Schätzung
einen Näherungswert für µ.
Aufgabe 16.5:
Man bestimme aus einer Stichprobe von n Werten x1 , . . . , xn mittels der Maximum–LikelihoodMethode den Mittelwert µ und die Varianz σ 2 einer normalverteilten Zufallsgröße X. Die Werte
xi seien unabhängig ermittelt.
Vergleichen Sie die Ergebnisse mit den Sätzen 16.1 und 16.5.
200
17
17.1
17 KONFIDENZINTERVALLE
Konfidenzintervalle
Problemstellung
Bei der Punktschätzung eines unbekannten Parameters wird jedem Ergebnis eines Experiments
durch eine Schätzfunktion eine reelle Zahl, der Schätzwert für den Parameter, zugeordnet. Man
entscheidet sich also für einen einzelnen der möglichen Parameterwerte.
Dabei darf die Entscheidung nicht mit der Vorstellung verbunden werden, den wahren Parameterwert gefunden zu haben. Auch wird für eine Punktschätzung keine Wahrscheinlichkeitsaussage über die Genauigkeit der Schätzung gemacht. Man nimmt i.a. in Kauf, dass mit hoher
Wahrscheinlichkeit der Schätzwert nicht der wahre Parameterwert ist. Wir betrachten hierzu
das
17.2 Ein Beispiel
Grenze O(x) eines solchen Schätzintervalls sind die Werte von zwei Zufallsgrößen U (X) und
O(X). Damit werden Schätzintervalle (wie auch Schätzwerte) durch das zufällige Ergebnis
eines Experiments festgelegt.
Bei der Festlegung des Intervalls wird gefordert, dass der gesuchte Parameterwert mit einer
Mindestwahrscheinlichkeit von 1 − α von dem Intervall überdeckt“ wird.
”
Definition 17.1: (Konfidenzintervall, Schätzintervall)
Ein Intervall mit zufälligen Grenzen [U (X), O(X)], für das für jeden Parameterwert u gilt
P U (X) ≤ u ≤ O(X) ≥ 1 − α ,
nennt man ein Konfidenzintervall für den Parameterwert u zum (Konfidenz–)Niveau
1 − α oder ein (1 − α) · 100 %–Konfidenzintervall.
Beispiel 17.1:
Für ein Ergebnis x des Zufallsexperiments heißt dann [U (x), O(x)] Schätzintervall.
Ein Käufer elektronischer Bauelemente möchte die Qualität einer Lieferung von 1000 Teilen
beurteilen. Dazu entnimmt er der Lieferung zufällig 50 Teile, die er überprüft.
1 − α heisst Sicherheiswahrscheinlichkeit.
Dieses Zufallsexperiment kann durch ein Urnenmodell beschrieben werden, wobei die Urne
1000 weiße und schwarze Kugeln, mit einem unbekannten Anteil schwarzer, enthält. Aus der
Urne werden 50 Kugeln ohne Zurücklegen gezogen. Wir betrachten eine rechnerisch etwas
übersichtlichere Variante dieses Problems.
Bemerkung 17.1:
Beispiel 17.2:
In einer Urne liegen 12 Kugeln, von denen ein unbekannter Anteil u schwarz ist. Wir ziehen 6
Kugeln. Die Zufallsgröße X gebe die Anzahl der schwarzen unter den gezogenen Kugeln an.
e
X ist hypergeometrisch verteilt. Nach Bemerkung 16.9 ist K(X)
= 12 · X6 eine erwartungstreue
Schätzgröße für die unbekannte Anzahl der schwarzen Kugeln in der Urne. Dementsprechend
wird der unbekannte Anteil der schwarzen Kugeln mit der erwartungstreuen Schätzgröße X6
geschätzt. Mögliche Werte dieser Schätzgröße sind 0, 61 , 26 , . . . , 1.
5
Befinden sich nun tatsächlich 5 schwarze Kugeln in der Urne, so kann der wahre Anteil 12
von
X
der Schätzgröße 6 gar nicht als Wert angenommen werden. Wenn sich 2 schwarze Kugeln in der
2
nur mit der Wahrscheinlichkeit
Urne befinden, so nimmt die Schätzgröße X6 den wahren Anteil 12
6
P (X = 1) = 11 an.
Ist die Verteilung einer Schätzgröße stetig, so erhält man sogar mit Wahrscheinlichkeit 1, d.h.
mit Sicherheit einen Schätzwert, der vom wahren Parameterwert abweicht.
Man kann also nicht davon ausgehen, dass eine Schätzgröße mit großer Wahrscheinlichkeit
den wahren Parameterwert als Wert annimmt. Diese Eigenschaft von Punktschätzungen wird
manchmal als nachteilig empfunden. Wir betrachten jetzt eine andere Schätzmethode, bei der
außerdem eine Wahrscheinlichkeitsaussage über die Genauigkeit der Schätzung gemacht wird.
Bei einer Intervallschätzung wird jedem Ergebnis x eines Experiments ein Intervall reeller
Zahlen, ein sogenanntes Schätzintervall, zugeordnet. Die untere Grenze U (x) und die obere
201
Der Begriff des Konfidenzintervalls wurde 1935 von J. Neyman eingeführt.
In der Literatur werden manchmal die Schätzintervalle [U (x), O(x)] selbst, als Konfidenzin”
tervalle“ oder Realisierungen des Konfidenzintervalls“ bezeichnet. Wir wollen hier jedoch die
”
Bezeichnungen auseinanderhalten.
Von einem Konfidenzintervall verlangt man, dass es den unbekannten wahren Parameterwert mit vorgegebener Mindeswahrscheinlichkeit enthält, ganz gleich welche Verteilung die
wahre ist (Zuverlässigkeit der Schätzung). Außerdem sollte das Konfidenzintervall
zu möglichst kurzen Schätzintervallen führen (Aussagekraft der Schätzung).
Die Zuverlässigkeit und die Aussagekraft einer Intervallschätzung kann man nicht gemeinsam
maximieren. Vielmehr hat eine erhöhte Zuverlässigkeit eine verminderte Aussagekraft zur Folge
und umgekehrt.
17.2
Ein Beispiel
In diesem Abschnitt werden wir Beispiel 17.2 aufgreifen und ein Konfidenzintervall für den
Anteil u der schwarzen Kugeln konstruieren. In Abbildung 17.1 sind zunächst die Wahrscheinlichkeiten für die Werte der hypergeometrisch verteilten Zufallsgröße X bei den verschiedenen
Mischungsverhältnissen in der Urne angegeben.
Konstruktion eines Konfidenzintervalls für u zum Niveau 0, 9
Wir wählen jetzt α = 0, 1. Wir bestimmen zu jedem Beobachtungsergebnis x (d.h. x schwarze
Kugeln gezogen) ein Schätzintervall für u.
202
Werte
von X
Anteil u der schwarzen Kugeln
1
12
2
12
3
12
4
12
5
12
6
12
7
12
8
12
9
12
10
12
11
12
x
0
0
1
0.5 0.227 0.091 0.030 0.008 0.001 0
0
0
0
0
0
1
0
0.5 0.545 0.409 0.242 0.114 0.039 0.008 0
0
0
0
0
2
0
0
0.227 0.409 0.455 0.379 0.244 0.114 0.030 0
0
0
0
3
0
0
0
0.091 0.242 0.379 0.433 0.379 0.242 0.091 0
0
0
4
0
0
0
0
0.030 0.114 0.244 0.379 0.455 0.409 0.227 0
0
5
0
0
0
0
0
0
6
0
0
0
0
0.008 0.039 0.114 0.242 0.409 0.545 0.5
0
0
0.001 0.008 0.030 0.091 0.227 0.5
1
1
Abb. 17.1
1
, . . . , 11
, 1} Mengen
Zur Konstruktion bestimmen wir zunächst für jeden Wert von u ∈ {0, 16
16
Au von möglichen Beobachtungsergebnissen. Diese werden so aus den Werten der Zufallsgröße
X gebildet, dass die Wahrscheinlichkeit P (X ∈ Au ) die Zahl 1 − α = 0, 9 gerade erreicht oder
um möglichst wenig übersteigt, und dass die Wahrscheinlichkeiten, dass X kleiner bzw. größer
als die Werte in Au ist, möglichst gleich groß sind (ideal wäre α/2).
Die Mengen Au und die Wahrscheinlichkeiten P (X ∈ Au ) können aus der Tabelle in Abbildung
17.1 abgelesen werden. Es ergibt sich:
0
u
Au
P (X ∈ Au )
1
12
2
12
{0} {0, 1} {0, 1, 2}
1
1
1
3
12
4
12
5
12
6
12
7
12
8
12
9
12
10
12
11
12
0, 940
0, 984
0, 920
0, 984
0, 940
0, 909
1
1
1
12
Wir wählen nun als Schätzintervall zum Beobachtungsergebnis x das kleinste Intervall, das alle
Parameterwerte u mit x ∈ Au enthält.
Beispielsweise gehört 2 genau dann zu Au , wenn u zwischen
2 ∈ Au ⇐⇒ U (2) :=
2
12
und
7
12
liegt, also
7
2
≤u≤
=: O(2) .
12
12
Allgemeiner setzt man x ∈ Au ⇔ U (x) ≤ u ≤ O(x) (vgl. Tabelle unten). Wir definieren also
die Funktionen U (untere Grenze) und O (obere Grenze) durch
U (x) = Min {u | x ∈ Au }
und
O(x) = Max {u | x ∈ Au } .
d.h. das konstruierte Konfidenzintervall [U (X), O(X)] hat das gewünschte Niveau.
In unserem Beispiel hat es sogar das Niveau 0, 909, da 0, 909 die kleinste der Wahrscheinlichkeiten P (X ∈ Au ) ist. Für die einzelnen Beobachtungsergebnisse ergeben sich aus der Tabelle
für Au die folgenden Schätzintervalle:
Beobachtungsergebnis x Schätzintervall [U (x), O(x)]
Schätzwert
0
2
[0, 12
]
0
1
1 5
, 12 ]
[ 12
2
12
2
2 7
, 12 ]
[ 12
4
12
3
3 8
, 12 ]
[ 12
6
12
4
5 10
, 12 ]
[ 12
8
12
5
7 11
, 12 ]
[ 12
10
12
6
9
, 1]
[ 12
1
x
6
Die Werte der Schätzgröße X6 sind in der letzten Spalte angegeben. Die Schätzwerte liegen
mehr oder weniger in der Mitte der entsprechenden Schätzintervalle.
Interpretation des Konfidenzintervalls [U (X), O(X)] und des Konfidenzniveaus
9
3
und u = 12
kann man je zwei verschiedene Mengen als Au wählen. Wir entscheiden
Für u = 12
uns willkürlich für die Mengen A 3 = {1, 2, 3} und A 9 = {4, 5, 6}.
12
Bei dieser Definition enthält ein Schätzintervall [U (x), O(x)] gerade alle Parameterwerte, unter
denen x mit relativ großer Wahrscheinlichkeit zu den Beobachtungsergebnissen gehört. Wegen
der Äquivalenz U (x) ≤ u ≤ O(x) ⇔ x ∈ Au gilt für jedes u
P U (X) ≤ u ≤ O(X) = P (X ∈ Au ) ≥ 1 − α ,
1
{0, 1, 2}
{3, 4, 5}
{1, 2, 3} {1, 2, 3, 4} {2, 3, 4} {2, 3, 4, 5} {3, 4, 5}
{4, 5, 6} {5, 6} {6}
{1, 2, 3}
{4, 5, 6}
0, 909
203
17.2 Ein Beispiel
Die Wahrscheinlichkeit P U (X) ≤ u ≤ O(X) ist die Wahrscheinlichkeit, dass das Konfidenzintervall [U (X), O(X)] den Parameterwert u überdeckt, wenn man annimmt, dass u der wahre
Parameterwert der Verteilung der Zufallsgröße X ist.
Bei der Formulierung dieses Sachverhalts muss beachtet werden, dass das Intervall [U (X), O(X)]
und nicht der Parameterwert u stochastischen (zufälligen) Charakter hat. Nicht benutzen sollte
man daher Formulierungen wie: u ist mit einer Wahrscheinlichkeit von mindestens 1 − α im
Konfidenzintervall enthalten.
Wird x beobachtet, so kann man ziemlich sicher (Konfidenzniveau 1−α) sein (oder zuverlässig
”
schließen“), dass der wahre Parameterwert der Verteilung der Zufallsgröße X in [U (X), O(X)]
liegt. Man sagt: Ein Schätzintervall zum Konfidenzniveau 1 − α für den wahren Anteil der
schwarzen Kugeln in der Urne ist [U (x), O(x)] .
5 10
, 12 ] ein Schätzintervall für u zum Niveau 0, 9.
Nimmt z.B. X den Wert x = 4 an, so ist [ 12
5 10
, 12 ] stochastischen
Auch hier muss man auf die Formulierung achten. Da weder u noch [ 12
Charakter haben, ist es sinnlos zu sagen: u liegt mit einer Wahrscheinlichkeit von mindestens
5 10
, 12 ]. Das Konfidenzniveau muss vielmehr folgendermaßen gedeutet werden:
0, 9 im Intervall [ 12
204
Werden in vielen (verschiedenen) Situationen Experimente unabhängig voneinander durchgeführt, und wird aufgrund der Ergebnisse jeweils zum Niveau 1 − α ein Schätzintervall bestimmt, so wird sich der Anteil der Schätzintervalle, die den jeweils wahren Parameterwert
nicht enthalten, auf nicht mehr als ungefähr α belaufen.
Wird z.B. 1 − α = 0, 95 gewählt, so kann man erwarten, dass etwa bei 95 % aller Stichproben,
die man entnimmt, die zugehörigen Schätzintervalle den Wert u überdecken und etwa bei 5 %
nicht. Hat man solche Intervalle bestimmt, so ist die Aussage, dass so ein Intervall u überdeckt,
in etwa 19 von 20 Fällen zutreffend, und in etwa einem von 20 Fällen falsch. Bei 1 − α = 0, 99
wird diese Aussage in etwa 99 von 100 Fällen richtig sein und nur in etwa einem Fall falsch.
Die erhöhte Sicherheit bedingt längere Konfidenzintervalle. Welchen Wert 1 − α man im konkreten Fall wählen soll, ist kein mathematisches Problem sondern hängt von der Art der Anwendung ab. Man muss sich überlegen, wie groß das Riskiko ist, das man bei einer falschen
Aussage eingeht.
Aufgabe 17.1:
Die Zufallsgröße X, die die Lebensdauer einer Glühbirne angibt, sei exponentialverteilt mit
unbekanntem Mittelwert µ. Eine getestete Glühbirne hielt 1000 Stunden. Bestimmen Sie ein
95%-Schätzintervall für die mittlere Lebensdauer.
205
17.3 Schätzung des Erwartungswertes einer Normalverteilung
Gesucht ist nun ein 99%–Schätzintervall für die mittlere Größe der Sägeblatter.
Zur Lösung dieses Problems benötigen wir einige noch nicht behandelte Sätze, insbesondere
Eigenschaften der Normalverteilung. Wir stellen diese zunächst zusammen.
Benötigte Sätze
Satz 17.1:
X und Y seien unabhängige stetige Zufallsgrößen mit den stetigen Dichten f1 , f2 : R → R .
Dann besitzt Z := X + Y die Verteilungsfunktion F : R → R und die Dichte f : R → R mit

 z−y
Z∞
Z
Z∞


f1 (z − y) f2 (y) dy .
f1 (x) dx dy und f (z) =
f2 (y)
F (z) =
−∞
−∞
−∞
Beweis: Aufgabe; man verwende Satz 12.3 und beachte die Unabhängigkeit von X und Y . 2
Satz 17.2: (Summe unabhängiger normalverteilter Zufallsgrößen)
17.3
Schätzung des Erwartungswertes einer Normalverteilung
Problemstellung
X1 , . . . , Xn seien unabhängige normalverteilte Zufallsgrößen mit den Mittelwerten µ1 , . . . , µn
und den Varianzen σ12 , . . . , σn2 . Dann ist auch die Zufallsgröße
Z = X1 + . . . + X n
Gegeben ist eine Stichprobe x1 , . . . , xn aus einer normalverteilten Grundgesamtheit, deren Varianz σ 2 bekannt ist. Der Erwartungswert µ sei unbekannt, und es soll ein Konfidenzintervall
für µ bestimmt werden.
Bemerkung 17.2:
Die Aufgabe hat praktische Bedeutung. Handelt es sich z.B. um die Abmessung eines Massenartikels (Länge eines Bolzens, Stärke einer Dichtung), so kann es durchaus sein, dass man µ
nicht kennt, weil µ von der jeweiligen Einstellung der Maschine abhängt, mit dem der Artikel
gefertigt wird, dass man aber σ aus früherer Erfahrung kennt, weil σ in erster Linie von der
Güte der Maschine und fast nicht von deren spezieller Einstellung abhängt.
Beispiel 17.3:
An einer Maschine können Kreissägeblätter mit verschiedenem Durchmesser hergestellt werden.
Aufgrund langer Erfahrung kennt man die Standardabweichung σ = 0, 8 mm des Blattdurchmessers, die bei der Produktion einer bestimmten Sägeblattart auftritt; dabei hängt die Standardabweichung nicht von der Größe der hergestellten Sägeblätter selbst ab. Zur Produktion
einer bestimmten Größe wird die Maschine neu eingestellt, und es werden die Durchmesser von
25 produzierten Blättern gemessen. Die Messungen ergaben die 25 Werte (in mm):
154, 7; 155, 8; 155, 3; 155, 5; 155, 0; 154, 3; 156, 2; 153, 1; 154, 2; 155, 1; 153, 8; 154, 6; 155, 5;
153, 8; 155, 6; 154, 5; 155, 8; 156, 0; 155, 0; 155, 9; 153, 6; 154, 4; 154, 1; 154, 3; 155, 3.
normalverteilt mit Mittelwert µ = µ1 + . . . + µn und Varianz σ 2 = σ12 + . . . + σn2 .
Beweis:
Die Summenformeln für die Mittelwerte und die Varianzen wurden in den Sätzen 12.6 und
12.10 hergeleitet. Daher müssen wir nur noch zeigen, dass X normalverteilt ist. Wir führen
den Beweis durch vollständigen Induktion.
Sei n = 2, also Z = X1 + X2 . Die Dichten von X1 und X2 sind
f1 (x) = √
x−µ1 2
1
−1(
)
e 2 σ1
2π σ1
und
f2 (x) = √
x−µ2 2
1
−1(
)
e 2 σ2 .
2π σ2
Nach Satz 17.1 hat Z die Dichte
f (z) =
Z∞
−∞
1
f1 (z − y) f2 (y) dy =
2πσ1 σ2
Z∞
− 12
e
„
z−y−µ1
σ1
«2 „
« !
y−µ2 2
+
σ2
−∞
Mit den Abkürzungen µ := µ1 + µ2 und σ 2 := σ12 + σ22 sowie
σ
z−µ
σ 2 µ2 + σ22 (z − µ1 )
v1 :=
und v2 :=
y− 1
σ 1 σ2
σ2
σ
dy .
206
kann man folgende Formel nachrechnen:
2 2
y − µ2
z − y − µ1
+
= v12 + v22 .
σ1
σ2
−
Beweis:
Die Verteilungsfunktion von Y lautet
1 2
v
2 2
Da v2 von y unabhängig ist kann der Faktor e
1
Substitution y → v1 mit dv
= σ1σσ2 erhält man
dy
1
2πσ1 σ2
f (z) =
Z∞
−∞
1 − 1 v22
e 2
2πσ
=
1
e− 2
Z∞
v12 +v22
1
2
dy =
(∗)
e− 2 v1 dv1 =
−∞
vor das Integral gezogen werden. Mit der
1 2
1
e− 2 v2
2πσ1 σ2
1 2
e− 2 v1 dy
−∞
1 z−µ 2
1 − 1 v22 √
1
e 2 · 2π = √
e− 2 ( σ ) .
2πσ
2π σ
Im Induktionsschritt setzen wir voraus, dass für n = k unabhängige, normalverteilte Zufallsgrößen X1 , . . . , Xk auch die Zufallsgröße Y = X1 + . . . + Xk normalverteilt ist.
Wir betrachten nun n = k + 1 unabhängige, normalverteilte Zufallsgrößen X1 , . . . , Xk , Xk+1 .
Man kann zeigen, dass Y = X1 + . . . + Xk und Xk+1 ebenfalls unabhängig sind (s. Aufgabe
17.2).
Die Zufallsgröße Y ist nach Induktionsvoraussetzung normalverteilt, und daher ist wegen der
Induktionsverankerung (n = 2) die Zufallsgröße
Z=
F (y) = P (Y ≤ y) = P (aX + b ≤ y) = P
τ −b
a
Wir substituieren t =
Z∞
Zu (∗) vgl. Satz 10.2. Für n = 2 ist Z daher normalverteilt.
k+1
X
207
Ry
y−b
1
=√
2π σ
Za
1 t−µ 2
)
σ
e− 2 (
dt .
−∞
und
−
e
τ − b − aµ
τ − µY
t−µ
=
=
.
σ
aσ
σY
1 τ −µY 2
(
)
2
σY
dτ gilt die Behauptung. 2
−∞
Die Aussagen über Mittelwert und Varianz ergeben sich auch aus den Sätzen 9.2 und 9.6.
Ein Spezialfall von Satz 17.3 wurde implizit schon in Satz 10.5 für die normalisierte Zufallsgröße
Z = X−µ
, d.h. für a = σ1 und b = − σµ hergeleitet.
σ
Aus den Sätzen 17.2 und 17.3 folgert man direkt:
Satz 17.4:
Sind X1 , . . . , Xn unabhängige normalverteilte Zufallsgrößen, von denen jede den Mittelwert µ
und die Varianz σ 2 besitzt, so ist
X=
ebenfalls normalverteilt. 2
1
(X1 + . . . + Xn )
n
normalverteilt mit Mittelwert µ und Varianz
Aufgabe 17.2:
Zeigen Sie durch vollständige Induktion nach k, dass für k + 1 unabhängige Zufallsgrößen
X1 , . . . , Xk , Xk+1 auch Y = X1 + . . . + Xk und Xk+1 unabhängig sind.
Bemerkung 17.3:
Xi = Y + Xk+1
i=1
√ 1
2π σY
y−b
X≤
a
und erhalten
dt
1
σ
σ
= =
=
dτ
a
aσ
σY
Wegen F (y) =
Z=
σ2
.
n
Die standardisierte Zufallsgröße
√ X −µ
n
σ
von X ist ebenfalls normalverteilt mit Mittelwert 0 und Varianz 1.
Satz 17.3: (Lineare Transformation normalverteilter Zufallsgrößen)
Ist die Zufallsgröße X normalverteilt mit Mittelwert µ und Varianz σ 2 , so ist die Zufallsgröße
Y = aX + b ,
a, b ∈ R, a > 0
ebenfalls normalverteilt mit Mittelwert µY = aµ + b und Varianz σY2 = a2 σ 2 .
Bestimmung eines Konfidenzintervalls
Aus Symmetriegründen wird das Konfidenzintervall symmetrisch zum Mittelwert X der beobachteten Messergebnisse gewählt. Gesucht wird also ein möglichst kleines Intervall [X − a , X +
a] mit der Eigenschaft
208
209
Beispiel 17.4:
1 − α ≤ P (X − a ≤ µ ≤ X + a) = P (−a ≤ X − µ ≤ a)
√
√
√ √ −a n
a n (s. Satz 17.4)
a n
−a n √ (X − µ)
=
P
≤ n
≤
≤Z≤
= P
σ
σ
σ
σ
σ
√ √ √ a n
−a n
a n
= Φ
−Φ
= 2Φ
− 1.
σ
σ
σ
√
α
σ
σ
a n
α
) ≥ 1−
oder a ≥ √ Φ−1 (1 − ) =: √ z0 . Hieraus ergibt
σ
2
2
n
n
sich die folgende Vorgehensweise:
Dies ist äquivalent zu Φ(
Wir bestimmen ein 95 %–Schätzintervall für den Mittelwert einer Normalverteilung mit
der Varianz σ 2 = 9 aus einer Stichprobe mit dem Mittelwert x = 5 und dem Umfang n = 100.
1. Schritt: Es ist 1 − α = 0, 95 .
2. Schritt: Das Urbild von 1 −
3. Schritt: a =
1,96·3
√
100
α
2
= 0, 975 ist z0 = 1, 960 .
= 0, 588 .
4. Schritt: x = 5 (ist hier gegeben).
Ein Schätzintervall für µ zum Niveau 1 − α = 0, 95 ist [x − a, x + a] = [ 4.412 , 5.588 ].
Aufgabe 17.3:
1. Schritt: Man wählt ein Konfidenzniveau 1 − α (z.B. 0, 90; 0, 95 o.ä.).
α
2
gehörige Urbild z0 ( zwischen −z0 und z0 liegt dann die Wahrscheinlichkeit 1 − α,
s. Abb. 17.2).
2. Schritt: Man bestimmt mit Hilfe der Tafel der Normalverteilung (siehe Anhang) das zu 1−
φ(z)
Berechnen Sie das Schätzintervall aus Beispiel 17.3.
Zuverlässigkeit und Aussagekraft
In der Praxis steht man oft vor dem Problem, dass man einerseits ein gewisses Konfidenzniveau
nicht unterschreiten will, andererseits aber eine maximale Länge für das Konfidenzintervall
vorgegeben ist. Beiden Forderungen kann man durch Wahl einer hinreichend großen Stichprobe
genügen.
1- α
Beispiel 17.5:
α/2
α/2
-z0
z0
z
Abb. 17.2
Für die wichtigsten Werte von α sind die z0 in der folgenden Tabelle aufgeführt.
1−α
0, 90
0, 95
0, 99
0, 999
Welchen Umfang muss die Stichprobe in Beispiel 17.4 haben, wenn man ein 95 %–Konfidenzintervall der Länge 2a = 0, 4 haben möchte?
2
2
Die Intervallänge ist 2a = 2z√0nσ . Daraus folgt n = z0aσ = 1,960·3
= 864, 36. Also muss
0,2
n ≥ 865 sein.
Allgemein nimmt die Intervallänge 2a mit wachsendem n ab. Abbildung 17.3 zeigt die Art
der Abhängigkeit, wobei die Länge in Vielfachen von σ gemessen wird. Je kürzere Intervalle
man wünscht, desto größere Stichproben sind erforderlich. Die halbe Intervallänge verlangt den
vierfachen Stichprobenumfang.
z0 σ
3. Schritt: Man berechnet die Zahl a = √ .
n
Zuverlässigkeit und Aussagekraft einer Intervallschätzung lassen sich, wie zu Anfang des Kapitels erwähnt, nicht gemeinsam maximieren. Abbildung 17.4 kann man entnehmen, wie bei
konstant gehaltenem Stichprobenumfang n die Intervallänge 2a mit dem Konfidenzniveau 1 − α
zunimmt. Die Länge wird dabei wiederum in Vielfachen von σ gemessen. Man beachte: Für
α → 0 gilt 2a → ∞.
4. Schritt: Man berechnet gegebenenfalls den Mittelwert x der Stichprobe x1 , . . . , xn .
Aufgabe 17.4:
z0
1, 645 1, 960 2, 576 3, 291
Dann lautet das Schätzintervall für den Mittelwert µ der Grundgesamtheit
[x − a, x + a].
Das zugehörige Konfidenzintervall ist dementsprechend [U (X), O(X)] = X − a, X + a .
Welchen Umfang muss die Stichprobe im Beispiel 17.4 haben, wenn man ein 99 %–Konfidenzintervall der Länge 0, 40 haben möchte?
210
211
18
0,6
18.1
1- α = 99%
0,2
Unsere Frage lautet: Besteht zwischen X und Y näherungsweise ein linearer Zusammenhang?
Zwischen der Seitenlänge eines Quadrats und seinem Flächeninhalt besteht ein streng funktionaler, aber nichtlinearer Zusammenhang, denn jeder Seitenlänge ist genau ein Flächeninhalt
zugeordnet.
1- α = 95%
0,0
0
1000
500
Regressionsgeraden
Die bisher dargestellten statistischen Methoden waren auf die Untersuchung einer eindimensionalen Häufigkeitsverteilung bezogen. Nun betrachten wir für ein beobachtetes Ergebnis jeweils
zwei Merkmale X und Y , d.h. wir gehen von Datenpaaren – in der Regel von Zahlenpaaren
(X, Y ) – aus.
0,4
2a
σ
Regression und Korrelation
n
Abb. 17.3
Wenn wir Körpergröße und Gewicht vergleichen, so besteht kein funktionaler Zusammenhang.
Es gibt gleich große, aber verschieden schwere Personen und umgekehrt. Dennoch lehrt die
Erfahrung, dass insgesamt gesehen die Regel je größer, desto schwerer“ durchaus zutrifft. Wir
”
wollen versuchen, einen derartigen Zusammenhang zweier Größen zu beschreiben und durch
eine geeignete Maßzahl zu charakterisieren.
Zur Erfassung einer zweidimensionalen Häufigkeitsverteilung bietet sich als einfachstes Mittel
die Strichliste an. Für die Merkmale Größe X und Gewicht Y bei 100 erwachsenen Personen
ist in Abb. 18.1 ein Beispiel angegeben.
1,0
2a
σ
100
95
Gewicht 90
in kg
85
80
75
70
65
60
55
50
45
n = 50
0,5
n = 100
n = 200
n = 1000
|
|
||
||
||
|
||
|
||
|||
|6 |||
||
|
||||
|6 |||
|6 |||||
|
||
|||
|
|6 |||
||
|||
|
|6 ||||
||
||
|
|6 |||
|6 |||
||
|
||
||
|
||||
|
|
||
|
||
|
150 155 160 165 170 175 180 185 190 195
Größe in cm
0,0
0,90
1,00
0,95
1- α
Abb. 17.4
Abb. 18.1
Aufgrund einer solchen Strichliste könnte man die relativen Häufigkeiten für die einzelnen
Wertepaare berechnen und wie in Abschnitt 11.1 den Graphen der zweidimensionalen Treppenfunktion F entwickeln.
Für die weiteren Überlegungen wollen wir vorerst voraussetzen, dass die Paare (x, y) wie in
unserem Beispiel Paare von Maßzahlen sind. Wenn wir ferner vereinfachend annehmen, dass
212
18 REGRESSION UND KORRELATION
213
18.1 Regressionsgeraden
y
keine zwei Wertepaare übereinstimmen11 , so lassen sich die gegebenen Daten auch wie in Abb.
18.2 als Punktwolke“ in einem kartesischen Koordinatensystem darstellen.
”
y
x
Abb. 18.3 b
versuchen, die Regressionslinie durch eine Regressionsgerade zu ersetzen, d.h. durch eine
Gerade
y = ax + b ,
x
Abb. 18.2
Auch wenn wir wissen, dass es sich nicht um einen funktionalen Zusammenhang handeln kann,
fragen wir nach einer Kurve bzw. nach einem Streckenzug, durch den die in der Punktwolke
erkennbare Beziehung in einer Vereinfachung und Idealisierung dargestellt wird. Dafür gibt
es ein äußerst einfaches Verfahren: Wir führen eine Klasseneinteilung für die Variable X ein
(nicht aber für Y ). Für die in eine Klasse fallenden Punkte bilden wir das Mittel der y–Werte
und tragen es über der Klassenmitte auf. Verbindet man die so erhaltenen Punkte, so entsteht
eine Regressionslinie. Die Abbildungen 18.3 enthalten zwei Beispiele.
die sich der Punktwolke möglichst gut anpasst. Dabei suchen wir zunächst nach einer näherungsweise linearen Abhängigkeit der Größe y von der Größe x, d.h. wir denken uns die x-Werte
als fest vorgegeben, die y-Werte dagegen als fehlerbehaftet.
Als Maß der Anpassung betrachten wir daher die Summe der Abweichungsquadrate der gegebenen Punkte von der gesuchten Geraden in y-Richtung. Diese soll möglichst klein werden.
Die Abweichung in y-Richtung di eines Punktes (xi , yi ) von der Geraden g ist di = yi − axi − b
(s. Abb. 18.4), und die Summe der Abstandsquadrate erhält man als
y
(xi ,yi )
yi
y
g
di
axi + b
(xi ,axi + b)
xi
x
Abb. 18.4
Abb. 18.3 a
Wir wollen von Regression bezüglich X sprechen, da die Klassenbildung für X erfolgte. Man
kann natürlich auch umgekehrt Klassenbildung bezüglich Y und Mittelwertbildung bezüglich
X durchführen. Die dabei entstehende Regressionslinie bezüglich Y ist im allgemeinen von der
bezüglich X verschieden.
Von besonderem Interesse ist nun der Fall, in dem die Regressionslinie annähernd geradlinig
verläuft wie z.B. in Abb. 18.3 b. Wir verschärfen für diesen Fall unsere Aufgabenstellung und
11
Diese Voraussetzung ist nur für die graphische Darstellung von Bedeutung, nicht aber für die folgende
Herleitung der statistischen Maßzahl r.
x
D=
n
X
i=1
(yi − axi − b)2 .
D ist eine Funktion der beiden Koeffizienten a und b. Wir suchen die Gerade, für die D
möglichst klein wird, d.h. das Minimum von D. Da an einer lokalen Minimalstelle die beiden
und ∂D
verschwinden müssen, erhält man die beiden Bedingungen
partiellen Ableitungen ∂D
∂a
∂b
n
X
∂D
= −2
(yi − axi − b)xi = 0
∂a
i=1
n
und
X
∂D
= −2
(yi − axi − b) = 0 ,
∂b
i=1
214
215
18.1 Regressionsgeraden
wodurch die Koeffizienten a und b eindeutig bestimmt sind. Denn aus der zweiten Gleichung
n
n
P
P
folgt zunächst
yi − a xi = nb und hieraus durch Division durch n
und für diese gelten die bisherigen Überlegungen und Rechnungen mit entsprechend geänderten
Bezeichnungen ebenso. Es ist
sXY
a′ = 2
sY
Die gesuchte Gerade muss also durch den Punkt (x, y) mit den beiden Mittelwerten als Koordinaten laufen. Um die Steigung a zu bestimmen setzen wir b in die erste Gleichung ein und
erhalten
!
n
n
n
n
n
X
X
X
X
X
2
2
2
xi − nx − nx y, also
xi =
xi yi − a
0=
xi yi − a
xi − (y − ax)
der Regressionskoeffizient bezüglich y, und es gilt hier die Beziehung y = a1′ x + b′ , woraus dann
die Geradengleichung in der Gestalt y = a1′ x + b′ hervorgeht. Da beide Regressionsgeraden
durch (x, y) gehen, gilt:
i=1
i=1
y − ax = b .
i=1
i=1
i=1
P
xi yi − nx y
=
a= P 2
xi − nx2
1
n
i=1
i=1
P
xi yi − x y
P 2
.
1
xi − x2
n
Satz 18.1:
Die Regressionsgeraden bezüglich x und y schneiden sich im Punkt (x, y).
Im allgemeinen bilden die beiden Regressionsgeraden eine sogenannte Regressionsschere (s.
Die angegebenen Werte von a und b sind die einzigen Kandidaten für eine Extremalstelle von
D. Da aber D für betragsmäßig großes a bzw. b beliebig groß wird, muss hier das globale
Minimum liegen.
y
g : y = ax + b
g’ : y = a’x + b’
s2X
In dem Ausdruck für a hat sich im Nenner gerade die empirische Varianz
(vgl. Definition
14.5) von X ergeben. Der Zähler ist der entsprechende empirische Ausdruck für die Kovarianz zweier Zufallsgrößen X und Y (vgl. Definition 12.3); wir bezeichnen diesen Term mit sXY .
y
g
g’
Definition 18.1: (Regressionskoeffizient einer Häufigkeitsverteilung
Ist für die zweidimensionale Häufigkeitsverteilung der Variablen X und Y die empirische Varianz s2X 6= 0, so heißt die Zahl
sXY
a= 2
sX
n
mit
sXY
1X
=
xi yi − x y
n i=1
und
1X 2
s2X =
xi − x2
n
Regressionskoeffizient bezüglich X.
sXY
s2X
x.
Wir hätten auch umgekehrt nach einer Abhängigkeit der x–Werte von den y–Werten fragen
können. Gerade bei empirisch gegebenen Wertepaaren wie Körpergrößen und Gewichten oder
Längen und Zeiten ist die Frage nach einem linearen Zusammenhang in der einen Richtung ja
ebenso sinnvoll wie in der anderen.
Denken wir uns die Regressionsgerade bezüglich X durch (x, y) in der Form
y − y = a(x − x)
dargestellt, dann hat die Regressionsgerade bzgl. Y die Gestalt
a′ (y − y) = (x − x) ,
x
Abb. 18.5
Abb. 18.5). Lägen alle Punkte genau auf einer Geraden, so müssten die beiden Regressionsgeraden g und g ′ identisch sein. Die Steigungsfaktoren beider Geraden wären dann gleich,
also
a=
Die Voraussetzung s2X 6= 0 ist praktisch immer erfüllt; denn hätte die Varianz den Wert 0, so
müssten alle x–Werte gleich sein, d.h. X wäre konstant.
Für das Absolutglied b unserer Geradengleichung ergibt sich b = y −
x
1
a′
oder
a · a′ =
s2XY
= 1.
· s2Y
s2X
Je näher das Produkt der beiden Regressionskoeffizienten dem Wert 1 kommt, desto enger ist
die Regressionsschere, desto enger also der lineare Zusammenhang zwischen X und Y . Als
Maßzahl für diesen Zusammenhang verwendet man allerdings nicht unmittelbar das Produkt
a · a′ , sondern dessen Quadratwurzel, versehen mit dem Vorzeichen der Kovarianz.
Definition 18.2: (Korrelationskoeffizient einer Häufigkeitsverteilung)
Sind die empirischen Varianzen sX und sY von 0 verschieden, so heisst die Zahl
P
1
xi yi − x y
sXY
r=
= q Pn
P 2
sX · sY
1
yi − y 2 )
( n x2i − x2 ) ( n1
Korrelationskoeffizient für die Häufigkeitsverteilung der Variablen X und Y .
216
18.2
Diese Definition hat den Vorzug, dass r nicht nur wie das Produkt a · a′ die Güte“ des linearen
”
Zusammenhangs erkennen lässt, sondern auch die Richtung“. Ein Regressionskoeffizient ist ja
”
ein Steigungsfaktor, dessen Vorzeichen nur von sXY abhängt, da die Varianz im Nenner stets
positiv ist. Das Vorzeichen von r gibt also an, ob die Regressionsgeraden steigen oder fallen.
Aufgabe 18.1:
Gegeben sei die zweidimensionale Häufigkeitsverteilung“ (1, 1), (3, 5), (6, 6). Bestimmen Sie
”
die beiden Regressionsgeraden und den Korrelationkoeffizienten.
Man kann sich anschaulich klarmachen, dass von den beiden Regressionsgeraden g stets etwas
weniger gegen die x–Achse geneigt sein muss als g ′ . Das Produkt aa′ und somit auch r können
deshalb dem Betrag nach nicht größer als 1 sein.
217
18.2 Rangkorrelation und Vierfelderkorrelation
Rangkorrelation und Vierfelderkorrelation
Bisher haben wir für X und Y Intervallskalen12 vorausgesetzt. Man spricht deshalb auch
von Masskorrelation. Der hergeleitete Korrelationskoeffizient kann jedoch auch verwendet
werden, wenn die Paare (x, y) nicht Maßzahlpaare sondern Paare von Rangplätzen sind.
Es kann z.B. untersucht werden, wie sich die leistungsmäßige Rangordnung innerhalb einer
Schülergruppe in einem bestimmten Zeitraum verschiebt. Für jeden Schüler wird dann am
Anfang und am Ende des betreffenden Unterrichtsabschnitts der Rangplatz ermittelt, ohne
dass damit eine absolute Leistungsbeurteilung“ verbunden sein muss.
”
Für die beiden Rangreihen berechnet man dann den meist als rRang bezeichneten Rangkorrelationskoeffizienten, indem man in dem Ausdruck für r die Rangzahlen wie Maßzahlen
verwendet. Man kommt dabei zu einer wesentlich einfacheren Formel, weil sowohl die xi als
auch die yi genau die natürlichen Zahlen von 1 bis n durchlaufen müssen:
Der formale Nachweis dieser Tatsache erfordert einen gewissen Rechenaufwand:
Satz 18.3:
Satz 18.2:
Existiert der Korrelationskoeffizient r für eine zweidimensionale Häufigkeitsverteilung, so gilt
−1 ≤ r ≤ 1 .
Beweis:
Wir drücken die Summe der Abstandquadrate D =
rRang = 1 −
P
(yi − axi − b)2 durch r aus:
X
2
(yi − y) − a(xi − x)
(yi − axi − y + ax)2 =
X
X
X
=
(yi − y)2 − 2a
(xi − x) (yi − y) + a2
(xi − x)2
s2XY · s2X
2s2
+
= n(s2Y − 2asXY + a2 s2X ) = n s2Y − XY
s2X
s4X
s2
s2
= n s2Y − XY
= n · s2Y 1 − 2XY2 = n · s2Y (1 − r2 ) .
s2X
sX sY
D =
X
Durchlaufen sowohl die Werte xi als auch die Werte yi die n Rangplätze 1, . . . , n, dann lautet
der Rangkorrelationskoeffizient der beiden Zufallsgrößen X und Y
Beweis:
Es gilt
x=y=
Wir betonen noch einmal, dass r die Güte eines linearen Zusammenhangs von X und Y misst
und nicht eine Abhängigkeit schlechthin.
Bemerkung 18.1:
Definition 18.2 und Satz 18.2 sind gerade die Enrsprechungen zu Definition 12.4 und Satz
12.12. Dort wurde der Korrelationskoeffizient zweier Zufallsgrößen definiert und bewiesen, dass
er betragsmäßig nicht größer als 1 ist.
1
(n + 1) ,
2
x y = x2 = y 2 =
und daher
s2X = s2Y = sX sY =
Weiterhin erhält man
sXY
Wegen D ≥ 0, n > 0 und s2Y > 0 muss 1 − r2 ≥ 0 gelten. 2
n
X
6
(xi − yi )2 .
(n − 1) n (n + 1) i=1
1
(n + 1)2 ,
4
X
x2i =
X
yi2 =
n(n + 1)(2n + 1)
.
6
(n + 1)(n − 1)
(n + 1)(2n + 1) 1
1X 2
xi − x2 =
− (n + 1)2 =
.
n
6
4
12
1X
xi yi − x y =
n
−1 X
=
(xi − yi )2 +
2n
=
Hieraus folgt die Behauptung. 2
−1 X
1 X 2
1 X 2
(xi − yi )2 +
xi +
yi − x y
2n
2n
2n
1X 2
−1 X
xi − x2 =
(xi − yi )2 + sX sY .
n
2n
Bei der praktischen Aufstellung einer Rangreihe ist zu beachten, dass eventuell gleichen Rohwerten das arithmetische Mittel der betreffenden Rangplätze zugeordnet wird. Lauten z.B.
12
D.h. die Werte der Skala beziehen sich auf eine gegebene Maßeinheit (im Gegensatz dazu werden Leistungsnoten von einer Ordinalskala erfasst, d.h. die Leistungen stehen nur in einer Rangfolge).
218
die Punktzahlen in einem Test 20 18 18 16 . . . , so beginnt die zugehörige Rangreihe statt mit
1 2 3 4 . . . mit 1 2, 5 2, 5 4 . . . . Satz 18.3 ist dann allerdings nicht mehr direkt anwendbar.
Neben der Rangkorrelation wollen wir noch einen weiteren Sonderfall erwähnen. Haben X und
Y je eine Zweipunktverteilung, sind beides also Alternativmerkmale wie krank – nicht krank“
”
oder geimpft – nicht geimpft“, so hat die Häufigkeitstabelle nur vier Felder, in die wir die mit
”
a, b, c, d bezeichneten absoluten Häufigkeiten eintragen. Den beiden möglichen Fälle für X und
Y ordnen wir die Zahlen 0 und 1 zu:
Y
nicht erkrankt erkrankt
X
0
1
nicht geimpft
0
a
b
geimpft
1
c
d
Es ist dann offenbar
X
X
xi
=
x2i = (a + b) · 0 + (c + d) · 1 = c + d = nx ,
X
X
yi
=
yi2 = (a + c) · 0 + (b + d) · 1 = b + d = ny ,
X
xi yi = a · 0 · 0 + b · 0 · 1 + c · 1 · 0 + d · 1 · 1 = d ,
wobei a+ b + c + d = n. Setzt man dies wiederum in Definition 18.2 ein und erweitert den Bruch
mit n2 , so ergibt sich der Pearsonsche Vierfelder–Korrelationskoeffizient rφ :
nd − (c + d) (b + d)
n(b + d) − (b + d)2
n − (c + b + d) d − bc
= q
n − (c + d) (c + d) n − (b + d) (b + d)
rφ = q
n(c + d) − (c + d)2
ad − bc
.
= p
(a + b) (c + d) (a + c) (b + d)
219
18.2 Rangkorrelation und Vierfelderkorrelation
in eine Rangfolge gebracht – ein im Zusammenhang mit dem Problem der Leistungsmessung
vielfach durchgeführter Versuch. Die Ergebnisse kann man den Abbildungen 18.6 entnehmen.
Die Abbildung rechts zeigt eine häufig verwendete und für kleinere Werte von n sehr übersichtliche graphische Darstellung der Rangkorrelation.
Rangreihe nach
Lehrer X
Lehrer Y
Rangplatz nach
Schüler
a
b
c
d
e
f
g
h
Lehrer X
2
1
4
8
3
7
5
6
Lehrer Y
3
2
4
8
1
6
7
5
b
e
a
e
b
a
c
c
g
h
h
f
g
f
d
Abb. 18.6 a
d
Abb. 18.6 b
Man bestimme den Koeffizienten rRang .
Aufgabe 18.3:
Man bestimme die beiden Regressionsgeraden und den Maßkorrelationskoeffizienten r für die
folgenden Wertepaare:
x
y
1 2
2 1
4
2
5
3
3
4
Aufgabe 18.4:
An einer Aufnahmeprüfung für eine höhere Schule haben 60 Schüler aus Schule A und 40 Schüler
aus Schule B teilgenommen. 40 Schüler haben nicht bestanden, darunter 10 von Schule B.
Als Spezialfälle von r können auch die statistischen Maßzahlen rRang und rφ nur Werte von −1
bis +1 annehmen.
In welcher Weise hängt der Prüfungserfolg davon ab, welche Schule besucht wurde?
In Bezug auf die Frage nach dem Zusammenhang zweier Größen gibt es neben den hier herausgegriffenen noch zahlreiche andere Problemstellungen und entsprechend auch weitere statistische
Maßzahlen, auf die wir hier nicht eingehen. Ihre Anwendbarkeit hängt vor allem davon ab,
was für eine Skalierung für die Variablen X und Y jeweils vorliegt. Die Aussagekraft eines
gefundenen Wertes in Bezug auf bloße Zufälligkeit muss dann mit Methoden der beurteilenden
Statistik überprüft werden.
Wie groß ist die Wahrscheinlichkeit, die Prüfung zu bestehen, wenn man Schule A bzw. Schule
B besucht?
Aufgabe 18.2:
Acht Reifeprüfungs–Aufsätze wurden unabhängig voneinander von zwei Lehrern korrigiert und
Man bestimme den Koeffizienten rφ .
Aufgabe 18.5:
Wie müssten in Aufgabe 18.4 die bestandenen und nicht bestandenen Prüfungen zahlenmäßig
auf die beiden Schulen verteilt sein, wenn kein Zusammenhang zwischen Prüfungserfolg und
besuchter Schule besteht, wenn also für jede Schule der gleiche Prozentsatz bestandener Prüfungen zu erwarten ist wie für die Gesamtheit der n = 100 Schüler? Wie groß ist in diesem Fall
der Koeffizient rφ ?
220
A
A ÜBERSICHTEN
Übersichten
A.1
221
A.2 Diskrete Verteilungen
b)
Kombinatorische Grundformeln
Ziehen
Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln (mit oder ohne Zurücklegen)
gezogen. Die Anzahl der möglichen Ergebnisse ist in der Tabelle angegeben.
n
verschiedene n-Tupel bilden,
k
bei denen das erste Element k-mal und das zweite Element (n − k)-mal verwendet
wird.
n!
verschieii) Aus einer r-elementigen Menge kann man genau n1 ,n2n,...,nr =
n1 ! · . . . · nr !
dene n-Tupel bilden, bei denen das j-te Element genau nj -mal verwendet wird.
Hierbei muss gelten n1 + n2 + · · · + nr = n.
i) Aus einer 2-elementigen Menge kann man genau
Abbildungen
mit Zurücklegen
mit Berücksichtigung
der Reihenfolge
ohne Berücksichtigung
der Reihenfolge
nk
n+k−1
k
ohne Zurücklegen
n!
(n − k)!
n
k
Verteilen
k (verschiedene oder gleiche) Kugeln werden auf n unterscheidbare Urnen verteilt. Die Anzahl
der möglichen Ergebnisse ist in der Tabelle angegeben.
beliebig viele Kugeln
pro Urne
maximal eine Kugel
pro Urne
nk
n!
(n − k)!
verschiedene Kugeln
gleiche Kugeln
n+k−1
k
n
k
Anordnung und Teilmengen
a) Es gibt genau nk verschiedene Abbildungen einer k-elementigen in eine n-elementige Menge.
n!
Abbildungen injektiv.
Hiervon sind genau
(n − k)!
n
b)
i) Es gibt genau
verschiedene Abbildungen einer n-elementigen Menge in die
k
2-elementige Menge {a, b}, bei denen genau k Elemente auf a abgebildet werden.
n!
ii) Es gibt genau n1 ,n2n,...,nr =
verschiedene Abbildungen einer n-elementigen
n1 ! . . . nr !
Menge in die r-elementige Menge {a1 , . . . , ar }, bei denen genau nj Elemente auf aj
abgebildet werden.
Hierbei muss gelten n1 + n2 + · · · + nr = n.
A.2
Diskrete Verteilungen
Binomial-Verteilung
• Wahrscheinlichkeitsverteilung:
P (X = k) = bn;p (k) =
n Objekte lassen sich auf genau n! verschiedene
Arten anordnen.
n
verschiedene k-elementige Teilmengen.
k
• Varianz und Streuung:
Tupelbildung
• Maximalstelle:
Eine n-elementige Menge hat genau
a) Aus einer n-elementigen Menge kann man
i) nk verschiedene k-Tupel mit Elementwiederholung und
n!
verschiedene k-Tupel ohne Elementwiederholung bilden.
ii)
(n − k)!
• Erwartungswert:
n
k
pk q n−k
für
k ∈ {0, . . . , n}
E(X) = np
V (X) = npq,
σ=
√
npq
kmax ∈ [ (n + 1)p − 1 , (n + 1)p ]
• Approximationen:
bn; nµ (k) ≈ pµ (k)
• Anwendung:
bn;p (k) ≈
k−np
√ 1 ϕ( √
)
npq
npq
für große n
für große n
(Normalverteilung)
(Poissonverteilung)
Anzahl der Erfolge bei der n-fachen unabhängigen Ausführung
eines Bernoulli-Experiments mit Erfolgswahrscheinlichkeit p
222
A ÜBERSICHTEN
A.3
Geometrische Verteilung
• Wahrscheinlichkeitsverteilung: P (X = k) = q k−1 p für k ∈ N mit 0 < p ≤ 1, q = 1 − p
• Erwartungswert:
• Varianz:
E(X) =
V (X) =
• Anwendung:
1
p
• Erwartungswert:
P (X = k) = pµ (k) =
µk
k!
· e−µ
für
k ∈ N0
E(X) = µ
P (X = k) = h(k) =
E(X) = n ·
• Approximation:
• Anwendung:
K
k
K
N
K
N
kmax ∈
· 1−
h
K
N
N −K
n−k
N
n
·
(K+1)·(n+1)
(N +2)
h(k) ≈ bn; K (k)
N
für
k ∈ {0, . . . , n}
V (X) =
√
≤β
α< x−np
npq
E(X) =
n2 −1
12
n+1
2
1 x−µ
√ 1 e− 2 ( σ )
2π σ
• Verteilungsfunktion:
F (x) =
f (x) = σ1 ϕ
• Dichte:
f (x) =
x−µ
σ
− 1,
(K+1)·(n+1)
(N +2)
für
N ≫n
1
n
;
Rx
e− 2 (
1
t−µ 2
σ
) dt
−∞
F (x) = Φ
x−µ
σ
0
für x < 0
für x ≥ 0
0
für x < 0
x
F (x) =
1 − e− µ für x ≥ 0
• Erwartungswert und Varianz:
N −n
N −1
P (X = k) =
√1
2π σ
x
1 −µ
e
µ
i
• Anwendung:
(Binomialverteilung)
Gleichverteilung
• Varianz:
−∞
Exponentialverteilung
Anzahl der markierten Objekte beim Ziehen ohne Zurücklegen
von n aus N Objekten, von denen K markiert sind
• Erwartungswert:
f (x) =
• Berechnung:
Hypergeometrische Verteilung
V (X) = n ·
1 2
e− 2 τ dτ
µ = 0; σ = 1
P
bn,p (x) = Φ(β) − Φ(α)
lim
n→∞
Rz
Allgemeine Normalverteilung
• Dichte:
kmax ∈ [ µ − 1 , µ ]
• Erwartungswert:
√1
2π
Φ(z) =
2
V (X) = µ
• Maximalstelle:
1 2
√1 e− 2 z
2π
• Erwartungswert und Streuung:
• Anwendung: Annäherung der Binomialverteilung für große n und kleine p
• Varianz:
ϕ(z) =
• Grenzwerteigenschaft:
• Maximalstelle:
Standardisierte Normalverteilung
Anzahl der Versuche bis zum ersten Erfolg bei einem
Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p
Poisson-Verteilung
• Varianz:
Stetige Verteilungen
• Dichte:
q
p2
223
A.3 Stetige Verteilungen
für k ∈ {1, . . . , n}
E(X) = µ;
V (X) = µ2
Wartezeiten
Gleichverteilung
• Dichte:
f (x) =
1
b−a
0
für a ≤ x ≤ b
sonst

x<a
 0 für
x−a
für
a
≤
x
≤b
F (x) =
 b−a
1 für b < x
• Erwartungswert und Varianz:
E(X) =
a+b
;
2
V (X) =
(b−a)2
12
224
B
B TABELLEN
Tabellen
Binomialverteilung
B.1.1
p ≤ 0, 15 bzw. p ≥ 0, 85
4
5
6
7
8
k
0
1
2
3
0
1
2
3
4
0
1
2
3
4
5
0
1
2
3
4
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
p=0,01
0,97030
0,02940
0,00030
0,00000
0,96060
0,03881
0,00059
0,00000
n k
k p (1
n
9
− p)n−k ; fehlende Werte sind < 5 · 10−6
0,95099
0,04803
0,00097
0,00001
0,00000
p=0,02
0,94119
0,05762
0,00118
0,00001
0,92237
0,07530
0,00230
0,00003
0,00000
0,90392
0,09224
0,00376
0,00008
0,00000
p=0,03
0,91267
0,08468
0,00262
0,00003
0,88529
0,10952
0,00508
0,00010
0,00000
0,85873
0,13279
0,00821
0,00025
0,00000
0,94148
0,05706
0,00144
0,00002
0,00000
0,88584
0,10847
0,00553
0,00015
0,00000
0,93207
0,06590
0,00200
0,00003
0,00000
0,92274
0,07457
0,00264
0,00005
0,00000
p=0,99
k
p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6
n
k
B.1
n
3
225
B.1 Binomialverteilung
0,83297
0,15457
0,01195
0,00049
0,00001
0,00000
p=0,04
0,88474
0,11059
0,00461
0,00006
0,84935
0,14156
0,00885
0,00025
0,00000
0,81537
0,16987
0,01416
0,00059
0,00001
0,00000
0,78276
0,19569
0,02038
0,00113
0,00004
0,00000
p=0,05
0,85737
0,13538
0,00713
0,00013
0,81451
0,17148
0,01354
0,00047
0,00001
0,77378
0,20363
0,02143
0,00113
0,00003
0,00000
0,73509
0,23213
0,03054
0,00214
0,00008
0,00000
0,86813
0,12402
0,00759
0,00026
0,00001
0,00000
0,80798
0,17492
0,01623
0,00084
0,00003
0,00000
0,75145
0,21917
0,02740
0,00190
0,00008
0,00000
0,69834
0,25728
0,04062
0,00356
0,00019
0,00001
0,00000
0,85076
0,13890
0,00992
0,00040
0,00001
0,00000
0,78374
0,19392
0,02099
0,00130
0,00005
0,00000
0,72139
0,24046
0,03507
0,00292
0,00015
0,00001
0,00000
0,66342
0,27933
0,05146
0,00542
0,00036
0,00002
0,00000
p=0,98
p=0,97
p=0,96
p=0,95
p=0,10
0,72900
0,24300
0,02700
0,00100
0,65610
0,29160
0,04860
0,00360
0,00010
0,59049
0,32805
0,07290
0,00810
0,00045
0,00001
0,53144
0,35429
0,09842
0,01458
0,00122
0,00005
0,00000
0,47830
0,37201
0,12400
0,02296
0,00255
0,00017
0,00001
0,00000
0,43047
0,38264
0,14880
0,03307
0,00459
0,00041
0,00002
0,00000
p=0,90
p=0,15
0,61412
0,32512
0,05738
0,00337
0,52201
0,36847
0,09754
0,01147
0,00051
0,44371
0,39150
0,13818
0,02438
0,00215
0,00008
0,37715
0,39933
0,17618
0,04145
0,00549
0,00039
0,00001
0,32058
0,39601
0,20965
0,06166
0,01088
0,00115
0,00007
0,00000
0,27249
0,38469
0,23760
0,08386
0,01850
0,00261
0,00023
0,00001
0,00000
p=0,85
3
2
1
0
4
3
2
1
0
5
4
3
2
1
0
6
5
4
3
2
1
0
7
6
5
4
3
2
1
0
8
7
6
5
4
3
2
1
0
k
10
15
20
k
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
10
11
0
1
2
3
4
5
6
7
8
9
10
11
12
p=0,01
0,91352
0,08305
0,00336
0,00008
0,00000
p=0,02
0,83375
0,15314
0,01250
0,00060
0,00002
0,00000
p=0,03
0,76023
0,21161
0,02618
0,00189
0,00009
0,00000
p=0,04
0,69253
0,25970
0,04328
0,00421
0,00026
0,00001
0,00000
p=0,05
0,63025
0,29854
0,06285
0,00772
0,00061
0,00003
0,00000
p=0,10
0,38742
0,38742
0,17219
0,04464
0,00744
0,00083
0,00006
0,00000
0,90438
0,09135
0,00415
0,00011
0,00000
0,81707
0,16675
0,01531
0,00083
0,00003
0,00000
0,73742
0,22807
0,03174
0,00262
0,00014
0,00001
0,00000
0,66483
0,27701
0,05194
0,00577
0,00042
0,00002
0,00000
0,59874
0,31512
0,07463
0,01048
0,00096
0,00006
0,00000
0,34868
0,38742
0,19371
0,05740
0,01116
0,00149
0,00014
0,00001
0,00000
0,86006
0,13031
0,00921
0,00040
0,00001
0,00000
0,73857
0,22609
0,03230
0,00286
0,00017
0,00001
0,00000
0,63325
0,29378
0,06360
0,00852
0,00079
0,00005
0,00000
0,54209
0,33880
0,09882
0,01784
0,00223
0,00020
0,00001
0,00000
0,46329
0,36576
0,13475
0,03073
0,00485
0,00056
0,00005
0,00000
0,20589
0,34315
0,26690
0,12851
0,04284
0,01047
0,00194
0,00028
0,00003
0,00000
0,81791
0,16523
0,01586
0,00096
0,00004
0,00000
0,66761
0,27249
0,05283
0,00647
0,00056
0,00004
0,00000
0,54379
0,33637
0,09883
0,01834
0,00241
0,00024
0,00002
0,00000
0,44200
0,36834
0,14580
0,03645
0,00645
0,00086
0,00009
0,00001
0,00000
0,35849
0,37735
0,18868
0,05958
0,01333
0,00224
0,00030
0,00003
0,00000
0,12158
0,27017
0,28518
0,19012
0,08978
0,03192
0,00887
0,00197
0,00036
0,00005
0,00001
0,00000
p=0,99
p=0,98
p=0,97
p=0,96
p=0,95
p=0,90
p=0,15
0,23162
0,36786
0,25967
0,10692
0,02830
0,00499
0,00059
0,00004
0,00000
0,19687
0,34743
0,27590
0,12983
0,04010
0,00849
0,00125
0,00013
0,00001
0,00000
0,08735
0,23123
0,28564
0,21843
0,11564
0,04490
0,01320
0,00300
0,00053
0,00007
0,00001
0,00000
0,03876
0,13680
0,22934
0,24283
0,18212
0,10285
0,04537
0,01601
0,00459
0,00108
0,00021
0,00003
0,00000
p=0,85
9
8
7
6
5
4
3
2
1
10
9
8
7
6
5
4
3
2
1
15
14
13
12
11
10
9
8
7
6
5
4
20
19
18
17
16
15
14
13
12
11
10
9
8
k
226
B TABELLEN
n
k
n
50
100
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
p=0,01
0,60501
0,30556
0,07562
0,01222
0,00145
0,00013
0,00001
0,00000
k
p=0,02
0,36417
0,37160
0,18580
0,06067
0,01455
0,00273
0,00042
0,00005
0,00001
0,00000
p=0,03
0,21807
0,33721
0,25552
0,12644
0,04595
0,01307
0,00303
0,00059
0,00010
0,00001
0,00000
p=0,04
0,12989
0,27060
0,27623
0,18416
0,09016
0,03456
0,01080
0,00283
0,00063
0,00012
0,00002
0,00000
p=0,05
0,07694
0,20249
0,26110
0,21987
0,13598
0,06584
0,02599
0,00860
0,00243
0,00060
0,00013
0,00002
0,00000
0,36603
0,36973
0,18486
0,06100
0,01494
0,00290
0,00046
0,00006
0,00001
0,00000
0,13262
0,27065
0,27341
0,18228
0,09021
0,03535
0,01142
0,00313
0,00074
0,00015
0,00003
0,00000
0,04755
0,14707
0,22515
0,22747
0,17061
0,10131
0,04961
0,02060
0,00741
0,00234
0,00066
0,00017
0,00004
0,00001
0,00000
0,01687
0,07029
0,14498
0,19733
0,19939
0,15951
0,10523
0,05888
0,02852
0,01215
0,00461
0,00157
0,00049
0,00014
0,00004
0,00001
0,00000
0,00592
0,03116
0,08118
0,13958
0,17814
0,18002
0,15001
0,10603
0,06487
0,03490
0,01672
0,00720
0,00281
0,00100
0,00033
0,00010
0,00003
0,00001
0,00000
p=0,99
p=0,98
p=0,97
p=0,96
p=0,95
p=0,10
0,00515
0,02863
0,07794
0,13857
0,18090
0,18492
0,15410
0,10763
0,06428
0,03333
0,01518
0,00613
0,00222
0,00072
0,00021
0,00006
0,00001
0,00000
0,00003
0,00030
0,00162
0,00589
0,01587
0,03387
0,05958
0,08890
0,11482
0,13042
0,13187
0,11988
0,09879
0,07430
0,05130
0,03268
0,01929
0,01059
0,00543
0,00260
0,00117
0,00050
p=0,90
227
k
n
k
p=0,15
0,00030
0,00261
0,01128
0,03186
0,06606
0,10725
0,14195
0,15745
0,14935
0,12299
0,08899
0,05711
0,03275
0,01689
0,00788
0,00334
0,00129
0,00045
0,00015
0,00004
0,00001
0,00000
0,00000
0,00001
0,00008
0,00033
0,00113
0,00315
0,00746
0,01531
0,02762
0,04435
0,06404
0,08382
0,10012
0,10980
0,11109
0,10415
0,09081
0,07390
0,05628
0,04022
0,02704
p=0,85
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
k
n
100
200
k
22
23
24
25
26
27
28
29
30
31
32
33
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
p=0,01
p=0,02
p=0,03
p=0,04
p=0,05
0,13398
0,27067
0,27203
0,18136
0,09022
0,03572
0,01173
0,00328
0,00080
0,00017
0,00003
0,00001
0,00000
0,01759
0,07179
0,14577
0,19635
0,19735
0,15788
0,10472
0,05923
0,02916
0,01270
0,00495
0,00174
0,00056
0,00017
0,00005
0,00001
0,00000
0,00226
0,01399
0,04304
0,08786
0,13383
0,16225
0,16309
0,13979
0,10430
0,06882
0,04065
0,02172
0,01058
0,00473
0,00195
0,00075
0,00027
0,00009
0,00003
0,00001
0,00000
0,00028
0,00237
0,00983
0,02704
0,05549
0,09063
0,12273
0,14172
0,14246
0,12663
0,10078
0,07253
0,04760
0,02868
0,01596
0,00825
0,00397
0,00179
0,00076
0,00030
0,00011
0,00004
0,00001
0,00000
0,00004
0,00037
0,00193
0,00671
0,01740
0,03590
0,06140
0,08956
0,11372
0,12769
0,12836
0,11669
0,09673
0,07362
0,05176
0,03378
0,02056
0,01171
0,00627
0,00316
0,00150
0,00068
0,00029
0,00012
0,00005
0,00002
0,00001
0,00000
p=0,99
p=0,98
p=0,97
p=0,96
p=0,95
p=0,10
0,00020
0,00007
0,00003
0,00001
0,00000
0,00000
0,00001
0,00003
0,00011
0,00034
0,00090
0,00214
0,00454
0,00872
0,01526
0,02452
0,03638
0,05013
0,06440
0,07745
0,08749
0,09312
0,09364
0,08918
0,08062
0,06933
0,05681
0,04444
0,03323
0,02380
0,01634
0,01077
0,00682
0,00415
p=0,90
p=0,15
0,01714
0,01026
0,00581
0,00311
0,00159
0,00077
0,00035
0,00015
0,00006
0,00003
0,00001
0,00000
0,00000
0,00001
0,00002
0,00004
0,00011
0,00026
0,00056
0,00115
0,00219
0,00392
0,00663
0,01059
0,01602
0,02301
0,03142
0,04089
0,05080
0,06034
0,06863
0,07483
0,07832
0,07878
0,07624
p=0,85
78
77
76
75
74
73
72
71
70
69
68
67
200
199
198
197
196
195
194
193
192
191
190
189
188
187
186
185
184
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
k
228
B TABELLEN
n
k
n
200
k
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
p=0,01
p=0,99
k
p=0,02
p=0,98
p=0,03
p=0,97
p=0,04
p=0,96
p=0,05
p=0,95
p=0,10
0,00244
0,00138
0,00075
0,00040
0,00020
0,00010
0,00005
0,00002
0,00001
0,00000
p=0,90
p=0,15
0,07105
0,06383
0,05533
0,04631
0,03746
0,02930
0,02218
0,01626
0,01155
0,00795
0,00531
0,00344
0,00217
0,00133
0,00079
0,00046
0,00026
0,00014
0,00007
0,00004
0,00002
0,00001
0,00000
p=0,85
168
167
166
165
164
163
162
161
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
k
n
6
7
8
0, 2 ≤ p ≤ 0, 8
n
3
4
5
k
0
1
2
3
0
1
2
3
4
0
1
2
3
4
5
p=0,20
0,51200
0,38400
0,09600
0,00800
0,40960
0,40960
0,15360
0,02560
0,00160
0,32768
0,40960
0,20480
0,05120
0,00640
0,00032
p=0,80
p=0,25
0,42188
0,42188
0,14063
0,01563
0,31641
0,42188
0,21094
0,04688
0,00391
0,23730
0,39551
0,26367
0,08789
0,01465
0,00098
p=0,75
p=0,30
0,34300
0,44100
0,18900
0,02700
0,24010
0,41160
0,26460
0,07560
0,00810
0,16807
0,36015
0,30870
0,13230
0,02835
0,00243
p=0,70
p=0,35
0,27463
0,44362
0,23887
0,04287
0,17851
0,38447
0,31054
0,11147
0,01501
0,11603
0,31239
0,33642
0,18115
0,04877
0,00525
p=0,65
p=0,40
0,21600
0,43200
0,28800
0,06400
0,12960
0,34560
0,34560
0,15360
0,02560
0,07776
0,25920
0,34560
0,23040
0,07680
0,01024
p=0,60
p=0,45
0,16638
0,40838
0,33413
0,09113
0,09151
0,29948
0,36754
0,20048
0,04101
0,05033
0,20589
0,33691
0,27565
0,11277
0,01845
p=0,55
k
n
k
9
B.1.2
229
p=0,50
0,12500
0,37500
0,37500
0,12500
0,06250
0,25000
0,37500
0,25000
0,06250
0,03125
0,15625
0,31250
0,31250
0,15625
0,03125
p=0,50
3
2
1
0
4
3
2
1
0
5
4
3
2
1
0
k
10
k
0
1
2
3
4
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
10
p=0,20
0,26214
0,39322
0,24576
0,08192
0,01536
0,00154
0,00006
0,20972
0,36700
0,27525
0,11469
0,02867
0,00430
0,00036
0,00001
0,16777
0,33554
0,29360
0,14680
0,04588
0,00918
0,00115
0,00008
0,00000
0,13422
0,30199
0,30199
0,17616
0,06606
0,01652
0,00275
0,00029
0,00002
0,00000
0,10737
0,26844
0,30199
0,20133
0,08808
0,02642
0,00551
0,00079
0,00007
0,00000
p=0,80
p=0,25
0,17798
0,35596
0,29663
0,13184
0,03296
0,00439
0,00024
0,13348
0,31146
0,31146
0,17303
0,05768
0,01154
0,00128
0,00006
0,10011
0,26697
0,31146
0,20764
0,08652
0,02307
0,00385
0,00037
0,00002
0,07508
0,22525
0,30034
0,23360
0,11680
0,03893
0,00865
0,00124
0,00010
0,00000
0,05631
0,18771
0,28157
0,25028
0,14600
0,05840
0,01622
0,00309
0,00039
0,00003
0,00000
p=0,75
p=0,30
0,11765
0,30253
0,32413
0,18522
0,05953
0,01021
0,00073
0,08235
0,24706
0,31765
0,22689
0,09724
0,02500
0,00357
0,00022
0,05765
0,19765
0,29648
0,25412
0,13614
0,04668
0,01000
0,00122
0,00007
0,04035
0,15565
0,26683
0,26683
0,17153
0,07351
0,02100
0,00386
0,00041
0,00002
0,02825
0,12106
0,23347
0,26683
0,20012
0,10292
0,03676
0,00900
0,00145
0,00014
0,00001
p=0,70
p=0,35
0,07542
0,24366
0,32801
0,23549
0,09510
0,02048
0,00184
0,04902
0,18478
0,29848
0,26787
0,14424
0,04660
0,00836
0,00064
0,03186
0,13726
0,25869
0,27859
0,18751
0,08077
0,02175
0,00335
0,00023
0,02071
0,10037
0,21619
0,27162
0,21939
0,11813
0,04241
0,00979
0,00132
0,00008
0,01346
0,07249
0,17565
0,25222
0,23767
0,15357
0,06891
0,02120
0,00428
0,00051
0,00003
p=0,65
p=0,40
0,04666
0,18662
0,31104
0,27648
0,13824
0,03686
0,00410
0,02799
0,13064
0,26127
0,29030
0,19354
0,07741
0,01720
0,00164
0,01680
0,08958
0,20902
0,27869
0,23224
0,12386
0,04129
0,00786
0,00066
0,01008
0,06047
0,16124
0,25082
0,25082
0,16722
0,07432
0,02123
0,00354
0,00026
0,00605
0,04031
0,12093
0,21499
0,25082
0,20066
0,11148
0,04247
0,01062
0,00157
0,00010
p=0,60
p=0,45
0,02768
0,13589
0,27795
0,30322
0,18607
0,06089
0,00830
0,01522
0,08719
0,21402
0,29185
0,23878
0,11722
0,03197
0,00374
0,00837
0,05481
0,15695
0,25683
0,26266
0,17192
0,07033
0,01644
0,00168
0,00461
0,03391
0,11099
0,21188
0,26004
0,21276
0,11605
0,04069
0,00832
0,00076
0,00253
0,02072
0,07630
0,16648
0,23837
0,23403
0,15957
0,07460
0,02289
0,00416
0,00034
p=0,55
p=0,50
0,01563
0,09375
0,23438
0,31250
0,23438
0,09375
0,01563
0,00781
0,05469
0,16406
0,27344
0,27344
0,16406
0,05469
0,00781
0,00391
0,03125
0,10938
0,21875
0,27344
0,21875
0,10938
0,03125
0,00391
0,00195
0,01758
0,07031
0,16406
0,24609
0,24609
0,16406
0,07031
0,01758
0,00195
0,00098
0,00977
0,04395
0,11719
0,20508
0,24609
0,20508
0,11719
0,04395
0,00977
0,00098
p=0,50
6
5
4
3
2
1
0
7
6
5
4
3
2
1
0
8
7
6
5
4
3
2
1
0
9
8
7
6
5
4
3
2
1
0
10
9
8
7
6
5
4
3
2
1
0
k
230
B TABELLEN
n
k
n
15
20
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
p=0,20
0,03518
0,13194
0,23090
0,25014
0,18760
0,10318
0,04299
0,01382
0,00345
0,00067
0,00010
0,00001
0,00000
k
p=0,25
0,01336
0,06682
0,15591
0,22520
0,22520
0,16515
0,09175
0,03932
0,01311
0,00340
0,00068
0,00010
0,00001
0,00000
p=0,30
0,00475
0,03052
0,09156
0,17004
0,21862
0,20613
0,14724
0,08113
0,03477
0,01159
0,00298
0,00058
0,00008
0,00001
0,00000
p=0,35
0,00156
0,01262
0,04756
0,11096
0,17925
0,21234
0,19056
0,13193
0,07104
0,02975
0,00961
0,00235
0,00042
0,00005
0,00000
0,00018
0,00195
0,00998
0,03226
0,07382
0,12720
0,17123
0,18440
0,16135
0,11584
0,06861
0,03359
0,01356
0,00449
0,00121
0,00026
0,00004
0,00001
0,00000
p=0,40
0,00047
0,00470
0,02194
0,06339
0,12678
0,18594
0,20660
0,17708
0,11806
0,06121
0,02449
0,00742
0,00165
0,00025
0,00002
0,00000
0,00004
0,00049
0,00309
0,01235
0,03499
0,07465
0,12441
0,16588
0,17971
0,15974
0,11714
0,07099
0,03550
0,01456
0,00485
0,00129
0,00027
0,00004
0,00000
p=0,45
0,00013
0,00156
0,00896
0,03177
0,07798
0,14036
0,19140
0,20134
0,16474
0,10483
0,05146
0,01914
0,00522
0,00099
0,00012
0,00001
0,00001
0,00010
0,00082
0,00401
0,01393
0,03647
0,07460
0,12207
0,16230
0,17705
0,15935
0,11852
0,07273
0,03662
0,01498
0,00490
0,00125
0,00024
0,00003
0,00000
0,01153
0,05765
0,13691
0,20536
0,21820
0,17456
0,10910
0,05455
0,02216
0,00739
0,00203
0,00046
0,00009
0,00001
0,00000
0,00317
0,02114
0,06695
0,13390
0,18969
0,20233
0,16861
0,11241
0,06089
0,02706
0,00992
0,00301
0,00075
0,00015
0,00003
0,00000
0,00080
0,00684
0,02785
0,07160
0,13042
0,17886
0,19164
0,16426
0,11440
0,06537
0,03082
0,01201
0,00386
0,00102
0,00022
0,00004
0,00001
0,00000
p=0,80
p=0,75
p=0,70
p=0,65
p=0,60
p=0,55
231
k
n
k
p=0,50
0,00003
0,00046
0,00320
0,01389
0,04166
0,09164
0,15274
0,19638
0,19638
0,15274
0,09164
0,04166
0,01389
0,00320
0,00046
0,00003
0,00000
0,00002
0,00018
0,00109
0,00462
0,01479
0,03696
0,07393
0,12013
0,16018
0,17620
0,16018
0,12013
0,07393
0,03696
0,01479
0,00462
0,00109
0,00018
0,00002
0,00000
p=0,50
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
k
n
50
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
p=0,20
0,00001
0,00018
0,00109
0,00437
0,01284
0,02953
0,05537
0,08701
0,11692
0,13641
0,13982
0,12711
0,10328
0,07547
0,04986
0,02992
0,01636
0,00818
0,00375
0,00158
0,00061
0,00022
0,00007
0,00002
0,00001
0,00000
p=0,80
p=0,25
0,00000
0,00001
0,00008
0,00041
0,00161
0,00494
0,01234
0,02586
0,04634
0,07209
0,09852
0,11942
0,12937
0,12605
0,11104
0,08884
0,06478
0,04318
0,02639
0,01482
0,00765
0,00365
0,00160
0,00065
0,00024
0,00008
0,00003
0,00001
0,00000
p=0,75
p=0,30
0,00000
0,00003
0,00014
0,00055
0,00177
0,00477
0,01099
0,02198
0,03862
0,06019
0,08383
0,10502
0,11895
0,12235
0,11470
0,09831
0,07725
0,05576
0,03704
0,02268
0,01281
0,00668
0,00322
0,00144
0,00059
0,00023
0,00008
0,00003
0,00001
0,00000
p=0,70
p=0,35
0,00000
0,00001
0,00004
0,00017
0,00058
0,00168
0,00422
0,00931
0,01823
0,03190
0,05020
0,07144
0,09233
0,10875
0,11712
0,11562
0,10485
0,08751
0,06731
0,04778
0,03132
0,01897
0,01062
0,00550
0,00263
0,00116
0,00048
0,00018
0,00006
0,00002
0,00001
0,00000
p=0,65
p=0,40
0,00000
0,00001
0,00005
0,00017
0,00053
0,00144
0,00349
0,00756
0,01474
0,02597
0,04155
0,06059
0,08079
0,09874
0,11086
0,11456
0,10910
0,09588
0,07781
0,05836
0,04046
0,02594
0,01537
0,00842
0,00426
0,00199
0,00085
0,00034
0,00012
0,00004
0,00001
0,00000
p=0,60
p=0,45
0,00000
0,00001
0,00004
0,00014
0,00043
0,00114
0,00272
0,00589
0,01157
0,02070
0,03388
0,05082
0,07002
0,08880
0,10379
0,11194
0,11150
0,10263
0,08733
0,06870
0,04997
0,03358
0,02084
0,01194
0,00630
0,00306
0,00137
0,00056
0,00021
0,00007
0,00002
0,00001
0,00000
p=0,55
p=0,50
0,00000
0,00001
0,00003
0,00011
0,00032
0,00083
0,00200
0,00437
0,00875
0,01603
0,02701
0,04186
0,05980
0,07883
0,09596
0,10796
0,11228
0,10796
0,09596
0,07883
0,05980
0,04186
0,02701
0,01603
0,00875
0,00437
0,00200
0,00083
0,00032
0,00011
0,00003
0,00001
0,00000
p=0,50
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
k
232
B TABELLEN
n
k
n
100
k
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
p=0,20
0,00000
0,00001
0,00006
0,00020
0,00058
0,00148
0,00336
0,00688
0,01275
0,02158
0,03353
0,04806
0,06383
0,07885
0,09090
0,09807
0,09930
0,09457
0,08490
0,07198
0,05773
0,04388
0,03164
0,02168
0,01413
0,00877
0,00519
0,00293
0,00158
0,00081
0,00040
0,00019
0,00009
0,00004
0,00002
0,00001
0,00000
p=0,80
k
p=0,25
0,00000
0,00001
0,00003
0,00009
0,00026
0,00063
0,00143
0,00296
0,00566
0,01003
0,01652
0,02539
0,03652
0,04930
0,06260
0,07494
0,08471
0,09059
0,09180
0,08827
0,08064
0,07008
0,05800
0,04575
0,03444
0,02475
0,01700
0,01117
0,00702
0,00422
0,00244
0,00135
0,00071
0,00036
0,00018
0,00008
0,00004
0,00002
0,00001
0,00000
p=0,75
p=0,30
0,00000
0,00001
0,00004
0,00010
0,00025
0,00056
0,00119
0,00236
0,00436
0,00758
0,01237
0,01903
0,02767
0,03804
0,04956
0,06127
0,07197
0,08041
0,08556
0,08678
0,08398
0,07761
0,06854
0,05788
0,04678
0,03620
0,02683
0,01907
0,01299
0,00849
0,00532
0,00321
0,00185
0,00103
0,00055
0,00028
0,00014
0,00007
0,00003
p=0,70
p=0,35
0,00000
0,00001
0,00003
0,00009
0,00020
0,00044
0,00090
0,00175
0,00319
0,00551
0,00901
0,01400
0,02066
0,02901
0,03878
0,04942
0,06009
0,06977
0,07741
0,08214
0,08340
0,08109
0,07552
0,06742
0,05771
0,04739
0,03734
0,02825
0,02052
0,01431
0,00959
0,00617
0,00382
0,00227
0,00130
p=0,65
p=0,40
0,00000
0,00001
0,00003
0,00006
0,00014
0,00031
0,00063
0,00121
0,00220
0,00383
0,00634
0,01001
0,01507
0,02166
0,02975
0,03908
0,04913
0,05914
0,06820
0,07538
0,07989
0,08122
0,07924
0,07421
0,06673
0,05763
0,04781
0,03811
0,02919
0,02149
0,01520
p=0,60
p=0,45
0,00000
0,00001
0,00002
0,00004
0,00009
0,00020
0,00040
0,00078
0,00143
0,00253
0,00426
0,00687
0,01060
0,01566
0,02217
0,03007
0,03911
0,04880
0,05843
0,06716
0,07412
0,07856
0,07999
0,07825
0,07356
0,06645
0,05770
p=0,55
233
k
n
k
p=0,50
0,00000
0,00001
0,00002
0,00005
0,00011
0,00023
0,00046
0,00086
0,00156
0,00270
0,00447
0,00711
0,01084
0,01587
0,02229
0,03007
0,03895
0,04847
0,05796
0,06659
0,07353
0,07803
p=0,50
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
k
n
100
200
k
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
p=0,20
0,00000
0,00001
0,00003
0,00006
0,00013
0,00027
0,00051
0,00095
0,00167
0,00280
0,00452
0,00698
0,01035
0,01474
0,02021
0,02669
0,03397
0,04171
0,04946
0,05667
0,06280
0,06734
0,06993
p=0,80
p=0,25
0,00000
0,00001
0,00001
0,00003
0,00005
0,00011
0,00020
0,00037
0,00066
0,00112
0,00183
0,00289
0,00442
0,00653
0,00934
0,01293
p=0,75
p=0,30
0,00001
0,00001
0,00000
0,00000
0,00001
0,00002
0,00004
0,00007
0,00013
0,00024
p=0,70
p=0,35
0,00071
0,00038
0,00019
0,00009
0,00004
0,00002
0,00001
0,00000
p=0,40
0,01034
0,00676
0,00424
0,00256
0,00149
0,00083
0,00044
0,00023
0,00011
0,00005
0,00002
0,00001
0,00000
p=0,45
0,04815
0,03862
0,02978
0,02207
0,01571
0,01075
0,00707
0,00447
0,00271
0,00158
0,00088
0,00047
0,00024
0,00012
0,00006
0,00003
0,00001
0,00000
p=0,50
0,07959
0,07803
0,07353
0,06659
0,05796
0,04847
0,03895
0,03007
0,02229
0,01587
0,01084
0,00711
0,00447
0,00270
0,00156
0,00086
0,00046
0,00023
0,00011
0,00005
0,00002
0,00001
0,00000
p=0,65
p=0,60
p=0,55
p=0,50
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
183
182
181
180
179
178
177
176
175
174
173
172
171
170
169
168
167
166
165
164
163
162
161
k
234
B TABELLEN
n
k
n
200
k
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
p=0,20
0,07037
0,06865
0,06498
0,05969
0,05324
0,04614
0,03887
0,03184
0,02537
0,01968
0,01486
0,01092
0,00783
0,00546
0,00372
0,00247
0,00160
0,00101
0,00062
0,00037
0,00022
0,00013
0,00007
0,00004
0,00002
0,00001
0,00001
0,00000
p=0,80
k
p=0,25
0,01735
0,02256
0,02847
0,03487
0,04148
0,04793
0,05384
0,05880
0,06247
0,06460
0,06503
0,06375
0,06089
0,05668
0,05143
0,04551
0,03928
0,03308
0,02718
0,02181
0,01708
0,01307
0,00977
0,00713
0,00509
0,00355
0,00242
0,00161
0,00105
0,00067
0,00042
0,00026
0,00015
0,00009
0,00005
0,00003
0,00002
0,00001
0,00000
p=0,75
p=0,30
0,00041
0,00068
0,00111
0,00175
0,00268
0,00398
0,00574
0,00806
0,01102
0,01464
0,01895
0,02389
0,02934
0,03511
0,04096
0,04660
0,05171
0,05599
0,05916
0,06103
0,06146
0,06045
0,05809
0,05453
0,05003
0,04486
0,03932
0,03371
0,02825
0,02316
0,01858
0,01458
0,01119
0,00841
0,00619
0,00446
0,00314
0,00217
0,00146
0,00097
0,00063
0,00040
0,00025
0,00015
0,00009
0,00005
p=0,70
p=0,35
0,00000
0,00001
0,00001
0,00002
0,00004
0,00008
0,00013
0,00023
0,00039
0,00063
0,00099
0,00153
0,00230
0,00338
0,00483
0,00673
0,00916
0,01215
0,01575
0,01993
0,02463
0,02974
0,03507
0,04043
0,04555
0,05016
0,05402
0,05690
0,05861
0,05906
0,05823
0,05617
0,05304
0,04901
0,04434
0,03927
0,03405
0,02891
0,02404
0,01958
0,01562
0,01221
0,00934
0,00701
0,00515
p=0,65
p=0,40
0,00000
0,00001
0,00001
0,00002
0,00004
0,00007
0,00012
0,00020
0,00033
0,00052
0,00082
0,00125
0,00187
0,00273
0,00390
0,00543
0,00741
0,00988
0,01288
0,01643
0,02050
0,02502
0,02988
0,03493
0,03997
0,04476
0,04908
0,05269
0,05540
0,05703
0,05751
0,05680
0,05495
0,05208
0,04836
0,04400
p=0,60
p=0,45
0,00000
0,00001
0,00002
0,00003
0,00005
0,00009
0,00015
0,00025
0,00040
0,00062
0,00095
0,00143
0,00210
0,00301
0,00422
0,00580
0,00781
0,01029
0,01328
0,01678
0,02076
0,02517
0,02988
0,03476
0,03961
0,04423
p=0,55
235
k
n
k
p=0,50
0,00000
0,00001
0,00001
0,00002
0,00004
0,00006
0,00011
0,00017
0,00028
0,00044
0,00068
0,00103
0,00152
0,00220
0,00313
0,00436
0,00596
p=0,50
160
159
158
157
156
155
154
153
152
151
150
149
148
147
146
145
144
143
142
141
140
139
138
137
136
135
134
133
132
131
130
129
128
127
126
125
124
123
122
121
120
119
118
117
116
115
k
n
200
k
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
p=0,20
p=0,80
p=0,25
p=0,75
p=0,30
0,00003
0,00002
0,00001
0,00001
0,00000
p=0,35
0,00371
0,00262
0,00181
0,00123
0,00081
0,00053
0,00034
0,00021
0,00013
0,00008
0,00005
0,00003
0,00001
0,00001
0,00000
p=0,40
0,03922
0,03426
0,02933
0,02461
0,02023
0,01631
0,01288
0,00997
0,00757
0,00563
0,00410
0,00293
0,00206
0,00141
0,00095
0,00063
0,00041
0,00026
0,00016
0,00010
0,00006
0,00003
0,00002
0,00001
0,00001
0,00000
p=0,45
0,04839
0,05188
0,05451
0,05612
0,05663
0,05601
0,05429
0,05159
0,04804
0,04386
0,03925
0,03443
0,02961
0,02496
0,02063
0,01671
0,01327
0,01033
0,00788
0,00590
0,00432
0,00311
0,00219
0,00151
0,00102
0,00068
0,00044
0,00028
0,00018
0,00011
0,00006
0,00004
0,00002
0,00001
0,00001
0,00000
p=0,70
p=0,65
p=0,60
p=0,55
p=0,50
0,00796
0,01044
0,01340
0,01686
0,02080
0,02514
0,02979
0,03459
0,03938
0,04393
0,04805
0,05152
0,05415
0,05579
0,05635
0,05579
0,05415
0,05152
0,04805
0,04393
0,03938
0,03459
0,02979
0,02514
0,02080
0,01686
0,01340
0,01044
0,00796
0,00596
0,00436
0,00313
0,00220
0,00152
0,00103
0,00068
0,00044
0,00028
0,00017
0,00011
0,00006
0,00004
0,00002
0,00001
0,00001
0,00000
p=0,50
114
113
112
111
110
109
108
107
106
105
104
103
102
101
100
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
k
236
B.2
B TABELLEN
Normalverteilung
Verteilungsfunktion Φ der standardisierten Normalverteilung. Φ(−z) = 1 − Φ(z)
ϕ
Φ(z)
ϕ(z)
z
z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,20
0,21
0,22
0,23
0,24
0,25
0,26
0,27
0,28
0,29
0,30
0,31
0,32
Φ(z)
0,50000
0,50399
0,50798
0,51197
0,51595
0,51994
0,52392
0,52790
0,53188
0,53586
0,53983
0,54380
0,54776
0,55172
0,55567
0,55962
0,56356
0,56749
0,57142
0,57535
0,57926
0,58317
0,58706
0,59095
0,59483
0,59871
0,60257
0,60642
0,61026
0,61409
0,61791
0,62172
0,62552
z
0,33
0,34
0,35
0,36
0,37
0,38
0,39
0,40
0,41
0,42
0,43
0,44
0,45
0,46
0,47
0,48
0,49
0,50
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,60
0,61
0,62
0,63
0,64
0,65
Φ(z)
0,62930
0,63307
0,63683
0,64058
0,64431
0,64803
0,65173
0,65542
0,65910
0,66276
0,66640
0,67003
0,67364
0,67724
0,68082
0,68439
0,68793
0,69146
0,69497
0,69847
0,70194
0,70540
0,70884
0,71226
0,71566
0,71904
0,72240
0,72575
0,72907
0,73237
0,73565
0,73891
0,74215
z
0,66
0,67
0,68
0,69
0,70
0,71
0,72
0,73
0,74
0,75
0,76
0,77
0,78
0,79
0,80
0,81
0,82
0,83
0,84
0,85
0,86
0,87
0,88
0,89
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,97
0,98
Φ(z)
0,74537
0,74857
0,75175
0,75490
0,75804
0,76115
0,76424
0,76730
0,77035
0,77337
0,77637
0,77935
0,78230
0,78524
0,78814
0,79103
0,79389
0,79673
0,79955
0,80234
0,80511
0,80785
0,81057
0,81327
0,81594
0,81859
0,82121
0,82381
0,82639
0,82894
0,83147
0,83398
0,83646
z
0,99
1,00
1,01
1,02
1,03
1,04
1,05
1,06
1,07
1,08
1,09
1,10
1,11
1,12
1,13
1,14
1,15
1,16
1,17
1,18
1,19
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1,31
Φ(z)
0,83891
0,84134
0,84375
0,84614
0,84849
0,85083
0,85314
0,85543
0,85769
0,85993
0,86214
0,86433
0,86650
0,86864
0,87076
0,87286
0,87493
0,87698
0,87900
0,88100
0,88298
0,88493
0,88686
0,88877
0,89065
0,89251
0,89435
0,89617
0,89796
0,89973
0,90147
0,90320
0,90490
z
1,32
1,33
1,34
1,35
1,36
1,37
1,38
1,39
1,40
1,41
1,42
1,43
1,44
1,45
1,46
1,47
1,48
1,49
1,50
1,51
1,52
1,53
1,54
1,55
1,56
1,57
1,58
1,59
1,60
1,61
1,62
1,63
1,64
Φ(z)
0,90658
0,90824
0,90988
0,91149
0,91308
0,91466
0,91621
0,91774
0,91924
0,92073
0,92220
0,92364
0,92507
0,92647
0,92785
0,92922
0,93056
0,93189
0,93319
0,93448
0,93574
0,93699
0,93822
0,93943
0,94062
0,94179
0,94295
0,94408
0,94520
0,94630
0,94738
0,94845
0,94950
237
B.2 Normalverteilung
z
1,65
1,66
1,67
1,68
1,69
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79
1,80
1,81
1,82
1,83
1,84
1,85
1,86
1,87
1,88
1,89
1,90
1,91
1,92
1,93
1,94
1,95
1,96
1,97
1,98
1,99
2,00
2,01
2,02
2,03
2,04
2,05
2,06
2,07
2,08
2,09
2,10
2,11
Φ(z)
0,95053
0,95154
0,95254
0,95352
0,95449
0,95543
0,95637
0,95728
0,95818
0,95907
0,95994
0,96080
0,96164
0,96246
0,96327
0,96407
0,96485
0,96562
0,96638
0,96712
0,96784
0,96856
0,96926
0,96995
0,97062
0,97128
0,97193
0,97257
0,97320
0,97381
0,97441
0,97500
0,97558
0,97615
0,97670
0,97725
0,97778
0,97831
0,97882
0,97932
0,97982
0,98030
0,98077
0,98124
0,98169
0,98214
0,98257
z
2,12
2,13
2,14
2,15
2,16
2,17
2,18
2,19
2,20
2,21
2,22
2,23
2,24
2,25
2,26
2,27
2,28
2,29
2,30
2,31
2,32
2,33
2,34
2,35
2,36
2,37
2,38
2,39
2,40
2,41
2,42
2,43
2,44
2,45
2,46
2,47
2,48
2,49
2,50
2,51
2,52
2,53
2,54
2,55
2,56
2,57
2,58
Φ(z)
0,98300
0,98341
0,98382
0,98422
0,98461
0,98500
0,98537
0,98574
0,98610
0,98645
0,98679
0,98713
0,98745
0,98778
0,98809
0,98840
0,98870
0,98899
0,98928
0,98956
0,98983
0,99010
0,99036
0,99061
0,99086
0,99111
0,99134
0,99158
0,99180
0,99202
0,99224
0,99245
0,99266
0,99286
0,99305
0,99324
0,99343
0,99361
0,99379
0,99396
0,99413
0,99430
0,99446
0,99461
0,99477
0,99492
0,99506
z
2,59
2,60
2,61
2,62
2,63
2,64
2,65
2,66
2,67
2,68
2,69
2,70
2,71
2,72
2,73
2,74
2,75
2,76
2,77
2,78
2,79
2,80
2,81
2,82
2,83
2,84
2,85
2,86
2,87
2,88
2,89
2,90
2,91
2,92
2,93
2,94
2,95
2,96
2,97
2,98
2,99
3,00
3,01
3,02
3,03
3,04
3,05
Φ(z)
0,99520
0,99534
0,99547
0,99560
0,99573
0,99585
0,99598
0,99609
0,99621
0,99632
0,99643
0,99653
0,99664
0,99674
0,99683
0,99693
0,99702
0,99711
0,99720
0,99728
0,99736
0,99744
0,99752
0,99760
0,99767
0,99774
0,99781
0,99788
0,99795
0,99801
0,99807
0,99813
0,99819
0,99825
0,99831
0,99836
0,99841
0,99846
0,99851
0,99856
0,99861
0,99865
0,99869
0,99874
0,99878
0,99882
0,99886
z
3,06
3,07
3,08
3,09
3,10
3,11
3,12
3,13
3,14
3,15
3,16
3,17
3,18
3,19
3,20
3,21
3,22
3,23
3,24
3,25
3,26
3,27
3,28
3,29
3,30
3,31
3,32
3,33
3,34
3,35
3,36
3,37
3,38
3,39
3,40
3,41
3,42
3,43
3,44
3,45
3,46
3,47
3,48
3,49
3,50
3,51
3,52
Φ(z)
0,99889
0,99893
0,99896
0,99900
0,99903
0,99906
0,99910
0,99913
0,99916
0,99918
0,99921
0,99924
0,99926
0,99929
0,99931
0,99934
0,99936
0,99938
0,99940
0,99942
0,99944
0,99946
0,99948
0,99950
0,99952
0,99953
0,99955
0,99957
0,99958
0,99960
0,99961
0,99962
0,99964
0,99965
0,99966
0,99968
0,99969
0,99970
0,99971
0,99972
0,99973
0,99974
0,99975
0,99976
0,99977
0,99978
0,99978
z
3,53
3,54
3,55
3,56
3,57
3,58
3,59
3,60
3,61
3,62
3,63
3,64
3,65
3,66
3,67
3,68
3,69
3,70
3,71
3,72
3,73
3,74
3,75
3,76
3,77
3,78
3,79
3,80
3,81
3,82
3,83
3,84
3,85
3,86
3,87
3,88
3,89
3,90
3,91
3,92
3,93
3,94
3,95
3,96
3,97
3,98
3,99
Φ(z)
0,99979
0,99980
0,99981
0,99981
0,99982
0,99983
0,99983
0,99984
0,99985
0,99985
0,99986
0,99986
0,99987
0,99987
0,99988
0,99988
0,99989
0,99989
0,99990
0,99990
0,99990
0,99991
0,99991
0,99992
0,99992
0,99992
0,99992
0,99993
0,99993
0,99993
0,99994
0,99994
0,99994
0,99994
0,99995
0,99995
0,99995
0,99995
0,99995
0,99996
0,99996
0,99996
0,99996
0,99996
0,99996
0,99997
0,99997
239
INDEX
Index
A
Abbildungen 17, 221
-, bijektive 20
-, injektive 18
- mit vorgegebenen Urbildmengen 21, 24
abhängige Zufallsgrößen 137
absolute Häufigkeit 33, 169
absorbierende Markowkette 154
- absorbierender Zustand 154
Additionssatz
- für Wahrscheinlichkeiten 43
- für Mittelwerte 141
- für Varianzen unabhängiger Zufallsgrößen
144
α-Fehler 176
allgemeine Normalverteilung 112, 223
Anfangsverteilung 151
Anlaufvektor 151
Anordnung 220
a posteriori Wahrscheinlichkeit 57
Approximation
- der Binomialverteilung durch die Normalverteilung 121, 221, 223
- der Binomialverteilung durch die Poissonverteilung 91, 221
- der hypergeometrischen Verteilung durch
die Binomialverteilung 91, 222
a priori Wahrscheinlichkeit 57
asymmetrische Irrfahrt 165
Aussagekraft einer Schätzung 201, 209
Axiomensystem für eine Ereignisalgebra 36
Axiomensystem von Kolmogoroff 36
B
Baumdiagramm 13, 52, 55
Bayes, Thomas (1702-1761)
-, Satz von 56
bedingte Wahrscheinlichkeit 50
Bernoulli, Daniel (1700-1782) 79
Bernoulli, Jakob (1654-1705) 11, 32, 80
Bernoulli-Eulersches Problem der vertauschten
Briefe 47
Bernoullisches Gesetz der großen Zahlen 85
Bernoullisches Versuchsschema 65
Bernoulliverteilung 80
Bernstein, Sergei (1880-1968) 35
Bertrand, Joseph (1822-1900)
-, Paradoxon von 40
β-Fehler 176
Binomialfunktion 80
Binomialkoeffizienten 8, 21, 23, 88
Binomialverteilung 66, 80, 221
-, Approximation durch die Poissonverteilung 91, 221,
-, Normalapproximation 97, 121 221, 223
-, Tabelle 224
Boltzmann, Ludwig (1844-1906) 32, 30
Bose-Einstein-Aufteilung 31
Bridge 26
Buffon, George Louis Comte de (1707-1788) 86
-, Nadelproblem von 39
C
Cardano, Geronimo (1501-1576) 7, 16
Covarianz s. Kovarianz
D
Dichte 100
- der relativen Häufigkeiten 99
-, gemeinsame 129
diskrete Verteilungen (Übersicht) 221
diskrete Zufallsgröße 68
-, zweidimensionale 124
diskreter Wahrscheinlichkeitsraum 37
diskreter Zufallsvektor 124
E
einseitiger Test 177
Elementarereignis 10, 36
empirischer Median 172
empirische Varianz 170
Entscheidungsvorschrift 174
Ereignis 10, 36
-, komplementäres 11, 43
-, sicheres 11
-, unmögliches 11, 43
Ereignisalgebra 11, 36
Ergebnis 10, 36
238
Ergebnisbäume 13
erwartungstreue Schätzfunktion 183
Erwartungswert 71, 100, 139
- Additionssatz 141
- der Binomialverteilung 81
- der Exponentialverteilung 103
- der Gleichverteilung 103
- der hypergeometrischen Verteilung 89
- nach Huygens 32
- Multiplikationssatz 145
Euler, Leonhard (1707-1783)
-, Funktion 46
-, Problem der vertauschten Briefe 47
exakter Test von Fisher 178
Exponentialverteilung 102, 223
F
faires Spiel 71
Fehler
- erster Art 176
- zweiter Art 176
Fermat, Pierre de (1601-1655) 10, 32
Fermi-Dirac-Aufteilung 31
Fisher, exakter Test von 178
Formel von Stirling 116
Fußballtoto 16
G
Galilei, Galileo (1564-1642) 12
Gauß, Carl Friedrich (1777-1855)
Gaußverteilung 112
Gebiet, kritisches 175
Geburtstagsproblem 17
Gegenhypothese 175
gemeinsame Dichte 129
gemeinsame Verteilung 125
geometrische Verteilung 38, 69, 87, 222
geometrische Wahrscheinlichkeit 39
Gesetz der großen Zahlen von Bernoulli 85
Gleichverteilung 101, 222, 223
Glockenkurve 112
Grenzwertsatz, zentraler 147
Grenzwertsätze von de Moivre und Laplace 117,
119
günstiges Spiel 71
H
Häufigkeit, absolute bzw. relative 33, 169
Hilbert, David (1862-1943) 34
Histogramm 99
homogene Markowkette 149
Huygens, Christian (1629-1695) 32
hypergeometrische Verteilung 88, 222
-, Approximation durch die Binomialverteilung 91, 222
Hypothese 175
I
identisch verteilte Zufallsgrößen 146
innerer Zustand 154
integraler Grenzwertsatz von de Moivre und
Laplace 119
Intervallschätzung 200
Irrfahrt 154
Irrfahrten auf der Geraden 163
-, asymetrische 165
-, symetrische 163
Irrtumswahrscheinlichkeit 175
J
K
Klasseneinteilung 55
klassische Wahrscheinlichkeit 11, 37
Kolmogorow, Andrej (1903-1987) 35
-, Axiomensystem von 36
Konfidenzintervall 201
-, Interpretation 203
Konfidenzniveau 201
konsistente Schätzfunktion 185
Korrelationskoeffizient 145, 215
-, Rang- 217
-, Pearsonscher Vierfelder- 218
Kovarianz 142, 214
- unabhängiger Zufallsgrößen 143
kritisches Gebiet 175
L
Laplace, Pierre Simon Marquis de (1749-1827)
11, 32
-, Grenzwertsätze 117, 119
Laplacescher Wahrscheinlichkeitsraum 37
lokaler Grenzwertsatz von de Moivre und Laplace 117
Lotto 28
240
INDEX
O
M
Markow, Andrej Andrejewitsch (1856-1922)
P
Markoweigenschaft 149
paarweise unabhängige Ereignisse 61
Markowkette 149
Pacioli, Luca (ca. 1445-1515) 6
-, absorbierende 154
Parameter 183
-, homogene 149
Pascal, Blaise (1623-1662) 5, 16, 32
Maßkorrelation 217
Pascalsches Dreieck 7
Matrix, stochastische 151
Pauli-Prinzip 31
Maximum-Likelihood-Prinzip 195
Pearson, Karl (1857-1936)
Maxwell, James C. (1831-1879) 32, 30
Pearsonscher Vierfelderkorrelationskoeffizient 218
Maxwell-Boltzmann-Modell 30
Permutationen 20
Median, empirischer 172
Petersburger Paradoxon 79
mehrdimensionale Zufallsgröße 123
Pfad 153
mehrstufiges Zufallsexperiment 13, 63
Pfadregeln 153, 154, 155
Méré, Antoine G., Chevalier de (1607-1684) 5,
Poisson, Siméon Denis (1781-1840) 91
66
Poissonverteilung 92, 222
Mises, Richard Edler von (1883-1953) 34
Populationsumfang 187
Mittelwert 71
Problem des Pacioli 6
- Additionssatz 141
Produktstichprobenraum 15
- einer Stichprobe 169
Produktwahrscheinlichkeitsraum 63
- Multiplikationssatz 145
Punktschätzung 183
Mittelwertregeln 157, 159
Q
Moivre, Abraham de (1667-1754)
-, Grenzwertsätze 117, 119
R
Moment
Rand (absorbierende Zustände) 154
- k-ter Ordnung 71, 103
Randverteilung 126, 134
- k-ter Ordnung bezüglich c 106
-, Verteilungsfunktion der 125, 134
-, zentrales 106
Rangkorrelationskoeffizient 217
Monotonieeigenschaft 43
Regressionsgerade 213
Multinomialverteilung 96
Regressionskoeffizient 214
Multiplikationssatz 51
Regressionslinie 212
- für Mittelwerte unabhängiger Zufallsgrößen
Regressionsschere 215
145
relative Häufigkeit 33, 169
Rotgrün-Farbenblindheit 197
N
Nadelproblem von Buffon 39
S
Neyman, J. 201
Satz von Bayes 56
Normalapproximation der Binomialverteilung Satz von Sylvester 45
97, 121, 221, 223
Satz von der totalen Wahrscheinlichkeit 55
Normalverteilung 112, 223
Schätzfunktion 183
-, lineare Transformation 206
-, erwartungstreue 183
-, standardisierte 115, 223
- für den Mittelwert 184
-, Summe 205
- für die Varianz 186
-, Tabelle 236
- für einen Populationsumfang 187
normierte Zufallsgröße 107
-, konsistente 185
-, Maximum-Likelihood- 195
Nullhypothese 175
241
INDEX
Schätzintervall 201
Schätzung
- des Erwartungwertes einer Normalverteilung 204
- eines Populationsumfangs 187
Schätzwert 183
Schiefe einer Verteilung 108
Sicherheit, statistische 176
Sicherheitswahrscheinlichkeit 201
σ-Additivität 36
σ-Algebra 36
Signifikanzniveau 175
Sitzordnung 19
Skat 26
Smoluchowski, M.V. (1872-1917) 32
Spannweite einer Stichprobe 168
Standardabweichung 74, 106
standardisierte Normalverteilung 115, 223
standardisierte Zufallsgröße 107
statistische Sicherheit 176
statistische Wahrscheinlichkeit 33
stetige Verteilungen (Übersicht) 223
stetige Zufallsgröße 100
-, zweidimensionale 129
Stichprobe 167
Stichprobenfehler 185
Stichprobenmittel 184
Stichprobenraum 10, 36
-, diskreter 37
-, Produkt- 63
Stichprobenvarianz 170, 186
Stichprobenwert 167
Stifel, Michael (1487-1567) 16
Stirling, James (1692-1770)
-, Formel von 116
stochastische Matrix 151
Streuung 74, 106
Summe normalverteilter Zufallsgrößen 205
Sylvester, James Joseph (1814-1897)
-, Satz von 45
symmetrische Irrfahrt 163
T
Tabelle
-, der Binomialverteilung 224
-, der Normalverteilung 236
Tartaglia, Niccolò (ca. 1500-1557) 6
Teilmengen 220
Testen einer Hypothese 174
-, einseitiges 177
-, zweiseitiges 175
totale Wahrscheinlichkeit 55
Tschebyschew, Pafnutij Lwowitsch (1821-1894)
-, Ungleichung von 109
Tupelbildung 220
U
Übergangsmatrix 150
Übergangswahrscheinlichkeit 149
unabhängige Ereignisse 61
-, n = 2 50, 59
-, paarweise 61
unabhängige Zufallsexperimente 15, 63
unabhängige Zufallsgrößen 136, 137, 143
Ungleichung von Tschebyschew 109
ungünstiges Spiel 71
V
Vandermonde, Alexandre (1735-1796) 88
Vandermondesche Konvolution 88
Varianz 74, 106
- Additionssatz 144
- der Binomialverteilung 81
- der Exponentialverteilung 107
- der Gleichverteilung 107
- der hypergeometrischen Verteilung 89
-, empirische 170
-, Stichproben- 170
- von Summen von Zufallsgrößen 143
Verbrecherfang 20
verdächtiges Ergebnis 176
vertauschte Briefe 47
Verteilen (Übersicht) 220
Verteilung 68
-, Binomial- 80, 221, 224
-, Exponential- 102, 223
-, gemeinsame 124
-, geometrische 38, 69, 87, 222
-, Gleich- 101, 222, 223
-, hypergeometrische 88, 222
-, Multinomial- 96
-, Normal- 112, 223, 236
-, Poisson- 92, 222
Verteilungsfunktion 74, 100
242
- der Randverteilung 125, 134
- eines Zufallsvektors 126, 129
Verwerfen der Nullhypothese 175
Vierfelderkorrelationskoeffizient 218
Vierfeldertafel 178
Vorzeichentest 181
W
Wahl 23
Wahrscheinlichkeit
- a posteriori 57
- a priori 57
-, bedingte 50
-, geometrische 39
-, klassische 11, 37
-, statistische 33
-, totale 55
Wahrscheinlichkeitsbelegung 36
Wahrscheinlichkeitsdichte 100
- eines Zufallsvektors 129
Wahrscheinlichkeitsfunktion 68
Wahrscheinlichkeitsraum 36
-, diskreter 37
-, Laplacescher 37
-, Produkt- 63
Wahrscheinlichkeitsvektor 152
Wahrscheinlichkeitsverteilung 68
X
Y
Z
zentrale Momente 106
zentraler Grenzwertsatz 147
Zentralwert einer Stichprobe 172
Ziehen
- mit Zurücklegen mit Berücksichtigung der
Reihenfolge 17
- mit Zurücklegen ohne Berücksichtigung
der Reihenfolge 23
- ohne Zurücklegen mit Berücksichtigung
der Reihenfolge 19
- ohne Zurücklegen ohne Berücksichtigung
der Reihenfolge 23
- Übersicht 220
INDEX
Zufallsexperiment 12
-, mehrstufiges 13, 63
Zufallsgeräte 12
Zufallsgrößen 67
-, diskrete 68
-, diskrete zweidimensionale 124
-, identisch verteilte 146
-, lineare Transformation normalverteilter
206
-, standardisierte 107
-, stetige 100
-, stetige zweidimensionale 129
-, Summe normalverteilter 205
-, unabhängige 136, 137, 143
Zufallsvariable 67
Zufallsvektor 123
Zustand 149
-, absorbierender 154
-, innerer 154
-, lokaler 149
Zustandsraum 149
Zuverlässigkeit einer Schätzung 209
zweiseitiger Test 175

Wahrscheinlichkeitsrechnung für Lehrer

Transcription

Similar documents

Beispiele zum Einsatz des TI-Nspire™ CAS in der Stochastik

Mathematik fuer Informatiker - Weblearn

Prädikatives und funktionales Denken in der

EPA Mathematik - Kultusministerkonferenz

Doktorandenkolloquium Statistik

Sensorfusion zur Navigation eines Fahrzeugs mit low

Wahrscheinlichkeit und Zufall

Skript Wahrscheinlichkeit Statistik rowicus d/f

67 Zufallsvariable, Erwartungswert, Varianz