Als Muster eine mit Sehr Gut beurteilte Bachelorarbeit

Transcription

Als Muster eine mit Sehr Gut beurteilte Bachelorarbeit
Institut für Angewandte Statistik
Johannes Kepler Universität Linz
Analyse von Torhäugkeiten
Die Conway-Maxwell-Verteilung
Bakkalaureatsarbeit
Alexander Stöger
Betreuer: Univ.Prof. Mag.Dr. Werner G. Müller
Oktober 2009
Inhaltsverzeichnis
1
2
Einleitung
4
1.1 Beschreibung des Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . .
6
Poissonverteilung
8
2.1 Poissonness-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.2 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Chi-Quadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3
Negative Binomialverteilung
15
3.1 Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4
COM-Poisson-Verteilung
20
4.1 Berechnung von Z(λ, ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Momente der Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3 Suziente Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4 WLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.5 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . 32
4.5.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.6 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.6.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
5
Zusammenfassung
38
5.1 Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6
Appendix
41
7
Literaturverzeichnis
46
Abbildungsverzeichnis
1
Poissonness-Plot Frauenliga 2008/2009 . . . . . . . . . . . . . . . . . . . . 10
2
Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3
Vergleich Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4
Summe COM-Poisson verteilter Zufallszahlen . . . . . . . . . . . . . . . . 22
5
Entwicklung der Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6
Wahl der Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7
Simulation:Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8
Saison 2008-2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Tabellenverzeichnis
1
Anzahl der Spiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2
Frauenbundesliga 2008/2009 . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3
beobachtete und erwartete Häugkeiten . . . . . . . . . . . . . . . . . . . . 12
4
Ergebnisse Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5
Ergebnisse Negative Binomialverteilung Teil I. . . . . . . . . . . . . . . . . 17
6
Ergebnisse Negative Binomialverteilung Teil II. . . . . . . . . . . . . . . . 18
2
7
Vergleich E(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
8
Vergleich Var(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
9
Ergebnisse WLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . 30
10
Ergebnisse ML-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
11
Ergebnisse Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . 37
3
1
Einleitung
Diese Bakkalaureatsarbeit beschäftigt sich mit der Modellierung von Torhäugkeiten im
österreichischen Profuÿball, mit dem Hauptaugenmerk auf die Conway-Maxwell-PoissonVerteilung (kurz: COM-Poisson).
Die Idee zu dieser Arbeit entstand im Zusammenhang mit der Lehrveranstaltung "Statistische Projekte" und dem veranstalteten Minisymposium zur UEFA-Europameisterschaft
in Österreich und der Schweiz 2008. ProfessorInnen, MedizinerInnen und StudentInnen
präsentierten ihre Forschungsarbeiten mit einem fuÿballbezogenen Hintergrund. Unter
anderem wurde versucht, die gefallenen Tore in Länderspielen mittels der gewöhnlichen
Poissonverteilung zu modellieren. Darüber hinaus, wurde ein kurzer Ausblick auf andere
vielversprechende Verteilungen gegeben, um Resultatsverbesserungen zu erzielen.
Die COM-Poisson-Verteilung ist die Verallgemeinerung der gewöhnlichen Poissonverteilung, die in der Statistik zu den meist verwendeten diskreten Verteilungen zählt. Sie
wird auch gerne als "die Verteilung der seltenen Ereignisse" bezeichnet. Jedoch ist die
Poissonverteilung durch nur einen Parameter in ihrer Flexibilität in gewissen Fällen sehr
eingeschränkt. Bei echten Zähldaten (z.B. Toren im Fuÿball) ist es im Allgemeinen nicht
der Fall, dass Mittelwert und Varianz gleich sind. Es ist daher mit der gewöhnlichen Poissonverteilung nicht möglich, Über- bzw. Unterdispersion zu behandeln.
Doch gerade dies ist ein immer wieder kehrendes Problem in der Anwendung. Eine erste
Alternative bzw. Abhilfe zur Lösung bietet die Negative Binomialverteilung. Es wird sich
zeigen, dass die Summe von n unabhängigen COM-Poisson verteilten Zufallsvariablen der
Negative Binomialverteilung folgen (für ν = 0 und λ < 1).
Im ersten Schritt versucht man, die erhobenen Daten mittels der gewöhnlichen Poissonverteilung anzupassen. Bei den Daten handelt es sich um die Anzahl der erzielten Tore
der Bundesliga, der Ersten Liga und der österreichischen Frauenbundesliga der letzten 10
Jahre. Nähere Information zu den Daten ndet sich im Punkt "Beschreibung des Datensatzes".
Um eine schnelle Überprüfung der Verteilungsannahme bei einer bestimmten Datenlage zu
ermöglichen, wird aus diesem Grund zunächst der von Hoaglin entwickelte PoissonnessPlot eingeführt und danach eine Maximum-Likelihood-Schätzung durchgeführt, um die
Güte der erhaltenen Ergebnisse mit einem Chi-Quadrat-Test auf Verteilungsanpassung
(Goodness of t) zu überprüfen. Danach wird man sehen, dass sich die Poissonverteilung
zwar in vielen Fällen für die Anpassung der Torhäugkeiten eignet, aber man nicht alle
Ligen bzw. ihre einzelnen Saisonen gleich gut damit modellieren kann.
4
Im zweiten Schritt wählt man mit der Negativ-Binomialverteilung eine zweiparametrige Verteilung, um die Ergebnisse für die Proligen mit unterschiedlichem Mittelwert und
Varianz zu verbessern. Zur Schätzung der Parameter bietet sich in diesem Fall die Momentenmethode an, da die Schätzer hier in geschlossener Form angegeben werden können. Die
ML-Schätzung kann aber auch leicht mit einem Newton-Optimierungsalgorithmus erzielt
werden. Wie auch schon bei der Poissonverteilung wird wieder die Güte der geschätzten
Ergebnisse mittels parametrischen Tests überprüft.
Der Schwerpunkt dieser Bakkalaueratsarbeit liegt jedoch auf der COM-Poisson-Verteilung.
Sie wird zunächst allgemein eingeführt und vorgestellt. Graken sollen dabei helfen diese
alte, jedoch vielen unbekannte, Verteilung dem Leser zugänglich zu machen. Es wird sich
gezeigen, dass im Zeitalter des Computers eine in nicht geschlossener Form vorliegende
Verteilung niemand abschrecken sollte.
Für die spätere Schätzung der Parameter werden die statistischen Eigenschaften, die Berechnung oder Approximation der Momente beschrieben und damit der Beweis erbracht,
dass die COM-Poisson-Verteilung ein Mitglied der Exponentialfamilie ist.
Ein Schwerpunkt wird auf der Parameterschätzung liegen, um dann zu überprüfen ob die
COM-Poisson-Verteilung für die erhobenen Daten den anderen Verteilungen vorzuziehen
ist. Die erste Schätzung wird mittels des COM-Poissonness-Plot und einer weighted least
squares Regression durchgeführt. Wobei natürlich auch der COM-Poissonness-Plot eingeführt wird.
Die zweite Schätzmöglichkeit gilt als die genaueste, gleichzeitig aber auch als die rechenintesivste: die Maximum-Likelihood-Schätzung! Dazu wird zuerst die Newton-RaphsonscheMethode erklärt werden. Trotz der vielen nötigen Berechnungen in jedem einzelnen Schritt
des Algorithmus wird bei der vorliegenden Datensituation nach nur wenigen Schleifendurchgängen schon eine Konvergenz erzielt.
Die dritte Methode ist die am schnellsten durchführbare und umsetzbare. Man benötigt
dazu nur die approximierten oder errechneten Werte für Mittelwert und Varianz und
gelangt mit Hilfe eines Mathematikprogrammes und der Momentenmethode zu den gesuchten Schätzern. Die einzelnen Schätzverfahren der COM-Poisson-Verteilung werden an
Hand von 5000 COM-Poisson verteilten Zufallszahlen vorgestellt und erst dann auf den
realen Datensatz angewandt. Diese Variante ermöglicht einen besseren Vergleich zwischen
den Methoden, man erkennt den COM-Poissonness-Plot eindeutig,was sich allerdings in
der Praxis oft als Problem herausstellt und viel Raum für verschiedene Interpretationen
lässt. Weiters ist in der Wirklichkeit der Übergang zwischen COM-Poisson und gewöhnlicher Poissonverteilung oft ein ieÿender (für ν nahe 1), daher wurde für die Vorstellung
der Methoden dieser Weg gewählt.
5
1.1 Beschreibung des Datensatzes
Zur Vorstellung der einzelnen Verteilungen und der Modellierung von Torhäugkeiten
wurden die Ergebnisse der österreichischen Profuÿballligen ermittelt. Dazu zählen die
Bundesliga (höchste Spielklasse) und die Erste Liga (zweithöchste Spielklasse) der Männer und die Frauenbundesliga.
Erhoben wurden die Spiele der letzten 10 Jahre, welche die Saisonen 1999/2000 bis
2008/2009 umfassen. Es können damit die einzelnen Saisonen jeder Spielklasse analysiert werden-und zwar alle Spiele der einzelnen Klassen über den gesamten Zeitraum, alle
Spiele der Männer und alle Spiele der Frauen. Die Frauenbundesliga wird als Spezialfall
betrachtet, da hier deutlich mehr Tore fallen, daher sollte sich diese für die COM-PoissonVerteilung besonders gut eignen.
Bundesliga
Saison
Spiele Tore a
2008-2009 180
3.27
2007-2008 180
2.66
2006-2007 180
2.73
2005-2006 180
2.62
2004-2005 180
2.65
2003-2004 180
2.67
2002-2003 180
2.59
2001-2002 179
2.70
2000-2001 180
2.73
1999-2000 180
2.65
σ2
4.06
3.00
2.76
2.89
2.95
2.67
2.25
2.89
2.56
2.82
Tabelle 1:
a Variable
Erste Liga
Frauenbundesliga
Spiele Tore σ 2 Spiele Tore σ 2
198 2.79 2.54
85
4.55 4.53
198 2.98 2.51
85
4.57 7.40
198 2.95 2.94
90
5.87 11.47
180 2.74 2.70
90
4.61 7.13
180 2.80 2.79
90
4.41 5.23
180 2.87 3.42
90
4.98 10.55
180 2.92 2.98
90
5.23 10.20
180 2.96 2.73 110 4.71 7.83
180 3.08 2.83
90
5.24 7.93
180 2.60 2.45
56
6.66 19.82
Anzahl der Spiele
Tore:durchschnittlich erzielte Tore pro Spiel
Insgesamt wurden 4529 Spiele erhoben. Die unterschiedliche Anzahl von Spielen in den
einzelnen Klassen sollte nicht verwundern. Es handelt sich mit einer Ausnahme nicht um
fehlende Werte, sondern um eine Veränderung der jeweiligen Ligastruktur. In der Bundesligasaison 2001/2002 war das Spiel Sturm Graz gegen FC Salzburg im Bundesligaarchiv
nicht dokumentiert. Da aber nicht die einzelnen Spiele oder Vereine modelliert werden,
wurde auf eine Nacherhebung und erneute Datenaufbereitung verzichtet.
Die Erste Liga unterscheidet sich in den letzten drei Saisonen von den anderen, weil die
Meisterschaft anstatt mit 10 mit 12 Mannschaften bestritten wurde. Bei der Frauenbundesliga ergeben sich noch mehr Unterschiede, weil neben der Anzahl der Vereinen auch
noch der Spielmodus mehrmals verändert wurde. So wurde neben dem bekannten Meisterschaftsmouds auch eine Variante mit einem Grunddurchgang und anschlieÿendem unteren
und oberen Play-o ausgetragen.
6
Für die Analyse und Verteilungsanpassung der einzelnen Ligen dürfte diese Änderungen
sich als sehr viel versprechend und interessant erweisen, weil sich neben der zeitlichen
Komponente auch die Spielcharakteristik verändert. In Play-o Spielen wird ein anderes,
ein vorsichtigeres taktisches Verhalten, an den Tag gelegt, welches sich auf die Anzahl der
gefallenen Tore auswirkt.
Die Honung dabei ist, dass sich dies in der verschiedenen Wahl der Verteilungen widerspiegelt.
Datenquellen
• Ozielle Bundesligahomegage mit umfassendem Archiv und statistischer Daten-
bank: www.bundesliga.at
Von hier wurden sämtliche Bundesliga- und Erste Ligaspiele erhoben. Das Archiv
für die Frauenbundesliga war unvollständig, daher wird auf folgende weitere Quellen
zurückgegrien.
• Von der Interntseite www.fussballoesterreich.at wurde ein Teil der fehlenden
Saisonen der Frauenbundesliga erhoben. Diese Homepage beinhaltet auÿerdem viel
Information zu den Landesverbänden und der Nachwuchsarbeit.
• Die fehlenden Saisonen wurden vom Serienmeister der Frauenbundesliga, Neuleng-
bach, und dessen gut dokumentiertem Archiv erhoben.
Unter www.neulengbach.at
Die Ergebnisse aller Spiele, mit Anzahl der erzielten Tore für Heim- und Gastmannschaft,
wurden von den Ergebnissrastern der einzelnen Archive der Internetseiten händisch ins
Programm Excel übertragen und anschlieÿend die Anzahl der gefallenen Tore ermittelt.
Die Daten wurden dementsprechend bearbeitet, um sie in einem Arbeitschritt in das csvFormat umzuwandeln und anschlieÿend in das Programmpaket R einzuspielen.
In einem letzten Schritt der Datenaufbereitung wurden hier noch die Anzahl der Tore als
Matrix erfasst, da sich diese Form des Datentypes besonders gut für die Weiterverarbeitung eignet.
Beispiel

A

0


1

2

..
.
B


17


27

45

(
=
A : gefallene Tore im Spiel
B : Anzahl der Spiele
..
.
7
2
Poissonverteilung
Die diskrete Poissonverteilung zählt zu den wichtigsten Verteilungen der Wahrscheinlichkeitstheorie und wird zur Beschreibung vieler Naturphänomene verwendet1 .
Die Dichte der Verteilungsfunktion lautet:
P(X = k) =
λk −µ
e
k!
für k ∈ {0, 1, 2, . . . }
(1)
Die Poissonverteilung lässt sich aus der Binomialverteilung Bn,p für p → 0 und n → ∞
herleiten und wird aus diesem Grund auch Verteilung der seltenen Ereignisse genannt.
Momente
Erwartungswert:
∞
X
λk
k e−λ
E(X) =
k!
k=0
−λ
=e
∞
X
k=0
(2)
∞
X
λk−1
λk
−λ
=e λ
(k − 1)!
(k − 1)!
k=1
(3)
(4)
= e−λ eλ λ = λ
Varianz:
E(X
2
)=
=
∞
X
k=0
∞
X
k
k
2 λ −λ
k!
k(k − 1)
k=0
=e
(5)
e
∞
λk −λ X λk −λ
e +
k e
k!
k!
k=0
∞
X
λk−2
λ
+λ
(k − 2)!
k=2
−λ 2
(6)
(7)
(8)
= λ2 + λ
(9)
Var(X)
= E(X 2 ) − E(X)2
(10)
= λ2 + λ − λ2 = λ
(11)
Die Herleitung der ersten beiden Momente zeigt die Gleichheit von Erwartungswert und
Varianz. Damit verbunden ist die eingeschränkte Nutzung der Poissonverteilung, bei Stichproben mit groÿen Dierenzen dieser beiden Werte.
1 vgl.
Verlag
Hafner R., Wahrscheinlichkeitsrechnung und Statistik, S.58, 1. Auage (1989), Wien Springer-
8
2.1 Poissonness-Plot
Ein Test auf Verteilungsanpassung ist zwar ein probates Mittel zu Analyse, beinhaltet
jedoch einen erheblichen zeitlichen Aufwand. Es erweist sich logischerweise als praktisch
eine schnellere Überprüfungsmöglichkeit zu konstruieren. Abhilfe zu diesem Problem bietet der von Hoaglin2 entwickelte Poissonness-Plot, ob die Poissonverteilung für die beobachtete Häugkeitsverteilung geeignet ist. Der Plot wird folgendermaÿen aufgebaut:
Man bezeichnet die beobachteten Häugkeiten mit {x0 , x1 , x2 , . . . }. So bezeichnet beispielsweise x0 die Anzahl der erhobenen Werte, welche die Ausprägung 0 besitzen. D.h.
die Anzahl der Spiele, die mit einem Remis endeten. Die Anzahl der Spiele ergibt sich
folglich mit N = x0 + x1 + x2 + . . .
Die erwarteten Häugkeiten einer Stichprobe der Gröÿe N werden folgendermaÿen berechnet:
λk
mk = N × P(X = k) = N e−λ für k ∈ {0, 1, 2, . . . }
(12)
k!
Der Poissonness-Plot wird durch folgende Überlegung hergeleitet. Für einen festen Wert
λ und der Annahme die beobachteten Häugkeiten xk entsprechen den erwarteten Häugkeiten mk , wird die obere Gleichung logarithmiert.
log(xk ) = log(N) − λ + k log(λ) − log(k!)
log(xk ) + log(k!) = log(N) − λ +k log(λ)
| {z }
| {z }
Intercept
(13)
(14)
Steigung
Bei korrekter Annahme der Poissonverteilung liegen die geplotteten Werte von log(xk ) +
log(k!) gegen k auf einer Geraden.
k
1
2
3
4
5
6
7
8
9
11
xk
4
9
18
15
14
9
7
5
3
1
log(xk )
1.38
2.19
2.89
2.70
2.63
2.19
1.94
1.60
1.09
0
Tabelle 2:
2 vgl.
log(k!)
0
0.69
1.79
3.17
4.78
6.57
8.52
10.60
12.80
17.50
log(xk ) + log(k!)
1.38
2.89
4.62
5.88
7.42
8.77
10.47
12.21
13.90
17.50
Frauenbundesliga 2008/2009
Hoaglin D.C., A Poissonness Plot, The American Statistican, Vol. 34, No. 3, pp. 146-149
9
Die Tabelle zeigt die berechneten Werte für die Bundesliga der Frauen in der Saison
2008/2009.
Abbildung 1:
Poissonness-Plot Frauenliga 2008/2009
Plotted man nun diese Werte, dann liegen die Punkte nahezu auf einer Geraden. Die
Annahme, die Daten folgen der gewöhnlichen Poissonverteilung, kann beibehalten werden.
Die durchgehende rote Linie entspricht der Maximum-Likelihood-Schätzung λ̂, eingesetzt
in die Gleichungen für Intercept und Steigung.
Es ist theoretisch auch möglich die Linie per Auge an die Datenpunkte anzupassen und
den Parameter λ so zu schätzen.
Betrachtet man den Plot so stellt sich auf Grund des letzten Punktes die Frage, wie lange
gilt die Behauptung: die Punkte liegen auf einer geraden Linie? Das ganze ist daher eine
Frage der Variabilität, wie weit kann log(xk ) abweichen, bis man die Verteilungsannahme
verwerfen muss. Im Allgemeinen variieren die Grenzen mit λ und der Stichprobengröÿe.
Bei groÿen N kann log(xk ) als Beobachtung aus einer Normalverteilung mit Mittelwert
log(N pk ) und Varianz (1 − pk )/(N pk ) betrachtet werden (wobei pk = Pλ (X = x)). Für
Punkt x11 ergibt sich daher:
• 16.77 = 1.51 × 11 − 0.1073
. . . geschätzter Wert aus Geraden
• p4.55 (11) = 0.00458
1 − 0.00458
• sd =
= 1.598927
0.00458 × 85
. . . aus Poissonverteilung
. . . Standardabweichung für x11
Der Punkt liegt nur 0.45 = 17.5−16.77
Standardabweichungen überhalb der geschätzten
1.598
Linie und stellt daher kein Problem dar.
10
2.2 Maximum-Likelihood-Schätzung
Die Maximum-Likelihood-Schätzung ist eine der am meisten verwendeten parametrischen
Schätzverfahren. Es erlaubt, die vorliegenden Werte als Realisierungen eines Zufallsexperimentes3 zu sehen. Dadurch ist es möglich eine Funktion aufzustellen, welche von einem
unbekannten Parameter abhängt, ansonsten aber vollkommen bestimmt ist.
Im Falle der Poissonverteilung kann der ML-Schätzer geschlossen angegeben werden und
entspricht dem Stichprobenmittelwert x̄. Die Momentenmethode führt auf den selben
Schätzer.
Die Ableitung des Schätzers sieht folgendermaÿen aus:
L(λ|k1 , . . . , kn ) =
n
Y
λki
ki !
i=1
log (L(λ|k1 , . . . , kn )) =
n
X
e
−λ
=
λ
Pn
ki −nλ
e
i=1 ki !
i=1
Qn
ki log(λ) − nλ −
i=1
n
X
log(ki !)
(15)
(16)
i=1
n
1X
∂log(L(λ| . . . ))
=
ki − n = 0
∂λ
λ i=1
Pn
ki
λ̂ = i=1 = k̄
n
(17)
(18)
Jetzt gilt es noch zu überprüfen, ob es sich bei dem berechneten Extremwert um einen
Hochpunkt handelt. Dazu wird die zweite Ableitung der logarithmierten LikelihoodFunktion betrachtet.
n
∂ 2 log(L(λ| . . . ))
1 X
=− 2
ki < 0 ⇒ Hochpunkt
∂λ2
λ i=1
(19)
2.3 Chi-Quadrat-Test
Um die Qualität der mittels der gewöhnlichen Poissonverteilung und später durch andere
Verteilungen geschätzten Torhäugkeiten überprüfen zu können, wird ein Anpassungstest
verwendet. Es handelt sich dabei um den Chi-Quadrat-Test auf Verteilungsanpassung4 ,
welcher in der Literatur auch oft als goodness-of-t test bezeichnet wird.
Die Teststatistik ist aber nur annähernd Chi-Quadrat verteilt, wenn die erwarteten Häugkeiten pro Klasse mindestens fünf sind.
3 vgl.
Casella G., Berger R.L., Statistical Inference, S.292, Second Editon 2002, Duxbury
Duller C., Einführung in die nichtparametrische Statistik mit SAS und R, S.114, 1. Auage
(2008), Physica-Verlag
4 vgl.
11
Hypothesen
H0
: χ2 = 0
Die Verteilung der Torhäugkeiten entspricht der theoretischen Verteilung der Torhäugkeiten
H1
: χ2 > 0
Die Verteilung der Torhäugkeiten entspricht nicht der theoretischen Verteilung der Torhäugkeiten
Teststatistik
χ2 =
r
X
(ho − he )
i
i=1
i
hei
. . . hoi
. . . hei
beobachtete Häugkeiten
erwartete Häugkeiten
Ist die Teststatistik gröÿer als der kritische Wert χ2r−k,1−α wird die Nullhypothese verworfen. D.h. die Verteilung ist nicht für die Modelliereung der Torhäugkeiten geeignet.
Beispiel
In einem Experiment ist man daran interessiert, ob der vorliegenden Würfel fair, d.h.
nicht manipuliert ist (vgl. Vorlesung univariate Verfahren). Bei 36 Würfen mit diesem
Würfel erhielt man folgende Ergebnisse:
1 2 3 4 5 6
6 6 7 7 3 7
Tabelle 3:
1 2 3 4 5 6
6 6 6 6 6 6
beobachtete und erwartete Häugkeiten
Die Teststatistik berechnet sich wie folgt:
χ2 =
(7 − 6)2
(6 − 6)2 (6 − 6)2
+
+ ··· +
=2
6
6
6
(20)
Der kritische Wert bei einem α-Fehler von fünf Prozent und fünf Freiheitsgraden kann mittels Statistikpragrammpaket(z.B. R) oder durch nachschlagen in einer Tabelle bestimmt
werden und lautet: χ25,0.95 = 11.0705.
Da die Teststatistik den kritischen Wert nicht überschreitet, kann die Nullhypothese nicht
abgelehnt werden. Mit 95%iger Sicherheit handelt es sich im Experiment verwendeten
Würfel um einen nicht manipulierten.
12
2.4 Ergebnisse
In der Ergebnisstabelle benden sich die Resultate für alle drei Ligen mitsamt den 10
verschiedenen Saisonen. Es wird jeweils der Schätzer für den Parameter λ, entspricht dem
Stichprobenmittelwert, die Stichprobenvarianz σ 2 und der p-Wert des durchgeführten
Chi-Quadrat-Test ausgegeben.
Saison
2008-2009
2007-2008
2006-2007
2005-2006
2004-2005
2003-2004
2002-2003
2001-2002
2000-2001
1999-2000
Total
λ̂
3.27
2.66
2.73
2.62
2.65
2.67
2.59
2.70
2.73
2.65
2.73
Bundesliga
σ 2 p-Wert a
4.06
0.73
3.00
0.55
2.76
0.77
2.89
0.18
2.95
0.98
2.67
0.37
2.25
0.07
2.89
0.95
2.56
0.55
2.82
0.69
2.91
0.06
Tabelle 4:
Erste Liga
λ̂
σ 2 p-Wert
2.79 2.54 0.32
2.98 2.51 0.01
2.95 2.94 0.05
2.74 2.70 0.50
2.80 2.79 0.23
2.87 3.42 0.01
2.92 2.98 0.80
2.96 2.73 0.28
3.08 2.83 0.83
2.60 2.45 0.01
2.87 2.79 0.09
λ̂
4.55
4.57
5.87
4.61
4.41
4.98
5.23
4.71
5.24
6.66
5.01
Frauenliga
σ2
p-Wert
4.53
0.98
7.40
0.72
11.47 0.23
7.13
0.01
5.23
0.59
10.55 0.01
10.20 0.48
7.83
0.51
7.93
0.09
19.82 0.01
9.03
0.01
Ergebnisse Poissonverteilung
a Chi-Quadrat-Test
Da es sich bei der gewöhnlichen Poissonverteilung um eine einparametrige Verteilung
handelt, wo die Varianz dem Mittelwert entspricht, sind gröÿere Abweichungen der Stichprobenvarianz von λ̂ ein Indikator dafür, dass die Verteilung nicht geeignet ist.
Der p-Wert des Verteilungsanpassungstests (α-Fehler=5%) soll diese Vermutung untermauern. Bei der vorliegenden Datenlage sollte dies jedoch mit Vorsicht geschehen. Bei
der theoretischen Vorstellung und Beschreibung des Tests wird darauf hingewiesen, dass
jede Klasse zumindest fünf Werte aufweist. Doch gerade bei den äuÿeren Rändern ist das
bei den Torhäugkeiten nicht immer gegeben. Eine nützliche Ergänzung bietet daher der
Poissonness-Plot. Eine Kombination der Möglichkeiten führt bei den strittigen Entscheidungen (gerade nicht signikant, Poissonness-Plot nicht ganz eindeutig) aber meist zu
vernünftigen Lösungen.
Die Tabelle zeigt mit der Poissonverteilung lassen sich Torhäugkeiten von Fuÿballspielen
in vielen Fällen sehr gut modellieren und vorhersagen. Dies trit besonders auf die Bundesliga und einzelne Saisonen der Ersten Liga zu. Bei der Bundesliga der Frauen stellt
sich die Poissonverteilung aber als wenig geeignet heraus. In vielen Fällen der einzelnen
Saisonen liegt eine deutliche Überdispersion vor, d.h. die Stichprobenvarianz ist gröÿer als
13
der Stichprobenmittelwert. Die unterstehende Graphik zeigt die Spielzeit 1999/2000. Hier
ist die Varianz mit 19.82 fast drei mal so groÿ wie x̄. Überprüft man die Vermutung, so
lehnen sowohl der Poissonness-Plot, als auch der Chi-Quadrat-Test die Poissonverteilung
als in diesem Fall nicht geeignet ab.
(a) Frauenliga
Abbildung 2:
(b) Residuen
Poissonverteilung
Daraus resultieren auch die starken Abweichungen der beobachteten zu den erwarteten
Häugkeiten. Im Zentrum der Verteilung sind die Residuen besonders groÿ, auÿerdem
werden die seltenen Ereignisse (sehr viele Tore in einem Spiel) gar nicht mehr abgebildet.
Es wird daher ein weiterer Parameter zur Modellierung der Überdispersion benötigt, um
wie im diesem Fall bessere Vorhersagen zu erhalten.
Dass gerade bei der Frauenbundesliga so groÿe Unterschiede auftreten liegt an zwei Gründen. Erstens fallen pro Spiel im Durchschnitt viel mehr Tore (auch die Streuung der
einzelnen Spiele ist gröÿer) und es kommt im Vergleich zu den Männern daher viel öfters zu für Fuÿballspiele ungewöhnlichen Spielergebnissen. Zweitens ist die Bundesliga der
Frauen nicht so ausgeglichen wie bei den Männern. Hier gibt es zwei dominierende Teams
die die Liga für die Poissonverteilung "verfälschen".
Daher wird im nächsten Schritt anstelle der einparametrigen Poissonverteilung die zweiparametrige Negative Binomialverteilung verwendet.
14
3
Negative Binomialverteilung
Die Binomialverteilung zählt die Anzahl der erfolgreich eingetretenen Ereignisse, bei einer
vorher festlegten Anzahl von Bernoulli Versuchen. Die Negative Binomialverteilung hingegen beschreibt die Anzahl der erforderlichen (Fehl-)Versuche bis zum r-ten Erfolg5 . Eine
alternative aber äquivalente Denition der Negativen Binomialverteilung ist: der Versuch,
bei dem der r-te Erfolg eintritt.
r+y−1 r
P (Y = y) =
p (1 − p)y
y
y ∈ {0, 1, 2, . . . }
(21)
Momente
Erwartungswert:
∞
X
r+y−1 r
E(Y ) =
y
p (1 − p)y
y
y=0
∞
X
(r + y − 1)! r
p (1 − p)y
(y
−
1)!(r
−
1)!
y=1
∞
X
r+y−1 r
=
r
p (1 − p)y
y
−
1
y=1
=
(22)
(23)
(24)
nun setzt man für y = z + 1 ⇔ z = y − 1 ein
∞
X
r+z r
=
r
p (1 − p)z+1
z
z=0
∞ (1 − p) X (r + 1) + z − 1 r+1
=r
p (1 − p)z
p
z
{z
}
|z=0
(25)
(26)
=1
(1 − p)
=r
p
(27)
Varianz:
Anwendung Trick:6 E(X(X − 1)) = E(X)2 − E(X)
∞
X
r+y−1 r
E(Y (Y − 1))) =
y(y − 1)
p (1 − p)y
y
y=0
wie vorher: Binomialkoezienten ausmultiplizieren, kürzen und richtig ergänzen
5 vgl.
6 vgl.
Casella G., Berger R.L., Statistical Inference, S.95, Second Editon 2002, Duxbury
Casella G., Berger R.L., Statistical Inference, S.131, Second Editon 2002, Duxbury
15
(28)
∞
X
r+y−1 r
E(Y (Y − 1))) =
r(r + 1)
p (1 − p)y
y
−
2
y=2
(29)
nun setzt man für y = z + 2 ⇔ z = y − 2 ein
∞ (1 − p)2 X r + 2 + z − 1 r+2
p (1 − p)z
= r(r + 1)
2
p
z
z=0
= r(r + 1)
(1 − p)2
p2
(31)
(32)
Var(Y ) = E(Y (Y − 1))) + E(Y ) − E(Y )2
2
2
(1 − p)
(1 − p)
2 (1 − p)
−
r
+
r
p2
p
p2
r(1 − p)
=
p2
= r(r + 1)
(30)
(33)
(34)
3.1 Schätzmethoden
Die Momentenmethode7 zählt zu den ältesten Schätzmethoden und ist in den meisten
Fällen sehr leicht anwendbar. Der Nachteil dieser Methode ist aber, dass die erhaltenen
Schätzer nicht immer erwartungstreu (siehe Schätzer für σ 2 bei der Normalverteilung)
sind. Bei der Poissonverteilung führten sowohl die Maximum-Likelihood-Schätzung als
auch die Momentenmethode auf das selbe Ergebnis (λ̂ = x̄). Das ist natürlich nicht immer
der Fall und daher werden für die Negative Binomialverteilung beide Varianten berechnet,
denn mit einer bedachten Wahl der Schätzmethode lassen sich oft schon bessere Ergebnisse
erzielen.
Der Vorteil der Momentenmethode ist in diesem Fall, dass die Schätzer in geschlossener
Form angegeben werden können. Der ML-Schätzer für den Varianzparameter hingegen
liegt nicht in geschlossener Form vor und muss durch ein Optimierungsverfahren, wie
z.B. das Newton-Verfahren, berechnet werden. Die Vorgehensweise des Newton-Verfahrens
wird an dieser Stelle ausgelassen und nur die Resultate angegeben. Denn das Verfahren
stellt einen Schwerpunkt zur Konstruktion der ML-Schätzer der COM-Poissonverteilung
dar und wird daher in diesem Kapitel nachgetragen.
7 vgl.
Verlag
Hafner R., Wahrscheinlichkeitsrechnung und Statistik, S.273, 1. Auage (1989), Wien Springer-
16
Momentenmethode
I.
II.
1X
(1 − p)
x̄p
xi = r
⇒r=
n
p
(1 − p)
2
X
1
(1 − p)
2 (1 − p)
x2i = r
+
r
n
p2
p2
(35)
(36)
r in Gleichung II. einsetzen und kürzen
1 X 2 x̄
xi = + x̄2
n
p
X
1
x2i − x̄2 p = x̄
n
|
{z
}
(37)
(38)
s2
ergibt folgende Schätzer
p̂ =
x̄
s2
r̂ = x̄
p̂
(1 − p̂)
3.2 Ergebnisse
Obwohl für viele Saisonen der einzelnen Ligen die Poissonverteilung gut geeignet war, wurden interessehalber auch für alle Daten die Schätzer für die Negative Binomialverteilung
berechnet. Die unterstehende Tabelle zeigt die Ergebnisse für die Frauenbundeliga.
Saison
2008-2009
2007-2008
2006-2007
2005-2006
2004-2005
2003-2004
2002-2003
2001-2002
2000-2001
1999-2000
Total
Tabelle 5:
Frauenbundesliga
Momenten
MLE
p-Wert
NA NA 0.95 100
0.99
0.64 8.28 0.69 10.25 0.93
0.50 5.89 0.49 5.69
0.81
0.64 8.41 0.63 8.15
0.19
0.84 23.65 0.85 26.61 0.71
0.47 4.47 0.53 5.63
0.01
0.51 5.51 0.53 5.96
0.85
0.60 7.13 0.62 7.99
0.65
0.66 10.20 0.68 11.63 0.18
0.33 3.36 0.41 4.66
0.63
0.55 6.25 0.59 7.29
0.09
p̄
r̄
p̄
r̄
Ergebnisse Negative Binomialverteilung Teil I.
Bei der Momentenmethode steht, dort besonders in der Ersten Liga, anstelle des Schätzers
17
die Abkürzung NA(Not available ). In dieser Anwendung bedeutet dies, dass zwar ein
numerischer Wert herauskommen würde, dieser aber als Schätzer nicht gültig ist. Bei der
Negativ Binomialverteilung tritt dieser Fall immer ein, wenn p > 1 ist (deniert als 0 <
p ≤ 1). Der Grund für diese Ergebnisse liegt an der Unterdispersion, d.h. die Varianz der
Stichprobe ist kleiner als der Stichprobenmittelwert. p̂ kann zwar mittels ML- Methode
geschätzt werden, man hat dadurch aber gleich einen Indikator für welche Datensätze die
Negativ Binomialverteilung nur bedingt oder gar nicht geeignet ist.
Betrachtet man die Resultate für die Frauenbundesliga, so zeigt sich gerade hier, dass
die Negative Binomialverteilung dennoch ihre Berechtigung hat. Denn hier liegt in fast
allen Fällen eine Überdispersion vor und es wird daher ein zweiter Parameter zur besseren
Schätzung benötigt.
Wenig überraschend sind jedoch die Ergebnisse der Verteilungsanpassung, denn bis auf
eine Ausnahme gab es ausschlieÿlich Verbesserungen. Diese spiegeln sich an dem höheren
p-Wert des Chi-Quadrat-Tests wider. Denn je besser die Verteilung für die Daten passt,
desto enger liegen beobachtete und erwartete Werte beieinander und desto kleiner ist
der Testwert. Bei den Saisonen 05/06, 03/04 und 1999/2000 wurde die Poissonverteilung
durch den goodness of t -Test abgelehnt. Die Negative Binomialverteilung führt bis auf
die Saison 2003/2004 jetzt insofern auf bessere Ergebnisse, weil die H0 -Hypothese nicht
abgelehnt werden kann. Die besten Resultatsverbesserungen erzielte mit einem Anstieg
des p-Wertes von 58 bzw 62 Prozentpunkten die Saisonen 06/07 und 99/00 der Frauenliga.
Interessant erscheint auch die Feststellung, dass weder die Poissonverteilung noch die Negative Binomialverteilung geeignet sind, alle Spiele der Frauenbundesliga zu modellieren.
Saison
2008-2009
2007-2008
2006-2007
2005-2006
2004-2005
2003-2004
2002-2003
2001-2002
2000-2001
1999-2000
Total
Bundesliga
Momenten
MLE
p̄
r̄
p̄
r̄
0.80 13.60 0.81 14.28
0.88 20.98 0.88 20.98
0.99 300.62 0.99 300.62
0.90 25.15 0.89 22.72
0.89 23.68 0.90 25.20
0.99 958.64 0.99 958.64
NA
NA 0.99 320.60
0.93 38.26 0.93 38.26
NA
NA 0.97 100
0.93 41.07 0.93 41.07
0.93 41.86 0.93 41.86
Tabelle 6:
p-Wert
0.84
0.60
0.76
0.17
0.99
0.37
0.06
0.98
0.54
0.78
0.07
p̄
0.99
0.98
0.97
0.97
0.97
0.84
0.97
0.99
0.98
0.97
0.99
Erste Liga
MLE
r̄
p-Wert
317.36 0.31
278.86 0.01
100
0.04
100
0.48
100
0.21
15.51
0.02
129.17 0.81
305.67 0.26
294.01 0.81
100
0.01
616.39 0.09
Ergebnisse Negative Binomialverteilung Teil II.
18
Daher erscheint es notwendig zu versuchen, diese Spiele mittels der COM-Poisson-Verteilung
anzupassen. Tabelle 6 zeigt die Momenten- und ML-Schätzer für die Bundesliga und die
Erste Liga.
Wie schon oben erwähnt kann man mit der Negativ Binomialverteilung Unterdispersion
nicht schätzen. Bei der Momentenmethode erhält man keine brauchbaren Resultate und
sie ist für diese Daten daher nicht verwendbar. Bei der MLE Methode erhält man zwar
Schätzungen, die erwarteten Häugkeiten entsprechen aber fast jenen der gewöhnlichen
Poissonverteilung. Der Grund für diese interessante Erkenntnis ist, die Negative Binomialverteilung mit r und p konvergiert für r → ∞ und λ = r(1 − p) gegen die Poissonverteilung8 . Dank des Newton-Verfahrens lassen sich zwar Saisonen mit Unterdispersion
anpassen, doch das macht in der Praxis wenig Sinn. Man erkennt dies an einem p nahe
1 und einem groÿen r. Generell bringt die Negative Binomialverteilung bei den Spielen
der Bundesliga und der ersten Liga kaum Verbesserungen. Die Saisonen der Bundesliga
lassen sich nämlich bereits mit der Poissonverteilung schön modellieren, für die Spiele der
Ersten Liga muss man auf die COM- Poisson-Verteilung zurückgreifen.
(a) 1999-2000
Abbildung 3:
(b) 2006-2007
Vergleich Verteilungen
Die beiden Graphiken zeigen, dass die Negative Binomialverteilung in Fällen von groÿer
Varianz und kleinem Mittelwert zur Modellierung gut geeignet ist. Dies stimmt auch mit
den Ergebnissen von Pollard9 überein, der sich ausführlich mit der Verteilungsanpassung
von Tor- bzw. Punkthäugkeiten beschäftigt hat.
8 vgl.
Casella G., Berger R.L., Statistical Inference, S.627, Second Editon 2002, Duxbury
Pollard,Collegiate Scores and the Negative Binomial Distribution, Journal of the American Statistical Association, Vol. 68, No.342(Jun.,1973), pp. 351-352
9 vgl.
19
4
COM-Poisson-Verteilung
In den vorangegangenen Kapiteln wurden mit der Poissonverteilung und der Negativen
Binomialverteilung bereits zwei sehr wichtige diskrete Verteilungen für Zähldaten behandelt. Dabei zeigte sich, dass die Poissonverteliung für diskrete Daten so wichtig ist, wie die
Normalverteilung für stetige. Die Mehrheit der Torhäugkeiten konnte damit wunderbar
modelliert werden. Für Daten mit einer gröÿeren Varianz als der Stichprobenmittelwert
bot die Negative Binomialverteilung eine brauchbare Abhilfe. Doch auch sie kann nicht
alle Probleme bei bestimmtem Datenlagen beheben.
Speziell für Verteilungen mit einem entweder sehr dünn oder sehr dick besetzen Ende
eignet sich die von Conway und Maxwell entwickelte COM-Poissonverteilung (1962)10 .
P(X = x) =
Z(λ, ν) =
λx
1
(x!)ν Z(λ, ν)
∞
X
λj
j=0
x ∈ {0, 1, 2, . . . }
(j!)ν
(39)
(40)
Die Verteilungsfunktion erfüllt für λ > 0 und ν ≥ 0 die Bedingungen einer Wahrscheinlichkeitsfunktion. Der Unterschied zur gewöhnlichen Poissonverteilung liegt am Verhältnis
zweier aufeinanderfolgenden Wahrscheinlichkeiten. Dieser Quotient ist bei der Poissonverteilung linear in x11 .
P(X = x − 1)
x
=
P(X = x)
λ
(41)
Die COM-Poissonverteilung wurde hingegen so konstruiert, dass dieses Verhältnis nicht
linear abnimmt und man damit bei Vorliegen von Über- bzw. Unterdispersion besser
darauf reagieren kann12 .
P(X = x − 1)
λx−1
1
λx
1
=
/
ν
ν
P(X = x)
(x − 1)!) Z(λ, ν) (x!) Z(λ, ν)
λx−1 (x!)ν Z(λ, ν)
[x(x − 1)!]ν
=
=
(x − 1)!)ν Z(λ, ν)λx
λ [(x − 1)!]ν
xν
=
λ
10 vgl.
(42)
(43)
(44)
Conway R. W., Maxwell, W. L., A queuing model with state dependent service rates, Journal of
Industrial Engineering 12, (1962), pp. 132-136
11 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Computing with the COM-Poisson
distribution, downloaded from: http://www.stat.cmu.edu/tr/tr776/tr776.html, p.1
12 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting
Discrete data:Revival of the COM-Poisson, J.Royal Statist. Soc., Volume 54, (2005), p.3
20
Diese Eigenschaft wird auch bei der Konstruktion von COM- Poisson verteilten Zufallszahlen eine wichtige Rolle spielen.
Für λ > 0 und ν > 0 konvergiert die Reihe j!λν , wenn der Quotient zweier aufeinander
folgenden Terme jλν für j → ∞ gegen 0 geht.
Das umfangreiche Anwendungsgebiet der COM-Poissonverteilung beruht darauf, dass sie
eine Verallgemeinerung vieler bekannter diskreter Verteilungen ist.
j
Eigenschaften
• Für ν = 1 ergibt sich für die Normalisierungskonstante Z(λ, ν) = eλ und die COM-
Poissonverteilung reduziert sich zur gewöhnlichen Poissonverteilung mit
X ∼ Poisson(λ).
• Für ν → ∞, tendiert Z zu: Z(λ, ν) → 1 + λ und die Verteilung nähert sich der
Bernoulliverteilung mit p = P(X = 1) =
λ
1+λ
an.
• Bei der Konstellation von ν = 0 und λ < 1 ist die Normalisierungskonstante ist eine
geometrische Summe
Z(λ, ν) =
∞
X
λj =
j=0
1
1−λ
und es ergibt sich die geometrische Verteilung
P(X = x|λ, ν) = λx (1 − λ) x = {0, 1, 2, . . . }
Die Summe Z(λ, ν) konvergiert für die Parameterkonstellation ν = 0 und λ ≥ 1 nicht.
Dadurch lässt sich auch die Verteilung nicht denieren. Durch diese "Spezialfälle" kann
man die COM-Poisson Verteilung auch als Brücke zwischen der geometrischen Verteilung,
der Poissonverteilung und der Bernoulliverteilung sehen.
ν Werte kleiner als eins weisen achere Quotienten aufeinander folgender Wahrscheinlichkeiten als bei der gewöhnlichen Poissonverteilung auf. Die Verteilung besitzt daher stärker
besetzte Enden, sprich es liegt eine Überdispersion vor.
Summen von Zufallsvariablen
Nicht nur für einzelne COM-Poisson verteilte Zufallsvariablen besteht eine Verbindung
zu klassischen diskreten Verteilungen, auch für die Summe von n COM-Poisson verteilten
Zufallsvariablen {X1 , X2 , . . . , Xn } gibt es eine Brücke zu drei sehr bekannten Verteilungen.
• Für ν = 0 und λ < 1, die Summe der COM-Poisson Variablen reduziert sich zur
Summe von geometrisch verteilter Zufallsvariablen, wobei diese Summe wiederum
21
dann nicht geometrisch, sondern negativ binomialverteilt ist mit
P
Xi ∼ N Binom(n, 1 − λ)
• Für ν = 1 ist die Summe Poisson verteilt
P
Xi ∼ P ois(nλ)
• Bei ν = ∞ enspricht die Summe der n COM-Poisson verteilten Zufallsvariablen der
P
λ
Binomialverteilung. Xi ∼ Binom(n, 1+λ
)
Um dies zusätzlich noch empirisch zu überprüfen, wurden in einer kleinen Simulationstudie für die drei Parameterkonstellationen 10 mal 1000 COM-poissonverteilte Zufallsvariablen erzeugt (der Algorithmus dahinter wird im nächsten Abschnitt erklärt).
Man bildet jeweils die Summen und muss nur noch die jeweiligen Parameter schätzen.
Abbildung 4:
Summe COM-Poisson verteilter Zufallszahlen
Die farbig strichlierten Dichten sind jene die durch die Simulation erzeugt wurden, die
schwarze dicke Dichte entspricht der theoretischen Verteilung. Die Simulation soll noch
einmal darauf hinweisen, wie vielseitig, exibel und dennoch im Zeitalter des Computers
leicht anwendbar die COM-Poisson Verteilung ist.
22
Erzeugen von Zufallszahlen
Um COM-poissonverteilte Zufallsvariablen zu generieren, bedient man sich der Inversionsmethode. Beginnend mit P(X = 0) werden alle Wahrscheinlichkeiten der COM-PoissonVerteilung aufsummiert, bis die Summe den Wert einer zwischen 0 und 1 gleichverteilten
Zufallsvariable überschreitet.
P(X = 0) + P(X = 1) + · · · + P(X = j) ≤ Y ∼ U (0, 1)
(45)
X = j ist dann eine Beobachtung aus einer COM-Poisson-Verteilung. Für die Berech-
nung der Wahrscheinlichkeiten nutzt man wieder den nicht linearen Quotienten zweier
aufeinander folgender Wahrscheinlichkeiten.
P(X + 1) = P(X)
λ
(X + 1)ν
X = {0, 1, 2, . . . }
(46)
Damit dieser Algorithmus funktioniert, benötigt man noch einen Startwert für die erste
Wahrscheinlichkeit P(X = 0) = Z(λ, ν)−1 . Diese ist aber nicht in geschlossener Form
vorhanden und muss daher bestmöglich approximiert werden.
4.1 Berechnung von Z(λ, ν)
Die Berechnung von Z(λ, ν) spielt bei der Verwendung der COM-Poisson-Verteilung die
entscheidende Rolle. Denn sie summiert nicht nur die Dichte (bzw. PMF) auf eins, sondern wird auch für die Berechnung der Momente und die Erzeugung von Zufallszahlen
benötigt. Da die Summe keine natürliche obere Schranke besitzt, muss die Summe mit
möglichst kleinem Fehler begrenzt werden.
j
j
Wie bereits beschrieben konvergiert die Reihe j!λν , zusätzlich gilt lim j!λν = 0. Dafür exij→∞
stiert eine Zahl k, mit j > k
λ
<1
(47)
ν
j
Dieses Verhältnis nimmt monoton ab mit dem Resultat, dass die genannte Reihe schneller als eine geometrische Reihe mit dem Multiplikator von (47) konvergiert(für j > k).
Daher kann man Z(λ, ν) so approximieren, indem man die Reihe bei einem k-ten Term
abschneidet.
k
X
λj
Z(λ, ν) =
+ Rk
j!ν
j=0
Wobei der Rk =
P∞
λj
j=0 j!ν
(48)
den absoluten Fehler beschreibt, der durch Abbruch entsteht.
Schlieÿlich ndet man dadurch eine Obergrenze, da die Reihe
23
λj
j!ν
(j = 0, 1, 2, . . . ) schneller
abnimmt als eine geometrische Reihe. D.h. es gibt einen Wert mit 0 < k < 1,wo für alle
j > k gilt:
λ
< k
(49)
ν
(j + 1)
Der absolute Fehler wird dann folgendermaÿen begrenzt:
λk+1
(k + 1)!ν (1 − k )
(50)
In der Praxis wird dann anstelle des absoluten Fehlers der relative Fehler verwendet, um
die Berechnung von Z(λ, ν) ezienter zu gestalten.
4.2 Momente der Verteilung
Wie es bereits bei der Normalisierungskonstante der Fall war, lassen sich die Momente
wieder nicht in geschlossener Form angeben. Sie lassen sich jedoch auf zwei verschiedene
Arten berechnen. Für die erste benötigt man folgende rekursive Darstellung13 .
E(X
r+1
)=


λE(X + 1)1−ν

λ
ϑ
E(X r )
ϑλ
r=0
(51)
r
+ E(X)E(X ) r > 0
Verwendet man eine Approximation für Z(λ, ν) so können Erwartungswert und Varianz
in geschlossener Form approximiert werden.
1
ϑ log Z(λ, ν)
ν−1
≈ λν −
ϑλ
2ν
2
1
−1
ν
1
λ
ν
−
1
E(X 2 ) = λ
+ λν −
ν
2ν
E(X) = λ
Var(X) = E(X 2 ) − E(X)2
=
1
ν
λ
ν
(52)
(53)
(54)
(55)
Diese Approximation für Erwartungswert und Varianz werden später für die Schätzung für
λ und ν bei der Momentenmethode verwendet. Um genauere Werte zu erhalten, können
die Momente der COM-Poisson Verteilung aber auch mittels folgender Formel14 berechnet
werden.
∞
E [f (X)] =
X
f (j)
j=0
13 vgl.
λj
j!ν Z(λ, ν)
(56)
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting
Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.3
24
Der Nachteil bei dieser zweiten Variante besteht darin, dass die Summe wieder an einem
bestimmten Punkt abgebrochen werden muss, um numerische Werte zu erhalten. Für die
Maximum-Likelihood Schätzung werden die Momente im Newton-Verfahren benötigt und
auf diese Art und Weise berechnet.
Abbildung 5:
Entwicklung der Momente
Die Graphik (5) zeigt die Entwicklung15 von Erwartungswert und Varianz. Für verschiedene Werte von ν = {1, 2, . . . , 10} wird E(X) bzw. Var(X) gegen λ gezeichnet. Mit dem
Resultat, dass mit zunehmenden ν die beiden Kurven von Erwartungswert und Varianz
immer mehr verachen. Besonders bei der Varianz geht diese Abnahme sehr rasch vor
sich. Ab einem ν von 6 pendeln sich die Werte dann aber ein und anschlieÿend gibt es
kaum noch Unterschiede zwischen den einzelnen Graphiken.
14 vgl.
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Computing with the COM-Poisson
distribution, downloaded from http://www.stat.cmu.edu/tr/tr776/tr776.html p.5
15 Nadarajah S., Useful moment and CDF formulations for the COM-Poisson distribution, Statistical
Papers, Volume 50, Number 3 (Juni 2009), p. 4
25
Abschlieÿend zum Bereich Momente der COM-Poisson-Verteilung zeigen die beiden Tabellen den jeweiligen Vergleich der beiden Berechnungen für Erwartungswert und Varianz
für einen festen Wert von λ = 500. Für die exakte Berechnung wurde die Formel (56)
exakt approximiert
1
500
500
2 22.11488
22.11068
3 7.598348
7.603672
4 4.344951
4.353708
5 3.053527
3.065724
6 2.385655
2.400602
7 1.990408
2.001210
8 1.725328
1.737059
9 1.511286
1.550292
10 1.330936
1.411646
exakt
approximiert
1
500.4137
500
2
10.93211
11.18034
3
2.656022
2.645668
4
1.184107
1.182177
5 0.6958124 0.6931448
6 0.4691751 0.4695449
7 0.3450336 0.3471116
8 0.2985918 0.2718199
9 0.2767759 0.2216374
10 0.2296351 0.1861646
ν
Tabelle 7:
ν
Vergleich E(X)
Tabelle 8:
Vergleich Var(X)
verwendet, für die Approximation das Ergebnis in (55). Erfreulicherweise liefert die Näherung der ersten beiden Momente wirklich gute Ergebnisse. Die Abweichungen sind in
unserem Fall überschaubar und daher ist diese schnelle Berechnungsmöglichkeit eine gute
Alternative für eine erste Überprüfung. Zur Schätzung der Parameter ist jedoch die exakte
Variante zu empfehlen. Numerische Überprüfungen16 ergaben, dass man selbst für ν ≤ 1
und λ > 10ν die Approximation noch verwenden kann.
4.3 Suziente Statistik
Ein letzter Punkt muss noch betrachtet werden, bevor man sich den Schätzmethoden zuP
P
wenden kann. Es gilt zu zeigen, dass ni=1 xi und ni=1 log(xi !) suziente Statistiken17 der
COM-Poisson-Verteilung sind, siehe (60).
Zusätzlich kann noch gezeigt werden, dass die COM-Poisson Verteilung zu den Mitgliedern
der Exponentialfamilie zählt. Denn eine Dichte bzw. PMF f(x|θ) mit iid Beobachtungen
X1 , . . . , Xn gehört zur Exponentialfamilie, wenn gilt18 :
f(x|θ) = h(x)c(θ) exp
k
X
!
wi (θ)ti (x)
(57)
i=1
16 vgl.
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting
Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.17
17 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting
Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.4
18 vgl. Casella G., Berger R.L., Statistical Inference, S.279, Second Editon 2002, Duxbury
26
Um dieses Theorem anzuwenden, wird die Likelihoodfunktion ein bisschen umgeformt.
n
Y
1
λ xi
L(λ, ν|x1 , x2 , . . . , xn ) =
ν
(xi !) Z(λ, ν)
i=1
=λ
Pn
i=1
e−ν
Pn
i=1
(58)
log(xi !) −n
Z
(59)
(λ, ν)
(60)
= λS1 e−νS2 Z−n (λ, ν)
Durch das Faktorisierungstheorem sieht man in Gleichung (60), dass S1 = ni=1 xi und
P
S2 = ni=1 log(xi !) suziente Statistiken für x1 , . . . , xn sind. Zusätzlich zeigt (60), dass
die COM-Poisson Verteilung ein Mitglied der Exponentialfamilie ist.
P
4.4 WLS-Schätzung
Die WLS-Schätzung(weighted least squares )19 kombiniert eine einfache graphische Technik
zur Überprüfung der Verteilung mit einer rechenarmen Methode der kleinsten Quadrate
und ist eine von drei besprochenen Möglichkeiten zur Parameterschätzung von λ und ν
der COM-Poisson-Verteilung.Graphik und Schätzung lassen sich leicht R oder SAS implementieren.
COM-Poissonness-Plot
Bei der Konstruktion der Graphik geht man wieder vom Verhältnis zweier aufeinander
folgenden Wahrscheinlichkeiten aus.
P(X − 1)
px−1
xλ
=
=
P(X)
px
λ
(61)
Durch das Logarithmieren auf beiden Seiten bekommt man eine lineare Beziehung zwischen dem logarithmierten Quotient und log x
log
px−1
px
= − log λ + ν log x
(62)
Die Wahrscheinlichkeiten des Quotienten sind zu diesem Zeitpunkt noch nicht bekannt
und müssen durch die relativen Häugkeiten ersetzt werden. Der COM-Poissonness-Plot
entsteht, indem man dieses Verhältnis gegen den Logarithmus von x zeichnet.
Wichtig für die Konstruktion ist, dass ein Quotient mit zero counts nicht beachtet wird.
Wobei dabei nicht die Kategorieausprägung Null gemeint ist, sondern dass z.B. für die
19 vgl.
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting
Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.6
27
Kategorie mit der Ausprägung eins kein Zählergebnis vorliegt.
Die COM-Poisson-Verteilung wird dann als passendes Modell für eine bestimmte Datensituation bezeichnet, wenn die Punkte des COM-Poissonness-Plot auf einer Geraden liegen.
Gleichzeitig lassen sich mit dieser Graphik die Daten auf die gewöhnliche Poissonverteilung hin überprüfen. Dieser einfache Fall tritt dann ein, wenn das Intercept der Geraden
null ist. So reduziert sich der COM-Poissonnes- Plot zum Poissonness-Plot von Hoaglin.
Die Ideen der zwei graphischen Überprüfungsmöglichkeiten sind zwar ähnlich, jedoch wird
beim COM-Poissonness-Plot nur das Intercept bestimmt und beim Poissonness-Plot sowohl Intercept als auch die Steigung.
(a) COM-Poisson-Plot
Abbildung 6:
(b) Poissonness-Plot
Wahl der Verteilung
Zur Illustration der beiden Plots wurden n = 5000 COM-Poisson verteilte Zufallszahlen
generiert, mit λ = 7.68 und ν = 2.14. Dabei wurde ein xer Startwert für den Zufallszahlengenerator angegeben, denn diese Zahlen werden in den folgenden Abschnitten zum
Vergleich der Schätzmethoden verwendet. Bei diesen Daten liegt eine starke Unterdispersion vor, um an das Problem mit den vorliegenden realen Torhäugkeiten anzuknüpfen.
Das rechte Bild zeigt die Überprüfung auf die gewöhnliche Poissonverteilung und man
kann erkennen, dass diese hier nicht geeignet ist. Die gestrichelte rote Linie symbolisiert
die ML-Schätzung der Poissonverteilung und soll zusätzlich untermauern, wie weit die
geschätzten Punkte von den realen Punkten entfernt sind.
Das linke Bild hingegen spiegelt das Idealbild eines COM-Poissonness-Plot wider. Der äuÿerste Punkt sollte daher nicht verwundern. Eine sehr starke Unter- bzw. Überdispersion
stellt allgemein ein groÿes Problem dar und dies lässt sich auch bei der COM-Poisson28
Verteilung nicht vollständig beheben. Die durchgehende rote Linie ist jene Gerade die
durch Einsetzen der WLS-Schätzer in Gleichung (62) entsteht, sie passt die Daten sehr
gut an.
Modell
Kommt man nach der graphischen Überprüfung zu dem Schluss, dass die COM-PoissonVerteilung für die Daten geeignet ist, dann werden
die Parameter folgendermaÿen gep̂x−1
schätzt: man führt eine Regression von log p̂x auf log x durch. Dabei muss aber beachtet werden, dass zwei wesentliche Annahmen der linearen Regressionsanalyse verletzt
werden.
1. Die Varianz der abhängigen Variablen sind nicht konstant, es liegt also keine Homoskedastizität vor.
Var(p̂x ) =
px (1 − px )
n
(63)
1
1
+
npx npx−1
(64)
kann folgendermaÿen approximiert werden
Var
p̂x−1
p̂x
≈
Wobei n die Anzahl der Werte ohne Null angibt
2. Die Beobachtungen sind nicht unabhängig. In Wirklichkeit sind die aufeinander
folgenden Wahrscheinlichkeiten negativ korreliert.
Cov(p̂x , p̂y ) = −
px py
n
für x 6= y
(65)
kann folgendermaÿen approximiert werden
p̂x−1
p̂x
1
Cov log
, log
≈−
p̂x
p̂x+1
npx−1
(66)
Auf Grund der Verletzungen der Annahmen, wird anstelle der "normalen" Regressionsanalyse eine weighted least squares Regression verwendet. Für den Parametervektor mit
λ und ν der gewichteten Regression ergibt sich folgende Schätzgleichung:
β̂ = XT W−1 X
−1
XT W−1 y
(67)
Wobei die Matrix W die Gewichte für die Regression enthält. In der Diagonale von W
stehen die Varianzen von (64) in der ersten Neben-Diagonale die Kovarianzen von Ap29
proximation (66). Würden die Fehler unkorrelliert sein, so würde sich W−1 zu einer Diagonalmatrix reduzieren. Mit dieser gewichteten Matrix ist der Schätzer β̂ dann der beste
lineare unverzerrter, Schätzer(BLUE).
Die Matrix Xnx2 enthält in der ersten
Spalten
lauter Einser für das Intercept und in der
zweiten Spalte die Werte von log p̂x−1
. Im Responsevektor y steht log x.
p̂x
Diese Methode zur Schätzung von λ und ν funktioniert ziemlich gut, solange sich nicht
zu viele zero counts im Datensatz benden.
4.4.1
Ergebnisse
Für die weighted least squares Regression ergaben sich folgende Ergebnisse. Die Güte der
geschätzten Werte wurde wieder mittels des Chi-Quadrat-Tests überprüft.
Saison
2008-2009
2007-2008
2006-2007
2005-2006
2004-2005
2003-2004
2002-2003
2001-2002
2000-2001
1999-2000
Total
λ̂
2.46
2.05
2.67
1.96
2.23
2.04
2.95
2.42
2.79
2.25
2.41
Bundesliga
ν̂
p-Wert a
0.78
0.85
0.77
0.58
0.97
0.73
0.74
0.13
0.84
0.99
0.72
0.76
1.11
0.14
0.90
0.97
1.00
0.57
0.85
0.75
0.89
0.08
Tabelle 9:
Erste Liga
λ̂
ν̂
p-Wert
3.16 1.08 0.36
3.05 0.97 0.01
2.71 0.91 0.01
2.32 0.83 0.15
2.50 0.90 0.19
2.17 0.74 0.01
2.66 0.91 0.76
3.29 1.06 0.28
3.47 1.08 0.90
2.69 0.99 0.01
2.89 1.01 0.09
Frauenliga
λ̂
ν̂
p-Wert
2.33 0.69 0.02
1.58 0.43 0.33
1.97 0.41 0.90
2.31 0.57 0.23
3.63 0.87 0.71
1.60 0.35 0.01
2.04 0.45 0.63
2.28 0.55 0.28
2.72 0.62 0.10
1.54 0.29 0.13
2.11 0.49 0.01
Ergebnisse WLS-Schätzung
a Chi-Quadrat-Test
Da man mittels der COM-Poisson-Verteilung sowohl Unter-bzw. Überdispersion(ν > 1
bzw. ν < 1), als auch die gewöhnliche Poissonverteilung (ν = 1) schätzen kann, sollten
im Normalfall die Ergebnisse zumindest gleichwertig gegenüber den anderen Modellen
sein. Für die Torhäugkeiten der Bundesliga zeigt sich, dass sich alle Konstellationen von
Mittelwert und Varianz gut modellieren lassen. So zeigt der Schätzer für ν in der Saison
2002/2003 die Unterdispersion deutlich an und man erzielt auch eine bessere Schätzung.
Trotzdem wäre die Wahl einer anderen diskreten Verteilung wahrscheinlich eine gute Alternative.
Ein Ergebnis sollte noch hervorgehoben werden. Für die Spielzeit 03/04 erreicht man mit
30
dieser Methode und Verteilung Abstand die beste Annäherung an die realen Daten, leider
wird dies aber von den anderen Schätzmethoden nicht bestätigt. Varianz und Mittelwert
sind hier vollkommen ident, ein klassischer Fall für die gewöhnliche Poissonverteilung,
dennoch kommt die WLS-Schätzung zu einer Überdispersion. Ein Problem der WLSRegression ist die Tatsache, dass diese "Fehlschätzungen" auch für die Bundesliga der
Frauen (Saisonen 08/09 und 07/08) und der Erste Liga (Saison 05/06) vorkommen.
Ein plausibler Grund für dieses Problem dürfte sein, dass manche Ausprägungen der Torhäugkeiten äuÿerst dünn besetzt sind (leider auch und Zentrum) und dies sich besonders
bei dieser Art der Schätzung negativ zu Buche schlägt. Bei der Frauenbundesliga kommt
auch die geringe Anzahl der Spiele pro Saison, verbunden mit überdurchschnittlich vielen
Treern pro Partie, als erschwerend hinzu. Eine weitere interessante Erkenntnis ist, dass
es bestimmte Meisterschaften gibt, wo keine der vorgestellten Verteilungen angebracht zu
sein scheint.
Ansonsten kann man mit dem COM-Poissonness-Plot und der WLS Regression sehr zufrieden sein. Verwendet man die für den Plot erzeugten 5000 Zufallszahlen (λ = 7.68 und
ν = 2.14) kommt man mittels der Regression auf folgende Schätzer: λ̂ = 7.839425 und
ν̂ = 2.163566. Bei der Maximum Likelihood Schätzung kommt man auf ein λ̂ von 7.885418
Abbildung 7:
Simulation:Schätzmethoden
und ein ν̂ von 2.169616. Die Momentenmethode liefert 7.629 für die Mittelwertschätzung
und 2.150 für ν . Bei gröÿeren Stichproben kommt man also zu sehr ähnlichen Resultaten.
31
4.5 Maximum-Likelihood-Schätzung
Von den drei in dieser Arbeit vorgestellten Verfahren ist die Maximum-Likelihood-Schätzung
das Aufwendigste und Rechenintensivste. Auf der anderen Seite hingegen liefert es in den
meisten Anwendungen die besten Ergebnisse. So wird die WLS-Schätzung gerne dazu
verwendet, um sich einen ersten Überblick zu verschaen und um anschlieÿend dann im
zweiten Schritt die Schätzer für die Parameter so genau als möglich zu bestimmen. Für
die Momentenmethode gilt ähnliches, hier kann sogar nur mit den approximierten Werten
für Erwartungswert und Varianz gearbeitet werden.
Da die ML-Schätzer für die Parameter nicht geschlossen angegeben werden können, wird
ein numerischer Optimierungsalgorithmus, wie das Newton-Verfahren, benötigt.
Newton-Verfahren
Das Newton-Verfahren20 ist eine Iterationsmethode zur näherungsweisen Nullstellensuche
bei dierenzierbaren Funktionen f . Der Algorithmus nähert sich dem wahren Wert folgendermaÿen an: Beginnend mit einer Annäherung xn wird der Wert für xn+1 bestimmt,
indem man den Schnittpunkt der Tangente an den Graphen mit der x-Achse berechnet.
Es ergibt sich folgende Iterationsvorschrift:
xn+1 = xn −
f (xn )
f 0 (xn )
Das Verfahren läuft solange bis, die relative Veränderung kleiner einem vorher festgelegten
Fehlerterm ist. Im Falle der COM-Poisson- Verteilung müssen aber mit λ und ν zwei
Parameter gleichzeitig geschätzt werden. Die Idee zur Lösung diese Problems bleibt auch
in diesem Fall gleich, man passt nur den Algorithmus der Problemstellung an.
Die Likelihood für n iid Beobachtungen x1 , x2 , . . . , xn kann wie bereits gezeigt geschrieben
werden als:
L(x1 , x2 , . . . , xn |λ, ν) = λS1 e−νS2 Z−n (λ, ν)
(68)
Wobei S1 = ni=1 xi und S2 = ni=1 log(xi !) suziente Statistiken für x1 , x2 , . . . , xn sind.
Die Punktmaxima von λ und ν lauten daher
P
P
n
1X
E(X) = X =
Xi
n i=1
(69)
n
E(log(X!)) = log(X!) =
32
1X
log(Xi !)
n i=1
(70)
Die logarithmierte Likelihood kann damit wie folgt geschrieben werden21 .
log L(x1 , x2 , . . . , xn |λ, ν) = nX log λ − nlog X! − n log Z(λ, ν)
(71)
Die Likelihood kann schnell und zuverlässlich maximiert werden, da sie für die Parameter
θ = (log(λ), ν) konkav ist. Diese Eigenschaft stellt die Eindeutigkeit des Extremwerts
sicher. Um einen neuen Wert berechnen zu können wird zunächst der Gradient der logarithmierten Likelihood benötigt.
"
∇L(θ) =
X − E(X)
#
−log(X!) + E(log(X!))
(72)
Im nächsten Schritt muss noch die Matrix mit den zweiten Ableitungen bestimmt werden.
"
∇2 L(θ) =
−Var(X)
#
Cov(X, log(X!))
Cov(X, log(X!))
−Var(log(X!))
(73)
Diese Matrix hat eine positive Determinante, weil
Var(X)Var(log(X!)) > Cov(X, log(X!))
(74)
Zusätzlich sind beide Eigenwerte negativ, was beweist, dass die Likelihood konkav ist.
Die Momente können entweder mittels Approximation oder wenn sie so genau als möglich
benötigt werden mittels Formel (56) bestimmt werden. Für die Schätzung der Torhäugkeiten wurden E(X), Var(X) und Cov(X, log(X!)) mit der exakten Methode berechnet.
Das so genannte Newton-Update ergibt sich dann aus:
θ new = θ − (∇2 L(θ))−1 ∇L(θ)
(75)
In jedem Schleifendurchlauf werden also Erwartungswert, Varianz und Kovarianz von X
und log(X!) berechnet. Und zwar, indem man die Schätzer aus der letzten Iteration für
λ und ν einsetzt und die Momente bestimmt.
Für die praktische Anwendung empehlt es sich als Startwerte die Maximum-LikelihoodSchätzer der gewöhnlichen Poissonverteilung zu verwenden. Für λ = X, ν = 1 ergibt sich
θ = (log(X), 1).
20 vgl.
Stöcker H., Taschenbuch mathematischer Formeln und moderner Verfahren, S. 51, 4. Auage
(2007), Harri Deutsch Verlag
21 Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Computing with the COM-Poisson
distribution, downloaded from: http://www.stat.cmu.edu/tr/tr776/tr776.html, p.6
33
4.5.1
Ergebnisse
Von der Herleitung und der Implementierung im Programm war es die aufwendigste
aller beschriebenen Schätzmethoden, jedoch nicht in Hinsicht auf die Rechenleistung.
Im Schnitt konvergierte der Algorithmus schon nach vier bis acht Iterationsschritten. Es
trat dabei nur ein einziges Problem auf: Für die Frauenbundesliga der Saison 1999/2000
kam die ML-Schätzung trotz der Wahl verschiedener Startwerte zu keinem Ergebnis. Der
Grund für diese Gegebenheit, dürfte die vielen Kategorien mit nur einer Ausprägung sein
(von 16 Kategorien besitzen zehn weniger als fünf Ausprägungen).
Saison
2008-2009
2007-2008
2006-2007
2005-2006
2004-2005
2003-2004
2002-2003
2001-2002
2000-2001
1999-2000
Total
λ̂
2.40
2.17
2.76
2.10
2.30
2.49
3.10
2.50
2.98
2.48
2.45
Bundesliga
ν̂
p-Wert a
0.77
0.85
0.83
0.64
1.00
0.77
0.81
0.21
0.88
0.99
0.94
0.44
1.15
0.17
0.93
0.97
1.07
0.53
0.94
0.74
0.91
0.10
Tabelle 10:
Erste Liga
λ̂
ν̂
p-Wert
3.25 1.12 0.41
3.63 1.15 0.053
2.88 0.98 0.049
2.64 0.97 0.50
2.70 0.97 0.22
2.27 0.81 0.01
2.83 0.97 0.81
3.48 1.12 0.42
3.62 1.12 0.92
2.78 1.05 0.01
2.93 1.01 0.10
Frauenliga
λ̂
ν̂
p-Wert
4.95 1.05 0.97
2.69 0.67 0.93
2.08 0.44 0.87
2.35 0.59 0.21
3.42 0.84 0.72
2.01 0.47 0.01
2.09 0.48 0.78
2.36 0.58 0.53
2.96 0.67 0.13
NA NA
NA
2.31 0.55 0.01
Ergebnisse ML-Schätzung
a Chi-Quadrat-Test
Beginnend mit der Bundesliga spiegelt der Parameter ν̂ die Über- bzw. Unterdispersion
in allen Fällen korrekt wieder. Betrachtet man nur die Fälle mit kleinerer Varianz als
Stichprobenmittelwert (02/03 und 00/01) so zeigt sich, dass man erfreulicherweise für die
Saison 2002/2003 nun die vorliegende Verteilung nicht mehr ablehnen kann. Im anderen
Fall wirkt die Unterdispersion nicht so stark, daher lieferte auch die Poissonverteilung
brauchbare Ergebnisse.
Auch bei der Ersten Liga konnten in bestimmten Bereichen Erfolge erzielt werden. Wiederum wird das Verhältnis zwischen dem Mittelwert und der Varianz richtig wiedergegeben. Für die Spielzeit 08/09 erhält man jetzt eine deutlich bessere Schätzung als mit
der gewöhnlichen Poissonverteilung bzw. der negativen Binomialverteilung, welche in diesem Fall überhaupt nicht geeignet erscheint. Weitere Verbesserungen ergeben sich für
die Meisterschaften 07/08 hier jedoch äuÿerst geringfügig), 01/02 und 00/01. Die Saison
1999/2000 folgt keiner der in dieser Arbeit verwendeten diskreten Verteilungen.
34
Wie bereits beschrieben, lassen sich die einzelnen Meisterschaften der Frauenbundesliga sehr vernünftig mittels der Negativen Binomialverteilung beschreiben. Die in fast allen
Fällen auftretende Überdispersion wird korrekt durch die Maximum-Likelihood-Schätzung
der Parameter modelliert. Hier stimmen die Schätzungen für die Parameter der Saisonen
08/09 und 2007/2008, hingegen wurden diese durch die WLS-Schätzung falsch wiedergegeben.
Es kristallisiert sich auch das Ergebnis heraus, dass die Summen der Torhäugkeiten über
alle Saisonen der drei betrachteten österreichischen Fuÿballproligen durch keine der behandelten Verteilungen angepasst werden kann.
Abbildung 8:
Saison 2008-2009
Die Abbildung soll die Vorteile der COM-Poisson-Verteilungen im Falle einer Unterdispersion gegenüber der gewöhnlichen Poissonverteilung und der am wenigsten geeigneten
Negativen Binomialverteilung hervorheben. Poissonverteilung und Negative Binomialverteilung sind in dieser Graphik gleich, weil die Negative Binomialverteilung bei der MLSchätzung durch die Poissonverteilung approximiert wird.
Bei der Momentenmethode würden man keine (verwendbaren) Schätzer erhalten, da für
den Parameter p die Wahrscheinlichkeit gröÿer als eins geschätzt wird.
35
4.6 Momentenmethode
Sei X1 , . . . , Xn eine Stichprobe aus einer Grundgesamtheit22 mit Dichte f (x|θ1 , . . . , θn ).
Die Schätzer der Momentenmethode werden bestimmt, indem man die ersten k Stichprobenmomente mit den entsprechenden k Momenten der Grundgesamtheit gleichsetzt
und das dadurch entstehende Gleichungssystem auöst. Die Momentenschätzer besitzen
folgende Eigenschaften23 :
• immer konsistent
• zumindest asymptotisch erwartungstreu
• i.d.R asymptotisch normal
• oftmals nicht wirksamste
• oftmals nicht suzient
Für die Negative Binomialverteilung konnten die Schätzer der Parameter rasch bestimmt
und in geschlossener Form angegeben werden (siehe: Seite 17). Bei der COM-PoissonVerteilung sind die beiden Gleichungen auf den ersten Blick nicht so einfach zu lösen,
daher wird das Gleichungssystem mit Hilfe des Programms Mathematica gelöst. Die Momentenmethode dient in diesem Fall aber nur zu einer ersten Standortbestimmung der
Schätzer. Um eine einfache und schnelle Variante zur Berechnung der Parameter λ und
ν als statistisches Rüstzeug zur Verfügung zu haben, werden die Approximationen der
ersten beiden Momente verwendet.
Es ergeben sich folgende Schätzgleichungen:
I.
II.
1
1X
ν−1
xi = λ ν −
n
2ν
1
X
λν
1
2
(xi − x̄) =
n−1
ν
(76)
(77)
Gleichung I. auf λ umformen und in Gleichung II. einsetzen, ergibt
νb = −
1 − 2x̄ ±
√
1 − 4x̄ + 4x̄2 + 8S 2
4S 2
(78)
Für λb ergibt sich folgender Schätzer:
b=
λ
1 − νb
+ x̄
2b
ν
νb
(79)
Die Approximationen für E(X) und Var(X) werden über die Vorschrift auf Seite 24
berechnet. Man erhält für beide Parameter zwei Lösungen, aber nur eine liefert gülti22 vgl.
Casella G., Berger R.L., Statistical Inference, S.312, Second Editon 2002, Duxbury
36
ge Ergebnisse für die Schätzer der COM-Poisson-Verteilung. Für die Lösung von ν mit
√
1 − 2x̄ + 1 − 4x̄ + 4x̄2 + 8S 2 im Zähler erhält man immer negative Werte für ν , was
aber die Denition der COM-Poisson-Verteilung ausschlieÿt. So eignet sich die Momentenmethode für eine schnelle Überprüfung der vorliegenden Daten, man sollte jedoch die
Ergebnisse mit Hilfe der Maximum-Likelihood-Schätzung einer genaueren Überprüfung
unterziehen.
4.6.1
Ergebnisse
Für die Momentenmethode ergaben sich folgende, von der Qualität überraschend guten,
Ergebnisse. Denn von der theoretischen Herleitung bis zum Aufwand der praktischen
Umsetzung würde man der Momentenmethode eher die schlechtesten Eigenschaften der
drei vorgestellten Prozeduren zuordnen. Auch aus dem Grund, weil man nur mit den
approximierten Werten für die ersten beiden Momente arbeitet.
Saison
2008-2009
2007-2008
2006-2007
2005-2006
2004-2005
2003-2004
2002-2003
2001-2002
2000-2001
1999-2000
Total
λ̂
2.42
2.28
2.72
2.30
2.31
2.68
3.23
2.47
3.05
2.44
2.50
Bundesliga
ν̂
p-Wert a
0.77
0.85
0.86
0.63
0.99
0.75
0.88
0.21
0.88
0.99
1.00
0.37
1.19
0.19
0.92
0.97
1.09
0.51
0.93
0.75
0.92
0.09
Tabelle 11:
Erste Liga
λ̂
ν̂
p-Wert
3.25 1.12 0.40
4.00 1.23 0.05
3.00 1.01 0.06
2.82 1.02 0.50
2.82 1.00 0.23
2.27 0.81 0.01
2.85 0.97 0.79
3.39 1.10 0.38
3.58 1.11 0.92
2.87 1.08 0.01
3.00 1.03 0.09
Frauenliga
λ̂
ν̂
p-Wert
4.68 1.01 0.98
2.40 0.60 0.89
2.12 0.45 0.91
2.42 0.60 0.21
3.37 0.83 0.73
1.80 0.40 0.01
2.02 0.46 0.73
2.25 0.55 0.37
2.74 0.63 0.11
1.05 0.09 0.01
2.12 0.50 0.01
Ergebnisse Momentenmethode
a Chi-Quadrat-Test
In der Praxis zeigt sich aber, dass diese Approximationen für die Daten der österreichischen Bundesliga, der Ersten Liga und der Frauenliga nahezu die selben Werte wie bei
der exakten Berechnung liefern. Zieht man zum Vergleich der drei Schätzmethoden die
p-Werte und die Diagramme mit den Anpassungen an die wahren Torhäugkeiten heran, so zeigt sich, dass die weighted least squares Regression höchstens das Niveau von
ML-Schätzung und Momentenmethode hält.
23 vgl.
Rinne H., Taschenbuch der Statistik, S.458, 4. Auage (2008), Harri Deutsch Verlag
37
5
Zusammenfassung
In dieser Bakkalaureatsarbeit wurde versucht, an Hand des Beispieles der Torhäugkeiten im österreichischen Profuÿball die verschiedenen Möglichkeiten der Behandlung von
diskreten Daten zu veranschaulichen.
Im einem ersten Ansatz wurde die Anzahl der erzielten Tore mittels der gewöhnlichen
Poissonverteilung modelliert. Man verwendet in diesem Zusammenhang immer das Adjektiv gewöhnlich, um eine klare Trennung der Poissonverteilung und der in dieser Arbeit
ebenfalls beschriebenen Conway-Maxwell-Poissonverteilung zu erhalten. Neben der Beschreibung der diskreten Verteilung, der Herleitung der ersten beiden Momente und der
Maximum-Likelihood-Schätzer, wurde ebenfalls der Poissonness-Plot eingeführt. Dieses
graphische Hilfsmittel soll dem Anwender dabei helfen, eine rasche Entscheidung über die
Richtigkeit der Verteilungsannahme treen zu können, ohne auf zeitaufwendige, parametrische Tests, zurückgreifen zu müssen.
Der in diesem Abschnitt ebenfalls vorgestellte Chi-Quadrat-Test auf Verteilungsanpassung
dient in erster Linie dazu die gewöhnliche Poissonverteilung mit der negativen Binomialverteilung und der COM-Poissonverteilung und den unterschiedlichen Schätzmethoden
vergleichen zu können.
In den meisten Fällen lieferte die Anpassung der Torhäugkeiten mittels der gewöhnliche Poissonverteilung -wenig überraschend- sehr brauchbare Ergebnisse. Dies verwundert
insofern nicht, weil die Poissonverteilung eine der am meist verwendeten diskreten Verteilungen ist. Wenn sich jedoch Stichprobenmittelwert und Stichprobenvarianz unterscheiden, dann sieht man sich gezwungen, auf andere diskrete Verteilungen zurückzugreifen,
da die Poissonverteilung nur einen frei wählbaren Parameter besitzt.
Der zweite Abschnitt dieser Arbeit beschäftigte sich daher mit der zweiparametrigen Negativen Binomialverteilung und dem Versuch zur Lösung des oben genannten Dispersionsproblems. Für Stichproben mit einer gröÿeren Stichprobenvarianz als dem Stichprobenmittelwert, also beim Vorliegen einer Überdispersion, erhält man mit der Negative
Binomialverteilung ausgezeichnete Ergebnisse. Tritt bei einer Stichprobe eine Unterdispersion auf, so können die Parameter der Verteilung mit der Momentenmethode nicht
mehr geschätzt werden. Damit wird die Negative Binomialverteilung für eine solche Problemstellung disqualiziert.
Die in nicht geschlossener Form vorhandenen ML-Schätzer liefern trotzdem ein Ergebnis,
mit p̂ nahe 1 und r sehr groÿ, konvergiert die Negative Binomialverteilung gegen die Poissonverteilung. Aus diesem Grund sind die p-Werte des Chi-Quadrat Tests für die einzelnen
Saisonen nahezu identisch. Zusammenfassend lässt sich sagen, dass man mit der Nega38
tiven Binomialverteilung in der Lage ist, die Überdispersion in den Gri zu bekommen.
Mit dem Resultat, dass man die Daten damit sehr gut modellieren kann.
Um aber auch mit anderen Datensituationen umgehen zu können, wurde im letzten Abschnitt dieser Arbeit das Augenmerk auf die von Conway und Maxwell entwickelte COMPoissonverteilung eingegangen.
Diese Verteilung erlaubt es mit ihrem zweiten Parameter ν die Abweichung von Mittelwert und Varianz nach oben und unten zu berücksichtigen. Ein weitere groÿer Vorteil
der COM-Poissonverteilung ist, dass sie zu den Mitgliedern der Exponentialfamilie zählt.
Die Erweiterung und Verallgemeinerung der gewöhnlichen Poissonverteilung beinhaltet
einige bekannte diskrete Verteilungen wie die Bernoulli, die Geometrische und natürlich
die Poisson.
Obwohl die COM-Poisson-Verteilung bereits vor mehr als 40 Jahren erstmals beschrieben
wurde und viele gute Eigenschaften besitzt, ndet sie in der Literatur bis heute nur wenig
Anklang. Ein Grund dürfte sicherlich der computerintensive Aufwand bei den einzelnen
Berechnungen sein, da die Schätzer der Verteilung nicht in geschlossener Form angegeben werden können. In dieser Arbeit wurden drei verschiedene Schätzmethoden vorgestellt
und miteinander verglichen. Die weighted least squares Schätzung schnitt von den drei Berechnungsmöglichkeiten aus meiner Sicht am schlechtesten ab. Die gelieferten Ergebnisse
stehen nicht in Relation zu den intensiven Berechnungen, da man vergleichsweise mit den
approximierten Werten für Mittelwert und Varianz und der Mometnenmethode genauso
gute Resultate erhält. Einzig der COM-Poissonness-Plot bietet eine elegante Möglichkeit,
um die vorliegenden Daten auf die Richtigkeit der Verteilungsanpassung überprüfen zu
können.
Die besten Ergebnisse erzielte man mit der ML-Schätzung. Diese ist von den Vorbereitungen zwar die aufwendigste der drei vorgestellten Methoden. Wenn aber der Algorithmus
einmal programmiert ist, dann konvergiert er bereits nach wenigen Iterationen. Es ist zu
empfehlen diese Art der Berechnung zu verwenden, weil dabei mit Abstand der meiste
theoretische Hintergrund in die Berechnung mit einieÿt und sich die gesamten, guten
Eigenschaften in den Ergebnissen der ML-Schätzer widerspiegeln (z.B. Exponentialfamilie). Momentenmethode und weighted least squares Regression dienen eher dazu, um sich
einen ersten Überblick über die Gestalt und Form der Verteilung zu verschaen.
Der Vollständigkeit halber muss eine vierte Variante noch erwähnt werden, die aber in
dieser Arbeit nicht berücksichtigt wurde. Es handelt sich dabei um die Bayesianische
Herangehensweise zu Parameterschätzung. Da die COM-Poissonverteilung zur Exponentialfamilie gehört gibt es eine Familie konjugierter priori Verteilungen, sodass unabhängig
von den Daten die posteriori Verteilung die selbe Form besitzt. λ und ν können dann
39
mittels Maximum-Posteriori-Schätzer bestimmt werden.
Die Methode wird als simple und einfach beschrieben, dies trit aber nur auf das Aufstellen
der posteriori Verteilung zu. Der Algorithmus zur Schätzung ist hingegen ähnlich komplex
wie jener der klassischen Maximum-Likelihood- Schätzung24 .
5.1 Anmerkungen
Die einzelnen Algorithmen wurden im Programmpaket R(Version 2.8.1) umgesetzt und
mit dem bestehenden Paket compoisson(Version 0.3, 2008) verglichen. Im nachfolgenden
Appendix benden sich die Programmcodes der wichtigsten Funktionen, die man braucht,
um mit der COM-Poisson-Verteilung arbeiten zu können. So liefert die Funktion zum Erzeugen COM-Poisson-verteilter Zufallszahlen (bei xem Startwert) die selben Ergebnisse.
Die Berechnung der Normalisierungskonstanten Z und der Expectation-Funktion unterscheiden sich im hinteren Nachkommabereich. Um mit den vorhandenen Daten möglichst
ezient arbeiten zu können, wurden für die Auswertung die eingebauten Funktionen verwendet, da diese optimiert wurden.
Der im Paket implementierte ML-Algorithmus ist für die praktische Anwendung nicht
geeignet, da er in die meisten Fällen nicht konvergiert. Der Entwickler greift dabei auf
eine R-Optimierungsfunktion zurück, wobei die Abbruchkriterien nicht vollständig deniert sind (Gefahr einer Endlosschleife). Der selbst geschriebene Algorithmus konvergiert
aber bereits nach wenigen Schleifendurchläufen. Die weighted least squares Regression zur
Schätzung der Parameter und der COM-Poissonness-Plot waren noch in keinem Paket
vorhanden, lieferten aber in der Simulationsstudie die selben Schätzer, wie MaximumLikelihood- Schätzung und die Momentenmethode.
Für die Berechnungen der Schätzer der Poisson- bzw. Negativ Binomialverteilung wurde
auf die im Programm implementierten Methoden zurückgegrien. Dies gilt ebenfalls für
den Chi-Quadrat-Test auf Verteilungsanpassung. Hier heiÿt es nur zu beachten, die Parameter in der richtigen Form zu übergeben, um den für diese Problemstellung korrekten
Test zu erhalten (wurde durch händisches Nachrechnen überprüft).
24 vgl.
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Conjugate Analysis of the ConwayMaxwell-Poisson Distribution, International Society for Bayesian Analysis 2006
40
6
Appendix
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#
COM−Poisson Zufallszahlen
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
l i b r a r y ( compoisson )
nu=2.14
lambda =7.68
n=1000
. seed (12345)
z u f a l l=r u n i f ( n , 0 , 1 )
z a h l=c ( )
set
for (
i in 1: n){
prob=com . compute . z ( lambda , nu ) ^( − 1)
sum=com . compute . z ( lambda , nu ) ^( − 1)
j =0
while ( sum<=z u f a l l [ i ] ) {
prob=prob ∗ lambda / ( j +1)^nu
sum=sum+prob
c a t ( j , " prob : " , prob , " sum : " , sum , "\n" )
j=j +1
}
z a h l=c ( zahl , j )
}
table (
zahl )
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#Vergleich mit R−Paket
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
. seed (12345)
t a b l e ( rcom ( 1 0 0 0 , 7 . 6 8 , 2 . 1 4 ) )
set
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#
Berechnung von Z
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
l i b r a r y ( compoisson )
nu=2.14
lambda =7.68
41
e r r o r =0.001
z=f u n c t i o n ( lambda , nu , e r r o r ) {
change=1
sum=0
j =0
while ( change>=e r r o r ) {
sum_a l t=sum
sum=sum_a l t+lambda^ j / f a c t o r i a l ( j )^nu
change=abs ( sum−sum_a l t )
j=j +1
}
return ( sum )
}
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#Vergleich mit R−Paket
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
com . compute . z ( lambda , nu )
z ( lambda , nu , e r r o r )
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#
COM−Poisson expectation function
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
l i b r a r y ( compoisson )
nu=2.14
lambda =7.68
e r r o r =0.001
e x p e c t=f u n c t i o n ( e , lambda , nu , e r r o r ) {
f=f u n c t i o n ( x , e ) x^e
change=1
e x p e c t f=0
j =1
while ( change>=e r r o r ) {
e x p e c t f_a l t=e x p e c t f
e x p e c t f=e x p e c t f_a l t +( f ( j , e ) ∗ lambda^ j ) / ( z ( lambda , nu , e r r o r ) ∗ f a c t o r i a l
( j )^nu )
change=abs ( e x p e c t f − e x p e c t f_a l t )
j=j +1
}
return ( e x p e c t f )
}
42
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#Vergleich mit R−Paket
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#Erwartungswert
x=f u n c t i o n ( x ) x
com . e x p e c t a t i o n ( x , lambda , nu )
#the same
com . mean ( lambda , nu )
e x p e c t ( 1 , lambda , nu , e r r o r )
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#
Bsp . Poissonness −Plot
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
k=0:7
x_k=l o g ( matrix [ , 2 ] )
g e s=x_k+l o g ( f a c t o r i a l ( k ) )
plot (
k , ges , pch =20 ,main=" P o i s s o n n e s s Plot " ,
ylab=e x p r e s s i o n ( paste ( " l o g ( " , x [ k ] , " )+" , " l o g ( " , x [ k ] , " ! ) " ) )
)
#Schätzer berechnen
lambdadach=sum ( k ∗ matrix [ , 2 ] ) / n
#geschätzte Gerade
a b l i n e ( l o g ( n )−lambdadach
, l o g ( lambdadach ) , c o l=" red " , l t y =2)
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#
MLE − Estimation
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
com . ml=f u n c t i o n ( random , n ) {
x1=f u n c t i o n ( x ) x
x2=f u n c t i o n ( x ) x^2
l x=f u n c t i o n ( x ) l o g ( f a c t o r i a l ( x ) )
l x 2=f u n c t i o n ( x ) {
z=( l o g ( f a c t o r i a l ( x ) ) )
d=z ^2; return ( d )
}
x l x=f u n c t i o n ( x ) x ∗ l o g ( f a c t o r i a l ( x ) )
thetanew =
epsrel = 1
c ( l o g ( mean ( random )
) ,1)
43
iterations = 0
while (
e p s r e l > 10^( − 5) ) {
t h e t a = thetanew
#Berechnet E(X)
ex=com . e x p e c t a t i o n ( x1 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] )
#Berechnet VAR(X)
vx=com . e x p e c t a t i o n ( x2 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) −com . e x p e c t a t i o n ( x1 ,
exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) ^2
#E( log (X ! ) )
e l x=com . e x p e c t a t i o n ( lx , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] )
#VAR( log (X ! ) )
v l x=com . e x p e c t a t i o n ( lx2 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) −com . e x p e c t a t i o n ( lx ,
exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) ^2
#COV(X, log (X ! ) )
c x l x=com . e x p e c t a t i o n ( xlx , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) −com . e x p e c t a t i o n ( x1
, exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) ∗com . e x p e c t a t i o n ( lx , exp ( t h e t a [ 1 ] ) , t h e t a
[2])
#Formel von Seite 7
g r a d i e n t=c ( mean ( random )−ex , −mean ( l o g ( f a c t o r i a l ( random ) ) )+e l x ) ∗ n
g r a d i e n t d 2=matrix ( c (− vx , cxlx , cxlx , − v l x ) , nrow=2,byrow=TRUE) ∗ n
i n v g r a d i e n t d 2=s o l v e ( g r a d i e n t d 2 )
#neues Theta
thetanew=theta − i n v g r a d i e n t d 2 % ∗ % g r a d i e n t
e p s r e l=max( abs ( ( thetanew −t h e t a ) / t h e t a ) )
i t e r a t i o n s = i t e r a t i o n s +1
}
iterations
return ( l i s t ( lambda=exp ( thetanew [ 1 ] ) , nu=thetanew [ 2 ] ) )
}
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#
Weighted l e a s t squares Regrerssion
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
com . weighted=
44
f u n c t i o n ( matrix
, anzahl ) {
var =(1 / ( matrix [ 1 : ( length ( matrix [ , 1 ] ) − 1) , 2 ] ∗ anzahl ) ) +(1 / ( matrix [ 2 : length
( matrix [ , 1 ] ) , 2 ] ∗ anzahl ) )
cov=−(1/ ( matrix [ 2 : ( length ( matrix [ , 1 ] ) − 1) , 2 ] ∗ anzahl ) )
t e s t=matrix [ , 2 ] / anzahl
x=l o g ( seq ( 1 : ( length ( matrix [ , 1 ] ) −1) ) )
y=l o g ( t e s t [ 1 : ( length ( matrix [ , 1 ] ) −1) ] ) −l o g ( t e s t [ 2 : length ( matrix [ , 1 ] ) ] )
weight=diag ( var )
f o r ( i i n 1 : ( length ( weight [ , 2 ] ) − 1) ) {
weight [ i , i +1]= cov [ i ] ; weight [ i +1, i ]= cov [ i ]
}
X=matrix ( c ( rep ( 1 , length ( x ) ) , x ) , nrow=length ( x ) , n c o l =2)
inv=s o l v e ( weight )
s c h ä t z e r=s o l v e ( t (X)%∗% inv %∗% X) %∗% t (X) %∗% inv %∗% y
e r g= l i s t (Lambda=exp(− s c h ä t z e r [ 1 ] ) , nu=s c h ä t z e r [ 2 ] , S t e i g u n g=s c h ä t z e r [ 1 ] )
return ( e r g )
}
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
#
COM − Poissonness Plot
#−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−#
com . p l o t=
f u n c t i o n ( matrix
, anzahl ) {
t e s t=matrix [ , 2 ] / anzahl
x=l o g ( seq ( 1 : ( length ( matrix [ , 1 ] ) −1) ) )
y=l o g ( t e s t [ 1 : ( length ( matrix [ , 1 ] ) −1) ] ) −l o g ( t e s t [ 2 : length ( matrix [ , 1 ] )
])
e r g=com . weighted ( matrix , anzahl )
p l o t ( x , y , pch =20 ,main="COM− P o i s s o n Plot " , xlab=" l n ( x ) " , ylab=" l n ( x − 1)−
ln (x)")
a b l i n e ( as . numeric ( e r g [ 3 ] ) , as . numeric ( e r g [ 2 ] ) , c o l=" red " )
return ( e r g )
}
45
7
Literaturverzeichnis
Casella G., Berger R.L.
Statistical Inference, Second Editon 2002, Duxbury
A queuing model with state dependent service rates, Journal of Industrial Engineering 12, (1962), pp. 132-136
Conway R. W., Maxwell, W. L.
Einführung in die nichtparametrische Statistik mit SAS und R, 1. Auage (2008),
Physica-Verlag
Duller C.
Wahrscheinlichkeitsrechnung und Statistik, 1. Auage (1989), Wien Springer-Verlag
Hafner R.
A Poissonness Plot, The American Statistican, Vol. 34, No. 3, (August, 1980),
pp. 146-149
Hoaglin D.C.
Useful moment and CDF formulations for the COM-Poisson distribution, Statistical Papers, Volume 50, Number 3 (Juni 2009), pp. 617-622
Nadarajah S.
Collegiate Scores and the Negative Binomial Distribution, Journal of the American
Statistical Association, Vol. 68, No.342 (Jun., 1973), pp. 351-352
Pollard R.
Rinne H.
Taschenbuch der Statistik, 4. Auage (2008), Harri Deutsch Verlag
A Useful Distribution for
Fitting Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54,(2005),
pp. 127-142
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P.
Computing with the COMPoisson distribution, downloaded from: http://www.stat.cmu.edu/tr/tr776/tr776.html
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P.
Conjugate Analysis of
the Conway-Maxwell-Poisson Distribution, International Society for Bayesian Analysis
2006
Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P.
Taschenbuch mathematischer Formeln und moderner Verfahren, 4. Auage (2007),
Harri Deutsch Verlag
Stöcker H.
46