Als Muster eine mit Sehr Gut beurteilte Bachelorarbeit
Transcription
Als Muster eine mit Sehr Gut beurteilte Bachelorarbeit
Institut für Angewandte Statistik Johannes Kepler Universität Linz Analyse von Torhäugkeiten Die Conway-Maxwell-Verteilung Bakkalaureatsarbeit Alexander Stöger Betreuer: Univ.Prof. Mag.Dr. Werner G. Müller Oktober 2009 Inhaltsverzeichnis 1 2 Einleitung 4 1.1 Beschreibung des Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . . 6 Poissonverteilung 8 2.1 Poissonness-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Chi-Quadrat-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3 Negative Binomialverteilung 15 3.1 Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4 COM-Poisson-Verteilung 20 4.1 Berechnung von Z(λ, ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2 Momente der Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3 Suziente Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.4 WLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.4.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.5 Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . 32 4.5.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.6 Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.6.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1 5 Zusammenfassung 38 5.1 Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6 Appendix 41 7 Literaturverzeichnis 46 Abbildungsverzeichnis 1 Poissonness-Plot Frauenliga 2008/2009 . . . . . . . . . . . . . . . . . . . . 10 2 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3 Vergleich Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4 Summe COM-Poisson verteilter Zufallszahlen . . . . . . . . . . . . . . . . 22 5 Entwicklung der Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 6 Wahl der Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 7 Simulation:Schätzmethoden . . . . . . . . . . . . . . . . . . . . . . . . . . 31 8 Saison 2008-2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Tabellenverzeichnis 1 Anzahl der Spiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Frauenbundesliga 2008/2009 . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 beobachtete und erwartete Häugkeiten . . . . . . . . . . . . . . . . . . . . 12 4 Ergebnisse Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 13 5 Ergebnisse Negative Binomialverteilung Teil I. . . . . . . . . . . . . . . . . 17 6 Ergebnisse Negative Binomialverteilung Teil II. . . . . . . . . . . . . . . . 18 2 7 Vergleich E(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 8 Vergleich Var(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 9 Ergebnisse WLS-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . 30 10 Ergebnisse ML-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 11 Ergebnisse Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . 37 3 1 Einleitung Diese Bakkalaureatsarbeit beschäftigt sich mit der Modellierung von Torhäugkeiten im österreichischen Profuÿball, mit dem Hauptaugenmerk auf die Conway-Maxwell-PoissonVerteilung (kurz: COM-Poisson). Die Idee zu dieser Arbeit entstand im Zusammenhang mit der Lehrveranstaltung "Statistische Projekte" und dem veranstalteten Minisymposium zur UEFA-Europameisterschaft in Österreich und der Schweiz 2008. ProfessorInnen, MedizinerInnen und StudentInnen präsentierten ihre Forschungsarbeiten mit einem fuÿballbezogenen Hintergrund. Unter anderem wurde versucht, die gefallenen Tore in Länderspielen mittels der gewöhnlichen Poissonverteilung zu modellieren. Darüber hinaus, wurde ein kurzer Ausblick auf andere vielversprechende Verteilungen gegeben, um Resultatsverbesserungen zu erzielen. Die COM-Poisson-Verteilung ist die Verallgemeinerung der gewöhnlichen Poissonverteilung, die in der Statistik zu den meist verwendeten diskreten Verteilungen zählt. Sie wird auch gerne als "die Verteilung der seltenen Ereignisse" bezeichnet. Jedoch ist die Poissonverteilung durch nur einen Parameter in ihrer Flexibilität in gewissen Fällen sehr eingeschränkt. Bei echten Zähldaten (z.B. Toren im Fuÿball) ist es im Allgemeinen nicht der Fall, dass Mittelwert und Varianz gleich sind. Es ist daher mit der gewöhnlichen Poissonverteilung nicht möglich, Über- bzw. Unterdispersion zu behandeln. Doch gerade dies ist ein immer wieder kehrendes Problem in der Anwendung. Eine erste Alternative bzw. Abhilfe zur Lösung bietet die Negative Binomialverteilung. Es wird sich zeigen, dass die Summe von n unabhängigen COM-Poisson verteilten Zufallsvariablen der Negative Binomialverteilung folgen (für ν = 0 und λ < 1). Im ersten Schritt versucht man, die erhobenen Daten mittels der gewöhnlichen Poissonverteilung anzupassen. Bei den Daten handelt es sich um die Anzahl der erzielten Tore der Bundesliga, der Ersten Liga und der österreichischen Frauenbundesliga der letzten 10 Jahre. Nähere Information zu den Daten ndet sich im Punkt "Beschreibung des Datensatzes". Um eine schnelle Überprüfung der Verteilungsannahme bei einer bestimmten Datenlage zu ermöglichen, wird aus diesem Grund zunächst der von Hoaglin entwickelte PoissonnessPlot eingeführt und danach eine Maximum-Likelihood-Schätzung durchgeführt, um die Güte der erhaltenen Ergebnisse mit einem Chi-Quadrat-Test auf Verteilungsanpassung (Goodness of t) zu überprüfen. Danach wird man sehen, dass sich die Poissonverteilung zwar in vielen Fällen für die Anpassung der Torhäugkeiten eignet, aber man nicht alle Ligen bzw. ihre einzelnen Saisonen gleich gut damit modellieren kann. 4 Im zweiten Schritt wählt man mit der Negativ-Binomialverteilung eine zweiparametrige Verteilung, um die Ergebnisse für die Proligen mit unterschiedlichem Mittelwert und Varianz zu verbessern. Zur Schätzung der Parameter bietet sich in diesem Fall die Momentenmethode an, da die Schätzer hier in geschlossener Form angegeben werden können. Die ML-Schätzung kann aber auch leicht mit einem Newton-Optimierungsalgorithmus erzielt werden. Wie auch schon bei der Poissonverteilung wird wieder die Güte der geschätzten Ergebnisse mittels parametrischen Tests überprüft. Der Schwerpunkt dieser Bakkalaueratsarbeit liegt jedoch auf der COM-Poisson-Verteilung. Sie wird zunächst allgemein eingeführt und vorgestellt. Graken sollen dabei helfen diese alte, jedoch vielen unbekannte, Verteilung dem Leser zugänglich zu machen. Es wird sich gezeigen, dass im Zeitalter des Computers eine in nicht geschlossener Form vorliegende Verteilung niemand abschrecken sollte. Für die spätere Schätzung der Parameter werden die statistischen Eigenschaften, die Berechnung oder Approximation der Momente beschrieben und damit der Beweis erbracht, dass die COM-Poisson-Verteilung ein Mitglied der Exponentialfamilie ist. Ein Schwerpunkt wird auf der Parameterschätzung liegen, um dann zu überprüfen ob die COM-Poisson-Verteilung für die erhobenen Daten den anderen Verteilungen vorzuziehen ist. Die erste Schätzung wird mittels des COM-Poissonness-Plot und einer weighted least squares Regression durchgeführt. Wobei natürlich auch der COM-Poissonness-Plot eingeführt wird. Die zweite Schätzmöglichkeit gilt als die genaueste, gleichzeitig aber auch als die rechenintesivste: die Maximum-Likelihood-Schätzung! Dazu wird zuerst die Newton-RaphsonscheMethode erklärt werden. Trotz der vielen nötigen Berechnungen in jedem einzelnen Schritt des Algorithmus wird bei der vorliegenden Datensituation nach nur wenigen Schleifendurchgängen schon eine Konvergenz erzielt. Die dritte Methode ist die am schnellsten durchführbare und umsetzbare. Man benötigt dazu nur die approximierten oder errechneten Werte für Mittelwert und Varianz und gelangt mit Hilfe eines Mathematikprogrammes und der Momentenmethode zu den gesuchten Schätzern. Die einzelnen Schätzverfahren der COM-Poisson-Verteilung werden an Hand von 5000 COM-Poisson verteilten Zufallszahlen vorgestellt und erst dann auf den realen Datensatz angewandt. Diese Variante ermöglicht einen besseren Vergleich zwischen den Methoden, man erkennt den COM-Poissonness-Plot eindeutig,was sich allerdings in der Praxis oft als Problem herausstellt und viel Raum für verschiedene Interpretationen lässt. Weiters ist in der Wirklichkeit der Übergang zwischen COM-Poisson und gewöhnlicher Poissonverteilung oft ein ieÿender (für ν nahe 1), daher wurde für die Vorstellung der Methoden dieser Weg gewählt. 5 1.1 Beschreibung des Datensatzes Zur Vorstellung der einzelnen Verteilungen und der Modellierung von Torhäugkeiten wurden die Ergebnisse der österreichischen Profuÿballligen ermittelt. Dazu zählen die Bundesliga (höchste Spielklasse) und die Erste Liga (zweithöchste Spielklasse) der Männer und die Frauenbundesliga. Erhoben wurden die Spiele der letzten 10 Jahre, welche die Saisonen 1999/2000 bis 2008/2009 umfassen. Es können damit die einzelnen Saisonen jeder Spielklasse analysiert werden-und zwar alle Spiele der einzelnen Klassen über den gesamten Zeitraum, alle Spiele der Männer und alle Spiele der Frauen. Die Frauenbundesliga wird als Spezialfall betrachtet, da hier deutlich mehr Tore fallen, daher sollte sich diese für die COM-PoissonVerteilung besonders gut eignen. Bundesliga Saison Spiele Tore a 2008-2009 180 3.27 2007-2008 180 2.66 2006-2007 180 2.73 2005-2006 180 2.62 2004-2005 180 2.65 2003-2004 180 2.67 2002-2003 180 2.59 2001-2002 179 2.70 2000-2001 180 2.73 1999-2000 180 2.65 σ2 4.06 3.00 2.76 2.89 2.95 2.67 2.25 2.89 2.56 2.82 Tabelle 1: a Variable Erste Liga Frauenbundesliga Spiele Tore σ 2 Spiele Tore σ 2 198 2.79 2.54 85 4.55 4.53 198 2.98 2.51 85 4.57 7.40 198 2.95 2.94 90 5.87 11.47 180 2.74 2.70 90 4.61 7.13 180 2.80 2.79 90 4.41 5.23 180 2.87 3.42 90 4.98 10.55 180 2.92 2.98 90 5.23 10.20 180 2.96 2.73 110 4.71 7.83 180 3.08 2.83 90 5.24 7.93 180 2.60 2.45 56 6.66 19.82 Anzahl der Spiele Tore:durchschnittlich erzielte Tore pro Spiel Insgesamt wurden 4529 Spiele erhoben. Die unterschiedliche Anzahl von Spielen in den einzelnen Klassen sollte nicht verwundern. Es handelt sich mit einer Ausnahme nicht um fehlende Werte, sondern um eine Veränderung der jeweiligen Ligastruktur. In der Bundesligasaison 2001/2002 war das Spiel Sturm Graz gegen FC Salzburg im Bundesligaarchiv nicht dokumentiert. Da aber nicht die einzelnen Spiele oder Vereine modelliert werden, wurde auf eine Nacherhebung und erneute Datenaufbereitung verzichtet. Die Erste Liga unterscheidet sich in den letzten drei Saisonen von den anderen, weil die Meisterschaft anstatt mit 10 mit 12 Mannschaften bestritten wurde. Bei der Frauenbundesliga ergeben sich noch mehr Unterschiede, weil neben der Anzahl der Vereinen auch noch der Spielmodus mehrmals verändert wurde. So wurde neben dem bekannten Meisterschaftsmouds auch eine Variante mit einem Grunddurchgang und anschlieÿendem unteren und oberen Play-o ausgetragen. 6 Für die Analyse und Verteilungsanpassung der einzelnen Ligen dürfte diese Änderungen sich als sehr viel versprechend und interessant erweisen, weil sich neben der zeitlichen Komponente auch die Spielcharakteristik verändert. In Play-o Spielen wird ein anderes, ein vorsichtigeres taktisches Verhalten, an den Tag gelegt, welches sich auf die Anzahl der gefallenen Tore auswirkt. Die Honung dabei ist, dass sich dies in der verschiedenen Wahl der Verteilungen widerspiegelt. Datenquellen • Ozielle Bundesligahomegage mit umfassendem Archiv und statistischer Daten- bank: www.bundesliga.at Von hier wurden sämtliche Bundesliga- und Erste Ligaspiele erhoben. Das Archiv für die Frauenbundesliga war unvollständig, daher wird auf folgende weitere Quellen zurückgegrien. • Von der Interntseite www.fussballoesterreich.at wurde ein Teil der fehlenden Saisonen der Frauenbundesliga erhoben. Diese Homepage beinhaltet auÿerdem viel Information zu den Landesverbänden und der Nachwuchsarbeit. • Die fehlenden Saisonen wurden vom Serienmeister der Frauenbundesliga, Neuleng- bach, und dessen gut dokumentiertem Archiv erhoben. Unter www.neulengbach.at Die Ergebnisse aller Spiele, mit Anzahl der erzielten Tore für Heim- und Gastmannschaft, wurden von den Ergebnissrastern der einzelnen Archive der Internetseiten händisch ins Programm Excel übertragen und anschlieÿend die Anzahl der gefallenen Tore ermittelt. Die Daten wurden dementsprechend bearbeitet, um sie in einem Arbeitschritt in das csvFormat umzuwandeln und anschlieÿend in das Programmpaket R einzuspielen. In einem letzten Schritt der Datenaufbereitung wurden hier noch die Anzahl der Tore als Matrix erfasst, da sich diese Form des Datentypes besonders gut für die Weiterverarbeitung eignet. Beispiel A 0 1 2 .. . B 17 27 45 ( = A : gefallene Tore im Spiel B : Anzahl der Spiele .. . 7 2 Poissonverteilung Die diskrete Poissonverteilung zählt zu den wichtigsten Verteilungen der Wahrscheinlichkeitstheorie und wird zur Beschreibung vieler Naturphänomene verwendet1 . Die Dichte der Verteilungsfunktion lautet: P(X = k) = λk −µ e k! für k ∈ {0, 1, 2, . . . } (1) Die Poissonverteilung lässt sich aus der Binomialverteilung Bn,p für p → 0 und n → ∞ herleiten und wird aus diesem Grund auch Verteilung der seltenen Ereignisse genannt. Momente Erwartungswert: ∞ X λk k e−λ E(X) = k! k=0 −λ =e ∞ X k=0 (2) ∞ X λk−1 λk −λ =e λ (k − 1)! (k − 1)! k=1 (3) (4) = e−λ eλ λ = λ Varianz: E(X 2 )= = ∞ X k=0 ∞ X k k 2 λ −λ k! k(k − 1) k=0 =e (5) e ∞ λk −λ X λk −λ e + k e k! k! k=0 ∞ X λk−2 λ +λ (k − 2)! k=2 −λ 2 (6) (7) (8) = λ2 + λ (9) Var(X) = E(X 2 ) − E(X)2 (10) = λ2 + λ − λ2 = λ (11) Die Herleitung der ersten beiden Momente zeigt die Gleichheit von Erwartungswert und Varianz. Damit verbunden ist die eingeschränkte Nutzung der Poissonverteilung, bei Stichproben mit groÿen Dierenzen dieser beiden Werte. 1 vgl. Verlag Hafner R., Wahrscheinlichkeitsrechnung und Statistik, S.58, 1. Auage (1989), Wien Springer- 8 2.1 Poissonness-Plot Ein Test auf Verteilungsanpassung ist zwar ein probates Mittel zu Analyse, beinhaltet jedoch einen erheblichen zeitlichen Aufwand. Es erweist sich logischerweise als praktisch eine schnellere Überprüfungsmöglichkeit zu konstruieren. Abhilfe zu diesem Problem bietet der von Hoaglin2 entwickelte Poissonness-Plot, ob die Poissonverteilung für die beobachtete Häugkeitsverteilung geeignet ist. Der Plot wird folgendermaÿen aufgebaut: Man bezeichnet die beobachteten Häugkeiten mit {x0 , x1 , x2 , . . . }. So bezeichnet beispielsweise x0 die Anzahl der erhobenen Werte, welche die Ausprägung 0 besitzen. D.h. die Anzahl der Spiele, die mit einem Remis endeten. Die Anzahl der Spiele ergibt sich folglich mit N = x0 + x1 + x2 + . . . Die erwarteten Häugkeiten einer Stichprobe der Gröÿe N werden folgendermaÿen berechnet: λk mk = N × P(X = k) = N e−λ für k ∈ {0, 1, 2, . . . } (12) k! Der Poissonness-Plot wird durch folgende Überlegung hergeleitet. Für einen festen Wert λ und der Annahme die beobachteten Häugkeiten xk entsprechen den erwarteten Häugkeiten mk , wird die obere Gleichung logarithmiert. log(xk ) = log(N) − λ + k log(λ) − log(k!) log(xk ) + log(k!) = log(N) − λ +k log(λ) | {z } | {z } Intercept (13) (14) Steigung Bei korrekter Annahme der Poissonverteilung liegen die geplotteten Werte von log(xk ) + log(k!) gegen k auf einer Geraden. k 1 2 3 4 5 6 7 8 9 11 xk 4 9 18 15 14 9 7 5 3 1 log(xk ) 1.38 2.19 2.89 2.70 2.63 2.19 1.94 1.60 1.09 0 Tabelle 2: 2 vgl. log(k!) 0 0.69 1.79 3.17 4.78 6.57 8.52 10.60 12.80 17.50 log(xk ) + log(k!) 1.38 2.89 4.62 5.88 7.42 8.77 10.47 12.21 13.90 17.50 Frauenbundesliga 2008/2009 Hoaglin D.C., A Poissonness Plot, The American Statistican, Vol. 34, No. 3, pp. 146-149 9 Die Tabelle zeigt die berechneten Werte für die Bundesliga der Frauen in der Saison 2008/2009. Abbildung 1: Poissonness-Plot Frauenliga 2008/2009 Plotted man nun diese Werte, dann liegen die Punkte nahezu auf einer Geraden. Die Annahme, die Daten folgen der gewöhnlichen Poissonverteilung, kann beibehalten werden. Die durchgehende rote Linie entspricht der Maximum-Likelihood-Schätzung λ̂, eingesetzt in die Gleichungen für Intercept und Steigung. Es ist theoretisch auch möglich die Linie per Auge an die Datenpunkte anzupassen und den Parameter λ so zu schätzen. Betrachtet man den Plot so stellt sich auf Grund des letzten Punktes die Frage, wie lange gilt die Behauptung: die Punkte liegen auf einer geraden Linie? Das ganze ist daher eine Frage der Variabilität, wie weit kann log(xk ) abweichen, bis man die Verteilungsannahme verwerfen muss. Im Allgemeinen variieren die Grenzen mit λ und der Stichprobengröÿe. Bei groÿen N kann log(xk ) als Beobachtung aus einer Normalverteilung mit Mittelwert log(N pk ) und Varianz (1 − pk )/(N pk ) betrachtet werden (wobei pk = Pλ (X = x)). Für Punkt x11 ergibt sich daher: • 16.77 = 1.51 × 11 − 0.1073 . . . geschätzter Wert aus Geraden • p4.55 (11) = 0.00458 1 − 0.00458 • sd = = 1.598927 0.00458 × 85 . . . aus Poissonverteilung . . . Standardabweichung für x11 Der Punkt liegt nur 0.45 = 17.5−16.77 Standardabweichungen überhalb der geschätzten 1.598 Linie und stellt daher kein Problem dar. 10 2.2 Maximum-Likelihood-Schätzung Die Maximum-Likelihood-Schätzung ist eine der am meisten verwendeten parametrischen Schätzverfahren. Es erlaubt, die vorliegenden Werte als Realisierungen eines Zufallsexperimentes3 zu sehen. Dadurch ist es möglich eine Funktion aufzustellen, welche von einem unbekannten Parameter abhängt, ansonsten aber vollkommen bestimmt ist. Im Falle der Poissonverteilung kann der ML-Schätzer geschlossen angegeben werden und entspricht dem Stichprobenmittelwert x̄. Die Momentenmethode führt auf den selben Schätzer. Die Ableitung des Schätzers sieht folgendermaÿen aus: L(λ|k1 , . . . , kn ) = n Y λki ki ! i=1 log (L(λ|k1 , . . . , kn )) = n X e −λ = λ Pn ki −nλ e i=1 ki ! i=1 Qn ki log(λ) − nλ − i=1 n X log(ki !) (15) (16) i=1 n 1X ∂log(L(λ| . . . )) = ki − n = 0 ∂λ λ i=1 Pn ki λ̂ = i=1 = k̄ n (17) (18) Jetzt gilt es noch zu überprüfen, ob es sich bei dem berechneten Extremwert um einen Hochpunkt handelt. Dazu wird die zweite Ableitung der logarithmierten LikelihoodFunktion betrachtet. n ∂ 2 log(L(λ| . . . )) 1 X =− 2 ki < 0 ⇒ Hochpunkt ∂λ2 λ i=1 (19) 2.3 Chi-Quadrat-Test Um die Qualität der mittels der gewöhnlichen Poissonverteilung und später durch andere Verteilungen geschätzten Torhäugkeiten überprüfen zu können, wird ein Anpassungstest verwendet. Es handelt sich dabei um den Chi-Quadrat-Test auf Verteilungsanpassung4 , welcher in der Literatur auch oft als goodness-of-t test bezeichnet wird. Die Teststatistik ist aber nur annähernd Chi-Quadrat verteilt, wenn die erwarteten Häugkeiten pro Klasse mindestens fünf sind. 3 vgl. Casella G., Berger R.L., Statistical Inference, S.292, Second Editon 2002, Duxbury Duller C., Einführung in die nichtparametrische Statistik mit SAS und R, S.114, 1. Auage (2008), Physica-Verlag 4 vgl. 11 Hypothesen H0 : χ2 = 0 Die Verteilung der Torhäugkeiten entspricht der theoretischen Verteilung der Torhäugkeiten H1 : χ2 > 0 Die Verteilung der Torhäugkeiten entspricht nicht der theoretischen Verteilung der Torhäugkeiten Teststatistik χ2 = r X (ho − he ) i i=1 i hei . . . hoi . . . hei beobachtete Häugkeiten erwartete Häugkeiten Ist die Teststatistik gröÿer als der kritische Wert χ2r−k,1−α wird die Nullhypothese verworfen. D.h. die Verteilung ist nicht für die Modelliereung der Torhäugkeiten geeignet. Beispiel In einem Experiment ist man daran interessiert, ob der vorliegenden Würfel fair, d.h. nicht manipuliert ist (vgl. Vorlesung univariate Verfahren). Bei 36 Würfen mit diesem Würfel erhielt man folgende Ergebnisse: 1 2 3 4 5 6 6 6 7 7 3 7 Tabelle 3: 1 2 3 4 5 6 6 6 6 6 6 6 beobachtete und erwartete Häugkeiten Die Teststatistik berechnet sich wie folgt: χ2 = (7 − 6)2 (6 − 6)2 (6 − 6)2 + + ··· + =2 6 6 6 (20) Der kritische Wert bei einem α-Fehler von fünf Prozent und fünf Freiheitsgraden kann mittels Statistikpragrammpaket(z.B. R) oder durch nachschlagen in einer Tabelle bestimmt werden und lautet: χ25,0.95 = 11.0705. Da die Teststatistik den kritischen Wert nicht überschreitet, kann die Nullhypothese nicht abgelehnt werden. Mit 95%iger Sicherheit handelt es sich im Experiment verwendeten Würfel um einen nicht manipulierten. 12 2.4 Ergebnisse In der Ergebnisstabelle benden sich die Resultate für alle drei Ligen mitsamt den 10 verschiedenen Saisonen. Es wird jeweils der Schätzer für den Parameter λ, entspricht dem Stichprobenmittelwert, die Stichprobenvarianz σ 2 und der p-Wert des durchgeführten Chi-Quadrat-Test ausgegeben. Saison 2008-2009 2007-2008 2006-2007 2005-2006 2004-2005 2003-2004 2002-2003 2001-2002 2000-2001 1999-2000 Total λ̂ 3.27 2.66 2.73 2.62 2.65 2.67 2.59 2.70 2.73 2.65 2.73 Bundesliga σ 2 p-Wert a 4.06 0.73 3.00 0.55 2.76 0.77 2.89 0.18 2.95 0.98 2.67 0.37 2.25 0.07 2.89 0.95 2.56 0.55 2.82 0.69 2.91 0.06 Tabelle 4: Erste Liga λ̂ σ 2 p-Wert 2.79 2.54 0.32 2.98 2.51 0.01 2.95 2.94 0.05 2.74 2.70 0.50 2.80 2.79 0.23 2.87 3.42 0.01 2.92 2.98 0.80 2.96 2.73 0.28 3.08 2.83 0.83 2.60 2.45 0.01 2.87 2.79 0.09 λ̂ 4.55 4.57 5.87 4.61 4.41 4.98 5.23 4.71 5.24 6.66 5.01 Frauenliga σ2 p-Wert 4.53 0.98 7.40 0.72 11.47 0.23 7.13 0.01 5.23 0.59 10.55 0.01 10.20 0.48 7.83 0.51 7.93 0.09 19.82 0.01 9.03 0.01 Ergebnisse Poissonverteilung a Chi-Quadrat-Test Da es sich bei der gewöhnlichen Poissonverteilung um eine einparametrige Verteilung handelt, wo die Varianz dem Mittelwert entspricht, sind gröÿere Abweichungen der Stichprobenvarianz von λ̂ ein Indikator dafür, dass die Verteilung nicht geeignet ist. Der p-Wert des Verteilungsanpassungstests (α-Fehler=5%) soll diese Vermutung untermauern. Bei der vorliegenden Datenlage sollte dies jedoch mit Vorsicht geschehen. Bei der theoretischen Vorstellung und Beschreibung des Tests wird darauf hingewiesen, dass jede Klasse zumindest fünf Werte aufweist. Doch gerade bei den äuÿeren Rändern ist das bei den Torhäugkeiten nicht immer gegeben. Eine nützliche Ergänzung bietet daher der Poissonness-Plot. Eine Kombination der Möglichkeiten führt bei den strittigen Entscheidungen (gerade nicht signikant, Poissonness-Plot nicht ganz eindeutig) aber meist zu vernünftigen Lösungen. Die Tabelle zeigt mit der Poissonverteilung lassen sich Torhäugkeiten von Fuÿballspielen in vielen Fällen sehr gut modellieren und vorhersagen. Dies trit besonders auf die Bundesliga und einzelne Saisonen der Ersten Liga zu. Bei der Bundesliga der Frauen stellt sich die Poissonverteilung aber als wenig geeignet heraus. In vielen Fällen der einzelnen Saisonen liegt eine deutliche Überdispersion vor, d.h. die Stichprobenvarianz ist gröÿer als 13 der Stichprobenmittelwert. Die unterstehende Graphik zeigt die Spielzeit 1999/2000. Hier ist die Varianz mit 19.82 fast drei mal so groÿ wie x̄. Überprüft man die Vermutung, so lehnen sowohl der Poissonness-Plot, als auch der Chi-Quadrat-Test die Poissonverteilung als in diesem Fall nicht geeignet ab. (a) Frauenliga Abbildung 2: (b) Residuen Poissonverteilung Daraus resultieren auch die starken Abweichungen der beobachteten zu den erwarteten Häugkeiten. Im Zentrum der Verteilung sind die Residuen besonders groÿ, auÿerdem werden die seltenen Ereignisse (sehr viele Tore in einem Spiel) gar nicht mehr abgebildet. Es wird daher ein weiterer Parameter zur Modellierung der Überdispersion benötigt, um wie im diesem Fall bessere Vorhersagen zu erhalten. Dass gerade bei der Frauenbundesliga so groÿe Unterschiede auftreten liegt an zwei Gründen. Erstens fallen pro Spiel im Durchschnitt viel mehr Tore (auch die Streuung der einzelnen Spiele ist gröÿer) und es kommt im Vergleich zu den Männern daher viel öfters zu für Fuÿballspiele ungewöhnlichen Spielergebnissen. Zweitens ist die Bundesliga der Frauen nicht so ausgeglichen wie bei den Männern. Hier gibt es zwei dominierende Teams die die Liga für die Poissonverteilung "verfälschen". Daher wird im nächsten Schritt anstelle der einparametrigen Poissonverteilung die zweiparametrige Negative Binomialverteilung verwendet. 14 3 Negative Binomialverteilung Die Binomialverteilung zählt die Anzahl der erfolgreich eingetretenen Ereignisse, bei einer vorher festlegten Anzahl von Bernoulli Versuchen. Die Negative Binomialverteilung hingegen beschreibt die Anzahl der erforderlichen (Fehl-)Versuche bis zum r-ten Erfolg5 . Eine alternative aber äquivalente Denition der Negativen Binomialverteilung ist: der Versuch, bei dem der r-te Erfolg eintritt. r+y−1 r P (Y = y) = p (1 − p)y y y ∈ {0, 1, 2, . . . } (21) Momente Erwartungswert: ∞ X r+y−1 r E(Y ) = y p (1 − p)y y y=0 ∞ X (r + y − 1)! r p (1 − p)y (y − 1)!(r − 1)! y=1 ∞ X r+y−1 r = r p (1 − p)y y − 1 y=1 = (22) (23) (24) nun setzt man für y = z + 1 ⇔ z = y − 1 ein ∞ X r+z r = r p (1 − p)z+1 z z=0 ∞ (1 − p) X (r + 1) + z − 1 r+1 =r p (1 − p)z p z {z } |z=0 (25) (26) =1 (1 − p) =r p (27) Varianz: Anwendung Trick:6 E(X(X − 1)) = E(X)2 − E(X) ∞ X r+y−1 r E(Y (Y − 1))) = y(y − 1) p (1 − p)y y y=0 wie vorher: Binomialkoezienten ausmultiplizieren, kürzen und richtig ergänzen 5 vgl. 6 vgl. Casella G., Berger R.L., Statistical Inference, S.95, Second Editon 2002, Duxbury Casella G., Berger R.L., Statistical Inference, S.131, Second Editon 2002, Duxbury 15 (28) ∞ X r+y−1 r E(Y (Y − 1))) = r(r + 1) p (1 − p)y y − 2 y=2 (29) nun setzt man für y = z + 2 ⇔ z = y − 2 ein ∞ (1 − p)2 X r + 2 + z − 1 r+2 p (1 − p)z = r(r + 1) 2 p z z=0 = r(r + 1) (1 − p)2 p2 (31) (32) Var(Y ) = E(Y (Y − 1))) + E(Y ) − E(Y )2 2 2 (1 − p) (1 − p) 2 (1 − p) − r + r p2 p p2 r(1 − p) = p2 = r(r + 1) (30) (33) (34) 3.1 Schätzmethoden Die Momentenmethode7 zählt zu den ältesten Schätzmethoden und ist in den meisten Fällen sehr leicht anwendbar. Der Nachteil dieser Methode ist aber, dass die erhaltenen Schätzer nicht immer erwartungstreu (siehe Schätzer für σ 2 bei der Normalverteilung) sind. Bei der Poissonverteilung führten sowohl die Maximum-Likelihood-Schätzung als auch die Momentenmethode auf das selbe Ergebnis (λ̂ = x̄). Das ist natürlich nicht immer der Fall und daher werden für die Negative Binomialverteilung beide Varianten berechnet, denn mit einer bedachten Wahl der Schätzmethode lassen sich oft schon bessere Ergebnisse erzielen. Der Vorteil der Momentenmethode ist in diesem Fall, dass die Schätzer in geschlossener Form angegeben werden können. Der ML-Schätzer für den Varianzparameter hingegen liegt nicht in geschlossener Form vor und muss durch ein Optimierungsverfahren, wie z.B. das Newton-Verfahren, berechnet werden. Die Vorgehensweise des Newton-Verfahrens wird an dieser Stelle ausgelassen und nur die Resultate angegeben. Denn das Verfahren stellt einen Schwerpunkt zur Konstruktion der ML-Schätzer der COM-Poissonverteilung dar und wird daher in diesem Kapitel nachgetragen. 7 vgl. Verlag Hafner R., Wahrscheinlichkeitsrechnung und Statistik, S.273, 1. Auage (1989), Wien Springer- 16 Momentenmethode I. II. 1X (1 − p) x̄p xi = r ⇒r= n p (1 − p) 2 X 1 (1 − p) 2 (1 − p) x2i = r + r n p2 p2 (35) (36) r in Gleichung II. einsetzen und kürzen 1 X 2 x̄ xi = + x̄2 n p X 1 x2i − x̄2 p = x̄ n | {z } (37) (38) s2 ergibt folgende Schätzer p̂ = x̄ s2 r̂ = x̄ p̂ (1 − p̂) 3.2 Ergebnisse Obwohl für viele Saisonen der einzelnen Ligen die Poissonverteilung gut geeignet war, wurden interessehalber auch für alle Daten die Schätzer für die Negative Binomialverteilung berechnet. Die unterstehende Tabelle zeigt die Ergebnisse für die Frauenbundeliga. Saison 2008-2009 2007-2008 2006-2007 2005-2006 2004-2005 2003-2004 2002-2003 2001-2002 2000-2001 1999-2000 Total Tabelle 5: Frauenbundesliga Momenten MLE p-Wert NA NA 0.95 100 0.99 0.64 8.28 0.69 10.25 0.93 0.50 5.89 0.49 5.69 0.81 0.64 8.41 0.63 8.15 0.19 0.84 23.65 0.85 26.61 0.71 0.47 4.47 0.53 5.63 0.01 0.51 5.51 0.53 5.96 0.85 0.60 7.13 0.62 7.99 0.65 0.66 10.20 0.68 11.63 0.18 0.33 3.36 0.41 4.66 0.63 0.55 6.25 0.59 7.29 0.09 p̄ r̄ p̄ r̄ Ergebnisse Negative Binomialverteilung Teil I. Bei der Momentenmethode steht, dort besonders in der Ersten Liga, anstelle des Schätzers 17 die Abkürzung NA(Not available ). In dieser Anwendung bedeutet dies, dass zwar ein numerischer Wert herauskommen würde, dieser aber als Schätzer nicht gültig ist. Bei der Negativ Binomialverteilung tritt dieser Fall immer ein, wenn p > 1 ist (deniert als 0 < p ≤ 1). Der Grund für diese Ergebnisse liegt an der Unterdispersion, d.h. die Varianz der Stichprobe ist kleiner als der Stichprobenmittelwert. p̂ kann zwar mittels ML- Methode geschätzt werden, man hat dadurch aber gleich einen Indikator für welche Datensätze die Negativ Binomialverteilung nur bedingt oder gar nicht geeignet ist. Betrachtet man die Resultate für die Frauenbundesliga, so zeigt sich gerade hier, dass die Negative Binomialverteilung dennoch ihre Berechtigung hat. Denn hier liegt in fast allen Fällen eine Überdispersion vor und es wird daher ein zweiter Parameter zur besseren Schätzung benötigt. Wenig überraschend sind jedoch die Ergebnisse der Verteilungsanpassung, denn bis auf eine Ausnahme gab es ausschlieÿlich Verbesserungen. Diese spiegeln sich an dem höheren p-Wert des Chi-Quadrat-Tests wider. Denn je besser die Verteilung für die Daten passt, desto enger liegen beobachtete und erwartete Werte beieinander und desto kleiner ist der Testwert. Bei den Saisonen 05/06, 03/04 und 1999/2000 wurde die Poissonverteilung durch den goodness of t -Test abgelehnt. Die Negative Binomialverteilung führt bis auf die Saison 2003/2004 jetzt insofern auf bessere Ergebnisse, weil die H0 -Hypothese nicht abgelehnt werden kann. Die besten Resultatsverbesserungen erzielte mit einem Anstieg des p-Wertes von 58 bzw 62 Prozentpunkten die Saisonen 06/07 und 99/00 der Frauenliga. Interessant erscheint auch die Feststellung, dass weder die Poissonverteilung noch die Negative Binomialverteilung geeignet sind, alle Spiele der Frauenbundesliga zu modellieren. Saison 2008-2009 2007-2008 2006-2007 2005-2006 2004-2005 2003-2004 2002-2003 2001-2002 2000-2001 1999-2000 Total Bundesliga Momenten MLE p̄ r̄ p̄ r̄ 0.80 13.60 0.81 14.28 0.88 20.98 0.88 20.98 0.99 300.62 0.99 300.62 0.90 25.15 0.89 22.72 0.89 23.68 0.90 25.20 0.99 958.64 0.99 958.64 NA NA 0.99 320.60 0.93 38.26 0.93 38.26 NA NA 0.97 100 0.93 41.07 0.93 41.07 0.93 41.86 0.93 41.86 Tabelle 6: p-Wert 0.84 0.60 0.76 0.17 0.99 0.37 0.06 0.98 0.54 0.78 0.07 p̄ 0.99 0.98 0.97 0.97 0.97 0.84 0.97 0.99 0.98 0.97 0.99 Erste Liga MLE r̄ p-Wert 317.36 0.31 278.86 0.01 100 0.04 100 0.48 100 0.21 15.51 0.02 129.17 0.81 305.67 0.26 294.01 0.81 100 0.01 616.39 0.09 Ergebnisse Negative Binomialverteilung Teil II. 18 Daher erscheint es notwendig zu versuchen, diese Spiele mittels der COM-Poisson-Verteilung anzupassen. Tabelle 6 zeigt die Momenten- und ML-Schätzer für die Bundesliga und die Erste Liga. Wie schon oben erwähnt kann man mit der Negativ Binomialverteilung Unterdispersion nicht schätzen. Bei der Momentenmethode erhält man keine brauchbaren Resultate und sie ist für diese Daten daher nicht verwendbar. Bei der MLE Methode erhält man zwar Schätzungen, die erwarteten Häugkeiten entsprechen aber fast jenen der gewöhnlichen Poissonverteilung. Der Grund für diese interessante Erkenntnis ist, die Negative Binomialverteilung mit r und p konvergiert für r → ∞ und λ = r(1 − p) gegen die Poissonverteilung8 . Dank des Newton-Verfahrens lassen sich zwar Saisonen mit Unterdispersion anpassen, doch das macht in der Praxis wenig Sinn. Man erkennt dies an einem p nahe 1 und einem groÿen r. Generell bringt die Negative Binomialverteilung bei den Spielen der Bundesliga und der ersten Liga kaum Verbesserungen. Die Saisonen der Bundesliga lassen sich nämlich bereits mit der Poissonverteilung schön modellieren, für die Spiele der Ersten Liga muss man auf die COM- Poisson-Verteilung zurückgreifen. (a) 1999-2000 Abbildung 3: (b) 2006-2007 Vergleich Verteilungen Die beiden Graphiken zeigen, dass die Negative Binomialverteilung in Fällen von groÿer Varianz und kleinem Mittelwert zur Modellierung gut geeignet ist. Dies stimmt auch mit den Ergebnissen von Pollard9 überein, der sich ausführlich mit der Verteilungsanpassung von Tor- bzw. Punkthäugkeiten beschäftigt hat. 8 vgl. Casella G., Berger R.L., Statistical Inference, S.627, Second Editon 2002, Duxbury Pollard,Collegiate Scores and the Negative Binomial Distribution, Journal of the American Statistical Association, Vol. 68, No.342(Jun.,1973), pp. 351-352 9 vgl. 19 4 COM-Poisson-Verteilung In den vorangegangenen Kapiteln wurden mit der Poissonverteilung und der Negativen Binomialverteilung bereits zwei sehr wichtige diskrete Verteilungen für Zähldaten behandelt. Dabei zeigte sich, dass die Poissonverteliung für diskrete Daten so wichtig ist, wie die Normalverteilung für stetige. Die Mehrheit der Torhäugkeiten konnte damit wunderbar modelliert werden. Für Daten mit einer gröÿeren Varianz als der Stichprobenmittelwert bot die Negative Binomialverteilung eine brauchbare Abhilfe. Doch auch sie kann nicht alle Probleme bei bestimmtem Datenlagen beheben. Speziell für Verteilungen mit einem entweder sehr dünn oder sehr dick besetzen Ende eignet sich die von Conway und Maxwell entwickelte COM-Poissonverteilung (1962)10 . P(X = x) = Z(λ, ν) = λx 1 (x!)ν Z(λ, ν) ∞ X λj j=0 x ∈ {0, 1, 2, . . . } (j!)ν (39) (40) Die Verteilungsfunktion erfüllt für λ > 0 und ν ≥ 0 die Bedingungen einer Wahrscheinlichkeitsfunktion. Der Unterschied zur gewöhnlichen Poissonverteilung liegt am Verhältnis zweier aufeinanderfolgenden Wahrscheinlichkeiten. Dieser Quotient ist bei der Poissonverteilung linear in x11 . P(X = x − 1) x = P(X = x) λ (41) Die COM-Poissonverteilung wurde hingegen so konstruiert, dass dieses Verhältnis nicht linear abnimmt und man damit bei Vorliegen von Über- bzw. Unterdispersion besser darauf reagieren kann12 . P(X = x − 1) λx−1 1 λx 1 = / ν ν P(X = x) (x − 1)!) Z(λ, ν) (x!) Z(λ, ν) λx−1 (x!)ν Z(λ, ν) [x(x − 1)!]ν = = (x − 1)!)ν Z(λ, ν)λx λ [(x − 1)!]ν xν = λ 10 vgl. (42) (43) (44) Conway R. W., Maxwell, W. L., A queuing model with state dependent service rates, Journal of Industrial Engineering 12, (1962), pp. 132-136 11 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Computing with the COM-Poisson distribution, downloaded from: http://www.stat.cmu.edu/tr/tr776/tr776.html, p.1 12 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting Discrete data:Revival of the COM-Poisson, J.Royal Statist. Soc., Volume 54, (2005), p.3 20 Diese Eigenschaft wird auch bei der Konstruktion von COM- Poisson verteilten Zufallszahlen eine wichtige Rolle spielen. Für λ > 0 und ν > 0 konvergiert die Reihe j!λν , wenn der Quotient zweier aufeinander folgenden Terme jλν für j → ∞ gegen 0 geht. Das umfangreiche Anwendungsgebiet der COM-Poissonverteilung beruht darauf, dass sie eine Verallgemeinerung vieler bekannter diskreter Verteilungen ist. j Eigenschaften • Für ν = 1 ergibt sich für die Normalisierungskonstante Z(λ, ν) = eλ und die COM- Poissonverteilung reduziert sich zur gewöhnlichen Poissonverteilung mit X ∼ Poisson(λ). • Für ν → ∞, tendiert Z zu: Z(λ, ν) → 1 + λ und die Verteilung nähert sich der Bernoulliverteilung mit p = P(X = 1) = λ 1+λ an. • Bei der Konstellation von ν = 0 und λ < 1 ist die Normalisierungskonstante ist eine geometrische Summe Z(λ, ν) = ∞ X λj = j=0 1 1−λ und es ergibt sich die geometrische Verteilung P(X = x|λ, ν) = λx (1 − λ) x = {0, 1, 2, . . . } Die Summe Z(λ, ν) konvergiert für die Parameterkonstellation ν = 0 und λ ≥ 1 nicht. Dadurch lässt sich auch die Verteilung nicht denieren. Durch diese "Spezialfälle" kann man die COM-Poisson Verteilung auch als Brücke zwischen der geometrischen Verteilung, der Poissonverteilung und der Bernoulliverteilung sehen. ν Werte kleiner als eins weisen achere Quotienten aufeinander folgender Wahrscheinlichkeiten als bei der gewöhnlichen Poissonverteilung auf. Die Verteilung besitzt daher stärker besetzte Enden, sprich es liegt eine Überdispersion vor. Summen von Zufallsvariablen Nicht nur für einzelne COM-Poisson verteilte Zufallsvariablen besteht eine Verbindung zu klassischen diskreten Verteilungen, auch für die Summe von n COM-Poisson verteilten Zufallsvariablen {X1 , X2 , . . . , Xn } gibt es eine Brücke zu drei sehr bekannten Verteilungen. • Für ν = 0 und λ < 1, die Summe der COM-Poisson Variablen reduziert sich zur Summe von geometrisch verteilter Zufallsvariablen, wobei diese Summe wiederum 21 dann nicht geometrisch, sondern negativ binomialverteilt ist mit P Xi ∼ N Binom(n, 1 − λ) • Für ν = 1 ist die Summe Poisson verteilt P Xi ∼ P ois(nλ) • Bei ν = ∞ enspricht die Summe der n COM-Poisson verteilten Zufallsvariablen der P λ Binomialverteilung. Xi ∼ Binom(n, 1+λ ) Um dies zusätzlich noch empirisch zu überprüfen, wurden in einer kleinen Simulationstudie für die drei Parameterkonstellationen 10 mal 1000 COM-poissonverteilte Zufallsvariablen erzeugt (der Algorithmus dahinter wird im nächsten Abschnitt erklärt). Man bildet jeweils die Summen und muss nur noch die jeweiligen Parameter schätzen. Abbildung 4: Summe COM-Poisson verteilter Zufallszahlen Die farbig strichlierten Dichten sind jene die durch die Simulation erzeugt wurden, die schwarze dicke Dichte entspricht der theoretischen Verteilung. Die Simulation soll noch einmal darauf hinweisen, wie vielseitig, exibel und dennoch im Zeitalter des Computers leicht anwendbar die COM-Poisson Verteilung ist. 22 Erzeugen von Zufallszahlen Um COM-poissonverteilte Zufallsvariablen zu generieren, bedient man sich der Inversionsmethode. Beginnend mit P(X = 0) werden alle Wahrscheinlichkeiten der COM-PoissonVerteilung aufsummiert, bis die Summe den Wert einer zwischen 0 und 1 gleichverteilten Zufallsvariable überschreitet. P(X = 0) + P(X = 1) + · · · + P(X = j) ≤ Y ∼ U (0, 1) (45) X = j ist dann eine Beobachtung aus einer COM-Poisson-Verteilung. Für die Berech- nung der Wahrscheinlichkeiten nutzt man wieder den nicht linearen Quotienten zweier aufeinander folgender Wahrscheinlichkeiten. P(X + 1) = P(X) λ (X + 1)ν X = {0, 1, 2, . . . } (46) Damit dieser Algorithmus funktioniert, benötigt man noch einen Startwert für die erste Wahrscheinlichkeit P(X = 0) = Z(λ, ν)−1 . Diese ist aber nicht in geschlossener Form vorhanden und muss daher bestmöglich approximiert werden. 4.1 Berechnung von Z(λ, ν) Die Berechnung von Z(λ, ν) spielt bei der Verwendung der COM-Poisson-Verteilung die entscheidende Rolle. Denn sie summiert nicht nur die Dichte (bzw. PMF) auf eins, sondern wird auch für die Berechnung der Momente und die Erzeugung von Zufallszahlen benötigt. Da die Summe keine natürliche obere Schranke besitzt, muss die Summe mit möglichst kleinem Fehler begrenzt werden. j j Wie bereits beschrieben konvergiert die Reihe j!λν , zusätzlich gilt lim j!λν = 0. Dafür exij→∞ stiert eine Zahl k, mit j > k λ <1 (47) ν j Dieses Verhältnis nimmt monoton ab mit dem Resultat, dass die genannte Reihe schneller als eine geometrische Reihe mit dem Multiplikator von (47) konvergiert(für j > k). Daher kann man Z(λ, ν) so approximieren, indem man die Reihe bei einem k-ten Term abschneidet. k X λj Z(λ, ν) = + Rk j!ν j=0 Wobei der Rk = P∞ λj j=0 j!ν (48) den absoluten Fehler beschreibt, der durch Abbruch entsteht. Schlieÿlich ndet man dadurch eine Obergrenze, da die Reihe 23 λj j!ν (j = 0, 1, 2, . . . ) schneller abnimmt als eine geometrische Reihe. D.h. es gibt einen Wert mit 0 < k < 1,wo für alle j > k gilt: λ < k (49) ν (j + 1) Der absolute Fehler wird dann folgendermaÿen begrenzt: λk+1 (k + 1)!ν (1 − k ) (50) In der Praxis wird dann anstelle des absoluten Fehlers der relative Fehler verwendet, um die Berechnung von Z(λ, ν) ezienter zu gestalten. 4.2 Momente der Verteilung Wie es bereits bei der Normalisierungskonstante der Fall war, lassen sich die Momente wieder nicht in geschlossener Form angeben. Sie lassen sich jedoch auf zwei verschiedene Arten berechnen. Für die erste benötigt man folgende rekursive Darstellung13 . E(X r+1 )= λE(X + 1)1−ν λ ϑ E(X r ) ϑλ r=0 (51) r + E(X)E(X ) r > 0 Verwendet man eine Approximation für Z(λ, ν) so können Erwartungswert und Varianz in geschlossener Form approximiert werden. 1 ϑ log Z(λ, ν) ν−1 ≈ λν − ϑλ 2ν 2 1 −1 ν 1 λ ν − 1 E(X 2 ) = λ + λν − ν 2ν E(X) = λ Var(X) = E(X 2 ) − E(X)2 = 1 ν λ ν (52) (53) (54) (55) Diese Approximation für Erwartungswert und Varianz werden später für die Schätzung für λ und ν bei der Momentenmethode verwendet. Um genauere Werte zu erhalten, können die Momente der COM-Poisson Verteilung aber auch mittels folgender Formel14 berechnet werden. ∞ E [f (X)] = X f (j) j=0 13 vgl. λj j!ν Z(λ, ν) (56) Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.3 24 Der Nachteil bei dieser zweiten Variante besteht darin, dass die Summe wieder an einem bestimmten Punkt abgebrochen werden muss, um numerische Werte zu erhalten. Für die Maximum-Likelihood Schätzung werden die Momente im Newton-Verfahren benötigt und auf diese Art und Weise berechnet. Abbildung 5: Entwicklung der Momente Die Graphik (5) zeigt die Entwicklung15 von Erwartungswert und Varianz. Für verschiedene Werte von ν = {1, 2, . . . , 10} wird E(X) bzw. Var(X) gegen λ gezeichnet. Mit dem Resultat, dass mit zunehmenden ν die beiden Kurven von Erwartungswert und Varianz immer mehr verachen. Besonders bei der Varianz geht diese Abnahme sehr rasch vor sich. Ab einem ν von 6 pendeln sich die Werte dann aber ein und anschlieÿend gibt es kaum noch Unterschiede zwischen den einzelnen Graphiken. 14 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Computing with the COM-Poisson distribution, downloaded from http://www.stat.cmu.edu/tr/tr776/tr776.html p.5 15 Nadarajah S., Useful moment and CDF formulations for the COM-Poisson distribution, Statistical Papers, Volume 50, Number 3 (Juni 2009), p. 4 25 Abschlieÿend zum Bereich Momente der COM-Poisson-Verteilung zeigen die beiden Tabellen den jeweiligen Vergleich der beiden Berechnungen für Erwartungswert und Varianz für einen festen Wert von λ = 500. Für die exakte Berechnung wurde die Formel (56) exakt approximiert 1 500 500 2 22.11488 22.11068 3 7.598348 7.603672 4 4.344951 4.353708 5 3.053527 3.065724 6 2.385655 2.400602 7 1.990408 2.001210 8 1.725328 1.737059 9 1.511286 1.550292 10 1.330936 1.411646 exakt approximiert 1 500.4137 500 2 10.93211 11.18034 3 2.656022 2.645668 4 1.184107 1.182177 5 0.6958124 0.6931448 6 0.4691751 0.4695449 7 0.3450336 0.3471116 8 0.2985918 0.2718199 9 0.2767759 0.2216374 10 0.2296351 0.1861646 ν Tabelle 7: ν Vergleich E(X) Tabelle 8: Vergleich Var(X) verwendet, für die Approximation das Ergebnis in (55). Erfreulicherweise liefert die Näherung der ersten beiden Momente wirklich gute Ergebnisse. Die Abweichungen sind in unserem Fall überschaubar und daher ist diese schnelle Berechnungsmöglichkeit eine gute Alternative für eine erste Überprüfung. Zur Schätzung der Parameter ist jedoch die exakte Variante zu empfehlen. Numerische Überprüfungen16 ergaben, dass man selbst für ν ≤ 1 und λ > 10ν die Approximation noch verwenden kann. 4.3 Suziente Statistik Ein letzter Punkt muss noch betrachtet werden, bevor man sich den Schätzmethoden zuP P wenden kann. Es gilt zu zeigen, dass ni=1 xi und ni=1 log(xi !) suziente Statistiken17 der COM-Poisson-Verteilung sind, siehe (60). Zusätzlich kann noch gezeigt werden, dass die COM-Poisson Verteilung zu den Mitgliedern der Exponentialfamilie zählt. Denn eine Dichte bzw. PMF f(x|θ) mit iid Beobachtungen X1 , . . . , Xn gehört zur Exponentialfamilie, wenn gilt18 : f(x|θ) = h(x)c(θ) exp k X ! wi (θ)ti (x) (57) i=1 16 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.17 17 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.4 18 vgl. Casella G., Berger R.L., Statistical Inference, S.279, Second Editon 2002, Duxbury 26 Um dieses Theorem anzuwenden, wird die Likelihoodfunktion ein bisschen umgeformt. n Y 1 λ xi L(λ, ν|x1 , x2 , . . . , xn ) = ν (xi !) Z(λ, ν) i=1 =λ Pn i=1 e−ν Pn i=1 (58) log(xi !) −n Z (59) (λ, ν) (60) = λS1 e−νS2 Z−n (λ, ν) Durch das Faktorisierungstheorem sieht man in Gleichung (60), dass S1 = ni=1 xi und P S2 = ni=1 log(xi !) suziente Statistiken für x1 , . . . , xn sind. Zusätzlich zeigt (60), dass die COM-Poisson Verteilung ein Mitglied der Exponentialfamilie ist. P 4.4 WLS-Schätzung Die WLS-Schätzung(weighted least squares )19 kombiniert eine einfache graphische Technik zur Überprüfung der Verteilung mit einer rechenarmen Methode der kleinsten Quadrate und ist eine von drei besprochenen Möglichkeiten zur Parameterschätzung von λ und ν der COM-Poisson-Verteilung.Graphik und Schätzung lassen sich leicht R oder SAS implementieren. COM-Poissonness-Plot Bei der Konstruktion der Graphik geht man wieder vom Verhältnis zweier aufeinander folgenden Wahrscheinlichkeiten aus. P(X − 1) px−1 xλ = = P(X) px λ (61) Durch das Logarithmieren auf beiden Seiten bekommt man eine lineare Beziehung zwischen dem logarithmierten Quotient und log x log px−1 px = − log λ + ν log x (62) Die Wahrscheinlichkeiten des Quotienten sind zu diesem Zeitpunkt noch nicht bekannt und müssen durch die relativen Häugkeiten ersetzt werden. Der COM-Poissonness-Plot entsteht, indem man dieses Verhältnis gegen den Logarithmus von x zeichnet. Wichtig für die Konstruktion ist, dass ein Quotient mit zero counts nicht beachtet wird. Wobei dabei nicht die Kategorieausprägung Null gemeint ist, sondern dass z.B. für die 19 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., A Useful Distribution for Fitting Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54, (2005), p.6 27 Kategorie mit der Ausprägung eins kein Zählergebnis vorliegt. Die COM-Poisson-Verteilung wird dann als passendes Modell für eine bestimmte Datensituation bezeichnet, wenn die Punkte des COM-Poissonness-Plot auf einer Geraden liegen. Gleichzeitig lassen sich mit dieser Graphik die Daten auf die gewöhnliche Poissonverteilung hin überprüfen. Dieser einfache Fall tritt dann ein, wenn das Intercept der Geraden null ist. So reduziert sich der COM-Poissonnes- Plot zum Poissonness-Plot von Hoaglin. Die Ideen der zwei graphischen Überprüfungsmöglichkeiten sind zwar ähnlich, jedoch wird beim COM-Poissonness-Plot nur das Intercept bestimmt und beim Poissonness-Plot sowohl Intercept als auch die Steigung. (a) COM-Poisson-Plot Abbildung 6: (b) Poissonness-Plot Wahl der Verteilung Zur Illustration der beiden Plots wurden n = 5000 COM-Poisson verteilte Zufallszahlen generiert, mit λ = 7.68 und ν = 2.14. Dabei wurde ein xer Startwert für den Zufallszahlengenerator angegeben, denn diese Zahlen werden in den folgenden Abschnitten zum Vergleich der Schätzmethoden verwendet. Bei diesen Daten liegt eine starke Unterdispersion vor, um an das Problem mit den vorliegenden realen Torhäugkeiten anzuknüpfen. Das rechte Bild zeigt die Überprüfung auf die gewöhnliche Poissonverteilung und man kann erkennen, dass diese hier nicht geeignet ist. Die gestrichelte rote Linie symbolisiert die ML-Schätzung der Poissonverteilung und soll zusätzlich untermauern, wie weit die geschätzten Punkte von den realen Punkten entfernt sind. Das linke Bild hingegen spiegelt das Idealbild eines COM-Poissonness-Plot wider. Der äuÿerste Punkt sollte daher nicht verwundern. Eine sehr starke Unter- bzw. Überdispersion stellt allgemein ein groÿes Problem dar und dies lässt sich auch bei der COM-Poisson28 Verteilung nicht vollständig beheben. Die durchgehende rote Linie ist jene Gerade die durch Einsetzen der WLS-Schätzer in Gleichung (62) entsteht, sie passt die Daten sehr gut an. Modell Kommt man nach der graphischen Überprüfung zu dem Schluss, dass die COM-PoissonVerteilung für die Daten geeignet ist, dann werden die Parameter folgendermaÿen gep̂x−1 schätzt: man führt eine Regression von log p̂x auf log x durch. Dabei muss aber beachtet werden, dass zwei wesentliche Annahmen der linearen Regressionsanalyse verletzt werden. 1. Die Varianz der abhängigen Variablen sind nicht konstant, es liegt also keine Homoskedastizität vor. Var(p̂x ) = px (1 − px ) n (63) 1 1 + npx npx−1 (64) kann folgendermaÿen approximiert werden Var p̂x−1 p̂x ≈ Wobei n die Anzahl der Werte ohne Null angibt 2. Die Beobachtungen sind nicht unabhängig. In Wirklichkeit sind die aufeinander folgenden Wahrscheinlichkeiten negativ korreliert. Cov(p̂x , p̂y ) = − px py n für x 6= y (65) kann folgendermaÿen approximiert werden p̂x−1 p̂x 1 Cov log , log ≈− p̂x p̂x+1 npx−1 (66) Auf Grund der Verletzungen der Annahmen, wird anstelle der "normalen" Regressionsanalyse eine weighted least squares Regression verwendet. Für den Parametervektor mit λ und ν der gewichteten Regression ergibt sich folgende Schätzgleichung: β̂ = XT W−1 X −1 XT W−1 y (67) Wobei die Matrix W die Gewichte für die Regression enthält. In der Diagonale von W stehen die Varianzen von (64) in der ersten Neben-Diagonale die Kovarianzen von Ap29 proximation (66). Würden die Fehler unkorrelliert sein, so würde sich W−1 zu einer Diagonalmatrix reduzieren. Mit dieser gewichteten Matrix ist der Schätzer β̂ dann der beste lineare unverzerrter, Schätzer(BLUE). Die Matrix Xnx2 enthält in der ersten Spalten lauter Einser für das Intercept und in der zweiten Spalte die Werte von log p̂x−1 . Im Responsevektor y steht log x. p̂x Diese Methode zur Schätzung von λ und ν funktioniert ziemlich gut, solange sich nicht zu viele zero counts im Datensatz benden. 4.4.1 Ergebnisse Für die weighted least squares Regression ergaben sich folgende Ergebnisse. Die Güte der geschätzten Werte wurde wieder mittels des Chi-Quadrat-Tests überprüft. Saison 2008-2009 2007-2008 2006-2007 2005-2006 2004-2005 2003-2004 2002-2003 2001-2002 2000-2001 1999-2000 Total λ̂ 2.46 2.05 2.67 1.96 2.23 2.04 2.95 2.42 2.79 2.25 2.41 Bundesliga ν̂ p-Wert a 0.78 0.85 0.77 0.58 0.97 0.73 0.74 0.13 0.84 0.99 0.72 0.76 1.11 0.14 0.90 0.97 1.00 0.57 0.85 0.75 0.89 0.08 Tabelle 9: Erste Liga λ̂ ν̂ p-Wert 3.16 1.08 0.36 3.05 0.97 0.01 2.71 0.91 0.01 2.32 0.83 0.15 2.50 0.90 0.19 2.17 0.74 0.01 2.66 0.91 0.76 3.29 1.06 0.28 3.47 1.08 0.90 2.69 0.99 0.01 2.89 1.01 0.09 Frauenliga λ̂ ν̂ p-Wert 2.33 0.69 0.02 1.58 0.43 0.33 1.97 0.41 0.90 2.31 0.57 0.23 3.63 0.87 0.71 1.60 0.35 0.01 2.04 0.45 0.63 2.28 0.55 0.28 2.72 0.62 0.10 1.54 0.29 0.13 2.11 0.49 0.01 Ergebnisse WLS-Schätzung a Chi-Quadrat-Test Da man mittels der COM-Poisson-Verteilung sowohl Unter-bzw. Überdispersion(ν > 1 bzw. ν < 1), als auch die gewöhnliche Poissonverteilung (ν = 1) schätzen kann, sollten im Normalfall die Ergebnisse zumindest gleichwertig gegenüber den anderen Modellen sein. Für die Torhäugkeiten der Bundesliga zeigt sich, dass sich alle Konstellationen von Mittelwert und Varianz gut modellieren lassen. So zeigt der Schätzer für ν in der Saison 2002/2003 die Unterdispersion deutlich an und man erzielt auch eine bessere Schätzung. Trotzdem wäre die Wahl einer anderen diskreten Verteilung wahrscheinlich eine gute Alternative. Ein Ergebnis sollte noch hervorgehoben werden. Für die Spielzeit 03/04 erreicht man mit 30 dieser Methode und Verteilung Abstand die beste Annäherung an die realen Daten, leider wird dies aber von den anderen Schätzmethoden nicht bestätigt. Varianz und Mittelwert sind hier vollkommen ident, ein klassischer Fall für die gewöhnliche Poissonverteilung, dennoch kommt die WLS-Schätzung zu einer Überdispersion. Ein Problem der WLSRegression ist die Tatsache, dass diese "Fehlschätzungen" auch für die Bundesliga der Frauen (Saisonen 08/09 und 07/08) und der Erste Liga (Saison 05/06) vorkommen. Ein plausibler Grund für dieses Problem dürfte sein, dass manche Ausprägungen der Torhäugkeiten äuÿerst dünn besetzt sind (leider auch und Zentrum) und dies sich besonders bei dieser Art der Schätzung negativ zu Buche schlägt. Bei der Frauenbundesliga kommt auch die geringe Anzahl der Spiele pro Saison, verbunden mit überdurchschnittlich vielen Treern pro Partie, als erschwerend hinzu. Eine weitere interessante Erkenntnis ist, dass es bestimmte Meisterschaften gibt, wo keine der vorgestellten Verteilungen angebracht zu sein scheint. Ansonsten kann man mit dem COM-Poissonness-Plot und der WLS Regression sehr zufrieden sein. Verwendet man die für den Plot erzeugten 5000 Zufallszahlen (λ = 7.68 und ν = 2.14) kommt man mittels der Regression auf folgende Schätzer: λ̂ = 7.839425 und ν̂ = 2.163566. Bei der Maximum Likelihood Schätzung kommt man auf ein λ̂ von 7.885418 Abbildung 7: Simulation:Schätzmethoden und ein ν̂ von 2.169616. Die Momentenmethode liefert 7.629 für die Mittelwertschätzung und 2.150 für ν . Bei gröÿeren Stichproben kommt man also zu sehr ähnlichen Resultaten. 31 4.5 Maximum-Likelihood-Schätzung Von den drei in dieser Arbeit vorgestellten Verfahren ist die Maximum-Likelihood-Schätzung das Aufwendigste und Rechenintensivste. Auf der anderen Seite hingegen liefert es in den meisten Anwendungen die besten Ergebnisse. So wird die WLS-Schätzung gerne dazu verwendet, um sich einen ersten Überblick zu verschaen und um anschlieÿend dann im zweiten Schritt die Schätzer für die Parameter so genau als möglich zu bestimmen. Für die Momentenmethode gilt ähnliches, hier kann sogar nur mit den approximierten Werten für Erwartungswert und Varianz gearbeitet werden. Da die ML-Schätzer für die Parameter nicht geschlossen angegeben werden können, wird ein numerischer Optimierungsalgorithmus, wie das Newton-Verfahren, benötigt. Newton-Verfahren Das Newton-Verfahren20 ist eine Iterationsmethode zur näherungsweisen Nullstellensuche bei dierenzierbaren Funktionen f . Der Algorithmus nähert sich dem wahren Wert folgendermaÿen an: Beginnend mit einer Annäherung xn wird der Wert für xn+1 bestimmt, indem man den Schnittpunkt der Tangente an den Graphen mit der x-Achse berechnet. Es ergibt sich folgende Iterationsvorschrift: xn+1 = xn − f (xn ) f 0 (xn ) Das Verfahren läuft solange bis, die relative Veränderung kleiner einem vorher festgelegten Fehlerterm ist. Im Falle der COM-Poisson- Verteilung müssen aber mit λ und ν zwei Parameter gleichzeitig geschätzt werden. Die Idee zur Lösung diese Problems bleibt auch in diesem Fall gleich, man passt nur den Algorithmus der Problemstellung an. Die Likelihood für n iid Beobachtungen x1 , x2 , . . . , xn kann wie bereits gezeigt geschrieben werden als: L(x1 , x2 , . . . , xn |λ, ν) = λS1 e−νS2 Z−n (λ, ν) (68) Wobei S1 = ni=1 xi und S2 = ni=1 log(xi !) suziente Statistiken für x1 , x2 , . . . , xn sind. Die Punktmaxima von λ und ν lauten daher P P n 1X E(X) = X = Xi n i=1 (69) n E(log(X!)) = log(X!) = 32 1X log(Xi !) n i=1 (70) Die logarithmierte Likelihood kann damit wie folgt geschrieben werden21 . log L(x1 , x2 , . . . , xn |λ, ν) = nX log λ − nlog X! − n log Z(λ, ν) (71) Die Likelihood kann schnell und zuverlässlich maximiert werden, da sie für die Parameter θ = (log(λ), ν) konkav ist. Diese Eigenschaft stellt die Eindeutigkeit des Extremwerts sicher. Um einen neuen Wert berechnen zu können wird zunächst der Gradient der logarithmierten Likelihood benötigt. " ∇L(θ) = X − E(X) # −log(X!) + E(log(X!)) (72) Im nächsten Schritt muss noch die Matrix mit den zweiten Ableitungen bestimmt werden. " ∇2 L(θ) = −Var(X) # Cov(X, log(X!)) Cov(X, log(X!)) −Var(log(X!)) (73) Diese Matrix hat eine positive Determinante, weil Var(X)Var(log(X!)) > Cov(X, log(X!)) (74) Zusätzlich sind beide Eigenwerte negativ, was beweist, dass die Likelihood konkav ist. Die Momente können entweder mittels Approximation oder wenn sie so genau als möglich benötigt werden mittels Formel (56) bestimmt werden. Für die Schätzung der Torhäugkeiten wurden E(X), Var(X) und Cov(X, log(X!)) mit der exakten Methode berechnet. Das so genannte Newton-Update ergibt sich dann aus: θ new = θ − (∇2 L(θ))−1 ∇L(θ) (75) In jedem Schleifendurchlauf werden also Erwartungswert, Varianz und Kovarianz von X und log(X!) berechnet. Und zwar, indem man die Schätzer aus der letzten Iteration für λ und ν einsetzt und die Momente bestimmt. Für die praktische Anwendung empehlt es sich als Startwerte die Maximum-LikelihoodSchätzer der gewöhnlichen Poissonverteilung zu verwenden. Für λ = X, ν = 1 ergibt sich θ = (log(X), 1). 20 vgl. Stöcker H., Taschenbuch mathematischer Formeln und moderner Verfahren, S. 51, 4. Auage (2007), Harri Deutsch Verlag 21 Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Computing with the COM-Poisson distribution, downloaded from: http://www.stat.cmu.edu/tr/tr776/tr776.html, p.6 33 4.5.1 Ergebnisse Von der Herleitung und der Implementierung im Programm war es die aufwendigste aller beschriebenen Schätzmethoden, jedoch nicht in Hinsicht auf die Rechenleistung. Im Schnitt konvergierte der Algorithmus schon nach vier bis acht Iterationsschritten. Es trat dabei nur ein einziges Problem auf: Für die Frauenbundesliga der Saison 1999/2000 kam die ML-Schätzung trotz der Wahl verschiedener Startwerte zu keinem Ergebnis. Der Grund für diese Gegebenheit, dürfte die vielen Kategorien mit nur einer Ausprägung sein (von 16 Kategorien besitzen zehn weniger als fünf Ausprägungen). Saison 2008-2009 2007-2008 2006-2007 2005-2006 2004-2005 2003-2004 2002-2003 2001-2002 2000-2001 1999-2000 Total λ̂ 2.40 2.17 2.76 2.10 2.30 2.49 3.10 2.50 2.98 2.48 2.45 Bundesliga ν̂ p-Wert a 0.77 0.85 0.83 0.64 1.00 0.77 0.81 0.21 0.88 0.99 0.94 0.44 1.15 0.17 0.93 0.97 1.07 0.53 0.94 0.74 0.91 0.10 Tabelle 10: Erste Liga λ̂ ν̂ p-Wert 3.25 1.12 0.41 3.63 1.15 0.053 2.88 0.98 0.049 2.64 0.97 0.50 2.70 0.97 0.22 2.27 0.81 0.01 2.83 0.97 0.81 3.48 1.12 0.42 3.62 1.12 0.92 2.78 1.05 0.01 2.93 1.01 0.10 Frauenliga λ̂ ν̂ p-Wert 4.95 1.05 0.97 2.69 0.67 0.93 2.08 0.44 0.87 2.35 0.59 0.21 3.42 0.84 0.72 2.01 0.47 0.01 2.09 0.48 0.78 2.36 0.58 0.53 2.96 0.67 0.13 NA NA NA 2.31 0.55 0.01 Ergebnisse ML-Schätzung a Chi-Quadrat-Test Beginnend mit der Bundesliga spiegelt der Parameter ν̂ die Über- bzw. Unterdispersion in allen Fällen korrekt wieder. Betrachtet man nur die Fälle mit kleinerer Varianz als Stichprobenmittelwert (02/03 und 00/01) so zeigt sich, dass man erfreulicherweise für die Saison 2002/2003 nun die vorliegende Verteilung nicht mehr ablehnen kann. Im anderen Fall wirkt die Unterdispersion nicht so stark, daher lieferte auch die Poissonverteilung brauchbare Ergebnisse. Auch bei der Ersten Liga konnten in bestimmten Bereichen Erfolge erzielt werden. Wiederum wird das Verhältnis zwischen dem Mittelwert und der Varianz richtig wiedergegeben. Für die Spielzeit 08/09 erhält man jetzt eine deutlich bessere Schätzung als mit der gewöhnlichen Poissonverteilung bzw. der negativen Binomialverteilung, welche in diesem Fall überhaupt nicht geeignet erscheint. Weitere Verbesserungen ergeben sich für die Meisterschaften 07/08 hier jedoch äuÿerst geringfügig), 01/02 und 00/01. Die Saison 1999/2000 folgt keiner der in dieser Arbeit verwendeten diskreten Verteilungen. 34 Wie bereits beschrieben, lassen sich die einzelnen Meisterschaften der Frauenbundesliga sehr vernünftig mittels der Negativen Binomialverteilung beschreiben. Die in fast allen Fällen auftretende Überdispersion wird korrekt durch die Maximum-Likelihood-Schätzung der Parameter modelliert. Hier stimmen die Schätzungen für die Parameter der Saisonen 08/09 und 2007/2008, hingegen wurden diese durch die WLS-Schätzung falsch wiedergegeben. Es kristallisiert sich auch das Ergebnis heraus, dass die Summen der Torhäugkeiten über alle Saisonen der drei betrachteten österreichischen Fuÿballproligen durch keine der behandelten Verteilungen angepasst werden kann. Abbildung 8: Saison 2008-2009 Die Abbildung soll die Vorteile der COM-Poisson-Verteilungen im Falle einer Unterdispersion gegenüber der gewöhnlichen Poissonverteilung und der am wenigsten geeigneten Negativen Binomialverteilung hervorheben. Poissonverteilung und Negative Binomialverteilung sind in dieser Graphik gleich, weil die Negative Binomialverteilung bei der MLSchätzung durch die Poissonverteilung approximiert wird. Bei der Momentenmethode würden man keine (verwendbaren) Schätzer erhalten, da für den Parameter p die Wahrscheinlichkeit gröÿer als eins geschätzt wird. 35 4.6 Momentenmethode Sei X1 , . . . , Xn eine Stichprobe aus einer Grundgesamtheit22 mit Dichte f (x|θ1 , . . . , θn ). Die Schätzer der Momentenmethode werden bestimmt, indem man die ersten k Stichprobenmomente mit den entsprechenden k Momenten der Grundgesamtheit gleichsetzt und das dadurch entstehende Gleichungssystem auöst. Die Momentenschätzer besitzen folgende Eigenschaften23 : • immer konsistent • zumindest asymptotisch erwartungstreu • i.d.R asymptotisch normal • oftmals nicht wirksamste • oftmals nicht suzient Für die Negative Binomialverteilung konnten die Schätzer der Parameter rasch bestimmt und in geschlossener Form angegeben werden (siehe: Seite 17). Bei der COM-PoissonVerteilung sind die beiden Gleichungen auf den ersten Blick nicht so einfach zu lösen, daher wird das Gleichungssystem mit Hilfe des Programms Mathematica gelöst. Die Momentenmethode dient in diesem Fall aber nur zu einer ersten Standortbestimmung der Schätzer. Um eine einfache und schnelle Variante zur Berechnung der Parameter λ und ν als statistisches Rüstzeug zur Verfügung zu haben, werden die Approximationen der ersten beiden Momente verwendet. Es ergeben sich folgende Schätzgleichungen: I. II. 1 1X ν−1 xi = λ ν − n 2ν 1 X λν 1 2 (xi − x̄) = n−1 ν (76) (77) Gleichung I. auf λ umformen und in Gleichung II. einsetzen, ergibt νb = − 1 − 2x̄ ± √ 1 − 4x̄ + 4x̄2 + 8S 2 4S 2 (78) Für λb ergibt sich folgender Schätzer: b= λ 1 − νb + x̄ 2b ν νb (79) Die Approximationen für E(X) und Var(X) werden über die Vorschrift auf Seite 24 berechnet. Man erhält für beide Parameter zwei Lösungen, aber nur eine liefert gülti22 vgl. Casella G., Berger R.L., Statistical Inference, S.312, Second Editon 2002, Duxbury 36 ge Ergebnisse für die Schätzer der COM-Poisson-Verteilung. Für die Lösung von ν mit √ 1 − 2x̄ + 1 − 4x̄ + 4x̄2 + 8S 2 im Zähler erhält man immer negative Werte für ν , was aber die Denition der COM-Poisson-Verteilung ausschlieÿt. So eignet sich die Momentenmethode für eine schnelle Überprüfung der vorliegenden Daten, man sollte jedoch die Ergebnisse mit Hilfe der Maximum-Likelihood-Schätzung einer genaueren Überprüfung unterziehen. 4.6.1 Ergebnisse Für die Momentenmethode ergaben sich folgende, von der Qualität überraschend guten, Ergebnisse. Denn von der theoretischen Herleitung bis zum Aufwand der praktischen Umsetzung würde man der Momentenmethode eher die schlechtesten Eigenschaften der drei vorgestellten Prozeduren zuordnen. Auch aus dem Grund, weil man nur mit den approximierten Werten für die ersten beiden Momente arbeitet. Saison 2008-2009 2007-2008 2006-2007 2005-2006 2004-2005 2003-2004 2002-2003 2001-2002 2000-2001 1999-2000 Total λ̂ 2.42 2.28 2.72 2.30 2.31 2.68 3.23 2.47 3.05 2.44 2.50 Bundesliga ν̂ p-Wert a 0.77 0.85 0.86 0.63 0.99 0.75 0.88 0.21 0.88 0.99 1.00 0.37 1.19 0.19 0.92 0.97 1.09 0.51 0.93 0.75 0.92 0.09 Tabelle 11: Erste Liga λ̂ ν̂ p-Wert 3.25 1.12 0.40 4.00 1.23 0.05 3.00 1.01 0.06 2.82 1.02 0.50 2.82 1.00 0.23 2.27 0.81 0.01 2.85 0.97 0.79 3.39 1.10 0.38 3.58 1.11 0.92 2.87 1.08 0.01 3.00 1.03 0.09 Frauenliga λ̂ ν̂ p-Wert 4.68 1.01 0.98 2.40 0.60 0.89 2.12 0.45 0.91 2.42 0.60 0.21 3.37 0.83 0.73 1.80 0.40 0.01 2.02 0.46 0.73 2.25 0.55 0.37 2.74 0.63 0.11 1.05 0.09 0.01 2.12 0.50 0.01 Ergebnisse Momentenmethode a Chi-Quadrat-Test In der Praxis zeigt sich aber, dass diese Approximationen für die Daten der österreichischen Bundesliga, der Ersten Liga und der Frauenliga nahezu die selben Werte wie bei der exakten Berechnung liefern. Zieht man zum Vergleich der drei Schätzmethoden die p-Werte und die Diagramme mit den Anpassungen an die wahren Torhäugkeiten heran, so zeigt sich, dass die weighted least squares Regression höchstens das Niveau von ML-Schätzung und Momentenmethode hält. 23 vgl. Rinne H., Taschenbuch der Statistik, S.458, 4. Auage (2008), Harri Deutsch Verlag 37 5 Zusammenfassung In dieser Bakkalaureatsarbeit wurde versucht, an Hand des Beispieles der Torhäugkeiten im österreichischen Profuÿball die verschiedenen Möglichkeiten der Behandlung von diskreten Daten zu veranschaulichen. Im einem ersten Ansatz wurde die Anzahl der erzielten Tore mittels der gewöhnlichen Poissonverteilung modelliert. Man verwendet in diesem Zusammenhang immer das Adjektiv gewöhnlich, um eine klare Trennung der Poissonverteilung und der in dieser Arbeit ebenfalls beschriebenen Conway-Maxwell-Poissonverteilung zu erhalten. Neben der Beschreibung der diskreten Verteilung, der Herleitung der ersten beiden Momente und der Maximum-Likelihood-Schätzer, wurde ebenfalls der Poissonness-Plot eingeführt. Dieses graphische Hilfsmittel soll dem Anwender dabei helfen, eine rasche Entscheidung über die Richtigkeit der Verteilungsannahme treen zu können, ohne auf zeitaufwendige, parametrische Tests, zurückgreifen zu müssen. Der in diesem Abschnitt ebenfalls vorgestellte Chi-Quadrat-Test auf Verteilungsanpassung dient in erster Linie dazu die gewöhnliche Poissonverteilung mit der negativen Binomialverteilung und der COM-Poissonverteilung und den unterschiedlichen Schätzmethoden vergleichen zu können. In den meisten Fällen lieferte die Anpassung der Torhäugkeiten mittels der gewöhnliche Poissonverteilung -wenig überraschend- sehr brauchbare Ergebnisse. Dies verwundert insofern nicht, weil die Poissonverteilung eine der am meist verwendeten diskreten Verteilungen ist. Wenn sich jedoch Stichprobenmittelwert und Stichprobenvarianz unterscheiden, dann sieht man sich gezwungen, auf andere diskrete Verteilungen zurückzugreifen, da die Poissonverteilung nur einen frei wählbaren Parameter besitzt. Der zweite Abschnitt dieser Arbeit beschäftigte sich daher mit der zweiparametrigen Negativen Binomialverteilung und dem Versuch zur Lösung des oben genannten Dispersionsproblems. Für Stichproben mit einer gröÿeren Stichprobenvarianz als dem Stichprobenmittelwert, also beim Vorliegen einer Überdispersion, erhält man mit der Negative Binomialverteilung ausgezeichnete Ergebnisse. Tritt bei einer Stichprobe eine Unterdispersion auf, so können die Parameter der Verteilung mit der Momentenmethode nicht mehr geschätzt werden. Damit wird die Negative Binomialverteilung für eine solche Problemstellung disqualiziert. Die in nicht geschlossener Form vorhandenen ML-Schätzer liefern trotzdem ein Ergebnis, mit p̂ nahe 1 und r sehr groÿ, konvergiert die Negative Binomialverteilung gegen die Poissonverteilung. Aus diesem Grund sind die p-Werte des Chi-Quadrat Tests für die einzelnen Saisonen nahezu identisch. Zusammenfassend lässt sich sagen, dass man mit der Nega38 tiven Binomialverteilung in der Lage ist, die Überdispersion in den Gri zu bekommen. Mit dem Resultat, dass man die Daten damit sehr gut modellieren kann. Um aber auch mit anderen Datensituationen umgehen zu können, wurde im letzten Abschnitt dieser Arbeit das Augenmerk auf die von Conway und Maxwell entwickelte COMPoissonverteilung eingegangen. Diese Verteilung erlaubt es mit ihrem zweiten Parameter ν die Abweichung von Mittelwert und Varianz nach oben und unten zu berücksichtigen. Ein weitere groÿer Vorteil der COM-Poissonverteilung ist, dass sie zu den Mitgliedern der Exponentialfamilie zählt. Die Erweiterung und Verallgemeinerung der gewöhnlichen Poissonverteilung beinhaltet einige bekannte diskrete Verteilungen wie die Bernoulli, die Geometrische und natürlich die Poisson. Obwohl die COM-Poisson-Verteilung bereits vor mehr als 40 Jahren erstmals beschrieben wurde und viele gute Eigenschaften besitzt, ndet sie in der Literatur bis heute nur wenig Anklang. Ein Grund dürfte sicherlich der computerintensive Aufwand bei den einzelnen Berechnungen sein, da die Schätzer der Verteilung nicht in geschlossener Form angegeben werden können. In dieser Arbeit wurden drei verschiedene Schätzmethoden vorgestellt und miteinander verglichen. Die weighted least squares Schätzung schnitt von den drei Berechnungsmöglichkeiten aus meiner Sicht am schlechtesten ab. Die gelieferten Ergebnisse stehen nicht in Relation zu den intensiven Berechnungen, da man vergleichsweise mit den approximierten Werten für Mittelwert und Varianz und der Mometnenmethode genauso gute Resultate erhält. Einzig der COM-Poissonness-Plot bietet eine elegante Möglichkeit, um die vorliegenden Daten auf die Richtigkeit der Verteilungsanpassung überprüfen zu können. Die besten Ergebnisse erzielte man mit der ML-Schätzung. Diese ist von den Vorbereitungen zwar die aufwendigste der drei vorgestellten Methoden. Wenn aber der Algorithmus einmal programmiert ist, dann konvergiert er bereits nach wenigen Iterationen. Es ist zu empfehlen diese Art der Berechnung zu verwenden, weil dabei mit Abstand der meiste theoretische Hintergrund in die Berechnung mit einieÿt und sich die gesamten, guten Eigenschaften in den Ergebnissen der ML-Schätzer widerspiegeln (z.B. Exponentialfamilie). Momentenmethode und weighted least squares Regression dienen eher dazu, um sich einen ersten Überblick über die Gestalt und Form der Verteilung zu verschaen. Der Vollständigkeit halber muss eine vierte Variante noch erwähnt werden, die aber in dieser Arbeit nicht berücksichtigt wurde. Es handelt sich dabei um die Bayesianische Herangehensweise zu Parameterschätzung. Da die COM-Poissonverteilung zur Exponentialfamilie gehört gibt es eine Familie konjugierter priori Verteilungen, sodass unabhängig von den Daten die posteriori Verteilung die selbe Form besitzt. λ und ν können dann 39 mittels Maximum-Posteriori-Schätzer bestimmt werden. Die Methode wird als simple und einfach beschrieben, dies trit aber nur auf das Aufstellen der posteriori Verteilung zu. Der Algorithmus zur Schätzung ist hingegen ähnlich komplex wie jener der klassischen Maximum-Likelihood- Schätzung24 . 5.1 Anmerkungen Die einzelnen Algorithmen wurden im Programmpaket R(Version 2.8.1) umgesetzt und mit dem bestehenden Paket compoisson(Version 0.3, 2008) verglichen. Im nachfolgenden Appendix benden sich die Programmcodes der wichtigsten Funktionen, die man braucht, um mit der COM-Poisson-Verteilung arbeiten zu können. So liefert die Funktion zum Erzeugen COM-Poisson-verteilter Zufallszahlen (bei xem Startwert) die selben Ergebnisse. Die Berechnung der Normalisierungskonstanten Z und der Expectation-Funktion unterscheiden sich im hinteren Nachkommabereich. Um mit den vorhandenen Daten möglichst ezient arbeiten zu können, wurden für die Auswertung die eingebauten Funktionen verwendet, da diese optimiert wurden. Der im Paket implementierte ML-Algorithmus ist für die praktische Anwendung nicht geeignet, da er in die meisten Fällen nicht konvergiert. Der Entwickler greift dabei auf eine R-Optimierungsfunktion zurück, wobei die Abbruchkriterien nicht vollständig deniert sind (Gefahr einer Endlosschleife). Der selbst geschriebene Algorithmus konvergiert aber bereits nach wenigen Schleifendurchläufen. Die weighted least squares Regression zur Schätzung der Parameter und der COM-Poissonness-Plot waren noch in keinem Paket vorhanden, lieferten aber in der Simulationsstudie die selben Schätzer, wie MaximumLikelihood- Schätzung und die Momentenmethode. Für die Berechnungen der Schätzer der Poisson- bzw. Negativ Binomialverteilung wurde auf die im Programm implementierten Methoden zurückgegrien. Dies gilt ebenfalls für den Chi-Quadrat-Test auf Verteilungsanpassung. Hier heiÿt es nur zu beachten, die Parameter in der richtigen Form zu übergeben, um den für diese Problemstellung korrekten Test zu erhalten (wurde durch händisches Nachrechnen überprüft). 24 vgl. Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P., Conjugate Analysis of the ConwayMaxwell-Poisson Distribution, International Society for Bayesian Analysis 2006 40 6 Appendix #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# # COM−Poisson Zufallszahlen #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# l i b r a r y ( compoisson ) nu=2.14 lambda =7.68 n=1000 . seed (12345) z u f a l l=r u n i f ( n , 0 , 1 ) z a h l=c ( ) set for ( i in 1: n){ prob=com . compute . z ( lambda , nu ) ^( − 1) sum=com . compute . z ( lambda , nu ) ^( − 1) j =0 while ( sum<=z u f a l l [ i ] ) { prob=prob ∗ lambda / ( j +1)^nu sum=sum+prob c a t ( j , " prob : " , prob , " sum : " , sum , "\n" ) j=j +1 } z a h l=c ( zahl , j ) } table ( zahl ) #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# #Vergleich mit R−Paket #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# . seed (12345) t a b l e ( rcom ( 1 0 0 0 , 7 . 6 8 , 2 . 1 4 ) ) set #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# # Berechnung von Z #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# l i b r a r y ( compoisson ) nu=2.14 lambda =7.68 41 e r r o r =0.001 z=f u n c t i o n ( lambda , nu , e r r o r ) { change=1 sum=0 j =0 while ( change>=e r r o r ) { sum_a l t=sum sum=sum_a l t+lambda^ j / f a c t o r i a l ( j )^nu change=abs ( sum−sum_a l t ) j=j +1 } return ( sum ) } #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# #Vergleich mit R−Paket #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# com . compute . z ( lambda , nu ) z ( lambda , nu , e r r o r ) #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# # COM−Poisson expectation function #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# l i b r a r y ( compoisson ) nu=2.14 lambda =7.68 e r r o r =0.001 e x p e c t=f u n c t i o n ( e , lambda , nu , e r r o r ) { f=f u n c t i o n ( x , e ) x^e change=1 e x p e c t f=0 j =1 while ( change>=e r r o r ) { e x p e c t f_a l t=e x p e c t f e x p e c t f=e x p e c t f_a l t +( f ( j , e ) ∗ lambda^ j ) / ( z ( lambda , nu , e r r o r ) ∗ f a c t o r i a l ( j )^nu ) change=abs ( e x p e c t f − e x p e c t f_a l t ) j=j +1 } return ( e x p e c t f ) } 42 #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# #Vergleich mit R−Paket #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# #Erwartungswert x=f u n c t i o n ( x ) x com . e x p e c t a t i o n ( x , lambda , nu ) #the same com . mean ( lambda , nu ) e x p e c t ( 1 , lambda , nu , e r r o r ) #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# # Bsp . Poissonness −Plot #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# k=0:7 x_k=l o g ( matrix [ , 2 ] ) g e s=x_k+l o g ( f a c t o r i a l ( k ) ) plot ( k , ges , pch =20 ,main=" P o i s s o n n e s s Plot " , ylab=e x p r e s s i o n ( paste ( " l o g ( " , x [ k ] , " )+" , " l o g ( " , x [ k ] , " ! ) " ) ) ) #Schätzer berechnen lambdadach=sum ( k ∗ matrix [ , 2 ] ) / n #geschätzte Gerade a b l i n e ( l o g ( n )−lambdadach , l o g ( lambdadach ) , c o l=" red " , l t y =2) #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# # MLE − Estimation #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# com . ml=f u n c t i o n ( random , n ) { x1=f u n c t i o n ( x ) x x2=f u n c t i o n ( x ) x^2 l x=f u n c t i o n ( x ) l o g ( f a c t o r i a l ( x ) ) l x 2=f u n c t i o n ( x ) { z=( l o g ( f a c t o r i a l ( x ) ) ) d=z ^2; return ( d ) } x l x=f u n c t i o n ( x ) x ∗ l o g ( f a c t o r i a l ( x ) ) thetanew = epsrel = 1 c ( l o g ( mean ( random ) ) ,1) 43 iterations = 0 while ( e p s r e l > 10^( − 5) ) { t h e t a = thetanew #Berechnet E(X) ex=com . e x p e c t a t i o n ( x1 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) #Berechnet VAR(X) vx=com . e x p e c t a t i o n ( x2 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) −com . e x p e c t a t i o n ( x1 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) ^2 #E( log (X ! ) ) e l x=com . e x p e c t a t i o n ( lx , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) #VAR( log (X ! ) ) v l x=com . e x p e c t a t i o n ( lx2 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) −com . e x p e c t a t i o n ( lx , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) ^2 #COV(X, log (X ! ) ) c x l x=com . e x p e c t a t i o n ( xlx , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) −com . e x p e c t a t i o n ( x1 , exp ( t h e t a [ 1 ] ) , t h e t a [ 2 ] ) ∗com . e x p e c t a t i o n ( lx , exp ( t h e t a [ 1 ] ) , t h e t a [2]) #Formel von Seite 7 g r a d i e n t=c ( mean ( random )−ex , −mean ( l o g ( f a c t o r i a l ( random ) ) )+e l x ) ∗ n g r a d i e n t d 2=matrix ( c (− vx , cxlx , cxlx , − v l x ) , nrow=2,byrow=TRUE) ∗ n i n v g r a d i e n t d 2=s o l v e ( g r a d i e n t d 2 ) #neues Theta thetanew=theta − i n v g r a d i e n t d 2 % ∗ % g r a d i e n t e p s r e l=max( abs ( ( thetanew −t h e t a ) / t h e t a ) ) i t e r a t i o n s = i t e r a t i o n s +1 } iterations return ( l i s t ( lambda=exp ( thetanew [ 1 ] ) , nu=thetanew [ 2 ] ) ) } #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# # Weighted l e a s t squares Regrerssion #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# com . weighted= 44 f u n c t i o n ( matrix , anzahl ) { var =(1 / ( matrix [ 1 : ( length ( matrix [ , 1 ] ) − 1) , 2 ] ∗ anzahl ) ) +(1 / ( matrix [ 2 : length ( matrix [ , 1 ] ) , 2 ] ∗ anzahl ) ) cov=−(1/ ( matrix [ 2 : ( length ( matrix [ , 1 ] ) − 1) , 2 ] ∗ anzahl ) ) t e s t=matrix [ , 2 ] / anzahl x=l o g ( seq ( 1 : ( length ( matrix [ , 1 ] ) −1) ) ) y=l o g ( t e s t [ 1 : ( length ( matrix [ , 1 ] ) −1) ] ) −l o g ( t e s t [ 2 : length ( matrix [ , 1 ] ) ] ) weight=diag ( var ) f o r ( i i n 1 : ( length ( weight [ , 2 ] ) − 1) ) { weight [ i , i +1]= cov [ i ] ; weight [ i +1, i ]= cov [ i ] } X=matrix ( c ( rep ( 1 , length ( x ) ) , x ) , nrow=length ( x ) , n c o l =2) inv=s o l v e ( weight ) s c h ä t z e r=s o l v e ( t (X)%∗% inv %∗% X) %∗% t (X) %∗% inv %∗% y e r g= l i s t (Lambda=exp(− s c h ä t z e r [ 1 ] ) , nu=s c h ä t z e r [ 2 ] , S t e i g u n g=s c h ä t z e r [ 1 ] ) return ( e r g ) } #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# # COM − Poissonness Plot #−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−# com . p l o t= f u n c t i o n ( matrix , anzahl ) { t e s t=matrix [ , 2 ] / anzahl x=l o g ( seq ( 1 : ( length ( matrix [ , 1 ] ) −1) ) ) y=l o g ( t e s t [ 1 : ( length ( matrix [ , 1 ] ) −1) ] ) −l o g ( t e s t [ 2 : length ( matrix [ , 1 ] ) ]) e r g=com . weighted ( matrix , anzahl ) p l o t ( x , y , pch =20 ,main="COM− P o i s s o n Plot " , xlab=" l n ( x ) " , ylab=" l n ( x − 1)− ln (x)") a b l i n e ( as . numeric ( e r g [ 3 ] ) , as . numeric ( e r g [ 2 ] ) , c o l=" red " ) return ( e r g ) } 45 7 Literaturverzeichnis Casella G., Berger R.L. Statistical Inference, Second Editon 2002, Duxbury A queuing model with state dependent service rates, Journal of Industrial Engineering 12, (1962), pp. 132-136 Conway R. W., Maxwell, W. L. Einführung in die nichtparametrische Statistik mit SAS und R, 1. Auage (2008), Physica-Verlag Duller C. Wahrscheinlichkeitsrechnung und Statistik, 1. Auage (1989), Wien Springer-Verlag Hafner R. A Poissonness Plot, The American Statistican, Vol. 34, No. 3, (August, 1980), pp. 146-149 Hoaglin D.C. Useful moment and CDF formulations for the COM-Poisson distribution, Statistical Papers, Volume 50, Number 3 (Juni 2009), pp. 617-622 Nadarajah S. Collegiate Scores and the Negative Binomial Distribution, Journal of the American Statistical Association, Vol. 68, No.342 (Jun., 1973), pp. 351-352 Pollard R. Rinne H. Taschenbuch der Statistik, 4. Auage (2008), Harri Deutsch Verlag A Useful Distribution for Fitting Discrete Data:Revival of the COM-Poisson, J. Royal Statist. Soc., Volume 54,(2005), pp. 127-142 Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P. Computing with the COMPoisson distribution, downloaded from: http://www.stat.cmu.edu/tr/tr776/tr776.html Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P. Conjugate Analysis of the Conway-Maxwell-Poisson Distribution, International Society for Bayesian Analysis 2006 Shmueli G., Minka T.P., Kadane J.P., Borle S., Boatwright P. Taschenbuch mathematischer Formeln und moderner Verfahren, 4. Auage (2007), Harri Deutsch Verlag Stöcker H. 46