Franz SZYMANEK: Wahrscheinlichkeitstheorie
Transcription
Franz SZYMANEK: Wahrscheinlichkeitstheorie
Seminar für Lehramt Mathematik Fabian Szymanek (0725039) WAHRSCHEINLICHKEIT 13.6.2014 SS2014 Früher noch oft als „Stiefkind“ angesehen, hat die Wahrscheinlichkeitsrechnung hat im Laufe der letzten 20 Jahre einen erheblich bedeutenderen Platz in den Lehrplänen, sowohl jenen der AHS als auch der BHS, eingenommen. Im Folgenden sollen Probleme aufgezeigt und erklärt werden, die mithilfe von Wahrscheinlichkeitsrechnung zu erklären sind und im Schulunterricht klassischerweise nur sehr selten vorkommen, aber durchaus schon einsetzbar wären in verschiedenen Klassenstufen. 1. Wahrscheinlichkeit: Das Nadel-‐Problem von Buffon Georges Louis Leclerc, Comte de Buffon (1707-‐1788) Problem: Wenn man eine Nadel auf liniertes Papier fallen lässt – wie groß ist dann die Wahrscheinlichkeit, dass die Nadel so liegen bleibt, dass sie eine der Linien kreuzt? Die Wahrscheinlichkeit hängt vom Abstand d zwischen den Linien des Papiers ab und von der ! Länge l der Nadel, die wir fallen lassen – bzw. eigentlich nur vom Verhältnis der beiden Längen. Eine „kurze“ Nadel ! wird hier als eine solche verstanden, deren Länge kürzer ist als der Abstand 2er Linien; also eine solche, die niemals 2 Linien kreuzen kann. Die Antwort auf dieses Nadel-‐Problem hat damals überrascht, weil darin die Zahl 𝜋 vorkommt. Satz: Eine kurze Nadel der Länge l werde auf liniertes Papier fallen gelassen, dessen Linien den Abstand 𝑑 ≥ 𝑙 haben. Dann ist die Wahrscheinlichkeit, dass die Nadel in einer Position zu liegen komm, in der sie eine der Linien des Papiers kreuzt genau, 2 l p = . π d Daraus ergibt sich: 𝜋 = !.! !.! ! , und wenn 𝑝 = gesetzt wird, erhält man 𝜋 = ! !.!.! !.! . Dabei ist N die Anzahl der Versuche und P die Anzahl der Nadeln mit Kreuzungspunkt. Im unten angeführten Link ist eine Simulation animiert, die für eine Anzahl N an Nadelwürfen die Näherung zur Kreiszahl Pi veranschaulicht. Im Folgenden sollen nun 2 Beweisideen veranschaulicht werden, die sich im Oberstufenlehrplan gut wiederspiegeln und auch der Vernetzung einiger Teilbereiche dienen könnten. Beweis von Barbier (1860) Es wird von der Idee ausgegangen, dass irgendeine Nadel fallen gelassen wird (Länge egal), womit die Anzahl der zu erwartenden Kreuzungspunkte 𝐸 = 𝑝! + 2. 𝑝! + 3. 𝑝! + ⋯ Die Variablen 𝑝! , 𝑝! , 𝑝! , … bezeichnen dabei die Wahrscheinlichkeit für einen, zwei, drei, etc. Kreuzungspunkte. Buffon will nur die Wahrscheinlichkeit für zumindest einen Kreuzungspunkt erhalten, wodurch sich der Term vereinfacht zu 𝐸 = 𝑝! + 𝑝! + 𝑝! + ⋯ Weiters wird in Buffon’s Setting eine kurze Nadel betrachtet (also mit l < d) , weshalb alle Wahrscheinlichkeiten (𝑝! , 𝑝! , … ) außer 𝑝! gleich Null zu setzen sind und der Term zu E = p zusammenfällt. Die Wahrscheinlichkeit ist daher die erwartete Anzahl an Kreuzungspunkten. Weiters geht nun die Eigenschaft der Linearität des Erwartungswert E(x+y)=E(x)+E(y) ein, die es ermöglicht, Nadeln der Länge l = x+y zu betrachten. Es ist damit auch nicht mehr nötig von geraden Nadeln auszugehen; es können auch krummlinige Nadeln („polygonale Nadeln“) der Länge l betrachtet werden. Mithilfe von Induktion lässt sich zeigen, dass für alle 𝑥 ≥ 0 gilt, dass E(x) = cx lautet. Die Frage ist also nun, wobei es sich bei diesem c handelt. Die zu erwartende Anzahl an Kreuzungspunkten E = c.l geht wieder aus der Linearität des Erwartungswerts hervor. Seminar für Lehramt Mathematik Fabian Szymanek (0725039) WAHRSCHEINLICHKEIT 13.6.2014 SS2014 Der entscheidende Schritt ist nun, sich die polygonalen Nadeln als Kreis C mit Durchmesser d vorzustellen (ein Kreis kann ja als regelmäßiges n-‐Eck mit unendlich vielen Ecken betrachtet werden) und daher der Länge 𝑙 = 𝑑. 𝜋. Da der Durchmesser genau gleich dem Abstand der Linien ist, erhält man in jedem Fall 2 Kreuzungspunkte. Die Kreislinie kann, wie bereits erwähnt, durch Polygone approximiert werden. Wenn wir uns nun ein dem Kreis umschriebenes Polygon 𝑃 ! und ein dem Kreis eingeschriebenes Polygon 𝑃! als Nadeln der Länge l vorstellen, dann trifft die Erwartung bzgl. der Anzahl der Kreuzungspunkte sowohl auf den Kreis als auch auf beide Polygone zu. Es gilt also: 𝐸 𝑃! ≤ 𝐸(𝐶) ≤ 𝐸(𝑃 ! ). Für die C (den Kreis) ist die Anzahl der Kreuzungspunkte genau 2, für die beiden Polygone erwartet eine Anzahl von Kreuzungspunkten, die dem Produkt des oben erwähnten Faktors c und der Länge entspricht. Daraus ergibt sich Im Grenzfall lim!→! 𝑐. 𝑙 𝑃! ≤ 2 ≤ 𝑐. 𝑙(𝑃 ! ). ergibt sich daher: lim 𝑐. 𝑙(𝑃! ) = 𝑑𝜋 = lim 𝑐. 𝑙(𝑃 ! ) !→! !→! !! und daraus folgt mit 𝑛 → ∞: 𝑐 . 𝑑𝜋 ≤ 2 ≤ 𝑐. 𝑑𝜋, woraus sich 𝑐 = schließen lässt. !! Beweis mithilfe eines Integrals Eine Nadel kommt auf dem Blatt zu liegen und schließt mit den Linien einen Winkel 𝛼 ein. Es müssen nur Winkel des Intervalls 0; ! ! betrachtet werden, da alle anderen Fälle symmetrisch sind und daher gleich wahrscheinlich. Damit hat eine Nadel, die unter dem Winkel 𝛼 zu liegen kommt eine Höhe h = 𝑙 . sin (𝛼) und daraus ergibt sich die Wahrscheinlichkeit für einen !.!"# (!) Kreuzungspunkt zu . ! Mithilfe des Integrals lässt sich nun der Mittelwert über alle möglichen Winkel 𝛼 bilden – es folgt also: 2 𝑝= 𝜋 ! ! ! 𝑙. sin 𝛼 2 𝑙 . 𝑑𝛼 = . . −cos (𝛼) 𝑑 𝜋 𝑑 ! ! ! = 2 𝑙 . 𝜋 𝑑 Veranschaulichung: http://www.mathematik.ch/anwendungenmath/wkeit/buffon/index.php?gfx=0&n=500 2. Statistik: Das Simpsonsche Problem (E.H.Simpson, *1922) Grundproblem: Die Auswertung der Daten verschiedener Gruppen ergibt unterschiedliche Ergebnisse, abhängig davon ob man die Ergebnisse der Gruppen verbindet oder nicht. Das Simpson-‐Paradoxon tritt auf, wenn mehrere Vierfeldertafeln mit einem Chancenquotienten kleiner (größer) eins zu einer Gesamttafel zusammengefügt werden, die einen Chancenquotienten größer (kleiner) aufzeigen. Die Interpretation bzw. das kritische Hinterfragen von Statistiken ist auch eine Fähigkeit, die in der Schule schon ab einem sehr frühen Alter der Sekundarstufe (2.Klasse) trainiert werden kann. Das Simpsonsche Problem ist eines, das mathematisch leicht nachvollziehbar ist und dessen graphische Erklärung mit Hilfsmitteln der 4ten Klasse US realisierbar ist. Die Grundproblematik soll an einigen Beispielen veranschaulicht werden: 1) Aufnahmequoten an einer Universität An einer Uni wird den Vorständen der einzelnen Fachbereiche vorgeworfen, dass sie Frauen in der Aufnahme benachteiligen (47% der männl. und 31% der weibl. Bewerber wurden uniweit aufgenommen). Die einzelnen Vorstände rechtfertigen sich, dass in ihren jeweiligen Abteilungen der Prozentsatz der aufgenommenen Frauen immer höher ist, als jeder der Männer. Wer hat nun Recht? Seminar für Lehramt Mathematik Fabian Szymanek (0725039) WAHRSCHEINLICHKEIT 13.6.2014 SS2014 2) „Abgespeckter Triathlon“ 2 Sportler absolvieren eine Gesamtstrecke von 10km laufend und schwimmend. Sportler A läuft mit 15km/h und schwimmt mit 4km/h, während Sportler B mit 12km/h läuft und mit 3km/h schwimmt. Trotzdem legt Sportler B die Gesamtstrecke in 28 Minuten weniger zurück als Sportler A (2h 08min). Wie kann das sein? 3) Fluglinien – Pünktlichkeitsstatistik Die Pünktlichkeit 2er amerikanischer Fluglinien wird überprüft. Anhand von 5 Flughäfen soll das festgestellt werden und es stellt sich heraus, dass der Anteil verspäteter Flüge an allen 5 Flughäfen bei der American West höher ist als bei der Alaska Airlines. Trotzdem liegt der Prozentsatz aller verspäteten Flüge bei der Alaska Airlines erheblich höher als bei der American West. Wie kann das sein? Was alle diese Szenarien gemein haben, ist eine sogenannte „verborgene Variable – ein Umstand, der in der Gesamtschau nicht berücksichtigt worden ist“. Hintergrundinformationen, die aus der Statistik an sich nicht direkt hervortreten, sind in eine Interpretation mit einzubeziehen – sprich das Gesamtbild muss betrachtet werden. Bei den Aufnahmequoten bleibt völlig unberücksichtigt, dass es scheinbar so ist, dass Frauen sich tendentiell eher für die „schwereren“ (jene mit niedrigerer Aufnahmequote) Studienrichtungen entscheiden und dort natürlich (in Absolutwerten gemessen) wenig Frauen aufgenommen werden. Dies lässt dann die verzerrte Optik der Diskriminierung von Frauen zu. Beim abgespeckten Triathlon geht die Information, dass unterschiedliche Teilstrecken gelaufen und geschwommen werden, erst nachgereicht. Im Falle der Pünktlichkeitsstatistik übersieht man eventuell, dass die Anzahl der „Alaska Airlines“ Flüge in Seattle erheblich höher ist als überall anders, weil Seattle der Hub dieser Fluglinie ist. Dasselbe gilt für „American West“ und Phoenix – die Frequenz, in der bestimmte Flughäfen von den jeweiligen Fluglinien angeflogen werden, bleibt in der Statistik unberücksichtigt. Als Abhilfe schlägt Simpson die graphische Darstellung vor. Nehmen wir das Beispiel der Läufer. Wenn man die Bewegung der einzelnen Teilabschnitte in Weg-‐ Zeit-‐Diagrammen graphisch darstellt, spiegelt die Steigung der Teilgeraden die Geschwindigkeiten wieder. Man sieht sehr klar, dass die Steigung bei Läufer A immer höher ist als bei Läufer B, aber Läufer A in Summe doch länger braucht (eben wegen der unterschiedlich langen Teilstrecken). Dasselbe Prinzip kann (unter Einhaltung der Verhältnisse) auf die Problematik der Uni-‐Aufnahmen übertragen werden. Die Steigungen geben die einzelnen „Aufnahmeraten“ pro Institut wieder, die Gesamtzahl der Frauen liegt in Summe jedoch merklich unter jener der männl. Bewerber. Allgemein stellt Simpson den Lösungsansatz des Paradoxons mit Vektoren dar. Während die einzelnen Vektoren (Summanden) steiler sein können, ist es durchaus möglich, dass der dazugehörige Summenvektor flacher ist als ein anderer mit flacheren Summanden-‐Vektoren. Quellen: Behrends, Gritzmann, Ziegler (Hrsg.). 2008. „𝜋 & co. – Kaleidoskop der Mathematik“. Berlin, Heidelberg: Springer Verlag. http://de.wikipedia.org/wiki/Simpson-‐Paradoxon#mediaviewer/Datei:Simpsons-‐vector.svg http://www.mathematik.ch/anwendungenmath/wkeit/buffon/index.php?gfx=0&n=500