Beispiele mit Lösungsweg
Transcription
Beispiele mit Lösungsweg
Statistik Rechnerübungen Beispiele für die Einführungsstunde mit Lösungsweg Prof. Dr. Peter Plappert Fakultät Grundlagen Für alle Beispiele benötigen Sie die Datei einf_daten.xls. Für Beispiel 1 ist zusätzlich die Datei einf_b1.txt erforderlich. Wenn Sie die nur die Fragestellungen (ohne Lösungswege) nachlesen wollen: Datei einf_beispiele.pdf. Wenn Sie die Endergebnisse vergleichen wollen: Die Datei einf_daten_mit_ergebnissen.xls sieht so aus, wie Ihre Datendatei einf_daten.xls nach Bearbeitung der vier Beispiele aussehen sollte. Damit keine Missverständnisse auftreten: Die hier genannten Beispiele sind nicht die TestatAufgaben sr_aufg_1 bis sr_aufg_4, die Sie selbständig bearbeiten sollen. Beachten Sie auch, dass zwar in hier vorliegenden Beispielen einige wichtige Statistik-Funktionen von Excel erläutert werden, aber nicht alle Funktionen und Optionen angesprochen werden, die bei der Bearbeitung der Testataufgaben benötigt werden. Im Rahmen der Einführungsstunde kann auch nicht auf die grundlegende Bedienung von Excel eingegangen werden. Im Folgenden wird für die meisten Fragestellungen nur ein möglicher Lösungsweg vorgestellt. In vielen Fällen kann man die Beispiele auch auf andere Arten lösen, die hier nicht alle erwähnt werden können. Die Lösungsvorschläge sind eingerückt und eingerahmt. Müssen Sie aus einem Menü auswählen, ist dies durch > Pfeil und Unterstreichung gekennzeichnet. Beispiel 1 In diesem Beispiel sollen die Noten und Punktzahlen einer Klausur ausgewertet werden. Die dazu erforderlichen Daten stehen liegen noch nicht in Excel-Form vor. Sie stehen in der Datei einf_b1.txt in drei Feldern (laufende Nummer, Punktzahl, Note), die durch Leerzeichen getrennt sind. Die Daten sollen in die Datei einf_daten.xls kopiert und dort weiterbearbeitet werden. Folgende Schritte sollen durchgeführt werden: Textdatei einlesen a) Starten Sie Excel und öffnen Sie die Datei einf_daten.xls. Klicken Sie auf die Schaltfläche Start (links unten) und wählen Sie > Microsoft Excel oder > alle Programme > Microsoft Excel. Nach dem Start von Excel wählen Sie > Datei > Öffnen, wählen Sie das Verzeichnis, in dem sich die Datei einf_daten.xls befindet, und doppelklicken Sie auf die Datei. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 1/15 © P. Plappert 21.02.2008 b) Öffnen Sie die Datei einf_b1.txt mit Excel und kopieren Sie die Daten in das Tabellenblatt „Noten-Daten“ der Datei einf_daten.xls, und zwar in die Felder A2 bis C43. > Datei > Öffnen. Wählen Sie dann (unten im Fenster) > Dateityp > Textdateien; wählen Sie anschließend das Verzeichnis, in dem sich die Datei einf_b1.txt befindet, und doppelklicken Sie auf die Datei. Es öffnet sich der Textkonvertierungs-Assistent. In Schritt 1 müssen Sie entscheiden, ob die Daten in Spalten fester Breite stehen oder ob die Felder mit bestimmten Trennzeichen getrennt sind. Hier ist letzteres der Fall; wählen Sie also Dateityp > Getrennt; anschließend > Weiter. In Schritt 2 muss das Trennzeichen zwischen den Feldern ausgewählt werden. Entsprechend den vor a) gemachten Angaben wählen Sie Trennzeichen > Leerzeichen; deaktivieren Sie „Tabstop“ durch > Anklicken des Häkchens; dann > weiter. In Schritt 3 können Sie den Datentyp für jede Spalte festlegen. Wenn Sie die Formatierung der laufenden Nummer behalten wollen, wählen Sie für die Spalte 1 > Text; (sonst wird aus Nummer 07 die Zahl 7). Die beiden anderen Spalten können in unserem Beispiel bei Datentyp „Standard“ belassen werden. Dann > Fertig stellen. Markieren Sie nun die Felder mit den Notendaten, wählen Sie > Bearbeiten > Kopieren, wechseln Sie zur Datei einf_daten.xls, klicken Sie im Tabellenblatt „Noten-Daten“ auf das Feld A2 und wählen Sie > Bearbeiten > Inhalte einfügen > Werte. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 2/15 © P. Plappert 21.02.2008 Häufigkeiten und Prozentanteile berechnen c) Berechnen Sie die Häufigkeiten der Noten „sehr gut“ (1,0 und 1,3), „gut“ (1,7 bis 2,3), „befriedigend“ (2,7 bis 3,3), „ausreichend“ (3,7 und 4,0) und „mangelhaft“ (4,7 und 5,0). Die Ergebnisse sollen in den Feldern G3 bis G7 des Tabellenblatts „Noten-Daten“ stehen. Wir benutzen den Excel-Befehl HÄUFIGKEIT. Damit Excel weiß, welche Klassen wir bilden wollen, müssen wir zunächst eine Tabelle mit den Obergrenzen der gewünschten Klassen anlegen. Geben Sie dazu in die Felder J3 bis J7 die in der Abbildung gezeigten Werte von 1,3 bis 5 ein. Markieren Sie anschließend die Felder, in die die Häufigkeiten eingetragen werden sollen, also die Felder G3 bis G7 neben „sehr gut“ ... „mangelhaft“. Wählen Sie dann > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > HÄUFIGKEIT. Dann > OK. Geben Sie im Feld „Daten“ C2:C43 ein. Klicken Sie dann in das Feld „Klassen“ und geben Sie dort J3:J7 ein. Achtung: Klicken Sie nicht auf OK, denn HÄUFIGKEIT ist eine Matrix-Funktion, die mehrere Felder gleichzeitig ausfüllt. Die Eingabe muss für Matrix-Funktionen abgeschlossen werden durch gleichzeitiges Betätigen der Tasten >Strg + Shift + Enter. (Shift = Hochstelltaste, Enter = Eingabetaste). d) Ergänzen Sie bei c) die Summe. Klicken Sie auf das Feld G8 und anschließend auf das Summensymbol Akzeptieren Sie den Vorschlag der zu summierenden Felder G3:G7 durch Betätigen der Eingabetaste. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 3/15 © P. Plappert 21.02.2008 e) Berechnen Sie, welche prozentualen Anteile auf die Notenstufen „sehr gut“ bis „mangelhaft“ entfallen. Geben Sie die Prozentzahlen als ganze Zahlen (ohne Nachkommastellen) an. Wir benutzen eine selbst eingegebene Berechnungsformel. Eine solche beginnt immer mit einem Gleichheitszeichen =. Geben Sie in das Feld H3 die Formel =100*G3/G8 ein, in das Feld H4 die Formel =100*G4/G8 usw. bis zu Feld H7. Anschließend streichen wir der Übersichtlichkeit halber die Nachkommastellen, z. B. indem wir die Felder H3 bis H7 markieren, bei > Format > Zellen im Register > Zahlen die Kategorie > Zahl wählen und bei > Dezimalstellen 0 eingeben. Dann > OK. Im Feld H8 können wir (so wie bei d) beschrieben) die Summe ergänzen. Säulendiagramm erstellen f) Stellen Sie die Häufigkeiten aus c) mit einem Säulendiagramm dar. Geben Sie dem Diagramm einen passenden Titel, beschriften Sie die Achsen und entfernen Sie die Legende. Fügen Sie das Diagramm als neues Tabellenblatt in die Datei einf_daten.xls ein. Markieren Sie die Felder F2 bis G7. Wählen Sie > Einfügen > Diagramm. Es wird der Diagramm-Assistent geöffnet. In Schritt 1 wählen Sie im Register Standardtypen den Diagrammtyp > Säule; als Diagrammuntertyp belassen Sie den vorgeschlagenen. Dann > Weiter. In Schritt 2 brauchen Sie keine Eingaben vorzunehmen. > Weiter. In Schritt 3 geben Sie im Register > Titel bei Diagrammtitel z. B. „Notenverteilung“, bei Rubrikenachse (X) „Noten“ und bei Größenachse (Y) „Anzahl“ ein. Anschließend wechseln Sie in das Register > Legende und deaktivieren „Legende anzeigen“, indem Sie > in das Kontrollkästchen mit dem Häkchen klicken. > Weiter. In Schritt 4 wählen Sie das Einfügen > Als neues Blatt und geben dem Diagramm am besten einen „sprechenden“ Namen wie „Diagramm Noten“. > Fertig stellen. g) Führen Sie in dem Diagramm die folgenden Umformatierungen durch: g1) Die Farbe der Säulen soll dunkelblau sein. g2) Jede Säule soll mit der zugehörigen Häufigkeit (wie oft gab es diese Note?) beschriftet sein. In Excel-Diagrammen können Sie viele Elemente (z. B. Achsen, Säulen, Beschriftungen...) umformatieren. Das passende Menü öffnet sich durch Doppelklick auf das zu formatierende Element. Doppelklicken Sie also im neuen Tabellenblatt „Diagramm Noten“ auf eine der Säulen. Wählen Sie im Register > Muster bei Fläche das gewünschte > Farbkästchen (dunkelblau) aus. Wechseln Sie dann in das Register > Datenbeschriftung und wählen Sie > Wert aus. Bestätigen Sie mit > OK. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 4/15 © P. Plappert 21.02.2008 g3) Die Beschriftung aus g2) soll in Schriftgröße 14pt in Fettschrift erscheinen. Doppelklicken Sie auf eine der Datenbeschriftungen. Wählen Sie das Register > Schrift und wählen Sie > Schriftschnitt > Fett sowie > Schriftgrad > 14. > OK. Kennzahlen berechnen h) Berechnen Sie Mittelwert, empirische Varianz und empirische Standardabweichung der Punktzahlen. Die Ergebnisse sollen in den Feldern H11 bis H13 des Tabellenblatts „NotenDaten stehen“ und mit 4 Nachkommastellen angegeben werden. Gehen Sie wieder in das Tabellenblatt „Noten-Daten“ auf das Feld H11. Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > MITTELWERT. Dann > OK. Geben Sie bei Zahl1 den Datenbereich B2:B43 ein. > OK. Für empirische Varianz und empirische Standardabweichung gehen Sie analog vor. Die passenden Excel-Funktionen heißen VARIANZ und STABW. Achtung: Da es mehrere Funktionen mit ähnlichen Namen gibt, müssen Sie Acht geben, dass Sie nicht aus Versehen eine falsche Funktion anklicken. Anschließend verringern Sie der Übersichtlichkeit halber die Anzahl der Nachkommastellen, z. B. indem Sie die Felder H11 bis H13 markieren, bei > Format > Zellen im Register > Zahlen die Kategorie > Zahl wählen und bei > Dezimalstellen 4 eingeben. i) Berechnen Sie Median und Spannweite der Punktzahlen, ohne die Punktzahlenliste zu sortieren. (Spannweite = größter Datenwert minus kleinster Datenwert.) Die Ergebnisse sollen in den Feldern H14 und H15 des Tabellenblatts „Noten-Daten“ stehen. Gehen Sie für den Median analog zu h) vor. Die Excel-Funktion heißt MEDIAN. Für die Spannweite geben Sie in das Feld H15 die Berechnungsformel =MAX(B2:B43)-MIN(B2:B43) ein. j) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab. Wählen Sie > Datei > Speichern unter; wechseln Sie (falls erforderlich) das Verzeichnis, in das Sie die Datei speichern möchten, und klicken Sie auf > Speichern. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 5/15 © P. Plappert 21.02.2008 Beispiel 2 Die Daten, die diesem Beispiel zugrunde liegen, sind Angaben über die Weltproduktion von Mais (Körnermais) in Millionen Tonnen. Sie stehen im Tabellenblatt „Mais-Daten“ der Datei einf_daten.xls. (Quelle der Daten: Deutsches Maiskomitee; Stand: Oktober 2005.) Streudiagramm zeichnen a) Erstellen Sie ein Streudiagramm. Fügen Sie dabei das Diagramm als neues Tabellenblatt in die Datei einf_daten.xls ein. Geben Sie dem Diagramm einen passenden Titel, beschriften Sie die Achsen und entfernen Sie die Legende. Markieren Sie die Felder A1 bis B10. Wählen Sie > Einfügen > Diagramm. Es wird der Diagramm-Assistent geöffnet. In Schritt 1 wählen Sie im Register Standardtypen den Diagrammtyp > Punkt (XY); als Diagrammuntertyp belassen Sie den vorgeschlagenen. Dann > Weiter. In Schritt 2 brauchen Sie keine Eingaben vorzunehmen. > Weiter. In Schritt 3 geben Sie im Register > Titel bei Diagrammtitel z. B. „Weltmaisproduktion 1960 - 2004“, bei Rubrikenachse (X) „Jahr“ und bei Größenachse (Y) „Millionen Tonnen“ ein. Anschließend wechseln Sie in das Register > Legende und deaktivieren „Legende anzeigen“, indem Sie > in das Kontrollkästchen mit dem Häkchen klicken. > Weiter. In Schritt 4 wählen Sie das Einfügen > Als neues Blatt und geben dem Diagramm am besten einen „sprechenden“ Namen wie „Diagramm Mais“. > Fertig stellen. Regressionsgerade einzeichnen b) Zeichnen Sie in Ihr Diagramm aus a) die lineare Regressionsgerade ein. Im Diagramm sollen außerdem die Gleichung der Regressionsgeraden und das Bestimmtheitsmaß R 2 erscheinen. Wechseln Sie in das neue Tabellenblatt „Diagramm Mais“ und wählen Sie > Diagramm > Trendlinie hinzufügen. Im Register > Typ belassen Sie den Vorschlag > Trend-/Regressionstyp > Linear. Wechseln Sie dann ins Register > Optionen und klicken Sie die Kontrollkästchen an bei > Gleichung im Diagramm darstellen und bei > Bestimmtheitsmaß im Diagramm darstellen. > OK. c) Ändern Sie die Schriftgröße der Gleichung der Regressionsgeraden auf 12pt. Doppelklicken Sie zum Formatieren auf die Diagrammgleichung, wählen Sie das Register > Schrift und wählen Sie > Schriftgrad > 12. > OK. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 6/15 © P. Plappert 21.02.2008 Korrelationskoeffizienten berechnen d) Berechnen Sie den empirischen Korrelationskoeffizienten r zwischen Jahr und produzierter Maismenge. r soll im Feld G1 stehen. Geben Sie r mit 4 Nachkommastellen an. Gehen Sie wieder in das Tabellenblatt „Mais-Daten“ auf das Feld G1. Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > KORREL. Dann > OK. Geben Sie bei Matrix1 den Datenbereich A2:A10 und bei Matrix 2 den Datenbereich B2:B10 ein. > OK. Anschließend verringern Sie der Übersichtlichkeit halber die Anzahl der Nachkommastellen, z. B. indem Sie das Feld G1 markieren, bei > Format > Zellen im Register > Zahlen die Kategorie > Zahl wählen und bei Dezimalstellen 4 eingeben. e) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab. Wenn Sie die Datei bereits in Beispiel 1 j) abgespeichert haben, genügt zur Sicherung der Änderungen > Datei > Speichern. Anderenfalls wie bei 1 j) vorgehen. Andere Regressionskurven ausprobieren f) Ändern Sie den Typ der Regressionskurve von linear in quadratisch. Wechseln Sie wieder in das Tabellenblatt „Diagramm Mais“. Doppelklicken Sie zum Formatieren auf die Regressionskurve, wählen Sie das Register > Typ und wählen Sie > Trend-/Regressionstyp > Polynomisch und geben Sie bei „Reihenfolge“ den Grad 2 ein. > OK. g) Das Bestimmtheitsmaß R 2 gibt an, wie gut die Regressionskurve die Punktewolke beschreibt (0 = gar nicht, 1 = alle Datenpunkte liegen auf der Regressionskurve). Bei quadratischer Regression ist R 2 größer als bei linearer Regression. Warum ist bei diesem Datensatz trotzdem eine lineare Regression sinnvoller als eine quadratische? Das Bestimmtheitsmaß R 2 ist bei quadratischer Regression nur geringfügig größer als bei linearer Regression (0,9792 gegenüber 0,9788). Unter mehreren ansonsten annähernd gleich guten Regressionskurven sollte man stets die einfachste nehmen: 1.) Aus Gründen der Denkökonomie sollten Zusammenhänge grundsätzlich so einfach wie möglich beschrieben werden. 2.) Bei etwa gleicher Erklärungsgüte sind einfache statistische Modelle zuverlässiger und weniger fehleranfällig als kompliziertere. Dies zeigt sich hier z. B. daran, dass bei linearer Regression y = mx + k nur zwei Parameter (m, k) geschätzt werden müssen, bei quadratischer Regression y = ax 2 + bx + c aber drei (a, b, c). Jede Parameterschätzung verursacht zwangsläufig einen Schätzfehler, daher ist (bei sonst gleich guten Modellen) eines mit weniger Parametern vorzuziehen. (Fortsetzung auf der nächsten Seite) Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 7/15 © P. Plappert 21.02.2008 3.) Bei höheren Potenzen ist meistens auch mit größeren Rundungsfehlern zu rechnen. 4.) Es besteht die Gefahr des „Overfitting“, siehe bei i) unten. h) Machen Sie die Änderung aus f) wieder rückgängig. Mit > Bearbeiten > Rückgängig können Sie Änderungen, die noch nicht abgespeichert sind, rückgängig machen. i) Probieren Sie außerdem eine Regression mit einem Polynom sechsten Grades. Was stellen Sie hier fest? Machen Sie auch diese Änderung anschließend wieder rückgängig. Gehen Sie wie bei f) und h) vor. Wir haben hier einen Fall von „Overfitting“ (= Überanpassung an den Datensatz) vorliegen. Das Regressionspolynom vom Grad 6 läuft fast exakt durch alle Datenpunkte, was man auch am sehr hohen Bestimmtheitsmaß R 2 von 0,9982 erkennen kann. Es liefert aber außerhalb der Datenpunkte unsinnige Werte (z. B. negative Werte zwischen 1962 und 1965) und ist daher für Prognose- oder Trendaussagen unbrauchbar. Bei Polynomen höheren Grades ist die Gefahr von „Overfitting“ groß. Solche Polynome sind oft (wie auch in unserem Beispiel) stark oszillierend (d. h., sie schwanken heftig nach oben und nach unten) und geben in diesem Fall einen den Daten zugrundeliegenden Trend kaum noch wieder. An diesem Beispiel kann man sehen, dass die Regression mit dem höchsten R 2 nicht unbedingt die beste ist. Das Bestimmtheitsmaß ist also nicht das einzige Kriterium zur Auswahl eines Regressionsmodells! Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 8/15 © P. Plappert 21.02.2008 Beispiel 3 In diesem Beispiel lernen Sie einige Statistik-Funktionen kennen, mit denen man Berechnungen bei den wichtigsten diskreten Wahrscheinscheinlichkeitsverteilungen (hypergeometrische Verteilung, Binomialverteilung, Poissonverteilung) durchführen kann. Genaueres über diese Verteilungen erfahren Sie später in der Vorlesung. Hypergeometrische Verteilung a) Sie erhalten eine Lieferung von 50 Glühbirnen. Daraus entnehmen Sie eine Stichprobe von 20 Glühbirnen und testen diese 20 Birnen auf Funktionsfähigkeit. Die Zufallsvariable X gebe die Anzahl der defekten Birnen unter den 20 Glühbirnen der Stichprobe an. Angenommen, in der Lieferung sind 5 defekte Glühbirnen. Unter unseren Annahmen folgt X einer so genannten hypergeometrischen Verteilung X ~ H (20; 50; 5) . Berechnen Sie hierfür a1) die Wahrscheinlichkeit, dass in Ihrer Stichprobe gar keine defekte Glühbirne ist; Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D3. Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > HYPGEOMVERT. Dann > OK. Eine hypergeometrisch verteilte Zufallsvariable X beschreibt das Ziehen einer Stichprobe vom Umfang n ohne Zurücklegen aus N Objekten, von denen M eine bestimmte Eigenschaft haben. Bei uns ist n = 20, N = 50 und M = 5 (besondere Eigenschaft: Glühbirne defekt). In der Excel-Funktion HYPGEOMVERT werden die Objekte mit der bestimmten Eigenschaft „Erfolge“ genannt. [Bei uns müsste man eigentlich eher von „Misserfolgen“ sprechen...] Wenn wir für eine hypergeometrisch verteilte Zufallsvariable X ~ H (n; N ; M ) die Wahrscheinlichkeit P ( X = k ) berechnen wollen (das ist in unserem Beispiel die Wahrscheinlichkeit, genau k defekte Stücke zu ziehen, in Excel-Sprache: k „Erfolge in der Stichprobe“), müssen wir also eingeben: bei > Erfolge_S den Wert k, bei > Umfang_S den Wert n, bei > Erfolge_G den Wert M, bei > Umfang_G den Wert N, für a1) also 0, für a1) also 20, für a1) also 5, für a1) also 50. Anschließend mit > OK bestätigen. a2) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 1 defekte Glühbirne ist; Dies ist die gleiche Fragestellung wie in a1), nur dass hier P ( X = 1) gesucht ist. Wählen Sie in Feld D4 > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > HYPGEOMVERT. Dann > OK. Geben Sie hier ein: bei > Erfolge_S den Wert 1, bei > Umfang_S den Stichprobenumfang n = 20 bei > Erfolge_G die Anzahl M = 5 der Objekte in der Grundgesamtheit, die die uns interessierende Eigenschaft haben („defekt“) bei > Umfang_G den Umfang der Grundgesamtheit N = 50. Bestätigen mit > OK. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 9/15 © P. Plappert 21.02.2008 a3) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 2 defekte Glühbirnen sind; a4) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 3 defekte Glühbirnen sind; Gehen Sie wie bei a1) und a2) vor. Hier ist lediglich für > Erfolge_S der Wert 2 bzw. 3 einzugeben. a5) die Wahrscheinlichkeit, dass in Ihrer Stichprobe höchstens 3 defekte Glühbirnen sind. Die Ergebnisse sollen in den Feldern D3 bis D7 des Tabellenblatts „Diskrete Verteilungen“ der Datei einf_daten.xls stehen und 4 Nachkommastellen haben. Im Gegensatz zu den Funktionen für Binomial- oder Poissonverteilung (siehe b2) und c2) unten) bietet Excel bei der Funktion HYPGEOMVERT nicht die Möglichkeit an, Wahrscheinlichkeiten automatisch zu kumulieren. Wir müssen dies also „von Hand“ machen, indem wir für die Zufallsvariable X, die die Anzahl der Defektstücke angibt, die Formel P ( X ≤ 3) = P( X = 0) + P( X = 1) + P( X = 2) + P ( X = 3) benutzen. Klicken Sie auf das Feld D7 und anschließend auf das Summensymbol Akzeptieren Sie den Vorschlag der zu summierenden Felder D3:D6 durch Betätigen der Eingabetaste. Ändern der Anzahl der Nachkommastellen: Markieren Sie die Felder D3 bis D7, wählen Sie bei > Format > Zellen im Register > Zahlen die Kategorie > Zahl und geben Sie bei > Dezimalstellen 4 ein. Binomialverteilung b) Bei der Massenproduktion bestimmter elektronischer Kleinteile entsteht eine Ausschussquote von 10 %. Sie entnehmen der laufenden Produktion eine Stichprobe vom Umfang 20. Man kann davon ausgehen, dass hierbei verschiedene Stichprobenteile unabhängig voneinander defekt sind. Die Zufallsvariable X gebe die Anzahl der defekten Kleinteile unter diesen 20 Glühbirnen an. Unter den genannten Annahmen folgt X einer so genannten Binomialverteilung X ~ B (20; 0,1) . Berechnen Sie hierfür b1) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 3 defekte Kleinteile sind; Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D11. Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > BINOMVERT. Dann > OK. Eine binomialverteilte Zufallsvariable X beschreibt, wie oft bei n unabhängigen Durchführungen eines Zufallsexperiments ein bestimmtes Ereignis vorkommt, das bei einmaliger Durchführung des Zufallsexperiments mit Wahrscheinlichkeit p auftritt. Bei uns wird das Zufallsexperiment „ein Kleinteil aus der laufenden Produktion ziehen“ n = 20-mal durchgeführt, und uns interessiert das Ereignis „Kleinteil defekt“, das beim Ziehen eines Kleinteils mit Wahrscheinlichkeit p = 0,1 auftritt. In der Sprache von Excel heißt das Eintreten des untersuchten Ereignisses auch hier „Erfolg“. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 10/15 © P. Plappert 21.02.2008 Wenn wir für eine binomialverteilte Zufallsvariable X ~ B(n; p) eine Wahrscheinlichkeit P ( X = k ) berechnen wollen, (das ist in unserem Beispiel die Wahrscheinlichkeit, genau k defekte Stücke zu ziehen, in Excel-Sprache ist k die „Zahl der Erfolge“), müssen wir also eingeben: bei > Zahl_Erfolge den Wert k, für b1) also 3, für b1) also 20, bei > Versuche den Wert n, bei > Erfolgswahrsch den Wert p, für b1) also 0,1, bei > Kumuliert den Wert 0, d. h. nicht kumulieren. Anschließend mit > OK bestätigen. b2) die Wahrscheinlichkeit, dass in Ihrer Stichprobe höchstens 3 defekte Kleinteile sind. Die Ergebnisse sollen in den Feldern D11 und D12 stehen und 4 Nachkommastellen haben. Wählen Sie in Feld D12 wieder > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > BINOMVERT. Dann > OK. Der Unterschied zu b1) besteht darin, dass wir dort die Wahrscheinlichkeit P( X = 3) , genau 3 Defektstücke zu ziehen, berechnet haben, während wir uns hier für die „kumulierte“ Wahrscheinlichkeit P ( X ≤ 3) interessieren, also die Wahrscheinlichkeit, höchstens 3 Defektstücke zu ziehen. Wenn wir für eine binomialverteilte Zufallsvariable X ~ B(n; p) eine „kumulierte“ Wahrscheinlichkeit P( X ≤ k ) berechnen wollen, müssen wir eingeben: bei > Zahl_Erfolge den Wert k, für b2) also 3, für b2) also 20, bei > Versuche den Wert n, bei > Erfolgswahrsch den Wert p, für b2) also 0,1, bei > Kumuliert den Wert 1, d. h. kumulieren. Anschließend mit > OK bestätigen. Das Aufaddieren „von Hand“ wie oben bei a5) ist also bei der Binomialverteilung nicht erforderlich. Formatieren der Zahlen (Anzahl der Nachkommastellen) wie oben bei a5). Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 11/15 © P. Plappert 21.02.2008 Poissonverteilung c) Bei der Produktion einer bestimmten Textilart entstehen zufallsbedingt Gewebefehler. Im Mittel sind es 2 Gewebefehler auf 1 m². Sie entnehmen zufällig ein Textilstück von 1 m² und zählen, wie viele Gewebefehler auf diesem Stück sind. Die Zufallsvariable X gebe die Anzahl festgestellten Gewebefehler an. Unter den genannten Annahmen folgt X einer so genannten Poissonverteilung X ~ Po(2) , dabei ist λ = 2 der Erwartungswert von X (mittlere, d. h. erwartete Anzahl von Fehlern). Berechnen Sie hierfür c1) die Wahrscheinlichkeit, dass in auf Ihrem Textilstück genau 3 Gewebefehler sind; Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D16. Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > POISSON. Dann > OK. Zum Berechnen der Wahrscheinlichkeit P ( X = k ) für eine poissonverteilte Zufallsvariable X ~ Po(λ ) (das ist in unserem Beispiel die Wahrscheinlichkeit, genau k Gewebefehler vorzufinden), müssen wir eingeben: bei > X den Wert k, für c1) also 3, für c1) also 2, bei > Mittelwert den Wert λ , bei > Kumuliert den Wert 0, d. h. nicht kumulieren. Anschließend mit > OK bestätigen. c2) die Wahrscheinlichkeit, dass in auf Ihrem Textilstück höchstens 3 Gewebefehler sind. Die Ergebnisse sollen in den Feldern D16 und D17 stehen und 4 Nachkommastellen haben. Wählen Sie in Feld D17 wieder > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > POISSON. Dann > OK. Zum Berechnen der Wahrscheinlichkeit P( X ≤ k ) für eine poissonverteilte Zufallsvariable X ~ Po(λ ) (das ist in unserem Beispiel die Wahrscheinlichkeit, höchstens k Gewebefehler vorzufinden), müssen wir eingeben: bei > X den Wert k, für c2) also 3, für c2) also 2, bei > Mittelwert den Wert λ , bei > Kumuliert den Wert 1, d. h. kumulieren. Anschließend mit > OK bestätigen. Formatieren der Zahlen (Anzahl der Nachkommastellen) wie oben bei a5). d) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab. > Datei > Speichern. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 12/15 © P. Plappert 21.02.2008 Beispiel 4 In diesem Beispiel lernen Sie einige Statistik-Funktionen kennen, mit denen man Berechnungen bei der wichtigsten stetigen Wahrscheinscheinlichkeitsverteilung, nämlich der Normalverteilung, durchführen kann. Genaueres über die Normalverteilungen erfahren Sie später in der Vorlesung. Eine Maschine füllt Zucker in Packungen. Die Füllmenge variiert zufällig. Die Zufallsvariable X gebe die Füllmenge [in g] einer zufällig ausgewählten Zuckerpackung an. Wir gehen in diesem Beispiel davon aus dass die Zufallsvariable X einer Normalverteilung X ~ N (1000; 9) folgt. In diesem Beispiel ist also der Erwartungswert der Füllmenge µ = 1.000 [g], Varianz der Füllmenge σ 2 = 9 [g²] und Standardabweichung der Füllmenge σ = 9 = 3 [g]. a) Berechnen Sie die Wahrscheinlichkeit, dass die Füllmenge einer zufällig ausgewählten Zuckerpackung bei höchstens 994 g liegt. Das Ergebnis soll im Feld D3 des Tabellenblatts „Normalverteilung“ der Datei ein_daten.xls stehen und 4 Nachkommastellen haben. Wählen Sie in Feld D3 des Tabellenblatts „Normalverteilung > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > NORMVERT. Dann > OK. Zum Berechnen der Wahrscheinlichkeit P( X ≤ k ) für eine normalverteilte Zufallsvariable X ~ N ( µ ; σ 2 ) (das ist in unserm Beispiel die Wahrscheinlichkeit, dass die Füllmenge einer zufällig ausgewählten Packung höchstens k g beträgt), müssen wir eingeben: bei > X den Wert k, bei > Mittelwert den Erwartungswert µ , also hier 994, also hier 1000, bei > Stabwn die Standardabweichung σ , also hier 3, bei > Kumuliert den Wert 1, d. h. kumuliert (Verteilungsfunktion). Anschließend mit > OK bestätigen. Formatieren (Nachkommastellen) wie oben. Wählt man bei NORMVERT für „Kumuliert“ den Wert 1, so wird die so genannte „Verteilungsfunktion“ der normalverteilten Zufallsvariablen X berechnet. Das heißt, in diesem Fall werden die „kumulierten“ Wahrscheinlichkeiten P( X ≤ k ) berechnet, wobei allerdings „Kumulieren“ hier nicht Aufsummieren, sondern Integrieren bedeutet. Dies wird später in der Vorlesung genauer besprochen. b) Berechnen Sie das 1-%-Quantil der Normalverteilung N (1000; 9) . Das ist diejenige Füllmenge, die von einer zufällig ausgewählten Zuckerpackung nur mit einer Wahrscheinlichkeit von 0,01 unterschritten wird. Das Ergebnis soll im Feld D5 stehen und 4 Nachkommastellen haben. Quantile der Normalverteilung berechnet die Funktion NORMINV. Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > NORMINV. Dann > OK. Geben Sie dann ein: bei > Wahrsch bei > Mittelwert den Erwartungswert µ , den Wert 0,01, also hier 1000, bei > Stabwn die Standardabweichung σ , also hier 3. Formatieren (Nachkommastellen) wie oben. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 13/15 © P. Plappert 21.02.2008 c) Schauen Sie in der Excel-Hilfe nach, mit welcher Funktion kann die Quantile der so genannten t-Verteilung berechnen kann. (Es ist nur nach dem Namen der Funktion gefragt. Die Quantile der t-Verteilung werden in Kapitel 5 der Vorlesung genauer erläutert.) Die Hilfefunktion wird aufgerufen, indem Sie in der Hauptmenüzeile > ? > Microsoft Excel-Hilfe wählen. Lassen Sie dort nach Quantile suchen. Unter den angebotenen Funktionen ist TINV die richtige. Zusatzinformation (in den Beispielen nicht gefragt): Beachten Sie, dass (unlogischerweise) TINV eine andere Syntax hat als NORMINV: 99-%-Quantil der Standardnormalverteilung N (0; 1) 99-%-Quantil der t-Verteilung mit 15 Freiheitsgraden =NORMINV(0,99;0;1) =TINV(2*0,01;15) Anstelle der Wahrscheinlichkeit (z. B. hier 0,99) muss man bei dem Quantil der t-Verteilung also das doppelte der Gegenwahrscheinlichkeit eingeben! d) Zeichnen Sie die Dichtefunktion der Zufallsvariablen X im Intervall [990, 1010]. Excel berechnet die Dichtefunktion einer Normalverteilung, wenn bei NORMVERT für „Kumuliert“ der Wert 0 (nicht kumulieren) gewählt wird. Die Funktionswerte der Dichtefunktion werden in diesem Beispiel an mehreren Stellen im Intervall [990, 1010] benötigt, um die Funktionskurve zeichnen zu können. Dazu muss zunächst eine Wertetabelle erstellt werden, was am schnellsten mit dem „automatischen Ausfüllen“ wie folgt geht. Geben Sie in die Felder B8 und B9 die Werte 990 und 991 ein. Markieren Sie die beiden Felder. Klicken Sie mit der linken Maustaste auf das kleine Kästchen rechts unten im markierten Bereich (Ausfüllkästchen; in der Abbildung zeigt ein roter Pfeil darauf). Ziehen Sie das Kästchen bei gedrückter linker Maustaste nach unten bis zum Feld B28. Excel erhöht dabei die Werte in der Spalte B jeweils um die Differenz der beiden markierten Felder, also jeweils um 1. Nach den x-Werten benötigen wir nun die Funktionswerte. Markieren Sie das Feld C8 und wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der Funktion > NORMVERT. Dann > OK. Zum Berechnen der Dichtefunktion geben Sie ein: bei > X nicht den Zahlenwert, sondern den Namen des linken Nachbarfeldes B8 bei > Mittelwert den Erwartungswert µ , also 1000, bei > Stabwn die Standardabweichung σ , also 3, bei > Kumuliert den Wert 0, d. h. nicht kumuliert (Dichtefunktion). Anschließend mit > OK bestätigen. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 14/15 © P. Plappert 21.02.2008 Excel interpretiert die so eingegebene Formel als „berechne die Dichtefunktion einer Normalverteilung N (1000; 9) an der Stelle, die durch den Wert im linken Nachbarfeld gegeben ist“. Wir können die Formel daher für die anderen Stellen kopieren, z. B. dadurch, dass wir C8 markieren, wiederum das Ausfüllkästchen (roter Pfeil) anklicken und es bei gedrückter linker Maustaste bis zum Feld C28 nach unten ziehen. Nachdem die Wertetabelle so erstellt ist, zeichnen wir den Funktionsgraphen als ein Streudiagramm, bei dem die Punkte durch eine „glatte“ Linie verbunden werden, die Punkte selbst aber nicht angezeigt werden. Markieren Sie dazu die Felder B7 bis C28. Wählen Sie > Einfügen > Diagramm. Es wird der Diagramm-Assistent geöffnet. In Schritt 1 wählen Sie im Register Standardtypen den Diagrammtyp > Punkt (XY); als Diagrammuntertyp wählen Sie „Punkte mit interpolierten Linien ohne Datenpunkte“ in der zweiten Reihe rechts. Dann > Weiter. In Schritt 2 brauchen Sie keine Eingaben vorzunehmen. > Weiter. In Schritt 3 geben Sie im Register > Titel bei Diagrammtitel z. B. „Dichte der Normalverteilung N(1000; 9)“, bei Rubrikenachse (X) „x“ und bei Größenachse (Y) „P“ ein. Anschließend können Sie in das Register > Legende wechseln und „Legende anzeigen“ deaktivieren, indem Sie > in das Kontrollkästchen mit dem Häkchen klicken. > Weiter. In Schritt 4 wählen Sie das Einfügen > Als neues Blatt und geben dem Diagramm am besten einen „sprechenden“ Namen wie „Diagramm Dichte NV“. > Fertig stellen. Das Diagramm zeigt eine „Gaußsche Glockenkurve“ als Dichte der Normalverteilung. Später wird besprochen werden, dass sich die Wahrscheinlichkeiten bei Normalverteilungen als Flächen unter der Dichtkurve ergeben. Excel hat das Anzeigeintervall auf der x-Achse etwas vergrößert. Um das Diagramm auf das Intervall [990, 1010] einzuschränken, doppelklicken Sie auf die x-Achse, wählen das Register > Skalierung und geben bei > Minimum den Wert 990 und bei > Maximum den Wert 1010 ein. > OK. e) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab. > Datei > Speichern. Statistik-Rechnerübungen Einführungsstunde einf_beispiele_mit_lösungsweg.pdf, Seite 15/15 © P. Plappert 21.02.2008