Beispiele mit Lösungsweg

Transcription

Beispiele mit Lösungsweg
Statistik Rechnerübungen
Beispiele für die Einführungsstunde mit Lösungsweg
Prof. Dr. Peter Plappert
Fakultät Grundlagen
Für alle Beispiele benötigen Sie die Datei einf_daten.xls.
Für Beispiel 1 ist zusätzlich die Datei einf_b1.txt erforderlich.
Wenn Sie die nur die Fragestellungen (ohne Lösungswege) nachlesen wollen:
Datei einf_beispiele.pdf.
Wenn Sie die Endergebnisse vergleichen wollen:
Die Datei einf_daten_mit_ergebnissen.xls sieht so aus, wie Ihre Datendatei
einf_daten.xls nach Bearbeitung der vier Beispiele aussehen sollte.
Damit keine Missverständnisse auftreten: Die hier genannten Beispiele sind nicht die TestatAufgaben sr_aufg_1 bis sr_aufg_4, die Sie selbständig bearbeiten sollen. Beachten Sie auch,
dass zwar in hier vorliegenden Beispielen einige wichtige Statistik-Funktionen von Excel
erläutert werden, aber nicht alle Funktionen und Optionen angesprochen werden, die bei der
Bearbeitung der Testataufgaben benötigt werden. Im Rahmen der Einführungsstunde kann
auch nicht auf die grundlegende Bedienung von Excel eingegangen werden.
Im Folgenden wird für die meisten Fragestellungen nur ein möglicher Lösungsweg
vorgestellt. In vielen Fällen kann man die Beispiele auch auf andere Arten lösen, die hier nicht
alle erwähnt werden können.
Die Lösungsvorschläge sind eingerückt und eingerahmt. Müssen Sie aus einem
Menü auswählen, ist dies durch > Pfeil und Unterstreichung gekennzeichnet.
Beispiel 1
In diesem Beispiel sollen die Noten und Punktzahlen einer Klausur ausgewertet werden.
Die dazu erforderlichen Daten stehen liegen noch nicht in Excel-Form vor. Sie stehen in der Datei
einf_b1.txt in drei Feldern (laufende Nummer, Punktzahl, Note), die durch Leerzeichen getrennt
sind. Die Daten sollen in die Datei einf_daten.xls kopiert und dort weiterbearbeitet werden.
Folgende Schritte sollen durchgeführt werden:
Textdatei einlesen
a) Starten Sie Excel und öffnen Sie die Datei einf_daten.xls.
Klicken Sie auf die Schaltfläche Start (links unten) und wählen Sie
> Microsoft Excel oder
> alle Programme > Microsoft Excel.
Nach dem Start von Excel wählen Sie
> Datei > Öffnen,
wählen Sie das Verzeichnis, in dem sich die Datei einf_daten.xls befindet, und
doppelklicken Sie auf die Datei.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 1/15
© P. Plappert 21.02.2008
b) Öffnen Sie die Datei einf_b1.txt mit Excel und kopieren Sie die Daten in das Tabellenblatt
„Noten-Daten“ der Datei einf_daten.xls, und zwar in die Felder A2 bis C43.
> Datei > Öffnen.
Wählen Sie dann (unten im Fenster) > Dateityp > Textdateien; wählen Sie
anschließend das Verzeichnis, in dem sich die Datei einf_b1.txt befindet, und
doppelklicken Sie auf die Datei. Es öffnet sich der Textkonvertierungs-Assistent.
In Schritt 1 müssen Sie entscheiden, ob die Daten in Spalten fester Breite stehen oder
ob die Felder mit bestimmten Trennzeichen getrennt sind. Hier ist letzteres der Fall;
wählen Sie also Dateityp > Getrennt; anschließend > Weiter.
In Schritt 2 muss das Trennzeichen zwischen den Feldern ausgewählt werden.
Entsprechend den vor a) gemachten Angaben wählen Sie Trennzeichen
> Leerzeichen; deaktivieren Sie „Tabstop“ durch > Anklicken des Häkchens; dann
> weiter.
In Schritt 3 können Sie den Datentyp für jede Spalte festlegen. Wenn Sie die
Formatierung der laufenden Nummer behalten wollen, wählen Sie für die Spalte 1
> Text; (sonst wird aus Nummer 07 die Zahl 7). Die beiden anderen Spalten können
in unserem Beispiel bei Datentyp „Standard“ belassen werden. Dann > Fertig stellen.
Markieren Sie nun die Felder mit den Notendaten, wählen Sie
> Bearbeiten > Kopieren, wechseln Sie zur Datei einf_daten.xls, klicken Sie im
Tabellenblatt „Noten-Daten“ auf das Feld A2 und wählen Sie
> Bearbeiten > Inhalte einfügen > Werte.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 2/15
© P. Plappert 21.02.2008
Häufigkeiten und Prozentanteile berechnen
c) Berechnen Sie die Häufigkeiten der Noten „sehr gut“ (1,0 und 1,3), „gut“ (1,7 bis 2,3),
„befriedigend“ (2,7 bis 3,3), „ausreichend“ (3,7 und 4,0) und „mangelhaft“ (4,7 und 5,0).
Die Ergebnisse sollen in den Feldern G3 bis G7 des Tabellenblatts „Noten-Daten“ stehen.
Wir benutzen den Excel-Befehl HÄUFIGKEIT. Damit Excel weiß, welche Klassen
wir bilden wollen, müssen wir zunächst eine Tabelle mit den Obergrenzen der
gewünschten Klassen anlegen. Geben Sie dazu in die Felder J3 bis J7 die in der
Abbildung gezeigten Werte von 1,3 bis 5 ein.
Markieren Sie anschließend die Felder, in die die Häufigkeiten eingetragen werden
sollen, also die Felder G3 bis G7 neben „sehr gut“ ... „mangelhaft“.
Wählen Sie dann > Einfügen > Funktion, als Kategorie >Statistik und den Namen der
Funktion > HÄUFIGKEIT. Dann > OK.
Geben Sie im Feld „Daten“ C2:C43 ein. Klicken Sie dann in das Feld „Klassen“ und
geben Sie dort J3:J7 ein.
Achtung: Klicken Sie nicht auf OK, denn HÄUFIGKEIT ist eine Matrix-Funktion,
die mehrere Felder gleichzeitig ausfüllt. Die Eingabe muss für Matrix-Funktionen
abgeschlossen werden durch gleichzeitiges Betätigen der Tasten
>Strg + Shift + Enter. (Shift = Hochstelltaste, Enter = Eingabetaste).
d) Ergänzen Sie bei c) die Summe.
Klicken Sie auf das Feld G8 und anschließend auf das Summensymbol
Akzeptieren Sie den Vorschlag der zu summierenden Felder G3:G7 durch Betätigen
der Eingabetaste.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 3/15
© P. Plappert 21.02.2008
e) Berechnen Sie, welche prozentualen Anteile auf die Notenstufen „sehr gut“ bis „mangelhaft“
entfallen. Geben Sie die Prozentzahlen als ganze Zahlen (ohne Nachkommastellen) an.
Wir benutzen eine selbst eingegebene Berechnungsformel. Eine solche beginnt
immer mit einem Gleichheitszeichen =. Geben Sie in das Feld H3 die Formel
=100*G3/G8 ein, in das Feld H4 die Formel =100*G4/G8 usw. bis zu Feld H7.
Anschließend streichen wir der Übersichtlichkeit halber die Nachkommastellen, z. B.
indem wir die Felder H3 bis H7 markieren, bei > Format > Zellen im Register
> Zahlen die Kategorie > Zahl wählen und bei > Dezimalstellen 0 eingeben.
Dann > OK.
Im Feld H8 können wir (so wie bei d) beschrieben) die Summe ergänzen.
Säulendiagramm erstellen
f) Stellen Sie die Häufigkeiten aus c) mit einem Säulendiagramm dar. Geben Sie dem Diagramm
einen passenden Titel, beschriften Sie die Achsen und entfernen Sie die Legende. Fügen Sie das
Diagramm als neues Tabellenblatt in die Datei einf_daten.xls ein.
Markieren Sie die Felder F2 bis G7. Wählen Sie > Einfügen > Diagramm. Es wird
der Diagramm-Assistent geöffnet.
In Schritt 1 wählen Sie im Register Standardtypen den Diagrammtyp > Säule; als
Diagrammuntertyp belassen Sie den vorgeschlagenen. Dann > Weiter.
In Schritt 2 brauchen Sie keine Eingaben vorzunehmen. > Weiter.
In Schritt 3 geben Sie im Register > Titel bei Diagrammtitel z. B. „Notenverteilung“,
bei Rubrikenachse (X) „Noten“ und bei Größenachse (Y) „Anzahl“ ein.
Anschließend wechseln Sie in das Register > Legende und deaktivieren „Legende
anzeigen“, indem Sie > in das Kontrollkästchen mit dem Häkchen klicken. > Weiter.
In Schritt 4 wählen Sie das Einfügen > Als neues Blatt und geben dem Diagramm am
besten einen „sprechenden“ Namen wie „Diagramm Noten“. > Fertig stellen.
g) Führen Sie in dem Diagramm die folgenden Umformatierungen durch:
g1) Die Farbe der Säulen soll dunkelblau sein.
g2) Jede Säule soll mit der zugehörigen Häufigkeit (wie oft gab es diese Note?) beschriftet
sein.
In Excel-Diagrammen können Sie viele Elemente (z. B. Achsen, Säulen,
Beschriftungen...) umformatieren. Das passende Menü öffnet sich durch Doppelklick
auf das zu formatierende Element.
Doppelklicken Sie also im neuen Tabellenblatt „Diagramm Noten“ auf eine der
Säulen. Wählen Sie im Register > Muster bei Fläche das gewünschte > Farbkästchen
(dunkelblau) aus. Wechseln Sie dann in das Register > Datenbeschriftung und
wählen Sie > Wert aus. Bestätigen Sie mit > OK.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 4/15
© P. Plappert 21.02.2008
g3) Die Beschriftung aus g2) soll in Schriftgröße 14pt in Fettschrift erscheinen.
Doppelklicken Sie auf eine der Datenbeschriftungen. Wählen Sie das Register
> Schrift und wählen Sie > Schriftschnitt > Fett sowie > Schriftgrad > 14. > OK.
Kennzahlen berechnen
h) Berechnen Sie Mittelwert, empirische Varianz und empirische Standardabweichung der
Punktzahlen. Die Ergebnisse sollen in den Feldern H11 bis H13 des Tabellenblatts „NotenDaten stehen“ und mit 4 Nachkommastellen angegeben werden.
Gehen Sie wieder in das Tabellenblatt „Noten-Daten“ auf das Feld H11.
Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der
Funktion > MITTELWERT. Dann > OK.
Geben Sie bei Zahl1 den Datenbereich B2:B43 ein. > OK.
Für empirische Varianz und empirische Standardabweichung gehen Sie analog vor.
Die passenden Excel-Funktionen heißen VARIANZ und STABW.
Achtung: Da es mehrere Funktionen mit ähnlichen Namen gibt, müssen Sie Acht
geben, dass Sie nicht aus Versehen eine falsche Funktion anklicken.
Anschließend verringern Sie der Übersichtlichkeit halber die Anzahl der Nachkommastellen, z. B. indem Sie die Felder H11 bis H13 markieren, bei
> Format > Zellen im Register > Zahlen die Kategorie > Zahl wählen und bei
> Dezimalstellen 4 eingeben.
i) Berechnen Sie Median und Spannweite der Punktzahlen, ohne die Punktzahlenliste zu sortieren.
(Spannweite = größter Datenwert minus kleinster Datenwert.) Die Ergebnisse sollen in den
Feldern H14 und H15 des Tabellenblatts „Noten-Daten“ stehen.
Gehen Sie für den Median analog zu h) vor. Die Excel-Funktion heißt MEDIAN.
Für die Spannweite geben Sie in das Feld H15 die Berechnungsformel
=MAX(B2:B43)-MIN(B2:B43) ein.
j) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab.
Wählen Sie > Datei > Speichern unter; wechseln Sie (falls erforderlich) das
Verzeichnis, in das Sie die Datei speichern möchten, und klicken Sie auf
> Speichern.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 5/15
© P. Plappert 21.02.2008
Beispiel 2
Die Daten, die diesem Beispiel zugrunde liegen, sind Angaben über die Weltproduktion von Mais
(Körnermais) in Millionen Tonnen. Sie stehen im Tabellenblatt „Mais-Daten“ der Datei
einf_daten.xls. (Quelle der Daten: Deutsches Maiskomitee; Stand: Oktober 2005.)
Streudiagramm zeichnen
a) Erstellen Sie ein Streudiagramm. Fügen Sie dabei das Diagramm als neues Tabellenblatt in die
Datei einf_daten.xls ein. Geben Sie dem Diagramm einen passenden Titel, beschriften Sie die
Achsen und entfernen Sie die Legende.
Markieren Sie die Felder A1 bis B10. Wählen Sie > Einfügen > Diagramm. Es wird
der Diagramm-Assistent geöffnet.
In Schritt 1 wählen Sie im Register Standardtypen den Diagrammtyp > Punkt (XY);
als Diagrammuntertyp belassen Sie den vorgeschlagenen. Dann > Weiter.
In Schritt 2 brauchen Sie keine Eingaben vorzunehmen. > Weiter.
In Schritt 3 geben Sie im Register > Titel bei Diagrammtitel z. B.
„Weltmaisproduktion 1960 - 2004“, bei Rubrikenachse (X) „Jahr“ und bei
Größenachse (Y) „Millionen Tonnen“ ein. Anschließend wechseln Sie in das
Register > Legende und deaktivieren „Legende anzeigen“, indem Sie > in das
Kontrollkästchen mit dem Häkchen klicken. > Weiter.
In Schritt 4 wählen Sie das Einfügen > Als neues Blatt und geben dem Diagramm am
besten einen „sprechenden“ Namen wie „Diagramm Mais“. > Fertig stellen.
Regressionsgerade einzeichnen
b) Zeichnen Sie in Ihr Diagramm aus a) die lineare Regressionsgerade ein. Im Diagramm sollen
außerdem die Gleichung der Regressionsgeraden und das Bestimmtheitsmaß R 2 erscheinen.
Wechseln Sie in das neue Tabellenblatt „Diagramm Mais“ und wählen Sie
> Diagramm > Trendlinie hinzufügen. Im Register > Typ belassen Sie den Vorschlag
> Trend-/Regressionstyp > Linear. Wechseln Sie dann ins Register > Optionen und
klicken Sie die Kontrollkästchen an bei > Gleichung im Diagramm darstellen und bei
> Bestimmtheitsmaß im Diagramm darstellen. > OK.
c) Ändern Sie die Schriftgröße der Gleichung der Regressionsgeraden auf 12pt.
Doppelklicken Sie zum Formatieren auf die Diagrammgleichung, wählen Sie das
Register > Schrift und wählen Sie > Schriftgrad > 12. > OK.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 6/15
© P. Plappert 21.02.2008
Korrelationskoeffizienten berechnen
d) Berechnen Sie den empirischen Korrelationskoeffizienten r zwischen Jahr und produzierter
Maismenge. r soll im Feld G1 stehen. Geben Sie r mit 4 Nachkommastellen an.
Gehen Sie wieder in das Tabellenblatt „Mais-Daten“ auf das Feld G1.
Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der
Funktion > KORREL. Dann > OK.
Geben Sie bei Matrix1 den Datenbereich A2:A10 und bei Matrix 2 den Datenbereich
B2:B10 ein. > OK.
Anschließend verringern Sie der Übersichtlichkeit halber die Anzahl der Nachkommastellen, z. B. indem Sie das Feld G1 markieren, bei > Format > Zellen im
Register > Zahlen die Kategorie > Zahl wählen und bei Dezimalstellen 4 eingeben.
e) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab.
Wenn Sie die Datei bereits in Beispiel 1 j) abgespeichert haben, genügt zur
Sicherung der Änderungen > Datei > Speichern. Anderenfalls wie bei 1 j) vorgehen.
Andere Regressionskurven ausprobieren
f) Ändern Sie den Typ der Regressionskurve von linear in quadratisch.
Wechseln Sie wieder in das Tabellenblatt „Diagramm Mais“. Doppelklicken Sie zum
Formatieren auf die Regressionskurve, wählen Sie das Register > Typ und wählen
Sie > Trend-/Regressionstyp > Polynomisch und geben Sie bei „Reihenfolge“ den
Grad 2 ein. > OK.
g) Das Bestimmtheitsmaß R 2 gibt an, wie gut die Regressionskurve die Punktewolke beschreibt
(0 = gar nicht, 1 = alle Datenpunkte liegen auf der Regressionskurve). Bei quadratischer
Regression ist R 2 größer als bei linearer Regression. Warum ist bei diesem Datensatz trotzdem
eine lineare Regression sinnvoller als eine quadratische?
Das Bestimmtheitsmaß R 2 ist bei quadratischer Regression nur geringfügig größer
als bei linearer Regression (0,9792 gegenüber 0,9788).
Unter mehreren ansonsten annähernd gleich guten Regressionskurven sollte man
stets die einfachste nehmen:
1.) Aus Gründen der Denkökonomie sollten Zusammenhänge grundsätzlich so
einfach wie möglich beschrieben werden.
2.) Bei etwa gleicher Erklärungsgüte sind einfache statistische Modelle zuverlässiger
und weniger fehleranfällig als kompliziertere. Dies zeigt sich hier z. B. daran,
dass bei linearer Regression y = mx + k nur zwei Parameter (m, k) geschätzt
werden müssen, bei quadratischer Regression y = ax 2 + bx + c aber drei (a, b, c).
Jede Parameterschätzung verursacht zwangsläufig einen Schätzfehler, daher ist
(bei sonst gleich guten Modellen) eines mit weniger Parametern vorzuziehen.
(Fortsetzung auf der nächsten Seite)
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 7/15
© P. Plappert 21.02.2008
3.) Bei höheren Potenzen ist meistens auch mit größeren Rundungsfehlern zu
rechnen.
4.) Es besteht die Gefahr des „Overfitting“, siehe bei i) unten.
h) Machen Sie die Änderung aus f) wieder rückgängig.
Mit > Bearbeiten > Rückgängig können Sie Änderungen, die noch nicht
abgespeichert sind, rückgängig machen.
i) Probieren Sie außerdem eine Regression mit einem Polynom sechsten Grades. Was stellen Sie
hier fest? Machen Sie auch diese Änderung anschließend wieder rückgängig.
Gehen Sie wie bei f) und h) vor.
Wir haben hier einen Fall von „Overfitting“ (= Überanpassung an den Datensatz)
vorliegen. Das Regressionspolynom vom Grad 6 läuft fast exakt durch alle
Datenpunkte, was man auch am sehr hohen Bestimmtheitsmaß R 2 von 0,9982
erkennen kann. Es liefert aber außerhalb der Datenpunkte unsinnige Werte (z. B.
negative Werte zwischen 1962 und 1965) und ist daher für Prognose- oder
Trendaussagen unbrauchbar.
Bei Polynomen höheren Grades ist die Gefahr von „Overfitting“ groß. Solche
Polynome sind oft (wie auch in unserem Beispiel) stark oszillierend (d. h., sie
schwanken heftig nach oben und nach unten) und geben in diesem Fall einen den
Daten zugrundeliegenden Trend kaum noch wieder.
An diesem Beispiel kann man sehen, dass die Regression mit dem höchsten R 2
nicht unbedingt die beste ist. Das Bestimmtheitsmaß ist also nicht das einzige
Kriterium zur Auswahl eines Regressionsmodells!
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 8/15
© P. Plappert 21.02.2008
Beispiel 3
In diesem Beispiel lernen Sie einige Statistik-Funktionen kennen, mit denen man Berechnungen bei
den wichtigsten diskreten Wahrscheinscheinlichkeitsverteilungen (hypergeometrische
Verteilung, Binomialverteilung, Poissonverteilung) durchführen kann.
Genaueres über diese Verteilungen erfahren Sie später in der Vorlesung.
Hypergeometrische Verteilung
a) Sie erhalten eine Lieferung von 50 Glühbirnen. Daraus entnehmen Sie eine Stichprobe von 20
Glühbirnen und testen diese 20 Birnen auf Funktionsfähigkeit. Die Zufallsvariable X gebe die
Anzahl der defekten Birnen unter den 20 Glühbirnen der Stichprobe an.
Angenommen, in der Lieferung sind 5 defekte Glühbirnen. Unter unseren Annahmen folgt
X einer so genannten hypergeometrischen Verteilung X ~ H (20; 50; 5) . Berechnen Sie hierfür
a1) die Wahrscheinlichkeit, dass in Ihrer Stichprobe gar keine defekte Glühbirne ist;
Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D3.
Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der
Funktion > HYPGEOMVERT. Dann > OK.
Eine hypergeometrisch verteilte Zufallsvariable X beschreibt das Ziehen einer
Stichprobe vom Umfang n ohne Zurücklegen aus N Objekten, von denen M eine
bestimmte Eigenschaft haben. Bei uns ist n = 20, N = 50 und M = 5 (besondere
Eigenschaft: Glühbirne defekt). In der Excel-Funktion HYPGEOMVERT werden die
Objekte mit der bestimmten Eigenschaft „Erfolge“ genannt. [Bei uns müsste man
eigentlich eher von „Misserfolgen“ sprechen...]
Wenn wir für eine hypergeometrisch verteilte Zufallsvariable X ~ H (n; N ; M ) die
Wahrscheinlichkeit P ( X = k ) berechnen wollen (das ist in unserem Beispiel die
Wahrscheinlichkeit, genau k defekte Stücke zu ziehen, in Excel-Sprache: k „Erfolge
in der Stichprobe“), müssen wir also eingeben:
bei > Erfolge_S den Wert k,
bei > Umfang_S den Wert n,
bei > Erfolge_G den Wert M,
bei > Umfang_G den Wert N,
für a1) also 0,
für a1) also 20,
für a1) also 5,
für a1) also 50.
Anschließend mit > OK bestätigen.
a2) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 1 defekte Glühbirne ist;
Dies ist die gleiche Fragestellung wie in a1), nur dass hier P ( X = 1) gesucht ist.
Wählen Sie in Feld D4 > Einfügen > Funktion, als Kategorie >Statistik und den
Namen der Funktion > HYPGEOMVERT. Dann > OK. Geben Sie hier ein:
bei > Erfolge_S den Wert 1,
bei > Umfang_S den Stichprobenumfang n = 20
bei > Erfolge_G die Anzahl M = 5 der Objekte in der Grundgesamtheit, die die uns
interessierende Eigenschaft haben („defekt“)
bei > Umfang_G den Umfang der Grundgesamtheit N = 50. Bestätigen mit > OK.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 9/15
© P. Plappert 21.02.2008
a3) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 2 defekte Glühbirnen sind;
a4) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 3 defekte Glühbirnen sind;
Gehen Sie wie bei a1) und a2) vor. Hier ist lediglich für > Erfolge_S der Wert 2 bzw.
3 einzugeben.
a5) die Wahrscheinlichkeit, dass in Ihrer Stichprobe höchstens 3 defekte Glühbirnen sind.
Die Ergebnisse sollen in den Feldern D3 bis D7 des Tabellenblatts „Diskrete Verteilungen“ der
Datei einf_daten.xls stehen und 4 Nachkommastellen haben.
Im Gegensatz zu den Funktionen für Binomial- oder Poissonverteilung (siehe b2)
und c2) unten) bietet Excel bei der Funktion HYPGEOMVERT nicht die
Möglichkeit an, Wahrscheinlichkeiten automatisch zu kumulieren.
Wir müssen dies also „von Hand“ machen, indem wir für die Zufallsvariable X, die
die Anzahl der Defektstücke angibt, die Formel
P ( X ≤ 3) = P( X = 0) + P( X = 1) + P( X = 2) + P ( X = 3) benutzen.
Klicken Sie auf das Feld D7 und anschließend auf das Summensymbol
Akzeptieren Sie den Vorschlag der zu summierenden Felder D3:D6 durch Betätigen
der Eingabetaste.
Ändern der Anzahl der Nachkommastellen: Markieren Sie die Felder D3 bis D7,
wählen Sie bei > Format > Zellen im Register > Zahlen die Kategorie > Zahl und
geben Sie bei > Dezimalstellen 4 ein.
Binomialverteilung
b) Bei der Massenproduktion bestimmter elektronischer Kleinteile entsteht eine Ausschussquote
von 10 %. Sie entnehmen der laufenden Produktion eine Stichprobe vom Umfang 20. Man kann
davon ausgehen, dass hierbei verschiedene Stichprobenteile unabhängig voneinander defekt
sind.
Die Zufallsvariable X gebe die Anzahl der defekten Kleinteile unter diesen 20 Glühbirnen an.
Unter den genannten Annahmen folgt X einer so genannten Binomialverteilung
X ~ B (20; 0,1) . Berechnen Sie hierfür
b1) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 3 defekte Kleinteile sind;
Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D11.
Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der
Funktion > BINOMVERT. Dann > OK.
Eine binomialverteilte Zufallsvariable X beschreibt, wie oft bei n unabhängigen
Durchführungen eines Zufallsexperiments ein bestimmtes Ereignis vorkommt, das
bei einmaliger Durchführung des Zufallsexperiments mit Wahrscheinlichkeit p
auftritt. Bei uns wird das Zufallsexperiment „ein Kleinteil aus der laufenden
Produktion ziehen“ n = 20-mal durchgeführt, und uns interessiert das Ereignis
„Kleinteil defekt“, das beim Ziehen eines Kleinteils mit Wahrscheinlichkeit p = 0,1
auftritt.
In der Sprache von Excel heißt das Eintreten des untersuchten Ereignisses auch hier
„Erfolg“.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 10/15
© P. Plappert 21.02.2008
Wenn wir für eine binomialverteilte Zufallsvariable X ~ B(n; p) eine
Wahrscheinlichkeit P ( X = k ) berechnen wollen, (das ist in unserem Beispiel die
Wahrscheinlichkeit, genau k defekte Stücke zu ziehen, in Excel-Sprache ist k die
„Zahl der Erfolge“), müssen wir also eingeben:
bei > Zahl_Erfolge den Wert k,
für b1) also 3,
für b1) also 20,
bei > Versuche den Wert n,
bei > Erfolgswahrsch den Wert p, für b1) also 0,1,
bei > Kumuliert den Wert 0, d. h. nicht kumulieren.
Anschließend mit > OK bestätigen.
b2) die Wahrscheinlichkeit, dass in Ihrer Stichprobe höchstens 3 defekte Kleinteile sind.
Die Ergebnisse sollen in den Feldern D11 und D12 stehen und 4 Nachkommastellen haben.
Wählen Sie in Feld D12 wieder > Einfügen > Funktion, als Kategorie >Statistik und
den Namen der Funktion > BINOMVERT. Dann > OK.
Der Unterschied zu b1) besteht darin, dass wir dort die Wahrscheinlichkeit
P( X = 3) , genau 3 Defektstücke zu ziehen, berechnet haben, während wir uns hier
für die „kumulierte“ Wahrscheinlichkeit P ( X ≤ 3) interessieren, also die
Wahrscheinlichkeit, höchstens 3 Defektstücke zu ziehen.
Wenn wir für eine binomialverteilte Zufallsvariable X ~ B(n; p) eine „kumulierte“
Wahrscheinlichkeit P( X ≤ k ) berechnen wollen, müssen wir eingeben:
bei > Zahl_Erfolge den Wert k,
für b2) also 3,
für b2) also 20,
bei > Versuche den Wert n,
bei > Erfolgswahrsch den Wert p, für b2) also 0,1,
bei > Kumuliert den Wert 1, d. h. kumulieren.
Anschließend mit > OK bestätigen.
Das Aufaddieren „von Hand“ wie oben bei a5) ist also bei der Binomialverteilung
nicht erforderlich.
Formatieren der Zahlen (Anzahl der Nachkommastellen) wie oben bei a5).
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 11/15
© P. Plappert 21.02.2008
Poissonverteilung
c) Bei der Produktion einer bestimmten Textilart entstehen zufallsbedingt Gewebefehler. Im Mittel
sind es 2 Gewebefehler auf 1 m².
Sie entnehmen zufällig ein Textilstück von 1 m² und zählen, wie viele Gewebefehler auf diesem
Stück sind. Die Zufallsvariable X gebe die Anzahl festgestellten Gewebefehler an. Unter den
genannten Annahmen folgt X einer so genannten Poissonverteilung X ~ Po(2) , dabei ist
λ = 2 der Erwartungswert von X (mittlere, d. h. erwartete Anzahl von Fehlern).
Berechnen Sie hierfür
c1) die Wahrscheinlichkeit, dass in auf Ihrem Textilstück genau 3 Gewebefehler sind;
Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D16.
Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der
Funktion > POISSON. Dann > OK.
Zum Berechnen der Wahrscheinlichkeit P ( X = k ) für eine poissonverteilte
Zufallsvariable X ~ Po(λ ) (das ist in unserem Beispiel die Wahrscheinlichkeit,
genau k Gewebefehler vorzufinden), müssen wir eingeben:
bei > X den Wert k,
für c1) also 3,
für c1) also 2,
bei > Mittelwert den Wert λ ,
bei > Kumuliert den Wert 0, d. h. nicht kumulieren.
Anschließend mit > OK bestätigen.
c2) die Wahrscheinlichkeit, dass in auf Ihrem Textilstück höchstens 3 Gewebefehler sind.
Die Ergebnisse sollen in den Feldern D16 und D17 stehen und 4 Nachkommastellen haben.
Wählen Sie in Feld D17 wieder > Einfügen > Funktion, als Kategorie >Statistik und
den Namen der Funktion > POISSON. Dann > OK.
Zum Berechnen der Wahrscheinlichkeit P( X ≤ k ) für eine poissonverteilte
Zufallsvariable X ~ Po(λ ) (das ist in unserem Beispiel die Wahrscheinlichkeit,
höchstens k Gewebefehler vorzufinden), müssen wir eingeben:
bei > X den Wert k,
für c2) also 3,
für c2) also 2,
bei > Mittelwert den Wert λ ,
bei > Kumuliert den Wert 1, d. h. kumulieren.
Anschließend mit > OK bestätigen.
Formatieren der Zahlen (Anzahl der Nachkommastellen) wie oben bei a5).
d) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab.
> Datei > Speichern.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 12/15
© P. Plappert 21.02.2008
Beispiel 4
In diesem Beispiel lernen Sie einige Statistik-Funktionen kennen, mit denen man Berechnungen bei
der wichtigsten stetigen Wahrscheinscheinlichkeitsverteilung, nämlich der Normalverteilung,
durchführen kann. Genaueres über die Normalverteilungen erfahren Sie später in der Vorlesung.
Eine Maschine füllt Zucker in Packungen. Die Füllmenge variiert zufällig. Die Zufallsvariable X
gebe die Füllmenge [in g] einer zufällig ausgewählten Zuckerpackung an.
Wir gehen in diesem Beispiel davon aus dass die Zufallsvariable X einer Normalverteilung
X ~ N (1000; 9) folgt. In diesem Beispiel ist also der Erwartungswert der Füllmenge µ = 1.000 [g],
Varianz der Füllmenge σ 2 = 9 [g²] und Standardabweichung der Füllmenge σ =
9 = 3 [g].
a) Berechnen Sie die Wahrscheinlichkeit, dass die Füllmenge einer zufällig ausgewählten
Zuckerpackung bei höchstens 994 g liegt. Das Ergebnis soll im Feld D3 des Tabellenblatts
„Normalverteilung“ der Datei ein_daten.xls stehen und 4 Nachkommastellen haben.
Wählen Sie in Feld D3 des Tabellenblatts „Normalverteilung > Einfügen > Funktion,
als Kategorie >Statistik und den Namen der Funktion > NORMVERT. Dann > OK.
Zum Berechnen der Wahrscheinlichkeit P( X ≤ k ) für eine normalverteilte
Zufallsvariable X ~ N ( µ ; σ 2 ) (das ist in unserm Beispiel die Wahrscheinlichkeit,
dass die Füllmenge einer zufällig ausgewählten Packung höchstens k g beträgt),
müssen wir eingeben:
bei > X den Wert k,
bei > Mittelwert den Erwartungswert µ ,
also hier 994,
also hier 1000,
bei > Stabwn die Standardabweichung σ , also hier 3,
bei > Kumuliert den Wert 1, d. h. kumuliert (Verteilungsfunktion).
Anschließend mit > OK bestätigen. Formatieren (Nachkommastellen) wie oben.
Wählt man bei NORMVERT für „Kumuliert“ den Wert 1, so wird die so genannte
„Verteilungsfunktion“ der normalverteilten Zufallsvariablen X berechnet.
Das heißt, in diesem Fall werden die „kumulierten“ Wahrscheinlichkeiten P( X ≤ k )
berechnet, wobei allerdings „Kumulieren“ hier nicht Aufsummieren, sondern
Integrieren bedeutet. Dies wird später in der Vorlesung genauer besprochen.
b) Berechnen Sie das 1-%-Quantil der Normalverteilung N (1000; 9) . Das ist diejenige Füllmenge,
die von einer zufällig ausgewählten Zuckerpackung nur mit einer Wahrscheinlichkeit von 0,01
unterschritten wird. Das Ergebnis soll im Feld D5 stehen und 4 Nachkommastellen haben.
Quantile der Normalverteilung berechnet die Funktion NORMINV.
Wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen der
Funktion > NORMINV. Dann > OK. Geben Sie dann ein:
bei > Wahrsch
bei > Mittelwert den Erwartungswert µ ,
den Wert 0,01,
also hier 1000,
bei > Stabwn die Standardabweichung σ , also hier 3.
Formatieren (Nachkommastellen) wie oben.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 13/15
© P. Plappert 21.02.2008
c) Schauen Sie in der Excel-Hilfe nach, mit welcher Funktion kann die Quantile der so genannten
t-Verteilung berechnen kann. (Es ist nur nach dem Namen der Funktion gefragt. Die Quantile
der t-Verteilung werden in Kapitel 5 der Vorlesung genauer erläutert.)
Die Hilfefunktion wird aufgerufen, indem Sie in der Hauptmenüzeile
> ? > Microsoft Excel-Hilfe wählen. Lassen Sie dort nach Quantile suchen.
Unter den angebotenen Funktionen ist TINV die richtige.
Zusatzinformation (in den Beispielen nicht gefragt):
Beachten Sie, dass (unlogischerweise) TINV eine andere Syntax hat als NORMINV:
99-%-Quantil der Standardnormalverteilung N (0; 1)
99-%-Quantil der t-Verteilung mit 15 Freiheitsgraden
=NORMINV(0,99;0;1)
=TINV(2*0,01;15)
Anstelle der Wahrscheinlichkeit (z. B. hier 0,99) muss man bei dem Quantil der
t-Verteilung also das doppelte der Gegenwahrscheinlichkeit eingeben!
d) Zeichnen Sie die Dichtefunktion der Zufallsvariablen X im Intervall [990, 1010].
Excel berechnet die Dichtefunktion einer Normalverteilung, wenn bei NORMVERT
für „Kumuliert“ der Wert 0 (nicht kumulieren) gewählt wird.
Die Funktionswerte der Dichtefunktion werden in diesem Beispiel an mehreren
Stellen im Intervall [990, 1010] benötigt, um die Funktionskurve zeichnen zu
können.
Dazu muss zunächst eine Wertetabelle erstellt werden, was am schnellsten mit dem
„automatischen Ausfüllen“ wie folgt geht. Geben Sie in die Felder B8 und B9 die
Werte 990 und 991 ein. Markieren Sie die beiden Felder. Klicken Sie mit der linken
Maustaste auf das kleine Kästchen rechts unten im markierten Bereich (Ausfüllkästchen; in der Abbildung zeigt ein roter Pfeil darauf).
Ziehen Sie das Kästchen bei gedrückter linker Maustaste nach unten bis zum Feld
B28. Excel erhöht dabei die Werte in der Spalte B jeweils um die Differenz der
beiden markierten Felder, also jeweils um 1.
Nach den x-Werten benötigen wir nun die Funktionswerte. Markieren Sie das Feld
C8 und wählen Sie > Einfügen > Funktion, als Kategorie >Statistik und den Namen
der Funktion > NORMVERT. Dann > OK.
Zum Berechnen der Dichtefunktion geben Sie ein:
bei > X nicht den Zahlenwert, sondern den Namen des linken Nachbarfeldes B8
bei > Mittelwert den Erwartungswert µ , also 1000,
bei > Stabwn die Standardabweichung σ , also 3,
bei > Kumuliert den Wert 0, d. h. nicht kumuliert (Dichtefunktion).
Anschließend mit > OK bestätigen.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 14/15
© P. Plappert 21.02.2008
Excel interpretiert die so eingegebene Formel als „berechne die Dichtefunktion einer
Normalverteilung N (1000; 9) an der Stelle, die durch den Wert im linken
Nachbarfeld gegeben ist“.
Wir können die Formel daher für die anderen Stellen kopieren, z. B. dadurch, dass
wir C8 markieren, wiederum das Ausfüllkästchen (roter Pfeil) anklicken und es bei
gedrückter linker Maustaste bis zum Feld C28 nach unten ziehen.
Nachdem die Wertetabelle so erstellt ist, zeichnen wir den Funktionsgraphen als ein
Streudiagramm, bei dem die Punkte durch eine „glatte“ Linie verbunden werden, die
Punkte selbst aber nicht angezeigt werden.
Markieren Sie dazu die Felder B7 bis C28. Wählen Sie > Einfügen > Diagramm. Es
wird der Diagramm-Assistent geöffnet.
In Schritt 1 wählen Sie im Register Standardtypen den Diagrammtyp > Punkt (XY);
als Diagrammuntertyp wählen Sie „Punkte mit interpolierten Linien ohne
Datenpunkte“ in der zweiten Reihe rechts. Dann > Weiter.
In Schritt 2 brauchen Sie keine Eingaben vorzunehmen. > Weiter.
In Schritt 3 geben Sie im Register > Titel bei Diagrammtitel z. B. „Dichte der
Normalverteilung N(1000; 9)“, bei Rubrikenachse (X) „x“ und bei Größenachse (Y)
„P“ ein. Anschließend können Sie in das Register > Legende wechseln und „Legende
anzeigen“ deaktivieren, indem Sie > in das Kontrollkästchen mit dem Häkchen
klicken. > Weiter.
In Schritt 4 wählen Sie das Einfügen > Als neues Blatt und geben dem Diagramm am
besten einen „sprechenden“ Namen wie „Diagramm Dichte NV“. > Fertig stellen.
Das Diagramm zeigt eine „Gaußsche Glockenkurve“ als Dichte der Normalverteilung. Später wird besprochen werden, dass sich die Wahrscheinlichkeiten bei
Normalverteilungen als Flächen unter der Dichtkurve ergeben.
Excel hat das Anzeigeintervall auf der x-Achse etwas vergrößert. Um das Diagramm
auf das Intervall [990, 1010] einzuschränken, doppelklicken Sie auf die x-Achse,
wählen das Register > Skalierung und geben bei > Minimum den Wert 990 und bei >
Maximum den Wert 1010 ein. > OK.
e) Speichern Sie die geänderte Datei einf_daten.xls in Ihr persönliches Verzeichnis ab.
> Datei > Speichern.
Statistik-Rechnerübungen Einführungsstunde
einf_beispiele_mit_lösungsweg.pdf, Seite 15/15
© P. Plappert 21.02.2008