j an

Transcription

j an
Statistik I (B)
Universität Mannheim
Lehrstuhl für Statistik
Toni Stocker
FSS 2007
Foliensymbolik
...
Beginn eines neuen Kapitels (Folienkopf)
Übung
...
Aufgaben für die Übungen
R Programmcode
2
Einführung
3
Organisatorisches
Materialien und Literatur
Termine und Zeiten
Zur Übungsgruppeneinteilung
Prüfungsmodalitäten
Organisatorisches
4
Materialien und Literatur
Lehrmaterialien
Folien (integrativ): Vorlesung + Übungen
Teilweise zusätzliche Übungsmaterialien in den Übungen
Folien i.d.R. wochenweise vor der Vorlesung (Freitag?)
Zu finden unter:
=> http://www.vwl.uni-mannheim.de/mammen/index.html
=> Veranstaltungen => Link unter Statistik I (B)
Organisatorisches – Materialien und Literatur
5
Materialien und Literatur
Literaturempfehlungen
Fahrmeir, Künstler, Pigeot, Tutz: Statistik – Der Weg zur Datenanalyse,
5. Auflage; Berlin, Heidelberg: Springer, 2004.
Schira: Statistische Methoden in der VWL und BWL;
München: Pearson Studium, 2003.
Weiter(führend)e Literatur:
Fahrmeir, u.a. : Arbeitsbuch Statistik, 4. Auflage;
Berlin, Heidelberg: Springer, 2005.
Bamberg, Baur: Statistik, 12 Auflage;
München, Wien: Oldenbourg, 2002.
Bamberg, Baur: Statistik - Arbeitsbuch, 7. Auflage;
München, Wien: Oldenbourg, 2004.
Hartung, Elpelt, Klösener: Statistik – Lehr- und Handbuch der angewandten
Statistik, 13. Auflage; München, Wien: Oldenbourg, 2002.
Organisatorisches – Materialien und Literatur
6
Materialien und Literatur
Software
Die statistische Software R kann unter
http://www.r-project.org/
frei heruntergeladen werden. Dort findet sich auch ein gutes Benutzerhandbuch.
Jegliche Inhalte der Vorlesung mit Bezug auf „R“ sind nicht prüfungsrelevant!
Ein kurzes Beispiel:
Im folgenden wird die Summe der Zahlen
1.6, 4.0, 8.2, 12.7 und 16.3
berechnet.
Programmcode:
x=c(1.6,4.0,8.2,12.7,16.3)
sum(x)
Organisatorisches – Materialien und Literatur
7
Termine und Zeiten
Vorlesung
Tag
Zeit
Raum
Dozent
Montag
10:15-11:45
M 003
Toni Stocker
Dienstag
13:45-15:15
M 003
Toni Stocker
Kontakt:
Sprechstunde: Di, 15:30-17:00 Uhr
Raum:
L7, 3-5, Zi. 143
Telefon:
0621-181-1930
Email:
[email protected]
Organisatorisches – Termine und Zeiten
8
Termine und Zeiten
Übungen
Tag
Zeit
Raum
Übungsleiter
Montag
08:30-10:00
15:30-17:00
17:15-18:45
17:15-18:45
L9, 1-2, 003
L9, 1-2, 009
L9, 1-2, 009
L9, 1-2, 003
Frederic Damköhler
Stefanie Hirsch
Stefanie Hirsch
Alexander Hillert
Mittwoch
10:15-11:45
12:00-13:30
12:00-13:30
L9, 1-2, 003
L7, 3-5, P043
L9, 1-2, 003
Cornelius Goldkamp
Cornelius Goldkamp
Alexander Hillert
Donnerstag
08:30-10:00
08:30-10:00
12:00-13:30
L7, 3-5, P043
L9, 1-2, 003
L9, 1-2, 003
Thomas Fix
Frederic Damköhler
Thomas Fix
Freitag
08:30-10:00
10:15-11:45
L9, 1-2, 003
L9, 1-2, 003
Frederic Junker
Frederic Junker
Organisatorisches – Termine und Zeiten
9
Termine und Zeiten
Kontakt
Übungsleiter
Email
Frederic Damköhler
Stefanie Hirsch
Alexander Hillert
Cornelius Goldkamp
Thomas Fix
Frederic Junker
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
Die Abgabe von bearbeiteten Aufgaben erfolgt via Email an
die jeweiligen Übungsleiter. Die Lösung sollte als Textdatei
(.doc, .txt) im Emailanhang eingereicht werden.
Organisatorisches – Termine und Zeiten
10
Übungsgruppeneinteilung
Online:
=> http://www.vwl.uni-mannheim.de/mammen/index.html
=> Veranstaltungen => Link unter Statistik I (B)
Benutzername: statistik01
Passwort:
statistik1_ss
Beachten Sie die Kleinschreibung!
Die Freischaltung des Passwortes erfolgt am 19.02. gegen 18 Uhr.
Die Eintragung in eine Übungsgruppe ist absolut notwendig!
Organisatorisches - Übungsgruppeneinteilung
11
Prüfungsmodalitäten
Prüfungsleistung:
80% Klausur + 20% Übungsaufgaben im Sinne der Gesamtpunktezahl zur Berechnung
der Prüfungsnote.
Klausur: 3 Stunden, reine MC-Klausur (ohne Taschenrechner)
Beispiel:
Punktezahl
Klausur: 60 (von max. 80)
Übungen: 17 (von max. 20)
Gesamt: 77 (von max. 100)
=> Der Prüfungsnote werden 77 Punkte (von 100) zugrunde gelegt.
Genauere Hinweise zur Bewertung der Übungsaufgaben erfolgen in den Übungen.
Organisatorisches - Prüfungsmodalitäten
12
Einführung in die Statistik
Was versteht man unter Statistik?
Inhaltlicher Überblick
Statistische Grundbegriffe
Einführung in die Statistik
13
Was versteht man unter Statistik?
Begriff und Definition
Herkunft: neulateinisch „status“ (Staat, Zustand)
„Lehre von der Zustandsbeschreibung des Staates“
Brauchbare Definition für unsere Zwecke:
Definition:
Statistik ist die Wissenschaft von der Erhebung, Aufbereitung,
Darstellung, Analyse und Interpretation von Daten.
Daten
Welche Schlüsse
Befragung, Zählung, Ordnen, tabellieren,
Mittelwerte berechnen, können gezogen
Experiment, ...
grafisch darstellen, ... werden?
=> Stichprobe
Einführung in die Statistik - Was versteht man unter Statistik?
14
Was versteht man unter Statistik?
Stichprobentheorie
Beschreibende Statistik
(Erhebungstechniken) (Deskriptive Statistik)
ein weni
g ...
Inhalte von ...
Statistik I
mittels statistischer
Methodik
Schließende Statistik
(Induktive Statistik)
Statistik II
Statistische Methodik speziell in ...
Ökonometrie
Das „Wesentliche“
der Statistik spielt
Multivariate Statistik ...
sich hier ab.
... und allgemeiner im Rahmen vieler Realwissenschaften
Zeitreihenanalyse
Biometrie, Psychometrie, Technometrie, Agrarwissenschaften, ...
Einführung in die Statistik - Was versteht man unter Statistik?
15
Was versteht man unter Statistik?
Ein Beispiel (konstruiert)
Ein Marktforschungsinstituts möchte mittels Telefonumfrage
(Zufallsauswahl/Stichprobe) untersuchen, wie viel Prozent aller
Deutschen mindestens ein Handy besitzen. Einer ein Jahr alten Untersuchung zufolge soll der Anteil bei etwa 67% liegen. Es interessiert nun
auch die Frage, ob der Anteil gestiegen ist.
Auswertung der Befragung
Telefonbefragung (Stichprobe)
Beantwortung der beiden Untersuchungsziele aufgrund der vorliegenden Daten
Einführung in die Statistik - Was versteht man unter Statistik?
16
Was versteht man unter Statistik?
„Wie viele Handys besitzen Sie?“
„Richtige“ Erhebung wird vom
Untersuchungsziel bestimmt
Mögliche Probleme:
Wie viele Leute sollen befragt (angerufen) werden?
Aus welcher Menge und wie soll die Zufallsauswahl erfolgen?
Was ist mit Handybesitzern ohne Telefonanschluss?
Problem der Nichtbeantwortung
Problem unpräziser (nicht verwertbarer) Antworten
Präzision der Frage
...
Einführung in die Statistik - Was versteht man unter Statistik?
17
Was versteht man unter Statistik?
Handy
kein Handy
„Richtige“ Aufbereitung und
Darstellung wird von Erhebung und Untersuchungsziel
bestimmt.
Mögliche Probleme:
Handy
kein Handy
Auszählung:
Ermittlung einer Anzahl von
„Besitzern“ und „Nichtbesitzern“
Wahl einer geeigneten (grafischen) Darstellung
Nichtbeantwortung (wurden diese erfasst?)
Unpräzise (nicht verwertbare) Antworten
(falls diese noch ersichtlich sind)
...
Einführung in die Statistik - Was versteht man unter Statistik?
18
Was versteht man unter Statistik?
Resultat könnte z.B. lauten:
Relativer Anteil der Handybesitzer unter 500 Befragten
beträgt 69%.
„Richtige“ Analyse und Interpretation setzt Kenntnis des
ganzen Prozesses voraus.
Mögliche Probleme:
Stichprobe kann stets zufällig zu „falschen“ Resultaten führen
War Stichprobe groß genug?
Wie groß ist die Aussagekraft (Zuverlässigkeit) der Ergebnisse?
Ist die Handyquote nun gestiegen oder nicht?
Schätz- bzw.
Testproblem
Wie kann das Ergebnis der Untersuchung sachgerecht
wiedergegeben werden?
...
Einführung in die Statistik - Was versteht man unter Statistik?
19
Was versteht man unter Statistik?
Statistik als Wissenschaft
Schätzen
(Punkt- und Konfidenzschätzung)
Testen
Übersichten von Daten
Tabellen
Grafiken
Komprimierung
Maßzahlen ...
Explorative Datenanalyse
(=> Data Mining)
gelegentlich als eigenständiges Gebiet
Wichtiges Grundlagenfach:
Wahrscheinlichkeitsrechnung
(Wahrscheinlichkeitstheorie, Stochastik)
„Elementare Wahrscheinlichkeitsrechnung“
Teil 2 von Statistik I
Einführung in die Statistik - Was versteht man unter Statistik?
20
Inhaltlicher Überblick
Statistik im Bachelorstudium
Statistik I:
Deskriptive Statistik
Elementare Wahrscheinlichkeitsrechnung
Deskriptive Statistik
Statistische Grundbegriffe
Deskription univariater Daten
Statistik II:
Elementare Stichprobentheorie
Induktive Statistik (Schätzen und Testen)
...
Deskription multivariater Daten
Indizes
Elementare Wahrscheinlichkeitsrechnung
Grundlagen der Ökonometrie
Rechnen mit einfachem Mengenkalkül
weiterführend/aufbauend:
Eindimensionale Verteilungen
Mehrdimensionale Verteilungen
Ökonometrie
Zeitreihenanalyse
Exkurs zur schließenden Statistik
Multivariate Statistik ...
Einführung in die Statistik - Inhaltlicher Überblick
21
Statistische Grundbegriffe
Statistische Einheiten und Gesamtheiten
Definition:
Objekte, deren Merkmale in einer gegebenen Fragestellung von Interesse sind
und im Rahmen einer empirischen Untersuchung erhoben, also beobachtet,
erfragt oder gemessen werden sollen, werden als statistische Einheiten (SE)
oder Merkmalsträger bezeichnet. Die Menge aller für eine Fragestellung
relevanten statistischen Einheiten wird als Grundgesamtheit (GG) bezeichnet.
Die möglichen Werte (Kategorien), die ein Merkmal annehmen kann, heißen
Merkmalsausprägungen.
Notwendig:
Definition und Abgrenzung der statistischen Einheiten durch
Identifikationskriterien (zeitlich, räumlich, sachlich).
Typisch für statistische Untersuchungen:
Nicht Untersuchung der ganzen Grundgesamtheit (Totalerhebung), sondern Beschränkung auf eine Teilmenge (Teilgesamtheit) => Teilerhebung, Stichprobe
Problem der „Repräsentativität“
i.d.R. Zufallsmechanismus im Spiel
Einführung in die Statistik - Statistische Grundbegriffe
22
Statistische Grundbegriffe
Merkmalstypen
Qualitative Merkmale
vs.
Quantitative Merkmale
Merkmalsausprägungen
Merkmalsausprägungen sind
sind „artmäßig“
Zahlen
Alter,
Geschlecht,
Personen im Haushalt,
Religionszugehörigkeit,
Einkommen,
Status (verheiratet, ledig, ...), z.B.
Anzahl der Handys,
Handy (Ja/Nein),
...
...
Quantitative Merkmale
Diskrete Merkmale
vs.
Stetige Merkmale
Endlich oder abzählbar unendlich viele verschiedene
Merkmalsausprägungen
Personen im Haushalt,
quasistetig
Alter in Jahren,
Einkommen, ...
Können in einem Intervall
theoretisch jeden reellen Wert
als Ausprägung annehmen
Alter,
Körpergröße,
...
Einführung in die Statistik - Statistische Grundbegriffe
23
Statistische Grundbegriffe
Skalierungsarten
Kardinal skalierte Merkmale (auch metrisch skaliert)
=> i.d.R. quantitative Merkmale
Abstände zwischen Ausprägungen sind sinnvoll interpretierbar
Ordinal skalierte Merkmale
Unter Merkmalsausprägungen gibt es natürliche Rangordnung,
Abstände können nicht sinnvoll interpretiert werden;
z.B. Schulnoten, sozialer Status, Tabellenplatz (Bundesliga), ...
Nominal skalierte Merkmale
Ausprägungen sind Namen oder Kategorien, zwischen Ausprägungen kann nur Gleichheit oder Ungleichheit festgestellt
werden; z.B. Farbe, Fahrzeugmarke, Studiengang, Geschlecht, ...
Beachte:
Merkmal Geschlecht codiert: männlich = 1, weiblich = 0
Signierung
(weiterhin nominal skaliert)
Einführung in die Statistik - Statistische Grundbegriffe
24
Statistische Grundbegriffe
=> Übungen
Eine Firma interessiert sich im Rahmen der Planung von Parkplätzen und dem
Einsatz von firmeneigenen Bussen dafür, in welcher Entfernung ihre Beschäftigten
von der Arbeitsstätte wohnen und mit welchen Beförderungsmitteln die
Arbeitsstätte überwiegend erreicht wird. Sie greift dazu auf eine Untersuchung
zurück, die zur Erfassung der wirtschaftlichen Lage der Mitarbeiterinnen und
Mitarbeiter durchgeführt wurde. Bei der Untersuchung wurden an einem Stichtag
50 Beschäftigte ausgewählt und zu folgenden Punkten befragt:
- Haushaltsgröße (Anzahl der im Haushalt lebenden Personen),
- monatliche Miete,
- Beförderungsmittel, mit dem die Arbeitsstätte überwiegend erreicht wird,
- Entfernung zwischen Wohnung und Arbeitsstätte,
- eigene Einschätzung der wirtschaftlichen Lage mit 1=sehr gut, ..., 5=sehr schlecht.
a) Geben Sie die Grundgesamtheit und die Untersuchungseinheiten an.
b) Welche Ausprägungen besitzen die erhobenen Merkmale, und welches
Skalenniveau liegt ihnen zugrunde?
Einführung in die Statistik - Statistische Grundbegriffe
25
Teil 1: Deskriptive Statistik
26
Univariate Deskription und Exploration von Daten
Verteilungen und ihre Darstellungen
Maßzahlen zur Beschreibung von Verteilungen
Dichtekurven und Normalverteilung*
* kann auch entfallen je nach Zeit
Univariate Deskription und Exploration von Daten
27
Verteilungen und ihre Darstellungen
Häufigkeiten
Ausgangssituation: Stichprobe aus Grundgesamtheit mit Merkmal X
Beispiel 1: X ... Anzahl der Personen in einem Haushalt
Stichprobe vom
Umfang n (=8)
Grundgesamtheit
1
1
...
1
1
2
3
1
2
3
4
1
4
Beobachtungswerte
1
3
2
1
2
3
des Merkmals X
x1 =1 x2 = 1 x3 = 4 x4 = 3 x5 = 2 x6 =1 x7 = 2 x8 = 3
3
1
1
2
3
1
Urliste (Rohdaten)
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
28
Verteilungen und ihre Darstellungen
Absolute und relative Häufigkeiten bei Urliste
n
a1, a2,K , ak
Stichprobenumfang
n (aj ) = nj
Mögliche Ausprägungen eines Merkmals
Absolute Häufigkeit der Ausprägung a j
f (aj ) = f j
Relative Häufigkeit der Ausprägung a j
n1, n2,K , nk
Absolute Häufigkeitsverteilung
f1, f2,K , fk
Relative Häufigkeitsverteilung
bei mindestens
ordinaler Skalierung:
i.d.R. geordnet
a1 p a2 pKp ak
Beachte:
Im Allgemeinen sollte n j > 0 sein. Klar: f j = n j / n.
Beispiel 1 fortgesetzt:
Urliste: x1 =1, x2 = 1, x3 = 4, x4 = 3, x5 = 2, x6 =1, x7 = 2, x8 = 3.
korrespondiert
hier nur zufällig!
Relative Häufigkeitsverteilung:
f1 = 0.375, f2 = 0.25, f3 = 0.25, f4 = 0.125
Ausprägungen: a1 = 1, a2 = 2 , a3 = 3 , a4 = 4
Absolute Häufigkeitsverteilung:
n1 = 3, n2 = 2, n3 = 2, n4 = 1
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
29
Verteilungen und ihre Darstellungen
Beispiel 1: Tabellarische Aufbereitung
j
aj
nj
fj
1
2
3
4
1
2
3
4
3
2
2
1
0.375
0.25
0.25
0.125
8
1
∑
… bei dieser Gelegenheit:
4
∑n
j =1
j
= n1 + n 2 + n 3 + n 4
4
∑
j =1
= 3+ 2 + 2 +1
=8
f j = f1 + f 2 + f 3 + f 4
= 0 . 375 + 0 . 25 + 0 . 25 + 0 . 125
=1
k
Allgemein gilt:
∑n
j =1
j
= n1 + K + n k = n ,
k
∑
j =1
f j = f1 + K + f k = 1
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
30
Verteilungen und ihre Darstellungen
Übung: Rechnen mit Häufigkeiten (und Summenzeichen)
Ein Schreibwarenhändler verkauft Aktenordner in verschiedenen Farben.
In einer Woche führt er eine Strichliste zur Anzahl der verkauften Ordner
einer bestimmten Farbe.
Tag
schwarz
rot
grün
gelb
blau
verkauft
Definiere nun für die Ausprägungen des Merkmals „Farbe“:
a 2 = „rot“ , a 3 = „grün“ ,
a 5 = „blau“ .
a1 = „schwarz“ ,
a 4 = „gelb“ ,
Berechnen Sie die folgenden Ausdrücke:
5
5
(i)
∑n
j =1
j
3
(v)
∑n
j =1
1
, (iii)
n
, (ii) ∑
j =1
5
∑
j =1
nj
n
4
, (iv)
∑
j=2
f j,
5
j
∑n
j =1
j
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
31
Verteilungen und ihre Darstellungen
=> Übungen
Vervollständigen Sie nachstehende Tabelle und berechnen Sie anschließend
die Ausdrücke (i) bis (x).
xj
yj
xjyj
j
10
4
27
48
11
1
2
3
4
5
∑
4
(i)
(v)
4
∑x
∑ (x + y )
(ii)
j
t =1
5
j =1
(viii)
50
6
66
50
∑x
j =1
5
17
10
j
j
5
t
(iii)
j =1
5
(vi)
5
∑x
j =1
2
xj
∑x
(ix)
4
j
− ∑ xj
∑x ∑y
j
j =1
5
5
i =1
j =1
(iv)
j =1
5
j =1
∑∑xx
i
j
j
∑ (2 x
5
j =1
5
(vii)
∑x
j =1
5
j
j
+ 5)
yj
⎛
⎞
(x ) ⎜⎜ ∑ x j ⎟⎟
⎝ j =1 ⎠
2
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
32
Verteilungen und ihre Darstellungen
Beispiel 2: Nettomieten von n = 26 Wohnungen
Daten:
77.31, 104.14, 132.24, 158.91, 163.17, 166.48, 170.04,
181.98, 183.09, 200.84, 210.55, 227.91, 243.44, 255.75,
261.98, 263.21, 269.84, 276.60, 281.21, 311.87, 343.30,
359.17, 361.60, 362.00, 400.05, 533.92.
Tabellarische Aufbereitung mit Klassenbildung
n~j
j
Klasse (cj−1, cj ]
1
2
3
4
5
6
(0, 100]
(100, 200]
(200, 300]
(300, 400]
(400, 500]
(500, 600]
1
8
10
5
1
1
sinnvoll
~
fj
Beachte hier:
n (a j ) = 1,
0.038
0.308
0.385
0.192
0.038
0.038
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
j = 1, K , 26
=> k = n
33
Verteilungen und ihre Darstellungen
Absolute und relative Häufigkeiten bei Klassenbildung
cj−1
Linke Klassengrenze der j-ten Klasse
cj
n~
Rechte Klassengrenze der j-ten Klasse
j
Absolute Häufigkeit der Werte in j-ter Klasse
~
fj
Relative Häufigkeit der Werte in j-ter Klasse
Beachte:
~
~
Im Allgemeinen sollte n j > 0 sein. Klar: f j = n~ j / n.
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
34
Wozu
Grafiken?
35
Verteilungen und ihre Darstellungen
Grafische Darstellungen
Beispiel 1: Elementargrafiken für Personenanzahl in Haushalten
Stabdiagramm, falls
Säule schmal
für nominal, ordinal und
quantitativ diskrete Merkmale geeignet; auch relative Darstellung möglich.
Optimale Darstellung?
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
36
Verteilungen und ihre Darstellungen
Programmcode:
> pie(c("1"=3,"2"=2,"3"=2,"4"=1),main="Kreisdiagramm")
> barplot(c("1"=3,"2"=2,"3"=2,"4"=1),ylab="Absolute
Häufigkeit",xlab="Anzahl von Personen im
Haushalt",main="Säulendiagramm")
> barplot(c("1"=3,"2"=2,"3"=2,"4"=1),horiz=T,
xlab="Absolute Häufigkeit",ylab="Anzahl von
Personen im Haushalt",main="Balkendiagramm")
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
37
Verteilungen und ihre Darstellungen
Säulen, Balken- und Kreisdiagramm
Säulendiagramm:
Trage über a1 , K , a k jeweils eine zur x-Achse senkrechte
Säule mit Höhe n1 , K , n k oder f 1 , K , f k ab.
Balkendiagramm:
Wie Säulendiagramm, aber mit horizontal gelegter x-Achse.
Kreisdiagramm:
Flächen der Kreissektoren proportional zu den Häufigkeiten.
Winkel des j-ten Kreissektors: α j = f j ⋅ 360 o
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
38
Verteilungen und ihre Darstellungen
Beispiel 2: Stamm-Blatt-Diagramm für Nettomieten
The decimal point is 2 digit(s) to the right of the |
0|8
1 | 03
1 | 667788
2 | 0134
2 | 666788
3 | 14
3 | 666
4|0
4|
5|3
Urliste:
(50, 100]
(100, 150]
(150, 200]
13. Beobachtungswert
(350, 400]
für metrisch skalierte
Merkmale geeignet;
Stichprobenumfang sollte
nicht zu groß sein.
77.31, 104.14, 132.24, 158.91,..., 243.44,..., 533.92
13. Beobachtungswert
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
39
Verteilungen und ihre Darstellungen
... alternativ mit kleinerer „Klassenbreite“
The decimal point is 2 digit(s) to the right of the |
(0, 100]
0|8
(100, 200]
1 | 03667788
2 | 0134666788
3 | 14666
13. Beobachtungswert
4|0
5|3
Urliste:
77.31, 104.14, 132.24, 158.91,..., 243.44,..., 533.92
13. Beobachtungswert
Optimale Darstellung? Optimale Klassenbreite? Denkt Software mit?
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
40
Verteilungen und ihre Darstellungen
Programmcode:
> x=c(77.31,104.14,132.24,158.91,...,243.44,...,533.92)
> stem(x)
2. Darstellung mit kleinerer
> stem(x,scale=0.5)
Klassenbreite
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
41
Was ist eine
gute grafische
Darstellung?
42
Verteilungen und ihre Darstellungen
Stamm-Blatt-Diagramm
1. Teile den Datenbereich in Intervalle gleicher Breite ein.
Trage die erste(n) Ziffer(n) der Werte im jeweiligen Intervall
links von einer senkrechten Linie der Größe nach geordnet ein.
Dies ergibt den Stamm.
2. Runde die beobachteten Werte auf die Stelle, die nach den
Ziffern des Stamms kommt. Die resultierenden Ziffern ergeben
die Blätter. Diese werden zeilenweise und der Größe nach
geordnet rechts vom Stamm eingetragen.
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
43
Verteilungen und ihre Darstellungen
Beispiel 2: Histogramm (Häufigkeitsdichte) für Nettomieten mit 6 Klassen
100
j
0.385
0.385/100
= 0.00385
1
2
3
4
5
6
(cj−1, cj ]
~
fj
(0, 100]
(100, 200]
(200, 300]
(300, 400]
(400, 500]
(500, 600]
0.038
0.308
0.385
0.192
0.038
0.038
„Häufigkeitsdichte“: 0.385% pro Einheit
Beachte: Gesamtfläche = 1
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
44
Verteilungen und ihre Darstellungen
Beispiel 2: Arbeitstabelle für Histogramm mit 6 Klassen
~
~
(c , c ]
d
n~
j
f
f /d
j −1
1
2
3
4
5
6
j
(0, 100]
(100, 200]
(200, 300]
(300, 400]
(400, 500]
(500, 600]
j
j
j
100
100
100
100
100
100
1
8
10
5
1
1
0.038
0.308
0.385
0.192
0.038
0.038
j
j
0.00038
0.00308
0.00385
0.00192
0.00038
0.00038
Arbeitstabelle für Histogramm mit 3 Klassen (Variante 1)
~
~
dj
n~j
(cj−1, cj ]
j
fj
f j / dj
1
2
3
(0, 200]
(200, 400]
(400, 600]
200
200
200
9
15
2
0.346
0.577
0.077
0.001730
0.002885
0.000385
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
45
Verteilungen und ihre Darstellungen
Arbeitstabelle für Histogramm mit 3 Klassen (Variante 2)
~
~
dj
n~j
(cj−1, cj ]
j
f j / dj
fj
1
2
3
(0, 100]
(100, 400]
(400, 600]
100
300
200
1
23
2
0.038
0.885
0.077
0.000380
0.002950
0.000385
~
fj
~
f j / dj
Übung:
Ergänzen Sie die folgende Arbeitstabelle
Arbeitstabelle für Histogramm mit 2 Klassen
dj
n~j
(cj−1, cj ]
j
1
2
(0, 300]
(300, 600]
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
46
Verteilungen und ihre Darstellungen
Optimale
Darstellung?
Optimale
Klasseneinteilung?
Denkt Software mit?
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
47
Verteilungen und ihre Darstellungen
Programmcode:
> hist(x,prob=T,xlab="Nettomiete in Euro",
ylab="Häufigkeitsdichte",main="Histogramm mit 6
Klassen")
> hist(x,prob=T,breaks=c(0,200,400,600),xlab="Nettomiete
in Euro",ylab="Häufigkeitsdichte",
main="1. Histogramm mit 3 Klassen")
> hist(x,prob=T,breaks=c(0,100,400,600),xlab="Nettomiete
in Euro",ylab="Häufigkeitsdichte",
main="2. Histogramm mit 3 Klassen")
> hist(x,prob=T,breaks=c(0,300,600),xlab="Nettomiete in
Euro",ylab="Häufigkeitsdichte",
main="Histogramm mit 2 Klassen")
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
48
Verteilungen und ihre Darstellungen
Beachte: Histogramme insbesondere geeignet für metrisch skalierte, stetige
Merkmale. Vorteilhaft gegenüber Stamm-Blatt-Darstellung bei sehr
vielen Beobachtungswerten.
Voreinstellung von R
(bevorzugte Variante)
Histogramm
Zeichne über den Klasssen (c0, c1],K , (ck−1, ck ] oder [c0, c1),K ,[ck−1, ck )
Rechtecke mit
Breite:
d j = cj − cj−1
~
~
gleich (oder proportional zu) f j / d j bzw. nj / d j
~
~
Fläche: gleich (oder proportional zu) f j
bzw. nj
Höhe:
Bevorzugte Variante: Vorlesungsstandard!
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
49
Verteilungen und ihre Darstellungen
=> Übungen
Aufgabe 1
Gegeben seien die folgenden 8 Beobachtungswerte: 4, 3, 2, 5, 10, 7, 5 und 20.
Die Verteilung der Werte soll durch ein Histogramm dargestellt werden.
R
F
Die Häufigkeitsdichte eines jeden Histogramms an der Stelle 0 ist
gleich 0.
Falls als Klassengrenzen 1, 6, 11 und 21 (3 Klassen) gewählt werden
ist der Wert der Häufigkeitsdichte an der Stelle 2 gleich 0.125.
Die Fläche der 3. Histogrammsäule ist gleich 20/56.
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
50
0.3
0.2
Häufigkeitsdichte
0.4
0.5
Verteilungen und ihre Darstellungen
Das dargestellte Histogramm
0.0
0.1
Aufgabe 2
-1
R
F
0
1
2
3
x
könnte von den Werten -0.5, 0.8, 1.2 und 2.8 erzeugt sein,
enthält mehr Werte in der 2. Klasse als in der 1. Klasse,
lässt darauf schließen, dass genau die Hälfte aller Beobachtungswerte größer 1 ist.
Univariate Deskription und Exploration von Daten - Verteilungen und ihre Darstellungen
51