Script SPSS - EAH-Jena

Transcription

Script SPSS - EAH-Jena
A
AAA
AA AA
A AA
A A AA
A A AA
A A A AA
A A A
Fachhochschule Jena
Fachbereich Grundlagenwissenschaften
Prof. Dr. Viola Weiÿ
Begleitmaterial mit Übungsaufgaben
für die Lehrveranstaltung
Einführung in SPSS
im Fachbereich Betriebswirtschaft
in Anlehnung an die Vorlesung Statistik
basierend auf der Version 12.0/13.0 von SPSS
Jena, März 2005 (erweiterte Fassung: Februar 2006)
1 Aufbau und Arbeitsweise von SPSS
SPSS - ursprünglich: Statistical Package for Social Science
- heute:
Superior Performing Software System
• Dateneditor: Eingabefenster
zur Dateneingabe und zum Önen und Bearbeiten von bestehenden Datendateien
Datenansicht: in Tabellenform, wobei Spalten = Variablen (Merkmale), Zeilen = Beobachtungen (Fälle, befragte Personen)
Eine Zelle enthält den Wert (die Ausprägung) der entsprechenden Variable (Spalte) für den
zugehörigen Fall (Zeile).
Variablenansicht: Festlegung und Beschreibung aller vorkommenden Variablen (% Variablen erstellen)
erzeugter Datentyp: *.sav
• Viewer: Ausgabefenster
linker Teil: Auistung aller durchgeführten statistischen Untersuchungen in Baumstruktur
rechter Teil: Ergebnisse (Tabellen, Graken, Fehlermeldungen) der statistischen Untersuchungen
erzeugter Datentyp: *.spo
• Syntaxfenster: zur Programmierung von statistischen Untersuchungen in der SPSS-Befehlssprache
erzeugter Datentyp: *.sps
• SPSS Diagramm-Editor: zum Editieren von Graken im Viewer
wird aktiviert durch Doppelklick auf einen Punkt innerhalb der Grak
Menüleiste enthält Optionen zum Bearbeiten von Graken
• Pivot-Tabellen-Editor: zum Editieren von Tabellen im Viewer
wird aktiviert durch Doppelklick auf einen Punkt innerhalb der Tabelle
Menüleiste enthält Optionen zum Bearbeiten von Tabellen
Alle Statistikprozeduren arbeiten stets variablenweise (d.h. spaltenbezogen)!
2
2 Variablen erstellen, Datenmodikation, Datenselektion
• Denition von Variablen (in Variablenansicht)
Variablenname: mit einem Buchstaben beginnend, ohne Leer- und Sonderzeichen
Variablentyp: u.a. Numerisch, Datum, String
Datumsvariablen mit gleichabständigen Zeitpunkten generieren durch
Daten - Datum definieren
Variablenlabel: Bezeichnung für die genauere Beschreibung einer Variablen, die dann auch
im Viewer bei der Ausgabe erscheint
Wertelabel: Bezeichnung für die inhaltliche Beschreibung der Werte einer Variablen, die
diese annehmen kann, wenn sie in codierter Form angegeben werden (z.B. Variable Geschlecht:
Codierung der Werte: 0 und 1, Wertelabels: männlich (für 0), weiblich (für 1))
Meÿniveau: nominal, ordinal, metrisch
fehlende Werte: Festlegung der Beschreibung von fehlenden Werten (z.B. wenn eine Frage
nicht beantwortet wurde oder Meÿergebnisse nicht vorhanden sind)
• Datenmodikation
Editieren im Dateneditor:
Bearbeiten : Ausschneiden, Kopieren, Einfügen, Löschen von Zellen
Daten - Fälle einfügen : Einfügen einer neuen Zeile, nachdem die Stelle auf dem linken
Rand markiert wurde
Daten - Variable einfügen : Einfügen einer neuen Spalte, nachdem die Variable rechts
daneben markiert wurde
Berechnung neuer Variablen:
Transformieren - Berechnen
Berechnen neuer Variablen aus bestehenden Variablen durch Vorgabe einer Zielvariable und
eines numerischen Ausdrucks
Umkodierung:
Transformieren - Umkodieren - In andere Variable
Umkodierung von ursprünglich erfaÿten Variablen, z.B. zur Klassenbildung bei metrischen
Variablen, durch Benennung einer neuen Variablen Ausgabevariable und durch Vorgabe
einer Transformationsvorschrift in Alte und neue Werte
Gewichtung von Fällen:
Daten - Fälle gewichten
Analyse von Datendateien, die in Form einer Häugkeitstabelle vorliegen durch Angabe einer
Wichtung in Häugkeitsvariable
• Datenselektion
Auswahl von Fällen:
Daten - Fälle auswählen
Alle weiteren Auswertungen werden nur noch für die ausgewählten Fälle durchgeführt.
Auswahl von Fällen durch Angabe einer Bedingung (Falls Bedingung zutrit) in Form
eines logischen Ausdrucks oder durch eine Zufallsstichprobe.
Aufteilung in Gruppen:
Daten - Datei aufteilen
Auswertung wird für alle Fälle der Datei durchgeführt aber nach Gruppen getrennt, wobei
die Gruppeneinteilung durch die festgelegten Variablen in Gruppen basierend auf erfolgt.
Die Ausgabe der Ergebnisse erscheint getrennt nach Gruppen (Ausgabe nach Gruppen
aufteilen) oder in einer gemeinsamen Tabelle (Gruppen vergleichen).
Beispieldateien: bank.sav, frageb03.sav, münze.sav, arblos.sav
3
2.1 Aufgaben Variablen erstellen, Datenmodikation, Datenselektion
1. Laden Sie die Datei noten01.sav.
(a) Bilden Sie eine neue Variable note durch folgende Zuordnung:
Punktzahl
Note
0-4
5
5-7
4
8-10
3
11-13
2
14-15
1
(b) Vergeben Sie für die Variable note Wertelabels, so daÿ die obige Zuordnung der Punktzahlen zu den Noten ersichtlich wird.
2. Eine Firma registriert für ihre 30 Mitarbeiter die Anzahl der innerhalb einer Woche geführten
Telefonate:
16
27
18
27
18
28
21
30
22
32
22
35
22
38
23
40
24
40
24
45
25
48
25
54
26
59
26
60
26
68
(a) Editieren Sie den Datensatz in SPSS.
(b) Stellen Sie die Daten durch eine weitere Variable in einer geeigneten Klasseneinteilung
dar: bis 20 Telefonate, 21-40 Telefonate, 41-60 Telefonate, über 60 Telefonate.
Vergeben Sie entsprechende Wertelabels für die Klasseneinteilung.
3. Eine Stichprobe vom Umfang 12 aus einem Posten von Bolzen mit einem Sollmaÿ von 20 mm
für den Durchmesser zeigt folgende Ergebnisse für den jeweils gemessenen Bolzendurchmesser:
20, 1 20, 1 19, 9 19, 7 19, 7 20, 2 20, 0 20, 3 20, 4 20, 0 19, 8 19, 2 .
Erstellen Sie einen Datensatz in SPSS.
Berechnen Sie eine neue Variable, die den absoluten Betrag der Abweichung des gemessenen
Durchmessers vom Sollmaÿ angibt.
4. Laden Sie die Datei urlaub.sav.
(a) Bestimmen Sie für jede der befragten Personen das Geburtsjahr.
(b) Berechnen Sie möglichst eektiv eine neue Variable, die für jede Personen angibt, wieviele
der möglichen Urlaubsländer angekreuzt wurden.
5. Berechnen Sie für die Datei hyper.sav eine neue Variable, die die Änderung des systolischen
Blutdrucks nach 12 Monaten bezogen auf den Anfangswert angibt.
Teilen Sie die Personen ab einem Lebensalter von 60 Jahren in drei Altersgruppen ein.
6. Ein Fahrradhersteller erzielte in den Jahren 1992 bis 1995 folgende Umsätze (in Mio. DM) in
den jeweiligen Quartalen:
Jahr
Quartel
Umsatz
1
2,6
1992
2
3
3,7 3,6
4
2,3
1
2,7
1993
2
3
4,1 4,0
4
2,4
1
2,9
1994
2
3
4,2 4,3
4
2,5
1
2,9
1995
2
3
4,4 4,3
Geben Sie die Daten ein. Überlegen Sie sich dabei eine kurze und geeignete Datumseingabe.
7. Gegeben seien folgende Häugkeiten für das Auftreten der Augenzahlen bei einem Würfelexperiment:
Augenzahl
Häugkeit
1
172
2
165
3
148
4
176
5
161
6
178
Geben Sie diese Daten in geeigneter Form in SPSS ein.
4
4
2,5
8. Bei eine Umfrage nach Familienstand und Religionszugehörigkeit erhält man folgende Angaben
von 100 Personen:
ledig verheiratet geschieden
evangelisch
10
25
5
katholisch
8
40
2
sonstiges
2
5
3
Erstellen Sie für die Ergebnisse dieser Umfrage eine SPSS-Datendatei.
2.2 Lösungshinweise Aufgaben Variablen erstellen, Datenmodikation, Datenselektion
1. (a) Transformieren - Umkodieren - In andere Variable
Eingabevariable: punkte, Ausgabevariable: note, alte und neue Werte: gemäÿ
Tabelle eingeben
(b) im Dateneditor in Variablenansicht unter Wertelabels bei Variable note die Zuordnungsvorschrift eintragen
2. (b) Transformieren - Umkodieren - In andere Variable: alte und neue Werte gemäÿ
Vorschrift
Wertelabels im Dateneditor unter Variablenansicht vergeben
3. Daten eingeben unter Variable bolzen
Transformieren - Berechnen: absbetr=ABS(20-bolzen)
4. (a) Transformieren - Berechnen: gebjahr=2005-alter
(b) Transformieren - Berechnen: land=france + greece + italy + jugo + spain + turkey + tunesia
oder
Transformieren - Zählen: Zielvariable: land, numerische Variablen: france,
greece, italy, jugo, spain, turkey, tunesia,
Werte denieren: zu zählender Wert 1
5. Transformieren - Berechnen: di=rrs12-rrs0
Transformieren - Umkodieren - In andere Variable
Eingabevariable: a (Alter), Ausgabevariable: agruppe, falls: a≥ 60,
alte und neue Werte: 60-69 Gruppe 1, 70-79 Gruppe 2, 80-89 Gruppe 3
6. zunächst Umsatz eingeben, dann Daten - Datum definieren: Jahre Quartale
7. Variable augenz mit Werten 1-6, Variable anzahl mit zugehörigen Häugkeiten eingeben,
% Datei augenzahl.sav.
8. 9 Fälle für Variable famstand mit 0=ledig, 1=verh, 2=geschieden und Variable religion
mit 0=evang, 1=kath, 2=sonstiges eingeben, dann zu jedem dieser Fälle die entsprechende
Häugkeit aus der Tabelle unter Variable anzahl eingeben,
% Datei kreuztab.sav.
5
3 Behandlung von Fragebögen
• Eingabe, Codierung, Labels
Jeder Fragebogen entspricht einer Zeile im Dateneditor.
Jeder Frage werden Spalten (Variablen) im Dateneditor zugeordnet.
Jeder Fragebogen enthält eine Identikationsnummer, die zugleich auch in einer Variablen
erfaÿt wird.
Der Variablenname sollte wenn möglich Nummer der Frage und/oder Bezug zum Inhalt der
Frage enthalten.
Bei Codierung von Variablenwerten (z.B. Geschlecht) sind entsprechende Wertelabels festzulegen.
• Behandlung von Mehrfachantworten
Werden auf eine Frage mehrere Antwortmöglichkeiten zum Ankreuzen vorgegeben, so spricht
man von einer Mehrfachantwort. Es gibt zwei Möglichkeiten der Übertragung von Mehrfachantworten in eine SPSS-Datendatei:
dichotome Methode: Für jede Antwortmöglichkeit wird eine eigene Variable deniert, deren Werte jeweils z.B. mit 0 (nein) und 1 (ja) codiert werden.
kategoriale Methode: Wenn die maximale Zahl der möglichen Antworten bekannt ist, dann
werden genau so viele Variablen angelegt. Jede mögliche Antwort wird durch eine Nummer
codiert und in die Variablen werden die Code-Nummern der angekreuzten Antworten eingetragen.
• Aufdecken von Eingabefehlern
Erfolgt vor den statistischen Untersuchungen!
Häugkeiten:
Analysieren - Deskriptive Statistiken - Häufigkeiten
Erkennen von unmöglich vorkommenden Werten einer Variablen in einer Häugkeitstabelle,
sinnvoll bei Variablen mit nicht zu vielen Ausprägungsmöglichkeiten.
Fälle auswählen:
Daten - Fälle auswählen
Erkennen von unmöglich vorkommenden Werten einer Variablen durch Festlegung einer Unterund/oder Obergrenze (Wertebereich), es werden die Fälle auÿerhalb dieses Bereiches gesucht.
Fehler suchen:
Bearbeiten - Suchen
Suche im Dateneditor nach vorgegebenen Variablenwerten in der momentan aktivierten Variable.
Beispieldateien: frageb04.sav, meinung.sav, frageb05.sav
6
Fragebogen
1. Welcher Partei würden Sie Ihre Stimme geben, wenn am kommenden Sonntag Wahlen zum
Deutschen Bundestag stattnden würden?
CDU/CSU
°
SPD
°
FDP
°
Bündnis 90/Die Grünen
°
PDS
°
Sonstige
°
2. Geschlecht
männlich
°
weiblich
°
3. Geburtsjahr
4. In welchem Bundesland leben Sie? ........................
5. Konfession
katholisch
°
evangelisch
°
sonstiges
°
konfessionslos °
6. Welches ist Ihr letzter Bildungsabschluÿ?
kein Abschluÿ
°
Hauptschule
°
Realschule
°
Abitur
°
Akad. Examen
°
Sonstiges
°
7
Mögliche Codierung des Fragebogens - Wertelabels
Partei
CDU/CSU
SPD
FDP
Bündnis 90/Die Grünen
PDS
sonstige
keine Angabe
Geschlecht männlich
1
2
3
4
5
6
9
1
2
9
weiblich
keine Angabe
Bundesland Brandenburg
Mecklenb.-Vorpom.
Sachsen
Sachsen-Anhalt
Thüringen
keine Angabe
Konfession
katholisch
evangelisch
sonstiges
konfessionslos
keine Angabe
1
2
3
4
9
Abschluÿ
kein Abschluÿ
Hauptschule
Realschule
Abitur
Akad. Examen
Sonstiges
keine Angabe
1
2
3
4
5
6
9
1
2
3
4
5
99
Ergebnis einer ktiven Umfrage
Nummer
num
Partei
partei
Geschlecht
sex
Jahrgang
gebjahr
Bundesland
bland
Konfession
konf
Abschluÿ
abschl
1
2
3
4
5
6
7
8
9
10
2
3
2
1
5
1
5
4
6
2
1
1
2
1
1
2
2
2
1
2
45
72
28
59
38
17
70
64
45
51
3
5
1
3
4
2
4
5
5
99
9
2
3
4
4
4
3
4
2
1
4
2
5
9
5
4
1
3
5
5
Zu nden unter frageb04.sav.
8
3.1 Aufgaben Behandlung von Fragebögen
1. In einer Haushaltsumfrage sollen u.a. folgende Kriterien erfaÿt werden:
1. Wieviele 1-l-Flaschen Punica kaufen Sie pro Woche?
keine
1-2 Flaschen
3-5 Flaschen
6 und mehr
2. Welche der folgenden Sektmarken kaufen Sie gelegentlich für Ihren Eigenbedarf?
Mumm
MM Extra
Henkel Trocken
Fürst von Metternich
Deinhard Cabinet
Rotkäppchen trocken
andere
3. Wieviele Haustiere besitzen Sie? Hund(e): ..... Katze(n): ..... Vögel: .....
4. Wie hoch beläuft sich Ihr jährliches Brutto-Haushalts-Einkommen ungefähr?
unter 10.000 Euro
25.000-35.000 Euro
10.000-20.000 Euro
35.000-50.000 Euro
20.000-25.000 Euro
über 50.000 Euro
5. Was erwarten Sie von Ihrer Bank? Kreuzen Sie bitte maximal 2 Antworten an!
lange Önungszeiten
Internet-Banking
groÿes Automatennetz
günstige Kontogebühren
Parkmöglichkeiten
persönlicher Berater
Automatenservice
Rund-um-Beratung
Telefon-Banking
Erstellen Sie im Dateneditor in der Variablenansicht eine Struktur aller nötigen Variablen
einschlieÿlich der Variablen- und Wertelabels um die Antworten auf diese Umfrage in einer
SPSS Datei erfassen zu können.
2. Ein neuer Stadtführer soll einen gastronomischen Teil enthalten. In Vorbereitung dazu soll in
verschiedenen Restaurants eine Befragung folgenden Inhalts gestartet werden:
Name des Restaurants:
Preisklasse:
Wie war der Service?
Geschmack der Speisen:
Atmosphäre:
Preis-Leistungs-Verhältnis:
Würden Sie wiederkommen?
Angaben zur Person: Alter, Geschlecht, Beruf
Geben Sie, wenn nötig, verschiedene Antwortalternativen vor.
Legen Sie ein Datenle in SPSS mit den nötigen Variablen und der verwendeten Codierung
an.
3. Laden Sie die Datei Mai(Ausz)1.sav.
Die Datei enthält 6 oensichtlich fehlerhafte Angaben. Finden Sie diese und vermerken Sie
sich dazu die entsprechenden Fragebogennummern.
9
3.2 Lösungshinweise Aufgaben Behandlung von Fragebögen
1.
Variable
fbnr
f1punica
Variablenlabel
Fragebogennummer
Anzahl Punica
Wertelabel
f21mumm
f22henk
f23deinh
f24extra
f25mett
f26rotk
f27ander
f31hund
f32cat
f33voeg
f4eink
Mumm
Henkel
Deinhard
MM Extra
Metternich
Rotkäppchen
andere
Hunde
Katzen
Vögel
jährl Brutto-Einkommen
f51bank
f52bank
Erwartung Bank (1. Antw)
Erwartung Bank (2. Antw)
0=keine, 1=1-2 Flaschen, 2=3-5 Flaschen,
3=mehr als 6 Flaschen
0=nein, 1=ja
0=nein, 1=ja
0=nein, 1=ja
0=nein, 1=ja
0=nein, 1=ja
0=nein, 1=ja
0=nein, 1=ja
1=unter 10.000, 2=10.000-20.000, 3=20.000-25.000,
4=25.000-35.000, 5=35.000-50.000, 6=mehr als 50.000
Labels 1-9 für die neun Möglichkeiten, 1.Kreuz
Labels 1-9 für die neun Möglichkeiten, 2.Kreuz
Als fehlenden Wert (keine Angabe) kann man generell die 99 festlegen.
2.
Variable
fbnr
f1restau
f2preikl
f3serv
Variablenlabel
Fragebogennummer
Name des Restaurants
Preisklasse
Service
f4speis
f5atmos
f6prlei
f7wieder
f8alter
f9sex
f10beruf
Geschmack der Speisen
Atmosphäre
Preis-Leistung
Wiederkommen
Alter
geschlecht
Beruf
Wertelabel
1=unterste, 2=mittlere, 3=gehobene, 4=exklusive PK
1=ausgezeichnet, 2=sehr gut, 3=gut, 4=befriedigend,
5=schlecht, 6=sehr schlecht
1=köstl., 2=lecker, 3=schmackh., 4=versalzen, 5=schlecht
1=sehr gemütlich, 2=gemütlich, 3=befr., 4=ungenügend
1-5 für sehr gut bis ungenügend
0=nein, 1=ja
0=männlich, 1=weiblich
1=Azubi, 2=Student, 3=Arbeiter, 4=Angestellter,
5=Beamter, 6=nicht berufstätig, 7=sonstiges
Als fehlenden Wert könnte man generell z.B. die 99 festlegen.
3. Erkennen von fehlerhaften Werten durch
Analysieren - Deskriptive Statistiken - Häufigkeiten bei Variablen mit wenigen
Ausprägungen und durch
Daten - Fälle auswählen bei stetigen Variablen
Suche der fehlerhaften Werte in der entsprechenden Variable durch Bearbeiten - Suchen
Variable
v2
v2
v9
v10
v18
v19
fragebnr
3691
11
5011
3931
2901
681
falscher/richtiger Wert
22 statt 2
10 statt 1
175 statt 75
100 statt 1
3 statt 83
844 statt 44
10
4 Deskriptive Untersuchungen
• Häugkeitstabellen
Analysieren - Deskriptive Statistiken - Häufigkeiten oder
Analysieren - Tabellen - Häufigkeitstabellen % Abschnitt Tabellen
tabellarische Darstellung von Häugkeiten für Variablen mit wenigen möglichen Ausprägungen
Spalte Häugkeit: absolute Häugkeiten für die einzelnen Ausprägungen einer Variablen
Spalte Prozent: relative Häugkeiten bezogen auf die Gesamtzahl aller Fälle (einschlieÿlich
fehlender Angaben)
Spalte Gültige Prozente: relative Häugkeiten bezogen auf die gültigen Antworten (ohne fehlende Werte)
Spalte Kumulierte Prozente: kumulierte (aufsummierte) relative Häugkeiten der gültigen
Prozente
• Lage- und Streuungsparameter
Analysieren - Deskriptive Statistiken - Häufigkeiten
unter Statistik: Auswahl zur Berechnung statistischer Maÿzahlen
Perzentilwerte
Lagemaÿe (u.a. Mittelwert, Median)
Streuung (Varianz, Standardabweichung, Spannweite, Minimum, Maximum)
• Diagramme
Analysieren - Deskriptive Statistiken - Häufigkeiten
unter Diagramme: Balken- oder Kreisdiagramm für nominale oder ordinale Variablen mit
wenigen Ausprägungen
Angabe der absoluten oder relativen Häugkeiten ist möglich
Histogramm für metrische Variablen (benachbarte Ausprägungen werden in Gruppen zusammengefaÿt) % Graken
• Mittelwerte vergleichen
Analysieren - Mittelwerte Vergleichen - Mittelwert
abhängige Variablen: diejenigen Variablen, für die Mittelwerte und/oder statistische Maÿzahlen berechnet werden sollen
unabhängige Variablen: Gruppierungsvariablen
Optionen: Festlegung der zu berechnenden Maÿzahlen
• Datendateien in Form von Häugkeitstabellen
Zur Durchführung deskriptiver Untersuchungen von Datendateien, die in Form einer Häugkeitstabelle vorliegen, ist zunächst die Wichtung der Daten mit der Variable, die die Häugkeiten enthält, durchzuführen:
Daten - Fälle gewichten
Beispieldateien: studium.sav, hyper.sav, bsp1.sav, augenzahl.sav
11
4.1 Aufgaben Deskriptive Untersuchungen
1. Laden Sie die Datei bsp1.sav.
(a) Erstellen Sie je eine Häugkeitstabelle und ein Balkendiagramm für die Variablen Geschlecht (v146) und Bundesländer (v447).
(b) Stellen Sie fest, wieviel Prozent der Personen, die ihr monatliches Nettoeinkommen angegeben haben, ein Einkommen unter 1.600 DM haben (Variable v391).
(c) Bestimmen Sie das durchschnittliche Nettoeinkommen und den Median. Weshalb unterscheiden sich beide Gröÿen relativ stark?
(d) Welche Grak ist geeignet für die Darstellung des Nettoeinkommens?
(e) In welchem Bundesland (v447) liegt das durchschnittliche Nettoeinkommen am höchsten,
in welchem am niedrigsten?
(f) Bestimmen Sie die Einkommensgrenzen unter bzw. über denen das Nettoeinkommen von
10% der Befragten liegt.
(g) Bestimmen Sie jetzt diese Grenzen nur für die weiblichen Befragten.
Wie lauten diese Grenzen für die männlichen Befragten aus Thüringen und Sachsen?
2. Laden Sie die Datei noten01.sav.
Berechnen Sie die durchschnittliche Punktzahl, den Modalwert und die Standardabweichung.
3. Laden Sie die Datei sales.sav.
(a) Ermitteln Sie den mittleren Umsatz und den Gesamtumsatz.
(b) In welchem Bezirk war der Gesamtumsatz am höchsten?
(c) Vergleichen Sie den Gesamtumsatz in den Bezirken in den beiden Jahren.
(d) Welcher Vertreter erzielte den höchsten Gesamtumsatz, welcher den höchsten mittleren Umsatz und bei welchem Vertreter war die Standardabweichung der Umsätze am
geringsten?
4. Laden Sie die Datei hyper.sav.
(a) Bestimmen Sie Mittelwert und Standardabweichung für den Ausgangswert Cholesterin
(chol0) für alle Personen, die älter als 40 und jünger als 60 Jahre sind.
(b) Wie groÿ ist der mittlere Wert der absoluten Änderung des systolischen Blutdrucks nach
12 Monaten (rrs12) bezogen auf den Anfangswert (rrs0)?
Unterscheidet sich dieser Mittelwert bei den männlichen und weiblichen Befragten?
Wie groÿ ist die maximal vorkommende absolute Änderung des systolischen Blutdrucks
in den 12 Monaten?
5. Laden Sie die Datei würfel.sav.
(a) Bestimmen Sie die mittlere gewürfelte Augenzahl, den Modalwert und die Standardabweichung.
(b) Stellen Sie die Häugkeiten der gewürfelten Augenzahlen grasch dar.
6. Laden Sie die Datei kreuztab.sav, die Angaben zu Familienstand und Religionszugehörigkeit
von 100 befragten Personen enthält (Variable Anzahl entspricht den jeweiligen Häugkeiten).
Erstellen Sie je eine Häugkeitstabelle und ein Kreisdiagramm für die Variablen famstand
und religion.
12
7. Laden Sie die Datei alter.sav.
(a) Ermitteln Sie das mittlere Alter und das mittlere geschätzte Alter der befragten Personen.
(b) Finden Sie diejenigen Personen heraus, wo die Abweichung des geschätzten Alters vom
tatsächlichen Alter am gröÿten ist (jünger geschätzt und älter geschätzt).
(c) In wievielen Fällen stimmen Alter und geschätztes Alter überein.
Wieviele Personen wurden älter geschätzt, wieviele jünger?
(d) Teilen Sie die Personen in Altersklassen ein: 30-39 Jahre, 40-49 Jahre, ..., 80-89 Jahre.
In welcher Altersklasse weicht das mittlere geschätzte Alter am meisten vom mittleren
Alter ab, in welcher am wenigsten?
In welcher Alterklasse ist das mittlere geschätzte Alter geringer als das mittlere Alter?
8. Laden Sie die Datei Assess.sav.
(a) Ermitteln Sie für jeden Bewerber die mittlere erreichte Punktzahl in den 10 Tests. Wie
groÿ ist die mittlere Punktzahl aller Bewerber?
(b) In welchem der 10 Tests haben die Bewerber im Mittel die höchste Punktzahl erreicht,
in welchem die niedrigste?
(c) Wieviele Bewerber haben bei t1, t5, t6, t7, t10 mindestens dreimal 10 Punkte erreicht?
Gibt es Bewerber mit viermal 10 Punkten in diesen 5 Tests?
9. Laden Sie die Datei klin.sav.
(a) Ermitteln Sie für die Variable Blutzucker: Mittelwert, Median, Quartilsabstand. Interpretieren Sie die Werte. Warum unterscheiden sich Mittelwert und Median relativ stark?
(b) Ermitteln Sie den mittleren Blutzuckerwert für männliche und weibliche Probanden.
Wie groÿ ist der mittlere Blutzuckerwert für männliche Probanden im Alter von 18-30
Jahren?
(c) Bestimmen Sie den mittleren Blutzuckerwert für Personen, die männlich ab 60 Jahre
oder weiblich ab 50 Jahre sind.
4.2 Lösungshinweise Aufgaben Deskriptive Untersuchungen
1. (a) Analysieren - Deskriptive Statistiken - Häufigkeiten
Variablen: Geschlecht, Bundesländer, Häugkeitstabelle anzeigen,
Diagramme: Balkendiagramm
(b) 47,5% (Ablesen unter kumulierten Prozenten in der Häugkeitstabelle für Nettoeinkommen)
(c) Analysieren - Deskriptive Statistiken - Häufigkeiten
Statistik: Mittelwert (Ergebnis: 1910,26 DM), Median (Ergebnis: 1600 DM)
(d) Diagramm: Histogramm
(e) Daten - Datei aufteilen: Gruppen vergleichen, basierend auf Bundesland,
dann Mittelwert für Nettoeinkommen bestimmen
oder
Analysieren - Mittelwerte vergleichen - Mittelwert
abh. Variable: Nettoeinkommen, unabh. Variable: Bundesland,
Optionen: Mittelwert
Ergebnis: 2825,00 DM Rheinland-Pfalz, 1151,57 DM Sachsen
13
(f) Analysieren - Deskriptive Statistiken - Häufigkeiten
Statistik: Perzentile 10, 90, Ergebnis: 10% unter 600 DM, 10% über 3500 DM
(g) Daten - Fälle auswählen: falls v146=2, dann Perzentile wie oben bestimmen
Ergebnis: 10% unter 466,80 DM, 10% über 2420,00 DM
Daten - Fälle auswählen: falls v146=1 & (v447=15|v447=16), Perzentile wie oben,
Ergebnis: 10% unter 770,00 DM, 10 % über 2000,00 DM
2. Analysieren - Deskriptive Statistiken - Häufigkeiten
Variablen: Punkte, Statistik: Mittelwert (8,92), Modalwert (10,00), Standardabweichung
(3,567)
3. (a) Analysieren - Deskriptive Statistiken - Häufigkeiten
Variablen: umsatz, Statistik: Mittelwert (39056,76 DM), Summe (8.006636 DM)
(b) Daten - Datei aufteilen: basierend auf Bezirk oder
Analysieren - Mittelwerte vergleichen - Mittelwert
abh. Variable: Umsatz, unabh. Variable: Bezirk, Optionen: Summe,
Ergebnis: 3.320778 DM in Bezirk Nord
(c) Daten - Datei aufteilen: basierend auf Bezirk, Jahr oder
Analysieren - Mittelwerte vergleichen - Mittelwert
unabh. Variable: Bezirk weiter Jahr
(d) höchster Gesamtumsatz: 1.281568 DM Kümmel, höchster mittlerer Umsatz: 50038,69
DM Hering, niedrigste Standardabweichung: 14355,60 DM Schön
4. (a) Daten - Fälle auswählen falls a>40 & a<60,
Ergebnis: Mittelwert 227,48 und Standardabweichung 46,810
(b) Transformieren - Berechnen absänd = ABS(rrs12-rrs0)
Ergebnisse: Mittelwert 23,8506 , Mittelwert männl. 22,3729 , Mittelwert weibl. 24,6087 ,
max. Wert 80,00
5. Daten - Fälle gewichten mit anzahl, dann
Analysieren - Deskriptive Statistiken - Häufigkeiten
Mittelwert: 3,52 , Modalwert: 6 , Standardabweichung: 1,733
6. Daten - Fälle gewichten mit anzahl, dann Häugkeitstabelle, Kreisdiagramm
7. (a) mittleres Alter: 62,11 Jahre
mittleres geschätztes Alter: 62,84 Jahre
(b) 11 Personen werden 6 Jahre jünger geschätzt, 5 Personen 8 Jahre älter
(c) Übereinstimmung 18 mal, älter geschätzt 83 mal, jünger geschätzt 73 mal
(d) Alterklasse 40-49: mittleres geschätztes Alter jünger als mittleres Alter
Alterklasse 60-69: geringste Abweichung (64, 63 − 64, 91),
Alterklasse 70-79: gröÿte Abweichung (73, 46 − 75, 43)
8. höchste mittlere Punktzahl: 7,22 in t5 und t10, niedrigste mittlere Punktzahl: 6,78 in t4
8 Bewerber mit dreimal 10 Punkten
eine Bewerberin (Silke W) mit viermal 10 Punkten in t1, t5, t6, t7, t10
9. mittlerer Blutzuckerwert: 108,56 107,74 (männlich) 109,54 (weiblich)
Median: 94,00 Quartilsabstand: 108, 00 − 87, 00 = 21, 00
männlich im Alter von 18-30 Jahren: 90,96
männlich ab 60 Jahren bzw. weiblich ab 50 Jahren: 123,15
14
5 Graken
• Balkendiagramm: Grafiken - Balken
einfach, Ausw. über Kategorien einer Variablen: Kategorienachse (=x-Achse) enthält
alle Ausprägungen der eingetragenen Variablen, Bedeutung der Balken wird darüber festgelegt, alle Balken haben gleiche Bedeutung.
einfach, Ausw. über verschiedene Variablen: Jedem Balken wird eine eigene Bedeutung
zugeordnet.
gruppiert: zum Vergleich von Variablen
Ausw. über Kategorien einer Variablen: Jeder Ausprägung der Variablen auf der Kategorienachse werden so viele Balken zugeordnet, wie die Gruppierungsvariable Ausprägungen
hat, alle Balken haben gleiche Bedeutung.
Ausw. über verschiedene Variablen: Jeder Ausprägung der Gruppierungsvariablen auf
der Kategorienachse werden mehrere Balken mit unterschiedlicher Bedeutung zugewiesen.
gestapelt: Balken werden nicht nebeneinander (gruppiert) sondern übereinander dargestellt.
Werte einzelner Fälle: Jedem Fall im Dateneditor wird ein Balken zugewiesen.
• Histogramm: Grafiken - Histogramm
einfaches Balkendiagramm für Häugkeiten metrischer Variablen, wobei benachbarte Ausprägungen zu Gruppen zusammengefaÿt werden
• Kreisdiagramm: Grafiken - Kreis
zur Darstellung vorallem nominaler Variablen mit wenigen Ausprägungen
Kategorie einer Variablen, verschiedene Variablen, Werte einzelner Fälle wie beim Balkendiagramm
• Liniendiagramm: Grafiken - Linie
Darstellung metrischer Variablen, Kategorienachse häug Zeitachse
Festlegungen analog wie beim Balkendiagramm
Sequenz:
Grafiken - Sequenz
Liniendiagramm speziell für Zeitreihen (% Zeitreihenanalyse)
• Boxplot: Grafiken - Boxplot
Die Grak besteht aus der Box, die vom ersten und dritten Quartil (25%- bzw. 75%-Quantil)
begrenzt wird und deren dicke Linie den Median repräsentiert. Die obere und untere dünne
Linie markiert den gröÿten und kleinsten Wert, sofern sie keine Ausreiÿer bzw. extreme Werte
sind. Ausreiÿer sind Werte, deren Abstand von der Box nach oben bzw. unten zwischen dem
1,5fachen und dem 3fachen der Boxhöhe liegt. Extreme Werte liegen noch weiter von der Box
entfernt.
• Editieren von Graken: Doppelklick auf die Grak im Viewer önet den SPSS DiagrammEditor.
• interaktive Graken: Grafiken - Interaktiv
Beispieldateien: bsp1.sav, hyper.sav, würfel.sav, urlaub.sav
15
5.1 Aufgaben Graken
1. Laden Sie die Datei bank.sav.
(a) Stellen Sie in einem Balkendiagramm dar, wieviele der befragten Personen zu jeder Jobkategorie gehören. Weisen Sie den Balken die absoluten Werte zu.
(b) Stellen Sie jetzt die Personenanzahl in jeder Jobkategorie in Abhängigkeit vom Geschlecht
dar.
(c) Erstellen Sie ein Balkendiagramm für Mittelwert und Standardabweichung des Anfangsgehaltes und des aktuellen Gehaltes.
(d) Stellen Sie jetzt mittleres Anfangsgehalt und mittleres aktuelles Gehalt grasch in Abhängigkeit von der Jobkategorie dar.
2. Laden Sie die Datei sales.sav.
(a) Mit welcher Grak läÿt sich die Variable umsatz darstellen?
(b) Ermitteln Sie grasch den Bezirk mit dem höchsten Gesamtumsatz.
(c) Vergleichen Sie die Gesamtumsätze in den Bezirken in beiden Jahren miteinander durch
ein Balkendiagramm.
(d) Ermitteln Sie grasch den Vertreter mit der geringsten Standardabweichung des Umsatzes.
3. Lösen Sie Aufgabe 1 und 2 mit Hilfe von interaktiven Graken.
4. Laden Sie die Datei bier.sav.
(a) Erstellen Sie eine Grak, die die Beliebtheit für jede Biersorte widerspiegelt.
Untersuchen Sie grasch, ob diese Beliebtheit abhängig ist vom Geschlecht.
(b) Erstellen Sie eine Grak, die für jede der befragten Personen angibt, welche Biersorte
angekreuzt wurde.
5. (a) Laden Sie die Datei dax.sav und stellen Sie die Entwicklung des DAX grasch dar.
(b) Laden Sie die Datei energie.sav und stellen Sie die Entwicklung der Energiekosten
grasch dar. Achten Sie dabei besonders auf die Beschriftung der Kategorienachse!
(c) Laden Sie die Datei umwelt.sav und erstellen Sie eine Grak, die die Entwicklung der
drei Formen von Umweltstraftaten in den Jahren 1985 bis 1992 veranschaulicht.
6. Laden Sie die Datei hyper.sav.
(a) Erstellen Sie ein Kreisdiagramm, welches die Anzahl befragter Personen in jeder Alterklasse darstellt. Beschriften Sie jeweils die Segmente.
(b) Erstellen Sie ein Boxplot für die Ausgangswerte des Blutzuckers in den vier Alterklassen.
(c) Für jede Altersklasse soll in einem Boxplot die zeitlich Entwicklung des Blutzuckerwertes
dargestellt werden (Variablen bz0, bz1, bz6, bz12).
Stellen Sie jetzt diese vier Variablen für die vier Altersklassen in einem boxplot dar.
Interpretieren Sie die Diagramme.
7. Laden Sie die Datei Angst.sav.
(a) Untersuchen Sie mit Hilfe geeigneter Graken, ob Angststörungen abhängig sind von
Geschlecht oder Gewicht der Probanden.
Wie läÿt sich grasch feststellen, ob Angststörungen abhängig sind vom Body Mass
Index?
16
(b) Erstellen Sie Boxplots für den Body Mass Index, wählen Sie dabei Geschlecht (Übergewicht, Angst) jeweils als Kategorienachse. Was kann man den Graken entnehmen?
8. Laden Sie die Datei Klin.sav.
(a) Stellen Sie in einer Grak dar den mittleren, minimalen und maximalen Wert vom systolischen Blutdruck für jede Altersklasse.
(b) Erstellen Sie jetzt zwei Graken wie in (a) für männliche und weibliche Probanden.
(c) Stellen Sie für alle Personen, die nicht älter als 40 Jahre sind, den mittleren Wert für
den systolischen und diastolischen Blutdruck sowie für Blutzucker in Abhängigkeit vom
Geschlecht dar.
Erstellen Sie jetzt eine solche Grak für alle weiblichen Personen im Alter von 40 bis 60
Jahren.
5.2 Lösungshinweise Aufgaben Graken
1. (a) Grafiken - Balken: einfach, Ausw. über Kat. einer V.,
Kat.achse: jobcat, Bedeutung Balken: Anzahl
Diagramm-Editor: Datenbeschriftungen einblenden
(b) wie oben aber gruppiertes Diagramm, Gruppen def. durch: Geschlecht
(c) Grafiken - Balken: einfach, Ausw. über versch. V.,
Bedeutung Balken: Anfangsgehalt, akt. Gehalt, Auswertungsfunktion: Mittelwert,
Standardabweichung
(d) wie oben aber gruppiertes Diagramm mit Kategorienachse: jobcat
2. (a) Grafiken - Histogramm
(b) Grafiken - Balken: einfach, Ausw. über Kat. einer V.,
Kat.achse: bezirk, Bedeutung Balken: umsatz, Auswertungsfunktion: Summe
(c) wie oben, aber gruppiert oder gestapelt, Gruppen (Stapel) def. durch: jahr
(d) Grafiken - Balken: einfach, Ausw. über Kat. einer V.,
Kat.achse: name, Bedeutung Balken: umsatz, Auswertungsfunktion: Standardabweichung
3. Grafiken - Interaktiv - Balken
4. (a) Grafiken - Balken: einfach, Ausw. über versch. V.,
Bedeutung Balken: alle Biersorten, Auswertungsfunktion: Summe
dann grupiertes Diagramm, Kategorienachse: geschlecht
(b) Grafiken - Balken: gestapelt, Werte einzelner Fälle
5. (a) Grafiken - Linie: einfach, Ausw. über Kat. einer V.,
Kat.achse: nummer, Linie entspricht: DAX (MEAN oder SUM haben hier gleichen
Eekt)
(b) Grafiken - Sequenz: Variablen: Energiekosten, Zeitachsenbeschr.: Date
oder
Grafiken - Linie: einfach, Werte einzelner Fälle - oder
Grafiken - Linie: einfach, Ausw. über Kat. einer V., dabei aufpassen: Variable (fortlaufende Numerierung) für die Kategorienachse vorher erzeugen!
(c) Grafiken - Linie: mehrfach, Ausw. über versch. V., Kat.achse: jahr
17
6. (a) Grafiken - Kreis: einfach, Ausw. über Kat. einer V.,
Segmente def.: ak, Segmente entsprechen: Anzahl
Diagramm-Editor: Datenbeschriftungen einblenden
(b) Grafiken - Boxplot: einfach, Ausw. über Kat. einer V.,
Kat.achse: ak, Variable: bz0
(c) Daten - Datei aufteilen: Gruppen basierend auf ak, dann
Grafiken - Boxplot: einfach, Ausw. über versch. V., Box entspricht: bz0, bz1, bz6,
bz12
gemeinsamer boxplot durch Grafiken - Boxplot: gruppiert, Ausw. über versch. V.,
Kat.achse: ak, Box entspricht: bz0, bz1, bz6, bz12
7. Gruppiertes Balkendiagramm, Bedeutung der Balken: % der Fälle
bei Body Mass Index zunächst geeignete Klasseneinteilung durchführen, z.B. 0-19; 19,01-21;
21,01-23; 23,01-25; ab 25 dann gruppiertes Balkendiagramm für diese Klassen. Oder: Histogramm für Body Mass Index, dabei in Zeilen (oder Spalten) Variable Angst eingeben
8. (a) Grafiken - Balken: gruppiert, Ausw. über versch. V.,
Bedeutung Balken: systolischer Blutdruck, Auswertungsfunktion: Mittelwert, Minimum, Maximum, Kategorienachse: Altersklasse
(b) vorher: Daten - Datei aufteilen: Gruppen vergleichen, basierend auf Geschlecht
(c) vorher Daten - Fälle auswählen falls Alter ≤ 40 bzw. 40 ≤ Alter & Alter ≤ 60 &
Geschlecht = 2 dann
Grafiken - Balken: gruppiert, Ausw. über versch. V.,
Bedeutung Balken: syst. Blutdruck, diast. Blutdruck, Blutzucker Auswertungsfunktion: Mittelwert, Kategorienachse: Geschlecht
18
6 Tabellen
• Einfache Tabellen
Analysieren - Tabellen - Einfache Tabellen
Die Anzahl belegter Untergruppen bestimmt die Dimension der Tabelle.
Trägt man in einer Untergruppe mehrere Variablen ein, so können diese jeweils gestapelt oder
verschachtelt ausgegeben werden.
Auswerten: Die angegebenen Variablen werden in den durch die Untergruppen denierten
Zellen ausgewertet hinsichtlich der statistischen Kenngröÿen, die in Statistik festgelegt werden (Mittelwerte, Streuungsgröÿen, Prozentwerte).
Layout: Festlegung von Gestaltung, Beschriftung, Anordnung
Gesamt: Gesamtwerte für die Statistiken, die festgelegt wurden, innerhalb der Gruppenvariable(n) bzw. der Tabelle
• Häugkeitstabellen
Analysieren - Tabellen - Häufigkeitstabellen
Häugkeitstabellen (% Deskriptive Untersuchungen), auch für mehrdimensionale Verteilungen
• allgemeine Tabellen
Analysieren - Tabellen - Allgemeine Tabellen
Zusätzliche Möglichkeiten im Vergleich zu einfachen Tabellen; z.B. Zellstatistiken können für
jede Variable einzeln festgelegt werden
• Mehrfachantwortentabellen
Analysieren - Tabellen - Mehrfachantworttabellen
Denieren von Mehrfachantworten-Sets unter Sets denieren, dabei können dichotome Variablen zu Sets zusammengefaÿt werden, ebenso wie kategoriale Variablen (dichotome/kategoriale
Methode % Behandlung von Fragebögen)
Mehrfachantworten-Sets werden dann wie normale Variablen behandelt
Häugkeits- und Kreuztabellen für Mehrfachantworten-Sets auch unter
Analysieren - Mehrfachantwort
• Editieren von Tabellen
Doppelklick auf die Tabelle im Viewer önet den SPSS Tabellen Editor mit vielfältigen Möglichkeiten (u.a. Vertauschen von Zeilen, Spalten, Schichten, Ändern und Einfügen von Texten,
Ändern von Tabellen- oder Zelleigenschaften).
• Kreuztabellen % Bivariate Untersuchungen
Beispieldateien: studium.sav, bank.sav, meinung.sav
19
6.1 Aufgaben Tabellen
1. Laden Sie die Datei bsp1.sav.
(a) Erstellen Sie eine Tabelle, die für jede Berufsgruppe das durchschnittliche monatliche
Nettoeinkommen getrennt nach dem Geschlecht in übersichtlicher Form wiedergibt.
(b) Stellen Sie jetzt diesen Zusammenhang grasch dar.
(c) Erstellen Sie jetzt zwei nach dem Geschlecht getrennte Tabellen (bzw. Graken) für das
durchschnittliche monatliche Nettoeinkommen jeder Berufsgruppe.
(d) Vergleichen Sie in einer Tabelle die mittleren, maximalen, minimalen Einkommen in den
alten und neuen Bundesländern (Variable v3) in Abhängigkeit von der Schulbildung.
2. Laden Sie die Datei bsp2.sav.
(a) Stellen Sie die Anzahl aller Ja- und Nein-Antworten der Interessengebiete Lesen und
Sport in Abhängigkeit vom Bildungsabschluÿ (Variable at8) in einer Tabelle dar.
(b) Denieren Sie ein Mehrfachantwortenset für die Variablen der Interessengebiete (hobby,
garten, kultur, sport, gastro, besuche, gesell, bildung, fernseh, lesen, ausug, ruhe).
Stellen Sie in einer Tabelle die Ja-Antworten für jedes Interessengebiet in Abhängigkeit
von der Kinderzahl (at4.6) dar. Gestalten Sie die Tabelle so, daÿ sie neben den absoluten
Werten Angaben enthält, wieviel Prozent der Personen mit einer bestimmten Kinderzahl
ein Interessengebiet angekreuzt haben sowie die Gesamtzahlen.
(c) Erstellen Sie eine geeignete Tabelle zur Beantwortung der folgenden Fragen:
-) Wieviele Personen haben das Interessengebiet Garten angekreuzt?
-) Wieviele Personen leben mit Partner und Kindern?
-) Wieviele Personen, die alleinlebend sind, haben das Interessengebiet Lesen angekreuzt?
-) Wieviel Prozent aller mit Partner lebenden Personen haben Fernsehen angekreuzt?
-) In welcher Gruppe der Haushaltsverhältnisse ist prozentual das Interessengebiet Kultur
am beliebtesten?
3. Laden Sie die Datei kenia.sav, in der Touristen zu ihrer Meinung bzgl. der Auswirkungen
des Tourismus befragt wurden. Von 9 vorgegebenen Antwortmöglichkeiten wurden maximal 6
angekreuzt. Überlegen Sie sich, nach welcher Methode die Antworten in die Datei eingegeben
wurden.
(a) Erstellen Sie eine Tabelle, die angibt, wie oft jede mögliche Antwort angekreuzt wurde.
Wie kann man diese Häugkeiten in einem Balkendiagramm darstellen?
(b) Untersuchen Sie jetzt, ob diese Meinungen zu den Auswirkungen des Tourismus abhängig
sind vom Geschlecht, vom Schulabschluÿ oder vom Alter (Altersklassen).
4. Laden Sie die Datei sport.sav.
(a) Erstellen Sie eine Tabelle, die für jede Sportart die Anzahl der Ja-Antworten enthält.
(b) Erstellen Sie eine Grak für die Anzahl der Ja-Antworten in jeder Sportart.
(c) Untersuchen Sie (tabellarisch und grasch), ob die Beliebtheit der Sportarten abhängig
ist vom Geschlecht.
20
6.2 Lösungshinweise Aufgaben Tabellen
1. (a) Analysieren - Tabellen - Einfache Tabellen
Zeilen: v170 (Berufsgruppe), Spalten: v146 (Geschlecht),
Auswerten: v391 (Nettoeinkommen), Statistik: Mittelwert
(b) Grafiken - Balken gruppiert, Ausw. über Kategorien einer Variablen,
Kat.achse: v170, Gruppen: v146, Bedeutung Balken: v391, Mittelwert
(c) bei Tabellen: Variable Geschlecht in separate Tabellen
bei Graken: vorher Daten - Datei aufteilen nach Geschlecht, dann einfaches Balkendiagramm
(d) Analysieren - Tabellen - Einfache Tabellen
Zeilen: v147, Spalten: v3, Auswerten: v391, Statistik: Mittelwert, Minimum, Maximum
2. (a) Analysieren - Tabellen - Häufigkeitstabellen:
Häugkeiten für lesen, sport, Untergruppen. at8
oder
zunächst Daten - Datei aufteilen nach at8, dann Analysieren - Deskriptive
Statistiken - Häufigkeiten für lesen, sport
(b) Analysieren - Tabellen - Mehrfachantwortentabellen: Sets denieren Variablen im Set alle Hobbies, Dichotomien, gezählter Wert: 1 name: hobby
Mehrfachantwortentabelle: Zeilen: hobby, Spalten: at4.6, Statistiken: Spaltenprozent,
Gesamt
(c) Analysieren - Tabellen - Mehrfachantwortentabellen: Zeilen: hobby, Spalten: at3 (Haushaltsverhältnisse), Statistiken: Spaltenprozent, Gesamt
Antworten auf die Fragen: 52
69
18
83,9%
in WG lebend (75%)
3. Eingabe von Mehrfachantworten in kategoriale Methode
(a) Analysieren - Tabellen - Mehrfachantwortentabellen: Sets denieren Variablen im Set vn1-vn6, Kategorien, name: tour
dann Mehrfachantwortentabelle erstellen mit Zeilen: tour
Balkendiagramm: im Tabelleneditor (Doppelklick im Viewer auf die Tabelle) auf Bearbeiten - Diagramm erstellen - Balken
(b) wie oben Mehrfachantwortentabelle, zusätzlich nacheinander die drei Variablen in Spalten eingeben
sinnvoll für Vergleich auch Statistiken: Spaltenprozente
4. (a) Analysieren - Tabellen - Mehrfachantwortentabellen: Sets denieren Variablen alle Sportarten, Dichotomien, gezählter Wert: 1 name: sport
Mehrfachantwortentabelle: Zeilen: sport
(b) Doppelklick auf die Tabelle aus a) im Viewer: Tabelleneditor, rechte Maustaste: Diagramm erstellen Balken
(c) Mehrfachantwortentabelle mit Zeilen: sport Balken: sex
Grak wie bei b)
21
7 Bivariate Untersuchungen
• Streudiagramm: Grafiken - Streudiagramm
Grasche Darstellung der gemeinsamen Verteilung von mehreren Variablen
einfach: für 2 Variablen
3D: für 3 Variablen
überlagert: für mehrere Variablenpaare
Matrix: mehrere Streudiagramme in Form einer Matrix für alle möglichen Paare aus einer
gegebenen Gruppe von Variablen
Markierung festlegen: Punkte der Grak werden nach den Ausprägungen der hier eingegebenen Variable farbig unterschieden
Optionen zum Bearbeiten von Streudiagrammen im SPSS Diagramm-Editor:
Diagramme oder Bearbeiten - Eigenschaften
z.B.: Zusammenfassen von benachbarten Punkten oder Anpassen einer Regressionskurve an
die Punktwolke
• Kreuztabellen: Analysieren - Deskriptive Statistiken - Kreuztabellen
Häugkeitstabelle für die gemeinsame Verteilung von zwei Variablen und Berechnung von weiteren Statistik-Kenngröÿen
Sinnvoll für Variablen mit wenigen Ausprägungen
Zellen: Angabe von prozentualen Werten (relative Häugkeiten, bedingte Häugkeiten)
Berechnung der erwarteten Häugkeiten (Produkt der jeweiligen Randverteilungen)
Statistik: u.a. Kontingenzkoezient und χ2 -Test auf Unabhängigkeit der Variablen
Schicht: für jede Ausprägung der Variablen, die in Schicht stehen, wird eine Kreuztabelle
erstellt
• Korrelationsanalyse: Analysieren - Korrelation - Bivariat
Berechnung von Korrelationskoezienten
Korrelationskoezient nach Pearson: Maÿ für den linearen Zusammenhang zweier metrischer Merkmale
Korrelationskoezient nach Spearman: für ordinale Merkmale (Rangordnung)
Wert des Korrelationskoezienten
-0,2 bis 0,2
-0,5 bis -0,2 oder 0,2 bis 0,5
-0,7 bis -0,5 oder 0,5 bis 0,7
-0,9 bis -0,7 oder 0,7 bis 0,9
-1,0 bis -0,9 oder 0,9 bis 1,0
Interpretation
sehr geringe Korrelation
geringe Korrelation
mittlere Korrelation
hohe Korrelation
sehr hohe Korrelation
Beispieldateien: strukturdaten.sav, studium.sav
22
7.1 Aufgaben bivariate Untersuchungen
1. Laden Sie die Datei bsp1.sav.
(a) Stellen Sie die Abhängigkeit des monatlichen Nettoeinkommens (v391) vom Alter (v317)
grasch dar.
Dierenzieren Sie in zwei weiteren Graken diesen Zusammenhang nach dem Geschlecht
(v146) bzw. nach dem Erhebungsgebiet (v3).
Was läÿt sich aus den Graken ablesen?
(b) Berechnen Sie den Korrelationskoezienten nach Pearson für die Variablen Alter und
Einkommen. Interpretieren Sie den Wert!
(c) Führen Sie jetzt analoge Untersuchungen durch nur für die Personen mit Haupt- bzw.
Realschulabschluÿ.
2. Laden Sie die Datei hyper.sav.
(a) Erstellen Sie ein überlagertes Streudiagramm für folgende Variablenpaare: Alter - syst.
Blutdruck Anfangswert (rrs0), Alter - syst. Blutdruck nach 6 Mon. (rrs6), Alter - syst.
Blutdruck nach 12 Mon. (rrs12).
Was kann man aus der Grak entnehmen?
(b) Erstellen Sie mehrere Streudiagramme in einer Grak (Matrix) für die Variablen Alter (a), Körpergröÿe (gr), Körpergewicht (gew), syst. Blutdruck (rrs0), diast. Blutdruck
(rrd0), Cholesterinwert (chol0), Blutzucker (bz0) (jeweils Variablen der Ausgangswerte).
3. In einer Seminargruppe wurden die Klausurnoten in Mathematik und Physik von 10 Studenten erfaÿt:
Mathematik
Physik
1
1
3
3
4
5
1
2
5
4
5
3
3
4
2
1
1
3
2
2
Untersuchen Sie, ob zwischen den Noten ein linearer Zusammenhang besteht durch die Berechnung eines geeigneten Korrelationskoezienten.
4. Laden Sie die Datei wein.sav.
Untersuchen Sie, ob eine Präferenz bestimmter Weinsorten geschlechtsabhängig ist.
Wählen Sie dazu geeignete grasche Darstellungen (gruppiertes Balkendiagramm, 3D-Balkendiagramm)
und erstellen Sie eine Kreuztabelle.
5. Laden Sie die Datei bsp2.sav.
(a) Untersuchen Sie die Freizeitaktivitäten Garten, Sport, Fernsehen, Lesen in Abhängigkeit
vom Bildungsabschluÿ (at8). Erstellen Sie dafür Kreuztabellen und geeignete Graken.
(b) Unterscheiden Sie jetzt in der Kreuztabelle auÿerdem noch nach dem Geschlecht der
befragten Personen.
(c) Berechnen Sie die zugehörigen Kontingenzkoezienten, wie sind die Werte zu interpretieren?
6. Laden Sie die Datei studium.sav.
(a) Erstellen Sie eine Kreuztabelle für die Variablen Fachbereich und psychische Lage. Wählen Sie die Einträge in die Tabelle so, damit Sie folgende Fragen beatworten können:
-) Wieviel Studenten bezeichnen ihre psychische Lage als stabil?
-) Wieviel Prozent aller Studenten gehören zum Fachbereich Jura?
23
-) Wieviele der Psychologiestudenten bezeichnen ihre psychische Lage als labil?
-) Wieviel Prozent aller Studenten sind Naturwissenschaftler mit psychisch stabiler Lage?
-) Wieviel Prozent der Medizinstudenten bezeichnen ihre psychische Lage als stabil?
-) Wieviel Prozent aller Studenten mit äuÿerst labiler Lage gehören zum Fachbereich
Geisteswissenschaften?
(b) Betrachten Sie jetzt nur noch Studenten aus den Fachbereichen Jura, Geisteswissenschaften, Psychologie.
Stellen Sie deren psychische Lage in Abhängigkeit vom Geschlecht dar. Beurteilen in
diesen Fachbereichen die männlichen oder die weiblichen Studenten ihre psychische Lage
eher labil?
7. Laden Sie die Datei Europa.sav.
(a) Untersuchen Sie sowohl grasch als auch durch geeignete Kenngröÿen, ob es Zusammenhänge zwischen folgenden Variablen gibt: Mittlere Lebenserwartung Frauen - Kindersterblichkeit, Anteil Stadtbevölkerung - Kindersterblichkeit, Mittlere Lebenserwartung
Männer - Anteil Stadtbevölkerung, Anzahl Sonnenscheinstunden - Anzahl Niederschlagstage. Interpretieren Sie die Kenngröÿen und die Art der Zusammenhänge.
(b) Teilen Sie die Länder ein in vier Gruppen nach der mittleren Tagestemperatur im Januar.
Untersuchen Sie jetzt grasch und tabellarisch, ob sich diese Gruppen unterscheiden bei
den Mittelwerten der Variablen mittlere Lebenserwartung Frauen, mittlere Lebenserwartung Männer, Anteil Stadtbevölkerung, Kindersterblichkeit, Anzahl Sonnenscheinstunden.
7.2 Lösungshinweise Aufgaben bivariate Untersuchungen
1. (a) Grafiken - Streudiagramm - Einfach
x-Achse: Alter und y -Achse: Nettoeinkommen
wie oben, dazu noch Markierung festlegen durch Geschlecht bzw. Erhebungsgebiet
(b) Analysieren - Korrelation - Bivariat: 0,007 (Pearson)
(c) Daten - Fälle auswählen - Falls: v147=2|v147=3
Korrelationskoezient nach Pearson: -0,010
2. (a) Grafiken - Streudiagramm - Überlagert
Y-X-Paare: rrs0 - a, rrs6 - a, rrs12 -a
(b) Grafiken - Streudiagramm - Matrix
Matrixvariablen: a, gr, gew, rrs0, rrd0, chol0, bz0
3. Analysieren - Korrelation - Bivariat: 0,684 (Spearman)
4. Grafiken - Balken - Gruppiert oder Grafiken - Interaktiv - Balken mit 3DKoordinate
Analysieren - Deskriptive Statistiken - Kreuztabellen
Zeilen: Geschlecht und Spalten: Weinart
5. (a) Analysieren - Deskriptive Statistiken - Kreuztabellen
Zeilen: Garten, Sport, Fersehen, Lesen und Spalten: Bildungsabschluÿ
gruppiertes Balkendiagramm
(b) wie oben, dazu noch Schicht: Geschlecht
24
(c) wie oben, dazu noch Statistik: Kontingenzkoezient
Interpretation: Bis auf das Hobby Fernsehen ist der jeweilige Kontingenzkoezient für
die männlichen Befragten (deutlich) gröÿer als der für die weiblichen Befragten, d.h. die
Ausübung des Hobbies hängt bei den männlichen Befragten eher vom Bildungsabschluÿ
ab als bei den weiblichen Befragten.
6. (a) Analysieren - Deskriptive Statistiken - Kreuztabellen
Zeilen: Fachbereich, Spalten: psychische Lage und Zellen: Prozentwerte zeilenweise,
spaltenweise, gesamt
Antworten auf die Fragen: 41 20,6% 6 5,6% 50% 50%
(b) Daten - Fälle auswählen falls fach=1|fach=3|fach=4
Analysieren - Deskriptive Statistiken - Kreuztabellen
Zeilen: Geschlecht und Spalten: psychische Lage
7. (a) Kenngröÿen: Korrelationskoezient nach Pearson
geeignete graphische Darstellung: Streudiagramm
(b) zunächst Transformieren - Umkodieren - In andere Variable, durch alte und
neue Werte Gruppen bilden für Variable mittlere Tagestemperatur Januar, z.B.: bis
-1◦ , 0◦ -3◦ , 4◦ -7◦ , ab 8◦ .
Dann graphische Darstellung durch gruppiertes Balkendiagramm, tabellarische Darstellung durch einfache Tabellen oder Vergleich durch Analysieren - Mittelwerte vergleichen - Mittelwerte.
25
8 Regressionsanalyse
Beschreibung des Zusammenhangs zwischen zwei metrischen Merkmalen X, Y durch Anpassung
einer Funktion f vorgegebenen Typs nach der Methode der kleinsten Quadrate.
Ŷ = f (X) , X - unabhängige Variable, Ŷ - abhängige Variable
Festlegung des Funktionstyps mit Hilfe von: Streudiagramm
Korrelationsanalyse
• lineare Regression
Analysieren - Regression - Linear
Funktionstyp Ŷ = a + b · X
Erläuterungen zum output:
Tabelle Koezienten: Enthält in Spalte B Schätzungen für das Absolutglied a (1. Zeile) und
den Anstieg b (2. Zeile)
Die weiteren Gröÿen dienen der statistischen Beurteilung der vorgenommenen Anpassung.
In der Dialogbox Lineare Regression kann man unter Statistiken Kondenzintervalle aktivieren. Das liefert die 95%-Kondenzintervalle für die Schätzer der Regressionskoezienten.
Tabelle Modellzusammenfassung: Enthält unter R den Korrelationskoezienten und unter RQuadrat das Bestimmtheitsmaÿ (Maÿ für die Güte der Anpassung).
Tabelle Anova: Enthält Gröÿen, die sich aus der Quadratsummenzerlegung (Grundidee der
Regression) ergeben.
• Kurvenanpassung
Analysieren - Regression - Kurvenanpassung
11 Funktionstypen
Schätzung für die Koezienten steht unter b0 , b1 , ....
Das Bestimmtheitsmaÿ ist gegeben durch Rsq.
Bei zeitabhängigen Daten kann man als unabhängige Variable Zeit wählen.
• Prognose
Im Dateneditor sind für die unabhängige Variable die Werte einzugeben, für die die abhängige
Variable zu prognostizieren ist.
In der Dialogbox Lineare Regression oder Kurvenanpassung unter Speichern Vorhergesagte Werte aktivieren (bei linearer Regression: nicht standardisiert). Im Dateneditor
erscheinen die Werte für Ŷ einschlieÿlich der Prognosewerte.
• nichtlineare Regression
Analysieren - Regression - Nichtlinear Funktionstyp selber festlegen
Unter Modellformel Formel des gewünschten Funktionstyps angeben.
Unter Parameter geeignete Startwerte für die zu schätzenden Parameter angeben.
Beispieldateien: autos.sav, mitglieder.sav, population.sav
26
8.1 Aufgaben Regressionsanalyse
1. Laden Sie die Datei gröÿe.sav.
(a) Stellen Sie den Zusammenhang zwischen Gröÿe und Gewicht grasch dar.
(b) Wie lautet die lineare Regressionsfunktion nach der Methode der kleinsten Quadrate?
(c) Welches Körpergewicht ist demnach im Mittel zu erwarten bei einer Person mit Körpergröÿe von 190 cm?
(d) Geben Sie das 95%-Kondenzintervall für den Anstieg der linearen Regressionsfunktion
an.
2. Laden Sie die Datei bsp3.sav.
(a) Stellen Sie den Zusammenhang zwischen dem verfügbaren Einkommen privater Haushalte
(YHV) und dem privaten Verbrauch (CPR) sowie den zwischen verfügbarem Einkommen
und dem Preisindex für privaten Konsum (PICPR) jeweils in einem Streudiagramm dar.
Ermitteln Sie für beide Zusammenhänge den Korrelationskoezienten.
Ist in beiden Fällen eine lineare Regressionsfunktion geeignet zur Beschreibung des Zusammenhangs?
(b) Geben Sie für beide Zusammenhänge die Gleichung der Regressionsgeraden an sowie das
Bestimmtheitsmaÿ. Begründen Sie die unterschiedlichen Werte für das Bestimmtheitsmaÿ.
3. Laden Sie die Datei people01.sav.
(a) Schätzen Sie die Regressionsparameter für eine Exponentialfunktion vom Typ y = a · bx .
(b) Prognostizieren sie damit die Bevölkerungszahl für das Jahr 2000.
4. Laden Sie die Datei leistung.sav.
(a) Bestimmen Sie eine lineare Regressionsfunktion nach der Methode der kleinsten Quadrate.
(b) Wie gut ist die Beschreibung der Leistungswerte in Abhängigkeit von der Dosierung der
Stimulanz durch einen linearen Zusammenhang? Gibt es einen Funktionstyp, der dafür
besser geeignet ist?
Geben Sie die Regressionsfunktion für diesen Funktionstyp an.
(c) Schätzen Sie die Leistungswerte für eine Dosierung von 1,5 und 2,7 mit einer geeigneten
Regressionsfunktion.
5. Laden Sie die Datei VWKäfer.sav.
Führen Sie eine nichtlineare Regression durch für die Verkaufszahlen mit dem Funktionstyp
ta · e−bt und den Anfangswerten a = 6 und b = 0, 2.
Stellen Sie die Verkaufszahlen und die Werte der Regressionsfunktion grasch dar.
6. Laden Sie die Dateien Fahrrad.sav und Produkt.sav. Welche Funktionstypen sind geeignet um die Entwicklung der Gesamtproduktion an Fahrrädern bzw. des Umsatzes bei einem
neu auf dem Markt eingeführten Produkt zu beschreiben. Führen Sie in beiden Fällen die
entsprechende Regression durch.
27
8.2 Lösungshinweise Aufgaben Regressionsanalyse
1. (a) Grafiken - Streudiagramm - Einfach
x-Achse: Gröÿe und y -Achse: Gewicht
(b) Analysieren - Regression - Kurvenanpassung
unabh. Variable: Gröÿe, abh. Variable: Gewicht, Modell: linear
Ŷ = −40, 392 + 0, 6462X
X - Gewicht, Y - Gröÿe
(c) 82,39 kg
Im Editor bei Variable Gröÿe 190 eingeben, Regression durchführen und Speichern,
vorhergesagte Werte aktivieren.
(d) Kondenzintervall [0, 245 ; 1, 047]
Bei Analysieren - Regression - Linear unter Statistiken Kondenzintervall
aktivieren.
2. (a) Grafiken - Streudiagramm und Analysieren - Korrelation - Bivariat
Einkommen X - Verbrauch Y : Korrelationskoezient 0,999
Einkommen X - Konsum Y : Korrelationskoezient 0,948
(b) Analysieren - Regression - Kurvenanpassung Modell: linear
Einkommen X - Verbrauch Y : Ŷ = 19018, 8 + 0, 8549X
Bestimmtheitmaÿ: 0,998
Einkommen X - Konsum Y : Ŷ = −10, 636 + 8, 4 · 10−5 X
Bestimmtheitmaÿ: 0,900
3. (a) Analysieren - Regression - Kurvenanpassung Modell: Zusammengesetzt
unabhängige Variable: Zeit Ŷ = 3, 401 · 1, 0928X , X = 1, ..., 5
oder
unabhängige Variable: Jahr Ŷ = 2, 4 · 10−15 · 1, 0179X , X = 1970, 1975, ..., 1990
(b) 6,33169 Mrd.
Regression durchführen und Speichern, vorhergesagte Werte aktivieren.
4. (a) Analysieren - Regression - Kurvenanpassung Modell: Linear
X - Dosierung, Y - Leistung: Ŷ = 6, 5331 − 0, 9721X
(b) quadratische Funktion: Ŷ = 3, 3787 + 5, 7874X − 2, 2532X 2 (erkennt man am Streudiagramm und am Bestimmtheitsmaÿ der Regression)
(c) Schätzungen: Dosierung 1,5: 6,99 Dosierung 2,7: 2,58
Quadratische Regression durchführen und Speichern, vorhergesagte Werte aktivieren.
5. Analysieren - Regression - Nichtlinear
abhängige Variable: prodzahl, Modellformel: nra · EXP(−b · nr), Parameter: a = 6,
b = 0, 2
Ŷ = t6,199 · e−0,2476t t = 1, ..., 56
Grafiken - Sequenz
6. Fahrrad: kubische Regression: Ŷ = 5, 043 − 1, 502t + 0, 506t2 − 0, 043t3 , t = 1, ..., 7
1
Produkt: logistische Regression: Obergrenze 6, Ŷ = 1
, t = 1, ..., 20
t
6 + 16, 473 · 0, 673
28
9 Zeitreihenanalyse
Zeitreihe: zeitlich geordnete Folge von Beobachtungen (Meÿwerten) eines metrischen
Merkmals X
gleichabständige Zeitpunkte in SPSS erzeugen durch
Daten - Datum definieren
• graphische Darstellung
Sequenzdiagramm (Liniendiagramm speziell für Zeitreihen)
Grafiken - Sequenz
• Glättung
-) Gleitende Durchschnitte
Transformieren - Zeitreihen erstellen Funktion: Zentrierter gleitender Durchschnitt
mit Spanne = Anzahl der zur Berechnung des neuen Wertes verwendeten
Werte der Zeitreihe
-) Exponentielles Glätten
• Schätzung der Trendkomponente T
Regression (unabhängige Variable: Zeit) oder gleitende Durchschnitte
• Schätzung der Saisonkomponente S
Entscheidung, ob additives Modell (X = T + S , konstante saisonale Schwankungen) oder
multiplikatives Modell (X = T · S , saisonale Schwankungen nehmen mit wachsendem Trend
zu) vorliegt
Analysieren - Zeitreihen - Saisonale Zerlegung
neue Variablen: STC
SAF
SAS
ERR
geglättete Trendkomponente
Saisonkomponente
saisonbereinigte Daten X− SAF
Dierenz STC SAS
• Prognose
Prognose für Trendkomponente ( % Regressionsanalyse)
additiv/multiplikativ (je nach gewähltem Modell) verknüpfen mit Saisonkomponente SAF
Beispieldatei: übern.sav
29
9.1 Aufgaben Zeitreihen
1. Laden Sie die Datei umsatz01.sav.
(a) Stellen Sie den Umsatz in Abhängigkeit von der Zeit grasch dar.
(b) Berechnen Sie zur Ausschaltung von Saisonschwankungen gleitende Durchschnitte 4.
Ordnung (Spanne = 4).
(c) Stellen Sie die Ausgangsdaten und die geglätteten Werte in einer Grak dar.
(d) Berechnen Sie die Saisonkomponente auf Grundlage eines additiven Modells.
(e) Bestimmen Sie eine lineare Regressionsfunktion für die Trendkomponente. Wie lautet die
Funktion?
(f) Prognostizieren Sie den Umsatz für die vier Quartale des Jahres 1996.
(g) Ermitteln Sie jetzt eine Prognose für den Umsatz im Jahr 1996 auf Grundlage des multiplikativen Modells.
(h) Vergleichen Sie beide Prognosen miteinander.
2. Laden Sie die Datei butter.sav.
(a) Stellen Sie die zeitliche Entwicklung der Butterproduktion grasch dar.
(b) Glätten Sie die Zeitreihe durch gleitende Durchschnitte mit Spanne 2,3,6,12.
Welche Spanne ist am besten geeignet zum Glätten dieser Daten?
(c) Stellen Sie die geglätteten Kurven in einer Grak dar.
(d) Berechnen Sie die Saisonkomponente auf Grundlage eines additiven Modells.
Wie lautet der Saisonindex für den Monat April und den Monat November? Wie sind
diese Werte zu interpretieren?
(e) Geben Sie eine lineare Trendschätzung nach der Methode der kleinsten Quadrate an.
(f) Prognostizieren Sie die Butterproduktion für Januar bis Juni 1983.
3. In einem Unternehmen wurden die Energiekosten über die Quartale von 4 Jahren erfaÿt (in
TDM):
Quartal/Jahr
I
II
III
IV
1993
38,2
36,1
39,4
42,1
1994
40,3
38,6
42,1
45,3
1995
43,1
40,9
46,1
49,0
1996
44,6
44,1
49,2
52,4
(a) Geben Sie die Daten in geeigneter Form ein und speichern Sie die Datei.
(b) Wie lauten die Prognosewerte für die Energiekosten des Unternehmens in den vier Quartalen des Jahres 1997? Für welches Modell (additiv/multiplikativ) haben Sie sich entschieden?
(c) Stellen Sie die Werte der Zeitreihe und die der Prognose in einer Grak dar.
4. Laden Sie die Datei Staubs.sav.
(a) Stellen Sie die Daten durch eine geeignete Grak dar. Welche Eigenschaften dieser Daten
lassen sich an der Grak erkennen?
(b) Bearbeiten Sie die Zeitreihe durch exponentielles Glätten. Lassen Sie durch SPSS den
geeigneten Glättungsparameter α ermitteln. Welchen Wert hat α?
Stellen Sie die Daten und die geglätteten Wert in einer gemeinsamen Grak dar.
30
(c) Variieren Sie jetzt den Glättungsparameter (z.B. α = 0, 1 ; α = 0, 4 ; α = 0, 9). Stellen
Sie jeweils die geglätteten Werte grasch dar. Welchen Einuÿ hat die Wahl von α auf
die Glättung?
5. Laden Sie die Datei Flug.sav.
Prognostizieren Sie mit einem geeigneten Verfahren die Anzahl der Fluggäste in den nächsten
12 Monaten.
9.2 Lösungshinweise Aufgaben Zeitreihen
1. (a) Grafiken - Sequenz
(b) Transformieren - Zeitreihen erstellen - Funktion: Zentrierter gleitender
Durchschnitt
(c) Grafiken - Sequenz
(d) Analysieren - Zeitreihen - Saisonale Zerlegung
Variable: umsatz, Modell: additiv
Seasonal index: Quartal
I -0,551
II 0,791
III 0,686
IV -0,926
(e) Analysieren - Regression - Kurvenanpassung
abh. Variable: umsatz, unabh. Variable: Zeit, Modell: linear
x̂ = 3, 0725 + 0, 0312t
t = 1, ..., 16
I/96 3,05
(f) Prognose (additives Modell)
II/96 4,42
III/96 4,35
IV/96 2,77
I/96 3,04
(g) Prognose (multiplikatives Modell)
II/96 4,50
III/96 4,42
IV/96 2,64
2. (a) Grafiken - Sequenz
(b) Transformieren - Zeitreihen erstellen - Funktion: Zentrierter gleitender
Durchschnitt
Spanne 12 hier am besten geeignet
(c) Grafiken - Sequenz
(d) Analysieren - Zeitreihen - Saisonale Zerlegung
Saisonindex April: 17,326
November: -12,830
(e) Analysieren - Regression - Kurvenanpassung
x̂ = 79, 3147 + 0, 8408t
t = 1, ..., 48
(f) Prognose 1/83 139,47
2/83 132,18
3/83 135,84
4/83 140,36
5/83 141,71
6/83 121,26
31
3. (a) Datum erstellen mit Daten - Datum definieren
(b) Analysieren - Zeitreihen - Saisonale Zerlegung und Analysieren - Regression - Kurvenanpassung
Prognose:
additives Modell:
I/97
II/97
III/97
IV/97
49,48
48,00
52,38
55,37
multipl. Modell:
I/97
II/97
III/97
IV/97
(c) Grafiken - Sequenz
4. (a) Grafik - Sequenz
(b) Analysieren - Zeitreihen - Exponentielles Glätten
Modell: Einfach, Parameter: Gittersuche, Speichern: Zur Datei hinzufügen
α = 0, 7
5. periodische Zeitreihe mit Saisoneinüssen: multiplikatives Modell
32
49,83
47,55
52,26
55,70
1. Aufgabe zur Wiederholung
Laden Sie die Datei Bsp5.sav.
1. Verschaen Sie sich einen Überblick darüber, welche Variablen und entsprechenden Kodierungen diese Datei enthält.
2. Untersuchen Sie die Datei auf mögliche grobe Eingabefehler. Versuchen Sie, diese Fehler möglichst eektiv zu nden.
(Hinweise zur Korrektur der Fehler nden Sie unten auf der Seite.)
3. Bilden Sie aus der Variablen v391 (monatliches Nettoeinkommen) eine neue Variable, die folgende Einkommensklassen beschreibt:
monatliches Einkommen
0
100-999 DM
1000-1999 DM
2000-2999 DM
3000-3999 DM
4000-4999 DM
5000-10000 DM
99996-99999
Einkommensklasse
0
1
2
3
4
5
6
9
4. Berechnen Sie eine neue Variable, die das Geburtsjahr enthält, aus der Variablen v317 (Alter).
5. Vergleichen Sie die Häugkeiten für den allgemeinen Schulabschluÿ nach dem Geschlecht. (Geben Sie die Häugkeiten in einer Tabelle aus, getrennt nach männlich/weiblich.)
Stellen Sie wieder die ursprüngliche Reihenfolge der Daten her (sortiert nach Fragebogennummer).
6. Bestimmen Sie folgende Häugkeitstabellen:
• für die Variable v147 (Schulabschluÿ),
• für die Variable v170 (jetzige Berufshauptgruppe), aber nur für die weiblichen Befragten,
• für die Variable v391 (monatliches Einkommen) für alle männlichen Personen, die aus
den Altbundesländern kommen und deren Alter zwischen 25 und 40 Jahren liegt.
Hinweis: Eingabefehler in dieser Datei sind wie folgt zu korrigieren:
v146: 4 → 1, 12 → 2
v147: 13 → 3
v447: 19 → 9, 18 → 13.
33
2. Aufgabe zur Wiederholung
Laden Sie die Datei umsatz02.sav.
1. Die Umsatz- und Werbungskosten dieser Datei seien quartalsweise gegeben, beginnend mit
dem 1. Quartal 1992. Erzeugen Sie die entsprechenden Variablen für das Datum.
2. Führen Sie je 3 geeignete Klassen ein für die Variablen umsatz und werbung.
3. Bestimmen Sie den durchschnittlichen Umsatz, sowie Median, Varianz und Spannweite der
Werbungskosten.
Bestimmen Sie den Wert, unter dem 40% der Umsätze liegen.
Wieviel Prozent der Umsätze liegen unter 3,8?
4. Erstellen Sie eine geeignete Grak für die Variable umsatz.
Wie kann man einfach überprüfen, ob die Daten der Variable umsatz einer Normalverteilung
genügen?
Erstellen Sie ein gruppiertes Balkendiagramm für die Werbungsklassen, gruppiert nach den
Quartalen. Beschriften Sie die Balken, und stellen Sie die Balken mit 3D-Eekt dar.
Wie läÿt sich dieses Diagramm hinsichtlich der Werbungskosten interpretieren?
5. Vergleichen Sie in einer Tabelle den mittleren, maximalen und minimalen Umsatz in jedem
Quartal. Erstellen Sie dann dazu für jedes Quartal eine Tabelle.
Stellen Sie jetzt den mittleren, maximalen und minimalen Umsatz in jedem Quartal grasch
dar.
Erstellen Sie eine Tabelle, die die gesamten Werbungskosten für jedes Jahr enthält und die
Summe aller Werbungskosten.
Erstellen Sie eine Tabelle, die Werbungskosten und Umsatz nur für das erste Quartal von
jedem Jahr enthält.
6. Erstellen Sie ein Streudiagramm für die Variablen umsatz und werbung.
Dierenzieren Sie diese Werte in einem weiteren Streudiagramm nach dem Quartal.
Erstellen Sie eine Kreuztabelle für die Klassen der Variablen Umsatz und Werbungskosten,
die sowohl absolute als auch prozentuale Werte enthält.
Erstellen Sie ein dreidimensionales Balkendiagramm für Umsatz- und Werbungsklassen mit
kreisförmigen beschrifteten Säulen.
34
Aufgaben zur Wiederholung
1. Önen Sie die Datei Bank.sav.
Die Variablen age, sex, jobcat und salbeg enthalten Angaben über Alter, Geschlecht, Beruf
und Anfangsgehalt der befragten Personen.
(a) Wieviel Prozent der Büroangestellten sind jünger als 50 Jahre?
(b) Bestimmen Sie die Einkommensgrenze, unter welcher das Anfangsgehalt von 50% der
männlichen Befragten liegt.
(c) Wieviele der weiblichen Befragten sind jünger als 38 Jahre?
(d) Bestimmen Sie das durchschnittliche aktuelle Gehalt der Befragten in jeder Jobkategorie.
Speichern Sie das Ergebnis unter
t1.spo .
(e) Berechnen Sie das durchschnittliche aktuelle Gehalt derjenigen Befragten, die zu den
Jobkategorien Büroangestellte oder Techniker gehören und älter als 30 und jünger als 50
Jahre sind. Notieren Sie den Wert, und beschreiben Sie Ihre Vorgehensweise.
2. Zur Überprüfung der Wirkung von Kraftfutter für Milchkühe verwenden sechs benachbarte
Bauern mit gleichem Viehbestand verschiedene Mengen. Diese Kraftfuttermengen (in kg) und
die Milcherträge (in l) sind in der folgenden Tabelle dargestellt:
Bauer
A
B
C
D
E
F
Kraftfuttermenge
80
200
240
140
400
320
Milchertrag
2700
3250
3500
3100
4000
3800
(a) Geben Sie diese Daten in geeigneter Form ein.
Speichern Sie die Daten unter
a1.sav .
(b) Stellen Sie die Werte der Tabelle in einer Grak dar mit der Sie prüfen können, ob es
gerechtfertigt ist, einen annähernd linearen Zusammenhang zwischen den beiden Merkmalen anzunehmen.
Speichern Sie diese Grak unter
g1.spo .
(c) Durch welche Maÿzahl kann man überprüfen, ob sich der Zusammenhang der beiden
Merkmale gut durch ein lineare Funktion beschreiben läÿt? Geben Sie den konkreten
Zahlenwert für diese Daten an und interpretieren Sie ihn.
(d) Ermitteln Sie eine lineare Regressionsfunktion, und geben Sie deren Gleichung an:
(e) Welchen Milchertrag kann man mit dieser Regressionsfunktion erwarten bei einem Einsatz von 500 kg Kraftfutter?
(f) Wäre eine Funktion der Form Y = a · ebX besser geeignet um den Zusammenhang
zwischen beiden Merkmalen zu beschreiben? (Begründung!)
35
3. Önen Sie die Datei Dax.sav.
Die Datei enthält Werte des DAX an 22 (Börsen-)Tagen über den Zeitraum 16.10.97 bis 14.11
97.
(a) Glätten Sie diese Zeitreihe durch die Berechnung gleitender Durchschnitte der Ordnung
3 und 6. Beschreiben Sie stichpunktartig Ihre Vorgehensweise bei dieser Glättung:
Was ist an den geglätteten Werten zu erkennen?
(b) Speichern Sie die Daten einschlieÿlich der Werte der geglätteten Reihen unter:
a2.sav .
(c) Erstellen Sie eine geeignete Grak, die sowohl die Ausgangsdaten als auch die geglätteten
Werte enthält.
Speichern Sie diese Grak unter:
g2.spo .
(d) Geben Sie eine quadratische Regressionsfunktion für die Daten an.
4. Önen Sie die Datei Autos.sav.
Die Datei enthält Angaben zu 406 zufällig ausgewählten Autos.
(a) Stellen Sie in einem Balkendiagramm die durchschnittlichen Hubraumvolumina (Variable hubraum) in Abhängigkeit von der Anzahl der Zylinder (Variable zylinder) dierenziert nach dem Herstellungsland (Variable land) dar.
Weisen Sie jedem Balken das durchschnittliche Hubraumvolumen zu.
Speichern Sie diese Grak unter:
g3.spo .
(b) Halten Sie stichpunktartig Ihre Vorgehensweise bei der Erstellung dieses Balkendiagramms fest.
(c) Geben Sie jetzt die durchschnittlichen Hubraumvolumina in Abhängigkeit von der Zylinderzahl für jedes Herstellungsland in einer geeigneten Tabelle an.
Speichern Sie diese unter:
t2.spo .
(d) Erstellen Sie jetzt eine zu g3.spo analoge Grak, in der nur Europa und Japan (Variable
land) berücksichtigt werden.
Speichern Sie diese Grak unter:
g4.spo .
(e) Erstellen Sie eine Kreuztabelle für die Variablen Herstellungsland und Anzahl Zylinder.
Wieviel Prozent der Autos sind in Europa hergestellt und haben 4 Zylinder?
Wieviel Prozent der in Europa hergestellten Autos haben 4 Zylinder?
Wieviel Prozent der Autos mit 4 Zylindern wurden in Europa hergestellt?
36
5. Önen Sie die Datei Hyper.sav.
(a) Stellen Sie den Zusammenhang zwischen den Variablen chol0 und chol1 bzw. chol0 und
chol12 in Abhängigkeit vom Geschlecht der untersuchten Personen geeignet grasch dar.
Speichern Sie diese beiden Graken unter:
g5.spo .
(b) Berechnen Sie den Korrelationskoezienten nach Pearson paarweise für die Variablen
gew (Körpergewicht), gr (Körpergröÿe), rrso (Blutdruck), chol0 und chol12 (Cholesterinwerte). Interpretieren Sie die Ergebnisse!
(c) Stellen Sie in einer Grak die gemeinsamen Verteilungen für alle möglichen Paare der
Variablen bz0, bz1, bz6, bz12 dar.
6. Önen Sie die Datei B00.sav.
(a) Teilen Sie die befragten Personen in geeignete Altersklassen ein. Bilden Sie dazu zunächst
eine neue Variable Alter aus dem Geburtsjahr der Personen.
(b) Stellen Sie tabellarisch den Zusammenhang zwischen den Variablen Altersklasse und
Partei bzw. Konfession und Partei dar. Wählen Sie dabei jeweils eine solche Tabelle
aus, die auch die Häugkeiten für jede einzelne Variable enthält.
Speichern Sie diese beiden Tabellen unter:
t3.spo .
(c) Stellen Sie in einer geeigneten Grak die Zahl der Anhänger jeder Partei dar in Abhängigkeit von der Konfession.
Speichern Sie die Grak unter:
g6.spo .
7. Önen Sie die Datei Besuch.sav.
(a) Führen Sie eine Glättung der Daten mit Hilfe der Methode der gleitenden Durchschnitte
durch, wählen Sie dabei eine sinnvolle Ordnung. Verschaen Sie sich dazu zunächst einen
Überblick über die Daten durch eine geeignete Grak.
Bestimmen Sie die Parameter einer Geraden, die die geglätteten Werte nach der Methode der kleinsten Quadrate am besten beschreibt.
Wie gut ist die Darstellung durch die Gerade? (Welche Gröÿe beschreibt diese Güte
zahlenmäÿig?)
(b) Zerlegen sie die Zeitreihe in die einzelnen Komponenten (additives Modell).
Geben Sie die Saisonfaktoren an für die Monate März und August.
(c) Erstellen Sie eine Prognose für die Besucherzahlen im Jahr 2000. Verwenden Sie dazu
das additive Modell und eine lineare Regressionsfunktion für die Ausgangsdaten.
Stellen Sie in einer Grak die Ausgangsdaten als auch die Prognosewerte dar.
Speichern Sie die Grak unter:
g7.spo .
(d) Geben Sie die prognostizierten Besucherzahlen für März und August 2000 an.
37
Lösungshinweise Aufgaben zur Wiederholung:
1. (a) Daten - Fälle auswählen: falls jobcat=1
Analysieren - Deskriptive Statistiken - Häufigkeiten: Häugkeitstabelle für
Ergebnis: 69,2%
alter
(b) Daten - Fälle auswählen: falls sex=0
Analysieren - Deskriptive Statistiken - Häufigkeiten:
Häugkeitstabelle für Anfangsgehalt (oder Median)
Ergebnis: 6 300 DM
(c) Daten - Fälle auswählen: falls (sex=1) & (alter<38)
Ergebnis: 125 Personen
(d) Daten - Datei aufteilen - Gruppen vergleichen: jobcat
Analysieren - Deskriptive Statistiken - Häufigkeiten:
Mittelwert für aktuelles Gehalt
oder Analysieren - Mittelwerte vergleichen - Mittelwerte:
abhängige Variable: aktuelles Gehalt, unabhängige Variable: jobcat
(e) Daten - Fälle auswählen: falls (jobcat=1|jobcat=7) & (alter>30) & (alter<50)
Analysieren - Deskriptive Statistiken - Häufigkeiten:
Mittelwert für aktuelles Gehalt
Ergebnis: 13 585,09 DM
2. (b) Grafiken - Streudiagramm: einfach
(c) Analysieren - Korrelation - Bivariat: Korrelationskoezient nach Pearson 0,989
(d) Analysieren - Regression - Kurvenanpassung:
unabhängige Variable X : Kraftfuttermenge, abhängige Variable Y : Milchertrag,
Modell: linear
Ergebnis: y = 2 467, 98 + 4, 0160 · x
(e) Regression mit speichern, vorhergesagte Werte
Ergebnis: y ∗ (500) = 4 475, 996
(f) Analysieren - Regression - Kurvenanpassung: Modell: linear und exponentiell
Vergleich von rsq: 0,977 (linear) und 0,959 (exponentiell) −→ nein!
3. (a) Transformieren - Zeitreihen erstellen - Funktion: Zentrierter gleitender
Durchschnitt Spanne: 3 und 6
(c) Grafiken - Sequenz: Variablen: Dax, MA(dax,3,3), MA(dax,6,6)
(d) Analysieren - Regression - Kurvenanpassung
Modell: quadratisch: x = 4 211, 33 − 49, 294 · t + 1, 2409 · t2 , t = 1, 2, ..., 22
4. (a) Grafiken - Balken: gruppiert, Auswertung über Kategorien einer Variablen
Kat.achse: zylinder, Gruppen def: land, Auswertefunktion: mean(hubraum)
Diagrammeditor, Datenbeschriftung
(c) Analysieren - Tabellen - Einfache Tabellen:
Zeilen: zylinder, Spalten: land, Auswerten: hubraum, Statistik: Mittelwert
(d) wie (a), vorher Daten - Fälle auswählen: falls land=2|land=3
(e) Analysieren - Deskriptive Statistiken - Kreuztabellen:
Zeilen: land, Spalten: zylinder, Zellen: Prozentwerte
(vorher wieder Daten - Fälle auswählen - alle Fälle!!)
Antwort auf die Fragen: 16,3% , 90,4% , 31,9%
5. (a) Grafiken - Streudiagramm - einfach: Markierung: Geschlecht
(b) Analysieren - Korrelation - Bivariat
(c) Grafiken - Streudiagramm - Matrix
38
6. (a) Transformieren - Berechnen: alter=104-jahr
Einteilung in Altersklassen z.B.: Kl 1: 25-39, Kl 2: 40-54, Kl 3: 55-69, Kl 4: 70-84
Transformieren - Umcodieren - in andere Variable: alte und neue Werte angeben
(b) Analysieren - Tabellen - einfache Tabellen:
Zeilen: Altersklasse bzw. Konfession, Spalten: Partei, Gesamtwerte
(c) Grafiken - Balken: Auswertung über Kategorien einer Variablen, gruppiert
Kategorienachse: Partei, Gruppe: Konfession
7. (a) Grafiken - Sequenz: Variable: anzahl, Zeitachse: date
Transformieren - Zeitreihen erstellen: Funktion: zentrierter gleitender Durchschnitt,
Spanne: 12
Analysieren - Regression - Kurvenanpassung:
abh. Variable: MA(anzahl,12,12), unabh. Variable: Zeit, Modell: linear
Ergebnis Regressionsgerade: X = 6, 863 + 0, 0337 · t, t = 7, 8, ..., 54
(b) Analysieren - Zeitreihen - Saisonale Zerlegung
Ergebnis Saisonfaktoren: März: -2,15424 August: 3,95410
(c) Analysieren - Regression - Kurvenanpassung:
abhängige Variable: Anzahl, unabhängige Variable: Zeit, Modell: linear
speichern: vorhergesagte Werte bis 12/2000
Transformieren - Berechnen: prog=SAF+FIT
Grafiken - Sequenz
(d) Ergebnis Prognose 2000: März: 6 940
September: 12 720
39