Script SPSS - EAH-Jena
Transcription
Script SPSS - EAH-Jena
A AAA AA AA A AA A A AA A A AA A A A AA A A A Fachhochschule Jena Fachbereich Grundlagenwissenschaften Prof. Dr. Viola Weiÿ Begleitmaterial mit Übungsaufgaben für die Lehrveranstaltung Einführung in SPSS im Fachbereich Betriebswirtschaft in Anlehnung an die Vorlesung Statistik basierend auf der Version 12.0/13.0 von SPSS Jena, März 2005 (erweiterte Fassung: Februar 2006) 1 Aufbau und Arbeitsweise von SPSS SPSS - ursprünglich: Statistical Package for Social Science - heute: Superior Performing Software System • Dateneditor: Eingabefenster zur Dateneingabe und zum Önen und Bearbeiten von bestehenden Datendateien Datenansicht: in Tabellenform, wobei Spalten = Variablen (Merkmale), Zeilen = Beobachtungen (Fälle, befragte Personen) Eine Zelle enthält den Wert (die Ausprägung) der entsprechenden Variable (Spalte) für den zugehörigen Fall (Zeile). Variablenansicht: Festlegung und Beschreibung aller vorkommenden Variablen (% Variablen erstellen) erzeugter Datentyp: *.sav • Viewer: Ausgabefenster linker Teil: Auistung aller durchgeführten statistischen Untersuchungen in Baumstruktur rechter Teil: Ergebnisse (Tabellen, Graken, Fehlermeldungen) der statistischen Untersuchungen erzeugter Datentyp: *.spo • Syntaxfenster: zur Programmierung von statistischen Untersuchungen in der SPSS-Befehlssprache erzeugter Datentyp: *.sps • SPSS Diagramm-Editor: zum Editieren von Graken im Viewer wird aktiviert durch Doppelklick auf einen Punkt innerhalb der Grak Menüleiste enthält Optionen zum Bearbeiten von Graken • Pivot-Tabellen-Editor: zum Editieren von Tabellen im Viewer wird aktiviert durch Doppelklick auf einen Punkt innerhalb der Tabelle Menüleiste enthält Optionen zum Bearbeiten von Tabellen Alle Statistikprozeduren arbeiten stets variablenweise (d.h. spaltenbezogen)! 2 2 Variablen erstellen, Datenmodikation, Datenselektion • Denition von Variablen (in Variablenansicht) Variablenname: mit einem Buchstaben beginnend, ohne Leer- und Sonderzeichen Variablentyp: u.a. Numerisch, Datum, String Datumsvariablen mit gleichabständigen Zeitpunkten generieren durch Daten - Datum definieren Variablenlabel: Bezeichnung für die genauere Beschreibung einer Variablen, die dann auch im Viewer bei der Ausgabe erscheint Wertelabel: Bezeichnung für die inhaltliche Beschreibung der Werte einer Variablen, die diese annehmen kann, wenn sie in codierter Form angegeben werden (z.B. Variable Geschlecht: Codierung der Werte: 0 und 1, Wertelabels: männlich (für 0), weiblich (für 1)) Meÿniveau: nominal, ordinal, metrisch fehlende Werte: Festlegung der Beschreibung von fehlenden Werten (z.B. wenn eine Frage nicht beantwortet wurde oder Meÿergebnisse nicht vorhanden sind) • Datenmodikation Editieren im Dateneditor: Bearbeiten : Ausschneiden, Kopieren, Einfügen, Löschen von Zellen Daten - Fälle einfügen : Einfügen einer neuen Zeile, nachdem die Stelle auf dem linken Rand markiert wurde Daten - Variable einfügen : Einfügen einer neuen Spalte, nachdem die Variable rechts daneben markiert wurde Berechnung neuer Variablen: Transformieren - Berechnen Berechnen neuer Variablen aus bestehenden Variablen durch Vorgabe einer Zielvariable und eines numerischen Ausdrucks Umkodierung: Transformieren - Umkodieren - In andere Variable Umkodierung von ursprünglich erfaÿten Variablen, z.B. zur Klassenbildung bei metrischen Variablen, durch Benennung einer neuen Variablen Ausgabevariable und durch Vorgabe einer Transformationsvorschrift in Alte und neue Werte Gewichtung von Fällen: Daten - Fälle gewichten Analyse von Datendateien, die in Form einer Häugkeitstabelle vorliegen durch Angabe einer Wichtung in Häugkeitsvariable • Datenselektion Auswahl von Fällen: Daten - Fälle auswählen Alle weiteren Auswertungen werden nur noch für die ausgewählten Fälle durchgeführt. Auswahl von Fällen durch Angabe einer Bedingung (Falls Bedingung zutrit) in Form eines logischen Ausdrucks oder durch eine Zufallsstichprobe. Aufteilung in Gruppen: Daten - Datei aufteilen Auswertung wird für alle Fälle der Datei durchgeführt aber nach Gruppen getrennt, wobei die Gruppeneinteilung durch die festgelegten Variablen in Gruppen basierend auf erfolgt. Die Ausgabe der Ergebnisse erscheint getrennt nach Gruppen (Ausgabe nach Gruppen aufteilen) oder in einer gemeinsamen Tabelle (Gruppen vergleichen). Beispieldateien: bank.sav, frageb03.sav, münze.sav, arblos.sav 3 2.1 Aufgaben Variablen erstellen, Datenmodikation, Datenselektion 1. Laden Sie die Datei noten01.sav. (a) Bilden Sie eine neue Variable note durch folgende Zuordnung: Punktzahl Note 0-4 5 5-7 4 8-10 3 11-13 2 14-15 1 (b) Vergeben Sie für die Variable note Wertelabels, so daÿ die obige Zuordnung der Punktzahlen zu den Noten ersichtlich wird. 2. Eine Firma registriert für ihre 30 Mitarbeiter die Anzahl der innerhalb einer Woche geführten Telefonate: 16 27 18 27 18 28 21 30 22 32 22 35 22 38 23 40 24 40 24 45 25 48 25 54 26 59 26 60 26 68 (a) Editieren Sie den Datensatz in SPSS. (b) Stellen Sie die Daten durch eine weitere Variable in einer geeigneten Klasseneinteilung dar: bis 20 Telefonate, 21-40 Telefonate, 41-60 Telefonate, über 60 Telefonate. Vergeben Sie entsprechende Wertelabels für die Klasseneinteilung. 3. Eine Stichprobe vom Umfang 12 aus einem Posten von Bolzen mit einem Sollmaÿ von 20 mm für den Durchmesser zeigt folgende Ergebnisse für den jeweils gemessenen Bolzendurchmesser: 20, 1 20, 1 19, 9 19, 7 19, 7 20, 2 20, 0 20, 3 20, 4 20, 0 19, 8 19, 2 . Erstellen Sie einen Datensatz in SPSS. Berechnen Sie eine neue Variable, die den absoluten Betrag der Abweichung des gemessenen Durchmessers vom Sollmaÿ angibt. 4. Laden Sie die Datei urlaub.sav. (a) Bestimmen Sie für jede der befragten Personen das Geburtsjahr. (b) Berechnen Sie möglichst eektiv eine neue Variable, die für jede Personen angibt, wieviele der möglichen Urlaubsländer angekreuzt wurden. 5. Berechnen Sie für die Datei hyper.sav eine neue Variable, die die Änderung des systolischen Blutdrucks nach 12 Monaten bezogen auf den Anfangswert angibt. Teilen Sie die Personen ab einem Lebensalter von 60 Jahren in drei Altersgruppen ein. 6. Ein Fahrradhersteller erzielte in den Jahren 1992 bis 1995 folgende Umsätze (in Mio. DM) in den jeweiligen Quartalen: Jahr Quartel Umsatz 1 2,6 1992 2 3 3,7 3,6 4 2,3 1 2,7 1993 2 3 4,1 4,0 4 2,4 1 2,9 1994 2 3 4,2 4,3 4 2,5 1 2,9 1995 2 3 4,4 4,3 Geben Sie die Daten ein. Überlegen Sie sich dabei eine kurze und geeignete Datumseingabe. 7. Gegeben seien folgende Häugkeiten für das Auftreten der Augenzahlen bei einem Würfelexperiment: Augenzahl Häugkeit 1 172 2 165 3 148 4 176 5 161 6 178 Geben Sie diese Daten in geeigneter Form in SPSS ein. 4 4 2,5 8. Bei eine Umfrage nach Familienstand und Religionszugehörigkeit erhält man folgende Angaben von 100 Personen: ledig verheiratet geschieden evangelisch 10 25 5 katholisch 8 40 2 sonstiges 2 5 3 Erstellen Sie für die Ergebnisse dieser Umfrage eine SPSS-Datendatei. 2.2 Lösungshinweise Aufgaben Variablen erstellen, Datenmodikation, Datenselektion 1. (a) Transformieren - Umkodieren - In andere Variable Eingabevariable: punkte, Ausgabevariable: note, alte und neue Werte: gemäÿ Tabelle eingeben (b) im Dateneditor in Variablenansicht unter Wertelabels bei Variable note die Zuordnungsvorschrift eintragen 2. (b) Transformieren - Umkodieren - In andere Variable: alte und neue Werte gemäÿ Vorschrift Wertelabels im Dateneditor unter Variablenansicht vergeben 3. Daten eingeben unter Variable bolzen Transformieren - Berechnen: absbetr=ABS(20-bolzen) 4. (a) Transformieren - Berechnen: gebjahr=2005-alter (b) Transformieren - Berechnen: land=france + greece + italy + jugo + spain + turkey + tunesia oder Transformieren - Zählen: Zielvariable: land, numerische Variablen: france, greece, italy, jugo, spain, turkey, tunesia, Werte denieren: zu zählender Wert 1 5. Transformieren - Berechnen: di=rrs12-rrs0 Transformieren - Umkodieren - In andere Variable Eingabevariable: a (Alter), Ausgabevariable: agruppe, falls: a≥ 60, alte und neue Werte: 60-69 Gruppe 1, 70-79 Gruppe 2, 80-89 Gruppe 3 6. zunächst Umsatz eingeben, dann Daten - Datum definieren: Jahre Quartale 7. Variable augenz mit Werten 1-6, Variable anzahl mit zugehörigen Häugkeiten eingeben, % Datei augenzahl.sav. 8. 9 Fälle für Variable famstand mit 0=ledig, 1=verh, 2=geschieden und Variable religion mit 0=evang, 1=kath, 2=sonstiges eingeben, dann zu jedem dieser Fälle die entsprechende Häugkeit aus der Tabelle unter Variable anzahl eingeben, % Datei kreuztab.sav. 5 3 Behandlung von Fragebögen • Eingabe, Codierung, Labels Jeder Fragebogen entspricht einer Zeile im Dateneditor. Jeder Frage werden Spalten (Variablen) im Dateneditor zugeordnet. Jeder Fragebogen enthält eine Identikationsnummer, die zugleich auch in einer Variablen erfaÿt wird. Der Variablenname sollte wenn möglich Nummer der Frage und/oder Bezug zum Inhalt der Frage enthalten. Bei Codierung von Variablenwerten (z.B. Geschlecht) sind entsprechende Wertelabels festzulegen. • Behandlung von Mehrfachantworten Werden auf eine Frage mehrere Antwortmöglichkeiten zum Ankreuzen vorgegeben, so spricht man von einer Mehrfachantwort. Es gibt zwei Möglichkeiten der Übertragung von Mehrfachantworten in eine SPSS-Datendatei: dichotome Methode: Für jede Antwortmöglichkeit wird eine eigene Variable deniert, deren Werte jeweils z.B. mit 0 (nein) und 1 (ja) codiert werden. kategoriale Methode: Wenn die maximale Zahl der möglichen Antworten bekannt ist, dann werden genau so viele Variablen angelegt. Jede mögliche Antwort wird durch eine Nummer codiert und in die Variablen werden die Code-Nummern der angekreuzten Antworten eingetragen. • Aufdecken von Eingabefehlern Erfolgt vor den statistischen Untersuchungen! Häugkeiten: Analysieren - Deskriptive Statistiken - Häufigkeiten Erkennen von unmöglich vorkommenden Werten einer Variablen in einer Häugkeitstabelle, sinnvoll bei Variablen mit nicht zu vielen Ausprägungsmöglichkeiten. Fälle auswählen: Daten - Fälle auswählen Erkennen von unmöglich vorkommenden Werten einer Variablen durch Festlegung einer Unterund/oder Obergrenze (Wertebereich), es werden die Fälle auÿerhalb dieses Bereiches gesucht. Fehler suchen: Bearbeiten - Suchen Suche im Dateneditor nach vorgegebenen Variablenwerten in der momentan aktivierten Variable. Beispieldateien: frageb04.sav, meinung.sav, frageb05.sav 6 Fragebogen 1. Welcher Partei würden Sie Ihre Stimme geben, wenn am kommenden Sonntag Wahlen zum Deutschen Bundestag stattnden würden? CDU/CSU ° SPD ° FDP ° Bündnis 90/Die Grünen ° PDS ° Sonstige ° 2. Geschlecht männlich ° weiblich ° 3. Geburtsjahr 4. In welchem Bundesland leben Sie? ........................ 5. Konfession katholisch ° evangelisch ° sonstiges ° konfessionslos ° 6. Welches ist Ihr letzter Bildungsabschluÿ? kein Abschluÿ ° Hauptschule ° Realschule ° Abitur ° Akad. Examen ° Sonstiges ° 7 Mögliche Codierung des Fragebogens - Wertelabels Partei CDU/CSU SPD FDP Bündnis 90/Die Grünen PDS sonstige keine Angabe Geschlecht männlich 1 2 3 4 5 6 9 1 2 9 weiblich keine Angabe Bundesland Brandenburg Mecklenb.-Vorpom. Sachsen Sachsen-Anhalt Thüringen keine Angabe Konfession katholisch evangelisch sonstiges konfessionslos keine Angabe 1 2 3 4 9 Abschluÿ kein Abschluÿ Hauptschule Realschule Abitur Akad. Examen Sonstiges keine Angabe 1 2 3 4 5 6 9 1 2 3 4 5 99 Ergebnis einer ktiven Umfrage Nummer num Partei partei Geschlecht sex Jahrgang gebjahr Bundesland bland Konfession konf Abschluÿ abschl 1 2 3 4 5 6 7 8 9 10 2 3 2 1 5 1 5 4 6 2 1 1 2 1 1 2 2 2 1 2 45 72 28 59 38 17 70 64 45 51 3 5 1 3 4 2 4 5 5 99 9 2 3 4 4 4 3 4 2 1 4 2 5 9 5 4 1 3 5 5 Zu nden unter frageb04.sav. 8 3.1 Aufgaben Behandlung von Fragebögen 1. In einer Haushaltsumfrage sollen u.a. folgende Kriterien erfaÿt werden: 1. Wieviele 1-l-Flaschen Punica kaufen Sie pro Woche? keine 1-2 Flaschen 3-5 Flaschen 6 und mehr 2. Welche der folgenden Sektmarken kaufen Sie gelegentlich für Ihren Eigenbedarf? Mumm MM Extra Henkel Trocken Fürst von Metternich Deinhard Cabinet Rotkäppchen trocken andere 3. Wieviele Haustiere besitzen Sie? Hund(e): ..... Katze(n): ..... Vögel: ..... 4. Wie hoch beläuft sich Ihr jährliches Brutto-Haushalts-Einkommen ungefähr? unter 10.000 Euro 25.000-35.000 Euro 10.000-20.000 Euro 35.000-50.000 Euro 20.000-25.000 Euro über 50.000 Euro 5. Was erwarten Sie von Ihrer Bank? Kreuzen Sie bitte maximal 2 Antworten an! lange Önungszeiten Internet-Banking groÿes Automatennetz günstige Kontogebühren Parkmöglichkeiten persönlicher Berater Automatenservice Rund-um-Beratung Telefon-Banking Erstellen Sie im Dateneditor in der Variablenansicht eine Struktur aller nötigen Variablen einschlieÿlich der Variablen- und Wertelabels um die Antworten auf diese Umfrage in einer SPSS Datei erfassen zu können. 2. Ein neuer Stadtführer soll einen gastronomischen Teil enthalten. In Vorbereitung dazu soll in verschiedenen Restaurants eine Befragung folgenden Inhalts gestartet werden: Name des Restaurants: Preisklasse: Wie war der Service? Geschmack der Speisen: Atmosphäre: Preis-Leistungs-Verhältnis: Würden Sie wiederkommen? Angaben zur Person: Alter, Geschlecht, Beruf Geben Sie, wenn nötig, verschiedene Antwortalternativen vor. Legen Sie ein Datenle in SPSS mit den nötigen Variablen und der verwendeten Codierung an. 3. Laden Sie die Datei Mai(Ausz)1.sav. Die Datei enthält 6 oensichtlich fehlerhafte Angaben. Finden Sie diese und vermerken Sie sich dazu die entsprechenden Fragebogennummern. 9 3.2 Lösungshinweise Aufgaben Behandlung von Fragebögen 1. Variable fbnr f1punica Variablenlabel Fragebogennummer Anzahl Punica Wertelabel f21mumm f22henk f23deinh f24extra f25mett f26rotk f27ander f31hund f32cat f33voeg f4eink Mumm Henkel Deinhard MM Extra Metternich Rotkäppchen andere Hunde Katzen Vögel jährl Brutto-Einkommen f51bank f52bank Erwartung Bank (1. Antw) Erwartung Bank (2. Antw) 0=keine, 1=1-2 Flaschen, 2=3-5 Flaschen, 3=mehr als 6 Flaschen 0=nein, 1=ja 0=nein, 1=ja 0=nein, 1=ja 0=nein, 1=ja 0=nein, 1=ja 0=nein, 1=ja 0=nein, 1=ja 1=unter 10.000, 2=10.000-20.000, 3=20.000-25.000, 4=25.000-35.000, 5=35.000-50.000, 6=mehr als 50.000 Labels 1-9 für die neun Möglichkeiten, 1.Kreuz Labels 1-9 für die neun Möglichkeiten, 2.Kreuz Als fehlenden Wert (keine Angabe) kann man generell die 99 festlegen. 2. Variable fbnr f1restau f2preikl f3serv Variablenlabel Fragebogennummer Name des Restaurants Preisklasse Service f4speis f5atmos f6prlei f7wieder f8alter f9sex f10beruf Geschmack der Speisen Atmosphäre Preis-Leistung Wiederkommen Alter geschlecht Beruf Wertelabel 1=unterste, 2=mittlere, 3=gehobene, 4=exklusive PK 1=ausgezeichnet, 2=sehr gut, 3=gut, 4=befriedigend, 5=schlecht, 6=sehr schlecht 1=köstl., 2=lecker, 3=schmackh., 4=versalzen, 5=schlecht 1=sehr gemütlich, 2=gemütlich, 3=befr., 4=ungenügend 1-5 für sehr gut bis ungenügend 0=nein, 1=ja 0=männlich, 1=weiblich 1=Azubi, 2=Student, 3=Arbeiter, 4=Angestellter, 5=Beamter, 6=nicht berufstätig, 7=sonstiges Als fehlenden Wert könnte man generell z.B. die 99 festlegen. 3. Erkennen von fehlerhaften Werten durch Analysieren - Deskriptive Statistiken - Häufigkeiten bei Variablen mit wenigen Ausprägungen und durch Daten - Fälle auswählen bei stetigen Variablen Suche der fehlerhaften Werte in der entsprechenden Variable durch Bearbeiten - Suchen Variable v2 v2 v9 v10 v18 v19 fragebnr 3691 11 5011 3931 2901 681 falscher/richtiger Wert 22 statt 2 10 statt 1 175 statt 75 100 statt 1 3 statt 83 844 statt 44 10 4 Deskriptive Untersuchungen • Häugkeitstabellen Analysieren - Deskriptive Statistiken - Häufigkeiten oder Analysieren - Tabellen - Häufigkeitstabellen % Abschnitt Tabellen tabellarische Darstellung von Häugkeiten für Variablen mit wenigen möglichen Ausprägungen Spalte Häugkeit: absolute Häugkeiten für die einzelnen Ausprägungen einer Variablen Spalte Prozent: relative Häugkeiten bezogen auf die Gesamtzahl aller Fälle (einschlieÿlich fehlender Angaben) Spalte Gültige Prozente: relative Häugkeiten bezogen auf die gültigen Antworten (ohne fehlende Werte) Spalte Kumulierte Prozente: kumulierte (aufsummierte) relative Häugkeiten der gültigen Prozente • Lage- und Streuungsparameter Analysieren - Deskriptive Statistiken - Häufigkeiten unter Statistik: Auswahl zur Berechnung statistischer Maÿzahlen Perzentilwerte Lagemaÿe (u.a. Mittelwert, Median) Streuung (Varianz, Standardabweichung, Spannweite, Minimum, Maximum) • Diagramme Analysieren - Deskriptive Statistiken - Häufigkeiten unter Diagramme: Balken- oder Kreisdiagramm für nominale oder ordinale Variablen mit wenigen Ausprägungen Angabe der absoluten oder relativen Häugkeiten ist möglich Histogramm für metrische Variablen (benachbarte Ausprägungen werden in Gruppen zusammengefaÿt) % Graken • Mittelwerte vergleichen Analysieren - Mittelwerte Vergleichen - Mittelwert abhängige Variablen: diejenigen Variablen, für die Mittelwerte und/oder statistische Maÿzahlen berechnet werden sollen unabhängige Variablen: Gruppierungsvariablen Optionen: Festlegung der zu berechnenden Maÿzahlen • Datendateien in Form von Häugkeitstabellen Zur Durchführung deskriptiver Untersuchungen von Datendateien, die in Form einer Häugkeitstabelle vorliegen, ist zunächst die Wichtung der Daten mit der Variable, die die Häugkeiten enthält, durchzuführen: Daten - Fälle gewichten Beispieldateien: studium.sav, hyper.sav, bsp1.sav, augenzahl.sav 11 4.1 Aufgaben Deskriptive Untersuchungen 1. Laden Sie die Datei bsp1.sav. (a) Erstellen Sie je eine Häugkeitstabelle und ein Balkendiagramm für die Variablen Geschlecht (v146) und Bundesländer (v447). (b) Stellen Sie fest, wieviel Prozent der Personen, die ihr monatliches Nettoeinkommen angegeben haben, ein Einkommen unter 1.600 DM haben (Variable v391). (c) Bestimmen Sie das durchschnittliche Nettoeinkommen und den Median. Weshalb unterscheiden sich beide Gröÿen relativ stark? (d) Welche Grak ist geeignet für die Darstellung des Nettoeinkommens? (e) In welchem Bundesland (v447) liegt das durchschnittliche Nettoeinkommen am höchsten, in welchem am niedrigsten? (f) Bestimmen Sie die Einkommensgrenzen unter bzw. über denen das Nettoeinkommen von 10% der Befragten liegt. (g) Bestimmen Sie jetzt diese Grenzen nur für die weiblichen Befragten. Wie lauten diese Grenzen für die männlichen Befragten aus Thüringen und Sachsen? 2. Laden Sie die Datei noten01.sav. Berechnen Sie die durchschnittliche Punktzahl, den Modalwert und die Standardabweichung. 3. Laden Sie die Datei sales.sav. (a) Ermitteln Sie den mittleren Umsatz und den Gesamtumsatz. (b) In welchem Bezirk war der Gesamtumsatz am höchsten? (c) Vergleichen Sie den Gesamtumsatz in den Bezirken in den beiden Jahren. (d) Welcher Vertreter erzielte den höchsten Gesamtumsatz, welcher den höchsten mittleren Umsatz und bei welchem Vertreter war die Standardabweichung der Umsätze am geringsten? 4. Laden Sie die Datei hyper.sav. (a) Bestimmen Sie Mittelwert und Standardabweichung für den Ausgangswert Cholesterin (chol0) für alle Personen, die älter als 40 und jünger als 60 Jahre sind. (b) Wie groÿ ist der mittlere Wert der absoluten Änderung des systolischen Blutdrucks nach 12 Monaten (rrs12) bezogen auf den Anfangswert (rrs0)? Unterscheidet sich dieser Mittelwert bei den männlichen und weiblichen Befragten? Wie groÿ ist die maximal vorkommende absolute Änderung des systolischen Blutdrucks in den 12 Monaten? 5. Laden Sie die Datei würfel.sav. (a) Bestimmen Sie die mittlere gewürfelte Augenzahl, den Modalwert und die Standardabweichung. (b) Stellen Sie die Häugkeiten der gewürfelten Augenzahlen grasch dar. 6. Laden Sie die Datei kreuztab.sav, die Angaben zu Familienstand und Religionszugehörigkeit von 100 befragten Personen enthält (Variable Anzahl entspricht den jeweiligen Häugkeiten). Erstellen Sie je eine Häugkeitstabelle und ein Kreisdiagramm für die Variablen famstand und religion. 12 7. Laden Sie die Datei alter.sav. (a) Ermitteln Sie das mittlere Alter und das mittlere geschätzte Alter der befragten Personen. (b) Finden Sie diejenigen Personen heraus, wo die Abweichung des geschätzten Alters vom tatsächlichen Alter am gröÿten ist (jünger geschätzt und älter geschätzt). (c) In wievielen Fällen stimmen Alter und geschätztes Alter überein. Wieviele Personen wurden älter geschätzt, wieviele jünger? (d) Teilen Sie die Personen in Altersklassen ein: 30-39 Jahre, 40-49 Jahre, ..., 80-89 Jahre. In welcher Altersklasse weicht das mittlere geschätzte Alter am meisten vom mittleren Alter ab, in welcher am wenigsten? In welcher Alterklasse ist das mittlere geschätzte Alter geringer als das mittlere Alter? 8. Laden Sie die Datei Assess.sav. (a) Ermitteln Sie für jeden Bewerber die mittlere erreichte Punktzahl in den 10 Tests. Wie groÿ ist die mittlere Punktzahl aller Bewerber? (b) In welchem der 10 Tests haben die Bewerber im Mittel die höchste Punktzahl erreicht, in welchem die niedrigste? (c) Wieviele Bewerber haben bei t1, t5, t6, t7, t10 mindestens dreimal 10 Punkte erreicht? Gibt es Bewerber mit viermal 10 Punkten in diesen 5 Tests? 9. Laden Sie die Datei klin.sav. (a) Ermitteln Sie für die Variable Blutzucker: Mittelwert, Median, Quartilsabstand. Interpretieren Sie die Werte. Warum unterscheiden sich Mittelwert und Median relativ stark? (b) Ermitteln Sie den mittleren Blutzuckerwert für männliche und weibliche Probanden. Wie groÿ ist der mittlere Blutzuckerwert für männliche Probanden im Alter von 18-30 Jahren? (c) Bestimmen Sie den mittleren Blutzuckerwert für Personen, die männlich ab 60 Jahre oder weiblich ab 50 Jahre sind. 4.2 Lösungshinweise Aufgaben Deskriptive Untersuchungen 1. (a) Analysieren - Deskriptive Statistiken - Häufigkeiten Variablen: Geschlecht, Bundesländer, Häugkeitstabelle anzeigen, Diagramme: Balkendiagramm (b) 47,5% (Ablesen unter kumulierten Prozenten in der Häugkeitstabelle für Nettoeinkommen) (c) Analysieren - Deskriptive Statistiken - Häufigkeiten Statistik: Mittelwert (Ergebnis: 1910,26 DM), Median (Ergebnis: 1600 DM) (d) Diagramm: Histogramm (e) Daten - Datei aufteilen: Gruppen vergleichen, basierend auf Bundesland, dann Mittelwert für Nettoeinkommen bestimmen oder Analysieren - Mittelwerte vergleichen - Mittelwert abh. Variable: Nettoeinkommen, unabh. Variable: Bundesland, Optionen: Mittelwert Ergebnis: 2825,00 DM Rheinland-Pfalz, 1151,57 DM Sachsen 13 (f) Analysieren - Deskriptive Statistiken - Häufigkeiten Statistik: Perzentile 10, 90, Ergebnis: 10% unter 600 DM, 10% über 3500 DM (g) Daten - Fälle auswählen: falls v146=2, dann Perzentile wie oben bestimmen Ergebnis: 10% unter 466,80 DM, 10% über 2420,00 DM Daten - Fälle auswählen: falls v146=1 & (v447=15|v447=16), Perzentile wie oben, Ergebnis: 10% unter 770,00 DM, 10 % über 2000,00 DM 2. Analysieren - Deskriptive Statistiken - Häufigkeiten Variablen: Punkte, Statistik: Mittelwert (8,92), Modalwert (10,00), Standardabweichung (3,567) 3. (a) Analysieren - Deskriptive Statistiken - Häufigkeiten Variablen: umsatz, Statistik: Mittelwert (39056,76 DM), Summe (8.006636 DM) (b) Daten - Datei aufteilen: basierend auf Bezirk oder Analysieren - Mittelwerte vergleichen - Mittelwert abh. Variable: Umsatz, unabh. Variable: Bezirk, Optionen: Summe, Ergebnis: 3.320778 DM in Bezirk Nord (c) Daten - Datei aufteilen: basierend auf Bezirk, Jahr oder Analysieren - Mittelwerte vergleichen - Mittelwert unabh. Variable: Bezirk weiter Jahr (d) höchster Gesamtumsatz: 1.281568 DM Kümmel, höchster mittlerer Umsatz: 50038,69 DM Hering, niedrigste Standardabweichung: 14355,60 DM Schön 4. (a) Daten - Fälle auswählen falls a>40 & a<60, Ergebnis: Mittelwert 227,48 und Standardabweichung 46,810 (b) Transformieren - Berechnen absänd = ABS(rrs12-rrs0) Ergebnisse: Mittelwert 23,8506 , Mittelwert männl. 22,3729 , Mittelwert weibl. 24,6087 , max. Wert 80,00 5. Daten - Fälle gewichten mit anzahl, dann Analysieren - Deskriptive Statistiken - Häufigkeiten Mittelwert: 3,52 , Modalwert: 6 , Standardabweichung: 1,733 6. Daten - Fälle gewichten mit anzahl, dann Häugkeitstabelle, Kreisdiagramm 7. (a) mittleres Alter: 62,11 Jahre mittleres geschätztes Alter: 62,84 Jahre (b) 11 Personen werden 6 Jahre jünger geschätzt, 5 Personen 8 Jahre älter (c) Übereinstimmung 18 mal, älter geschätzt 83 mal, jünger geschätzt 73 mal (d) Alterklasse 40-49: mittleres geschätztes Alter jünger als mittleres Alter Alterklasse 60-69: geringste Abweichung (64, 63 − 64, 91), Alterklasse 70-79: gröÿte Abweichung (73, 46 − 75, 43) 8. höchste mittlere Punktzahl: 7,22 in t5 und t10, niedrigste mittlere Punktzahl: 6,78 in t4 8 Bewerber mit dreimal 10 Punkten eine Bewerberin (Silke W) mit viermal 10 Punkten in t1, t5, t6, t7, t10 9. mittlerer Blutzuckerwert: 108,56 107,74 (männlich) 109,54 (weiblich) Median: 94,00 Quartilsabstand: 108, 00 − 87, 00 = 21, 00 männlich im Alter von 18-30 Jahren: 90,96 männlich ab 60 Jahren bzw. weiblich ab 50 Jahren: 123,15 14 5 Graken • Balkendiagramm: Grafiken - Balken einfach, Ausw. über Kategorien einer Variablen: Kategorienachse (=x-Achse) enthält alle Ausprägungen der eingetragenen Variablen, Bedeutung der Balken wird darüber festgelegt, alle Balken haben gleiche Bedeutung. einfach, Ausw. über verschiedene Variablen: Jedem Balken wird eine eigene Bedeutung zugeordnet. gruppiert: zum Vergleich von Variablen Ausw. über Kategorien einer Variablen: Jeder Ausprägung der Variablen auf der Kategorienachse werden so viele Balken zugeordnet, wie die Gruppierungsvariable Ausprägungen hat, alle Balken haben gleiche Bedeutung. Ausw. über verschiedene Variablen: Jeder Ausprägung der Gruppierungsvariablen auf der Kategorienachse werden mehrere Balken mit unterschiedlicher Bedeutung zugewiesen. gestapelt: Balken werden nicht nebeneinander (gruppiert) sondern übereinander dargestellt. Werte einzelner Fälle: Jedem Fall im Dateneditor wird ein Balken zugewiesen. • Histogramm: Grafiken - Histogramm einfaches Balkendiagramm für Häugkeiten metrischer Variablen, wobei benachbarte Ausprägungen zu Gruppen zusammengefaÿt werden • Kreisdiagramm: Grafiken - Kreis zur Darstellung vorallem nominaler Variablen mit wenigen Ausprägungen Kategorie einer Variablen, verschiedene Variablen, Werte einzelner Fälle wie beim Balkendiagramm • Liniendiagramm: Grafiken - Linie Darstellung metrischer Variablen, Kategorienachse häug Zeitachse Festlegungen analog wie beim Balkendiagramm Sequenz: Grafiken - Sequenz Liniendiagramm speziell für Zeitreihen (% Zeitreihenanalyse) • Boxplot: Grafiken - Boxplot Die Grak besteht aus der Box, die vom ersten und dritten Quartil (25%- bzw. 75%-Quantil) begrenzt wird und deren dicke Linie den Median repräsentiert. Die obere und untere dünne Linie markiert den gröÿten und kleinsten Wert, sofern sie keine Ausreiÿer bzw. extreme Werte sind. Ausreiÿer sind Werte, deren Abstand von der Box nach oben bzw. unten zwischen dem 1,5fachen und dem 3fachen der Boxhöhe liegt. Extreme Werte liegen noch weiter von der Box entfernt. • Editieren von Graken: Doppelklick auf die Grak im Viewer önet den SPSS DiagrammEditor. • interaktive Graken: Grafiken - Interaktiv Beispieldateien: bsp1.sav, hyper.sav, würfel.sav, urlaub.sav 15 5.1 Aufgaben Graken 1. Laden Sie die Datei bank.sav. (a) Stellen Sie in einem Balkendiagramm dar, wieviele der befragten Personen zu jeder Jobkategorie gehören. Weisen Sie den Balken die absoluten Werte zu. (b) Stellen Sie jetzt die Personenanzahl in jeder Jobkategorie in Abhängigkeit vom Geschlecht dar. (c) Erstellen Sie ein Balkendiagramm für Mittelwert und Standardabweichung des Anfangsgehaltes und des aktuellen Gehaltes. (d) Stellen Sie jetzt mittleres Anfangsgehalt und mittleres aktuelles Gehalt grasch in Abhängigkeit von der Jobkategorie dar. 2. Laden Sie die Datei sales.sav. (a) Mit welcher Grak läÿt sich die Variable umsatz darstellen? (b) Ermitteln Sie grasch den Bezirk mit dem höchsten Gesamtumsatz. (c) Vergleichen Sie die Gesamtumsätze in den Bezirken in beiden Jahren miteinander durch ein Balkendiagramm. (d) Ermitteln Sie grasch den Vertreter mit der geringsten Standardabweichung des Umsatzes. 3. Lösen Sie Aufgabe 1 und 2 mit Hilfe von interaktiven Graken. 4. Laden Sie die Datei bier.sav. (a) Erstellen Sie eine Grak, die die Beliebtheit für jede Biersorte widerspiegelt. Untersuchen Sie grasch, ob diese Beliebtheit abhängig ist vom Geschlecht. (b) Erstellen Sie eine Grak, die für jede der befragten Personen angibt, welche Biersorte angekreuzt wurde. 5. (a) Laden Sie die Datei dax.sav und stellen Sie die Entwicklung des DAX grasch dar. (b) Laden Sie die Datei energie.sav und stellen Sie die Entwicklung der Energiekosten grasch dar. Achten Sie dabei besonders auf die Beschriftung der Kategorienachse! (c) Laden Sie die Datei umwelt.sav und erstellen Sie eine Grak, die die Entwicklung der drei Formen von Umweltstraftaten in den Jahren 1985 bis 1992 veranschaulicht. 6. Laden Sie die Datei hyper.sav. (a) Erstellen Sie ein Kreisdiagramm, welches die Anzahl befragter Personen in jeder Alterklasse darstellt. Beschriften Sie jeweils die Segmente. (b) Erstellen Sie ein Boxplot für die Ausgangswerte des Blutzuckers in den vier Alterklassen. (c) Für jede Altersklasse soll in einem Boxplot die zeitlich Entwicklung des Blutzuckerwertes dargestellt werden (Variablen bz0, bz1, bz6, bz12). Stellen Sie jetzt diese vier Variablen für die vier Altersklassen in einem boxplot dar. Interpretieren Sie die Diagramme. 7. Laden Sie die Datei Angst.sav. (a) Untersuchen Sie mit Hilfe geeigneter Graken, ob Angststörungen abhängig sind von Geschlecht oder Gewicht der Probanden. Wie läÿt sich grasch feststellen, ob Angststörungen abhängig sind vom Body Mass Index? 16 (b) Erstellen Sie Boxplots für den Body Mass Index, wählen Sie dabei Geschlecht (Übergewicht, Angst) jeweils als Kategorienachse. Was kann man den Graken entnehmen? 8. Laden Sie die Datei Klin.sav. (a) Stellen Sie in einer Grak dar den mittleren, minimalen und maximalen Wert vom systolischen Blutdruck für jede Altersklasse. (b) Erstellen Sie jetzt zwei Graken wie in (a) für männliche und weibliche Probanden. (c) Stellen Sie für alle Personen, die nicht älter als 40 Jahre sind, den mittleren Wert für den systolischen und diastolischen Blutdruck sowie für Blutzucker in Abhängigkeit vom Geschlecht dar. Erstellen Sie jetzt eine solche Grak für alle weiblichen Personen im Alter von 40 bis 60 Jahren. 5.2 Lösungshinweise Aufgaben Graken 1. (a) Grafiken - Balken: einfach, Ausw. über Kat. einer V., Kat.achse: jobcat, Bedeutung Balken: Anzahl Diagramm-Editor: Datenbeschriftungen einblenden (b) wie oben aber gruppiertes Diagramm, Gruppen def. durch: Geschlecht (c) Grafiken - Balken: einfach, Ausw. über versch. V., Bedeutung Balken: Anfangsgehalt, akt. Gehalt, Auswertungsfunktion: Mittelwert, Standardabweichung (d) wie oben aber gruppiertes Diagramm mit Kategorienachse: jobcat 2. (a) Grafiken - Histogramm (b) Grafiken - Balken: einfach, Ausw. über Kat. einer V., Kat.achse: bezirk, Bedeutung Balken: umsatz, Auswertungsfunktion: Summe (c) wie oben, aber gruppiert oder gestapelt, Gruppen (Stapel) def. durch: jahr (d) Grafiken - Balken: einfach, Ausw. über Kat. einer V., Kat.achse: name, Bedeutung Balken: umsatz, Auswertungsfunktion: Standardabweichung 3. Grafiken - Interaktiv - Balken 4. (a) Grafiken - Balken: einfach, Ausw. über versch. V., Bedeutung Balken: alle Biersorten, Auswertungsfunktion: Summe dann grupiertes Diagramm, Kategorienachse: geschlecht (b) Grafiken - Balken: gestapelt, Werte einzelner Fälle 5. (a) Grafiken - Linie: einfach, Ausw. über Kat. einer V., Kat.achse: nummer, Linie entspricht: DAX (MEAN oder SUM haben hier gleichen Eekt) (b) Grafiken - Sequenz: Variablen: Energiekosten, Zeitachsenbeschr.: Date oder Grafiken - Linie: einfach, Werte einzelner Fälle - oder Grafiken - Linie: einfach, Ausw. über Kat. einer V., dabei aufpassen: Variable (fortlaufende Numerierung) für die Kategorienachse vorher erzeugen! (c) Grafiken - Linie: mehrfach, Ausw. über versch. V., Kat.achse: jahr 17 6. (a) Grafiken - Kreis: einfach, Ausw. über Kat. einer V., Segmente def.: ak, Segmente entsprechen: Anzahl Diagramm-Editor: Datenbeschriftungen einblenden (b) Grafiken - Boxplot: einfach, Ausw. über Kat. einer V., Kat.achse: ak, Variable: bz0 (c) Daten - Datei aufteilen: Gruppen basierend auf ak, dann Grafiken - Boxplot: einfach, Ausw. über versch. V., Box entspricht: bz0, bz1, bz6, bz12 gemeinsamer boxplot durch Grafiken - Boxplot: gruppiert, Ausw. über versch. V., Kat.achse: ak, Box entspricht: bz0, bz1, bz6, bz12 7. Gruppiertes Balkendiagramm, Bedeutung der Balken: % der Fälle bei Body Mass Index zunächst geeignete Klasseneinteilung durchführen, z.B. 0-19; 19,01-21; 21,01-23; 23,01-25; ab 25 dann gruppiertes Balkendiagramm für diese Klassen. Oder: Histogramm für Body Mass Index, dabei in Zeilen (oder Spalten) Variable Angst eingeben 8. (a) Grafiken - Balken: gruppiert, Ausw. über versch. V., Bedeutung Balken: systolischer Blutdruck, Auswertungsfunktion: Mittelwert, Minimum, Maximum, Kategorienachse: Altersklasse (b) vorher: Daten - Datei aufteilen: Gruppen vergleichen, basierend auf Geschlecht (c) vorher Daten - Fälle auswählen falls Alter ≤ 40 bzw. 40 ≤ Alter & Alter ≤ 60 & Geschlecht = 2 dann Grafiken - Balken: gruppiert, Ausw. über versch. V., Bedeutung Balken: syst. Blutdruck, diast. Blutdruck, Blutzucker Auswertungsfunktion: Mittelwert, Kategorienachse: Geschlecht 18 6 Tabellen • Einfache Tabellen Analysieren - Tabellen - Einfache Tabellen Die Anzahl belegter Untergruppen bestimmt die Dimension der Tabelle. Trägt man in einer Untergruppe mehrere Variablen ein, so können diese jeweils gestapelt oder verschachtelt ausgegeben werden. Auswerten: Die angegebenen Variablen werden in den durch die Untergruppen denierten Zellen ausgewertet hinsichtlich der statistischen Kenngröÿen, die in Statistik festgelegt werden (Mittelwerte, Streuungsgröÿen, Prozentwerte). Layout: Festlegung von Gestaltung, Beschriftung, Anordnung Gesamt: Gesamtwerte für die Statistiken, die festgelegt wurden, innerhalb der Gruppenvariable(n) bzw. der Tabelle • Häugkeitstabellen Analysieren - Tabellen - Häufigkeitstabellen Häugkeitstabellen (% Deskriptive Untersuchungen), auch für mehrdimensionale Verteilungen • allgemeine Tabellen Analysieren - Tabellen - Allgemeine Tabellen Zusätzliche Möglichkeiten im Vergleich zu einfachen Tabellen; z.B. Zellstatistiken können für jede Variable einzeln festgelegt werden • Mehrfachantwortentabellen Analysieren - Tabellen - Mehrfachantworttabellen Denieren von Mehrfachantworten-Sets unter Sets denieren, dabei können dichotome Variablen zu Sets zusammengefaÿt werden, ebenso wie kategoriale Variablen (dichotome/kategoriale Methode % Behandlung von Fragebögen) Mehrfachantworten-Sets werden dann wie normale Variablen behandelt Häugkeits- und Kreuztabellen für Mehrfachantworten-Sets auch unter Analysieren - Mehrfachantwort • Editieren von Tabellen Doppelklick auf die Tabelle im Viewer önet den SPSS Tabellen Editor mit vielfältigen Möglichkeiten (u.a. Vertauschen von Zeilen, Spalten, Schichten, Ändern und Einfügen von Texten, Ändern von Tabellen- oder Zelleigenschaften). • Kreuztabellen % Bivariate Untersuchungen Beispieldateien: studium.sav, bank.sav, meinung.sav 19 6.1 Aufgaben Tabellen 1. Laden Sie die Datei bsp1.sav. (a) Erstellen Sie eine Tabelle, die für jede Berufsgruppe das durchschnittliche monatliche Nettoeinkommen getrennt nach dem Geschlecht in übersichtlicher Form wiedergibt. (b) Stellen Sie jetzt diesen Zusammenhang grasch dar. (c) Erstellen Sie jetzt zwei nach dem Geschlecht getrennte Tabellen (bzw. Graken) für das durchschnittliche monatliche Nettoeinkommen jeder Berufsgruppe. (d) Vergleichen Sie in einer Tabelle die mittleren, maximalen, minimalen Einkommen in den alten und neuen Bundesländern (Variable v3) in Abhängigkeit von der Schulbildung. 2. Laden Sie die Datei bsp2.sav. (a) Stellen Sie die Anzahl aller Ja- und Nein-Antworten der Interessengebiete Lesen und Sport in Abhängigkeit vom Bildungsabschluÿ (Variable at8) in einer Tabelle dar. (b) Denieren Sie ein Mehrfachantwortenset für die Variablen der Interessengebiete (hobby, garten, kultur, sport, gastro, besuche, gesell, bildung, fernseh, lesen, ausug, ruhe). Stellen Sie in einer Tabelle die Ja-Antworten für jedes Interessengebiet in Abhängigkeit von der Kinderzahl (at4.6) dar. Gestalten Sie die Tabelle so, daÿ sie neben den absoluten Werten Angaben enthält, wieviel Prozent der Personen mit einer bestimmten Kinderzahl ein Interessengebiet angekreuzt haben sowie die Gesamtzahlen. (c) Erstellen Sie eine geeignete Tabelle zur Beantwortung der folgenden Fragen: -) Wieviele Personen haben das Interessengebiet Garten angekreuzt? -) Wieviele Personen leben mit Partner und Kindern? -) Wieviele Personen, die alleinlebend sind, haben das Interessengebiet Lesen angekreuzt? -) Wieviel Prozent aller mit Partner lebenden Personen haben Fernsehen angekreuzt? -) In welcher Gruppe der Haushaltsverhältnisse ist prozentual das Interessengebiet Kultur am beliebtesten? 3. Laden Sie die Datei kenia.sav, in der Touristen zu ihrer Meinung bzgl. der Auswirkungen des Tourismus befragt wurden. Von 9 vorgegebenen Antwortmöglichkeiten wurden maximal 6 angekreuzt. Überlegen Sie sich, nach welcher Methode die Antworten in die Datei eingegeben wurden. (a) Erstellen Sie eine Tabelle, die angibt, wie oft jede mögliche Antwort angekreuzt wurde. Wie kann man diese Häugkeiten in einem Balkendiagramm darstellen? (b) Untersuchen Sie jetzt, ob diese Meinungen zu den Auswirkungen des Tourismus abhängig sind vom Geschlecht, vom Schulabschluÿ oder vom Alter (Altersklassen). 4. Laden Sie die Datei sport.sav. (a) Erstellen Sie eine Tabelle, die für jede Sportart die Anzahl der Ja-Antworten enthält. (b) Erstellen Sie eine Grak für die Anzahl der Ja-Antworten in jeder Sportart. (c) Untersuchen Sie (tabellarisch und grasch), ob die Beliebtheit der Sportarten abhängig ist vom Geschlecht. 20 6.2 Lösungshinweise Aufgaben Tabellen 1. (a) Analysieren - Tabellen - Einfache Tabellen Zeilen: v170 (Berufsgruppe), Spalten: v146 (Geschlecht), Auswerten: v391 (Nettoeinkommen), Statistik: Mittelwert (b) Grafiken - Balken gruppiert, Ausw. über Kategorien einer Variablen, Kat.achse: v170, Gruppen: v146, Bedeutung Balken: v391, Mittelwert (c) bei Tabellen: Variable Geschlecht in separate Tabellen bei Graken: vorher Daten - Datei aufteilen nach Geschlecht, dann einfaches Balkendiagramm (d) Analysieren - Tabellen - Einfache Tabellen Zeilen: v147, Spalten: v3, Auswerten: v391, Statistik: Mittelwert, Minimum, Maximum 2. (a) Analysieren - Tabellen - Häufigkeitstabellen: Häugkeiten für lesen, sport, Untergruppen. at8 oder zunächst Daten - Datei aufteilen nach at8, dann Analysieren - Deskriptive Statistiken - Häufigkeiten für lesen, sport (b) Analysieren - Tabellen - Mehrfachantwortentabellen: Sets denieren Variablen im Set alle Hobbies, Dichotomien, gezählter Wert: 1 name: hobby Mehrfachantwortentabelle: Zeilen: hobby, Spalten: at4.6, Statistiken: Spaltenprozent, Gesamt (c) Analysieren - Tabellen - Mehrfachantwortentabellen: Zeilen: hobby, Spalten: at3 (Haushaltsverhältnisse), Statistiken: Spaltenprozent, Gesamt Antworten auf die Fragen: 52 69 18 83,9% in WG lebend (75%) 3. Eingabe von Mehrfachantworten in kategoriale Methode (a) Analysieren - Tabellen - Mehrfachantwortentabellen: Sets denieren Variablen im Set vn1-vn6, Kategorien, name: tour dann Mehrfachantwortentabelle erstellen mit Zeilen: tour Balkendiagramm: im Tabelleneditor (Doppelklick im Viewer auf die Tabelle) auf Bearbeiten - Diagramm erstellen - Balken (b) wie oben Mehrfachantwortentabelle, zusätzlich nacheinander die drei Variablen in Spalten eingeben sinnvoll für Vergleich auch Statistiken: Spaltenprozente 4. (a) Analysieren - Tabellen - Mehrfachantwortentabellen: Sets denieren Variablen alle Sportarten, Dichotomien, gezählter Wert: 1 name: sport Mehrfachantwortentabelle: Zeilen: sport (b) Doppelklick auf die Tabelle aus a) im Viewer: Tabelleneditor, rechte Maustaste: Diagramm erstellen Balken (c) Mehrfachantwortentabelle mit Zeilen: sport Balken: sex Grak wie bei b) 21 7 Bivariate Untersuchungen • Streudiagramm: Grafiken - Streudiagramm Grasche Darstellung der gemeinsamen Verteilung von mehreren Variablen einfach: für 2 Variablen 3D: für 3 Variablen überlagert: für mehrere Variablenpaare Matrix: mehrere Streudiagramme in Form einer Matrix für alle möglichen Paare aus einer gegebenen Gruppe von Variablen Markierung festlegen: Punkte der Grak werden nach den Ausprägungen der hier eingegebenen Variable farbig unterschieden Optionen zum Bearbeiten von Streudiagrammen im SPSS Diagramm-Editor: Diagramme oder Bearbeiten - Eigenschaften z.B.: Zusammenfassen von benachbarten Punkten oder Anpassen einer Regressionskurve an die Punktwolke • Kreuztabellen: Analysieren - Deskriptive Statistiken - Kreuztabellen Häugkeitstabelle für die gemeinsame Verteilung von zwei Variablen und Berechnung von weiteren Statistik-Kenngröÿen Sinnvoll für Variablen mit wenigen Ausprägungen Zellen: Angabe von prozentualen Werten (relative Häugkeiten, bedingte Häugkeiten) Berechnung der erwarteten Häugkeiten (Produkt der jeweiligen Randverteilungen) Statistik: u.a. Kontingenzkoezient und χ2 -Test auf Unabhängigkeit der Variablen Schicht: für jede Ausprägung der Variablen, die in Schicht stehen, wird eine Kreuztabelle erstellt • Korrelationsanalyse: Analysieren - Korrelation - Bivariat Berechnung von Korrelationskoezienten Korrelationskoezient nach Pearson: Maÿ für den linearen Zusammenhang zweier metrischer Merkmale Korrelationskoezient nach Spearman: für ordinale Merkmale (Rangordnung) Wert des Korrelationskoezienten -0,2 bis 0,2 -0,5 bis -0,2 oder 0,2 bis 0,5 -0,7 bis -0,5 oder 0,5 bis 0,7 -0,9 bis -0,7 oder 0,7 bis 0,9 -1,0 bis -0,9 oder 0,9 bis 1,0 Interpretation sehr geringe Korrelation geringe Korrelation mittlere Korrelation hohe Korrelation sehr hohe Korrelation Beispieldateien: strukturdaten.sav, studium.sav 22 7.1 Aufgaben bivariate Untersuchungen 1. Laden Sie die Datei bsp1.sav. (a) Stellen Sie die Abhängigkeit des monatlichen Nettoeinkommens (v391) vom Alter (v317) grasch dar. Dierenzieren Sie in zwei weiteren Graken diesen Zusammenhang nach dem Geschlecht (v146) bzw. nach dem Erhebungsgebiet (v3). Was läÿt sich aus den Graken ablesen? (b) Berechnen Sie den Korrelationskoezienten nach Pearson für die Variablen Alter und Einkommen. Interpretieren Sie den Wert! (c) Führen Sie jetzt analoge Untersuchungen durch nur für die Personen mit Haupt- bzw. Realschulabschluÿ. 2. Laden Sie die Datei hyper.sav. (a) Erstellen Sie ein überlagertes Streudiagramm für folgende Variablenpaare: Alter - syst. Blutdruck Anfangswert (rrs0), Alter - syst. Blutdruck nach 6 Mon. (rrs6), Alter - syst. Blutdruck nach 12 Mon. (rrs12). Was kann man aus der Grak entnehmen? (b) Erstellen Sie mehrere Streudiagramme in einer Grak (Matrix) für die Variablen Alter (a), Körpergröÿe (gr), Körpergewicht (gew), syst. Blutdruck (rrs0), diast. Blutdruck (rrd0), Cholesterinwert (chol0), Blutzucker (bz0) (jeweils Variablen der Ausgangswerte). 3. In einer Seminargruppe wurden die Klausurnoten in Mathematik und Physik von 10 Studenten erfaÿt: Mathematik Physik 1 1 3 3 4 5 1 2 5 4 5 3 3 4 2 1 1 3 2 2 Untersuchen Sie, ob zwischen den Noten ein linearer Zusammenhang besteht durch die Berechnung eines geeigneten Korrelationskoezienten. 4. Laden Sie die Datei wein.sav. Untersuchen Sie, ob eine Präferenz bestimmter Weinsorten geschlechtsabhängig ist. Wählen Sie dazu geeignete grasche Darstellungen (gruppiertes Balkendiagramm, 3D-Balkendiagramm) und erstellen Sie eine Kreuztabelle. 5. Laden Sie die Datei bsp2.sav. (a) Untersuchen Sie die Freizeitaktivitäten Garten, Sport, Fernsehen, Lesen in Abhängigkeit vom Bildungsabschluÿ (at8). Erstellen Sie dafür Kreuztabellen und geeignete Graken. (b) Unterscheiden Sie jetzt in der Kreuztabelle auÿerdem noch nach dem Geschlecht der befragten Personen. (c) Berechnen Sie die zugehörigen Kontingenzkoezienten, wie sind die Werte zu interpretieren? 6. Laden Sie die Datei studium.sav. (a) Erstellen Sie eine Kreuztabelle für die Variablen Fachbereich und psychische Lage. Wählen Sie die Einträge in die Tabelle so, damit Sie folgende Fragen beatworten können: -) Wieviel Studenten bezeichnen ihre psychische Lage als stabil? -) Wieviel Prozent aller Studenten gehören zum Fachbereich Jura? 23 -) Wieviele der Psychologiestudenten bezeichnen ihre psychische Lage als labil? -) Wieviel Prozent aller Studenten sind Naturwissenschaftler mit psychisch stabiler Lage? -) Wieviel Prozent der Medizinstudenten bezeichnen ihre psychische Lage als stabil? -) Wieviel Prozent aller Studenten mit äuÿerst labiler Lage gehören zum Fachbereich Geisteswissenschaften? (b) Betrachten Sie jetzt nur noch Studenten aus den Fachbereichen Jura, Geisteswissenschaften, Psychologie. Stellen Sie deren psychische Lage in Abhängigkeit vom Geschlecht dar. Beurteilen in diesen Fachbereichen die männlichen oder die weiblichen Studenten ihre psychische Lage eher labil? 7. Laden Sie die Datei Europa.sav. (a) Untersuchen Sie sowohl grasch als auch durch geeignete Kenngröÿen, ob es Zusammenhänge zwischen folgenden Variablen gibt: Mittlere Lebenserwartung Frauen - Kindersterblichkeit, Anteil Stadtbevölkerung - Kindersterblichkeit, Mittlere Lebenserwartung Männer - Anteil Stadtbevölkerung, Anzahl Sonnenscheinstunden - Anzahl Niederschlagstage. Interpretieren Sie die Kenngröÿen und die Art der Zusammenhänge. (b) Teilen Sie die Länder ein in vier Gruppen nach der mittleren Tagestemperatur im Januar. Untersuchen Sie jetzt grasch und tabellarisch, ob sich diese Gruppen unterscheiden bei den Mittelwerten der Variablen mittlere Lebenserwartung Frauen, mittlere Lebenserwartung Männer, Anteil Stadtbevölkerung, Kindersterblichkeit, Anzahl Sonnenscheinstunden. 7.2 Lösungshinweise Aufgaben bivariate Untersuchungen 1. (a) Grafiken - Streudiagramm - Einfach x-Achse: Alter und y -Achse: Nettoeinkommen wie oben, dazu noch Markierung festlegen durch Geschlecht bzw. Erhebungsgebiet (b) Analysieren - Korrelation - Bivariat: 0,007 (Pearson) (c) Daten - Fälle auswählen - Falls: v147=2|v147=3 Korrelationskoezient nach Pearson: -0,010 2. (a) Grafiken - Streudiagramm - Überlagert Y-X-Paare: rrs0 - a, rrs6 - a, rrs12 -a (b) Grafiken - Streudiagramm - Matrix Matrixvariablen: a, gr, gew, rrs0, rrd0, chol0, bz0 3. Analysieren - Korrelation - Bivariat: 0,684 (Spearman) 4. Grafiken - Balken - Gruppiert oder Grafiken - Interaktiv - Balken mit 3DKoordinate Analysieren - Deskriptive Statistiken - Kreuztabellen Zeilen: Geschlecht und Spalten: Weinart 5. (a) Analysieren - Deskriptive Statistiken - Kreuztabellen Zeilen: Garten, Sport, Fersehen, Lesen und Spalten: Bildungsabschluÿ gruppiertes Balkendiagramm (b) wie oben, dazu noch Schicht: Geschlecht 24 (c) wie oben, dazu noch Statistik: Kontingenzkoezient Interpretation: Bis auf das Hobby Fernsehen ist der jeweilige Kontingenzkoezient für die männlichen Befragten (deutlich) gröÿer als der für die weiblichen Befragten, d.h. die Ausübung des Hobbies hängt bei den männlichen Befragten eher vom Bildungsabschluÿ ab als bei den weiblichen Befragten. 6. (a) Analysieren - Deskriptive Statistiken - Kreuztabellen Zeilen: Fachbereich, Spalten: psychische Lage und Zellen: Prozentwerte zeilenweise, spaltenweise, gesamt Antworten auf die Fragen: 41 20,6% 6 5,6% 50% 50% (b) Daten - Fälle auswählen falls fach=1|fach=3|fach=4 Analysieren - Deskriptive Statistiken - Kreuztabellen Zeilen: Geschlecht und Spalten: psychische Lage 7. (a) Kenngröÿen: Korrelationskoezient nach Pearson geeignete graphische Darstellung: Streudiagramm (b) zunächst Transformieren - Umkodieren - In andere Variable, durch alte und neue Werte Gruppen bilden für Variable mittlere Tagestemperatur Januar, z.B.: bis -1◦ , 0◦ -3◦ , 4◦ -7◦ , ab 8◦ . Dann graphische Darstellung durch gruppiertes Balkendiagramm, tabellarische Darstellung durch einfache Tabellen oder Vergleich durch Analysieren - Mittelwerte vergleichen - Mittelwerte. 25 8 Regressionsanalyse Beschreibung des Zusammenhangs zwischen zwei metrischen Merkmalen X, Y durch Anpassung einer Funktion f vorgegebenen Typs nach der Methode der kleinsten Quadrate. Ŷ = f (X) , X - unabhängige Variable, Ŷ - abhängige Variable Festlegung des Funktionstyps mit Hilfe von: Streudiagramm Korrelationsanalyse • lineare Regression Analysieren - Regression - Linear Funktionstyp Ŷ = a + b · X Erläuterungen zum output: Tabelle Koezienten: Enthält in Spalte B Schätzungen für das Absolutglied a (1. Zeile) und den Anstieg b (2. Zeile) Die weiteren Gröÿen dienen der statistischen Beurteilung der vorgenommenen Anpassung. In der Dialogbox Lineare Regression kann man unter Statistiken Kondenzintervalle aktivieren. Das liefert die 95%-Kondenzintervalle für die Schätzer der Regressionskoezienten. Tabelle Modellzusammenfassung: Enthält unter R den Korrelationskoezienten und unter RQuadrat das Bestimmtheitsmaÿ (Maÿ für die Güte der Anpassung). Tabelle Anova: Enthält Gröÿen, die sich aus der Quadratsummenzerlegung (Grundidee der Regression) ergeben. • Kurvenanpassung Analysieren - Regression - Kurvenanpassung 11 Funktionstypen Schätzung für die Koezienten steht unter b0 , b1 , .... Das Bestimmtheitsmaÿ ist gegeben durch Rsq. Bei zeitabhängigen Daten kann man als unabhängige Variable Zeit wählen. • Prognose Im Dateneditor sind für die unabhängige Variable die Werte einzugeben, für die die abhängige Variable zu prognostizieren ist. In der Dialogbox Lineare Regression oder Kurvenanpassung unter Speichern Vorhergesagte Werte aktivieren (bei linearer Regression: nicht standardisiert). Im Dateneditor erscheinen die Werte für Ŷ einschlieÿlich der Prognosewerte. • nichtlineare Regression Analysieren - Regression - Nichtlinear Funktionstyp selber festlegen Unter Modellformel Formel des gewünschten Funktionstyps angeben. Unter Parameter geeignete Startwerte für die zu schätzenden Parameter angeben. Beispieldateien: autos.sav, mitglieder.sav, population.sav 26 8.1 Aufgaben Regressionsanalyse 1. Laden Sie die Datei gröÿe.sav. (a) Stellen Sie den Zusammenhang zwischen Gröÿe und Gewicht grasch dar. (b) Wie lautet die lineare Regressionsfunktion nach der Methode der kleinsten Quadrate? (c) Welches Körpergewicht ist demnach im Mittel zu erwarten bei einer Person mit Körpergröÿe von 190 cm? (d) Geben Sie das 95%-Kondenzintervall für den Anstieg der linearen Regressionsfunktion an. 2. Laden Sie die Datei bsp3.sav. (a) Stellen Sie den Zusammenhang zwischen dem verfügbaren Einkommen privater Haushalte (YHV) und dem privaten Verbrauch (CPR) sowie den zwischen verfügbarem Einkommen und dem Preisindex für privaten Konsum (PICPR) jeweils in einem Streudiagramm dar. Ermitteln Sie für beide Zusammenhänge den Korrelationskoezienten. Ist in beiden Fällen eine lineare Regressionsfunktion geeignet zur Beschreibung des Zusammenhangs? (b) Geben Sie für beide Zusammenhänge die Gleichung der Regressionsgeraden an sowie das Bestimmtheitsmaÿ. Begründen Sie die unterschiedlichen Werte für das Bestimmtheitsmaÿ. 3. Laden Sie die Datei people01.sav. (a) Schätzen Sie die Regressionsparameter für eine Exponentialfunktion vom Typ y = a · bx . (b) Prognostizieren sie damit die Bevölkerungszahl für das Jahr 2000. 4. Laden Sie die Datei leistung.sav. (a) Bestimmen Sie eine lineare Regressionsfunktion nach der Methode der kleinsten Quadrate. (b) Wie gut ist die Beschreibung der Leistungswerte in Abhängigkeit von der Dosierung der Stimulanz durch einen linearen Zusammenhang? Gibt es einen Funktionstyp, der dafür besser geeignet ist? Geben Sie die Regressionsfunktion für diesen Funktionstyp an. (c) Schätzen Sie die Leistungswerte für eine Dosierung von 1,5 und 2,7 mit einer geeigneten Regressionsfunktion. 5. Laden Sie die Datei VWKäfer.sav. Führen Sie eine nichtlineare Regression durch für die Verkaufszahlen mit dem Funktionstyp ta · e−bt und den Anfangswerten a = 6 und b = 0, 2. Stellen Sie die Verkaufszahlen und die Werte der Regressionsfunktion grasch dar. 6. Laden Sie die Dateien Fahrrad.sav und Produkt.sav. Welche Funktionstypen sind geeignet um die Entwicklung der Gesamtproduktion an Fahrrädern bzw. des Umsatzes bei einem neu auf dem Markt eingeführten Produkt zu beschreiben. Führen Sie in beiden Fällen die entsprechende Regression durch. 27 8.2 Lösungshinweise Aufgaben Regressionsanalyse 1. (a) Grafiken - Streudiagramm - Einfach x-Achse: Gröÿe und y -Achse: Gewicht (b) Analysieren - Regression - Kurvenanpassung unabh. Variable: Gröÿe, abh. Variable: Gewicht, Modell: linear Ŷ = −40, 392 + 0, 6462X X - Gewicht, Y - Gröÿe (c) 82,39 kg Im Editor bei Variable Gröÿe 190 eingeben, Regression durchführen und Speichern, vorhergesagte Werte aktivieren. (d) Kondenzintervall [0, 245 ; 1, 047] Bei Analysieren - Regression - Linear unter Statistiken Kondenzintervall aktivieren. 2. (a) Grafiken - Streudiagramm und Analysieren - Korrelation - Bivariat Einkommen X - Verbrauch Y : Korrelationskoezient 0,999 Einkommen X - Konsum Y : Korrelationskoezient 0,948 (b) Analysieren - Regression - Kurvenanpassung Modell: linear Einkommen X - Verbrauch Y : Ŷ = 19018, 8 + 0, 8549X Bestimmtheitmaÿ: 0,998 Einkommen X - Konsum Y : Ŷ = −10, 636 + 8, 4 · 10−5 X Bestimmtheitmaÿ: 0,900 3. (a) Analysieren - Regression - Kurvenanpassung Modell: Zusammengesetzt unabhängige Variable: Zeit Ŷ = 3, 401 · 1, 0928X , X = 1, ..., 5 oder unabhängige Variable: Jahr Ŷ = 2, 4 · 10−15 · 1, 0179X , X = 1970, 1975, ..., 1990 (b) 6,33169 Mrd. Regression durchführen und Speichern, vorhergesagte Werte aktivieren. 4. (a) Analysieren - Regression - Kurvenanpassung Modell: Linear X - Dosierung, Y - Leistung: Ŷ = 6, 5331 − 0, 9721X (b) quadratische Funktion: Ŷ = 3, 3787 + 5, 7874X − 2, 2532X 2 (erkennt man am Streudiagramm und am Bestimmtheitsmaÿ der Regression) (c) Schätzungen: Dosierung 1,5: 6,99 Dosierung 2,7: 2,58 Quadratische Regression durchführen und Speichern, vorhergesagte Werte aktivieren. 5. Analysieren - Regression - Nichtlinear abhängige Variable: prodzahl, Modellformel: nra · EXP(−b · nr), Parameter: a = 6, b = 0, 2 Ŷ = t6,199 · e−0,2476t t = 1, ..., 56 Grafiken - Sequenz 6. Fahrrad: kubische Regression: Ŷ = 5, 043 − 1, 502t + 0, 506t2 − 0, 043t3 , t = 1, ..., 7 1 Produkt: logistische Regression: Obergrenze 6, Ŷ = 1 , t = 1, ..., 20 t 6 + 16, 473 · 0, 673 28 9 Zeitreihenanalyse Zeitreihe: zeitlich geordnete Folge von Beobachtungen (Meÿwerten) eines metrischen Merkmals X gleichabständige Zeitpunkte in SPSS erzeugen durch Daten - Datum definieren • graphische Darstellung Sequenzdiagramm (Liniendiagramm speziell für Zeitreihen) Grafiken - Sequenz • Glättung -) Gleitende Durchschnitte Transformieren - Zeitreihen erstellen Funktion: Zentrierter gleitender Durchschnitt mit Spanne = Anzahl der zur Berechnung des neuen Wertes verwendeten Werte der Zeitreihe -) Exponentielles Glätten • Schätzung der Trendkomponente T Regression (unabhängige Variable: Zeit) oder gleitende Durchschnitte • Schätzung der Saisonkomponente S Entscheidung, ob additives Modell (X = T + S , konstante saisonale Schwankungen) oder multiplikatives Modell (X = T · S , saisonale Schwankungen nehmen mit wachsendem Trend zu) vorliegt Analysieren - Zeitreihen - Saisonale Zerlegung neue Variablen: STC SAF SAS ERR geglättete Trendkomponente Saisonkomponente saisonbereinigte Daten X− SAF Dierenz STC SAS • Prognose Prognose für Trendkomponente ( % Regressionsanalyse) additiv/multiplikativ (je nach gewähltem Modell) verknüpfen mit Saisonkomponente SAF Beispieldatei: übern.sav 29 9.1 Aufgaben Zeitreihen 1. Laden Sie die Datei umsatz01.sav. (a) Stellen Sie den Umsatz in Abhängigkeit von der Zeit grasch dar. (b) Berechnen Sie zur Ausschaltung von Saisonschwankungen gleitende Durchschnitte 4. Ordnung (Spanne = 4). (c) Stellen Sie die Ausgangsdaten und die geglätteten Werte in einer Grak dar. (d) Berechnen Sie die Saisonkomponente auf Grundlage eines additiven Modells. (e) Bestimmen Sie eine lineare Regressionsfunktion für die Trendkomponente. Wie lautet die Funktion? (f) Prognostizieren Sie den Umsatz für die vier Quartale des Jahres 1996. (g) Ermitteln Sie jetzt eine Prognose für den Umsatz im Jahr 1996 auf Grundlage des multiplikativen Modells. (h) Vergleichen Sie beide Prognosen miteinander. 2. Laden Sie die Datei butter.sav. (a) Stellen Sie die zeitliche Entwicklung der Butterproduktion grasch dar. (b) Glätten Sie die Zeitreihe durch gleitende Durchschnitte mit Spanne 2,3,6,12. Welche Spanne ist am besten geeignet zum Glätten dieser Daten? (c) Stellen Sie die geglätteten Kurven in einer Grak dar. (d) Berechnen Sie die Saisonkomponente auf Grundlage eines additiven Modells. Wie lautet der Saisonindex für den Monat April und den Monat November? Wie sind diese Werte zu interpretieren? (e) Geben Sie eine lineare Trendschätzung nach der Methode der kleinsten Quadrate an. (f) Prognostizieren Sie die Butterproduktion für Januar bis Juni 1983. 3. In einem Unternehmen wurden die Energiekosten über die Quartale von 4 Jahren erfaÿt (in TDM): Quartal/Jahr I II III IV 1993 38,2 36,1 39,4 42,1 1994 40,3 38,6 42,1 45,3 1995 43,1 40,9 46,1 49,0 1996 44,6 44,1 49,2 52,4 (a) Geben Sie die Daten in geeigneter Form ein und speichern Sie die Datei. (b) Wie lauten die Prognosewerte für die Energiekosten des Unternehmens in den vier Quartalen des Jahres 1997? Für welches Modell (additiv/multiplikativ) haben Sie sich entschieden? (c) Stellen Sie die Werte der Zeitreihe und die der Prognose in einer Grak dar. 4. Laden Sie die Datei Staubs.sav. (a) Stellen Sie die Daten durch eine geeignete Grak dar. Welche Eigenschaften dieser Daten lassen sich an der Grak erkennen? (b) Bearbeiten Sie die Zeitreihe durch exponentielles Glätten. Lassen Sie durch SPSS den geeigneten Glättungsparameter α ermitteln. Welchen Wert hat α? Stellen Sie die Daten und die geglätteten Wert in einer gemeinsamen Grak dar. 30 (c) Variieren Sie jetzt den Glättungsparameter (z.B. α = 0, 1 ; α = 0, 4 ; α = 0, 9). Stellen Sie jeweils die geglätteten Werte grasch dar. Welchen Einuÿ hat die Wahl von α auf die Glättung? 5. Laden Sie die Datei Flug.sav. Prognostizieren Sie mit einem geeigneten Verfahren die Anzahl der Fluggäste in den nächsten 12 Monaten. 9.2 Lösungshinweise Aufgaben Zeitreihen 1. (a) Grafiken - Sequenz (b) Transformieren - Zeitreihen erstellen - Funktion: Zentrierter gleitender Durchschnitt (c) Grafiken - Sequenz (d) Analysieren - Zeitreihen - Saisonale Zerlegung Variable: umsatz, Modell: additiv Seasonal index: Quartal I -0,551 II 0,791 III 0,686 IV -0,926 (e) Analysieren - Regression - Kurvenanpassung abh. Variable: umsatz, unabh. Variable: Zeit, Modell: linear x̂ = 3, 0725 + 0, 0312t t = 1, ..., 16 I/96 3,05 (f) Prognose (additives Modell) II/96 4,42 III/96 4,35 IV/96 2,77 I/96 3,04 (g) Prognose (multiplikatives Modell) II/96 4,50 III/96 4,42 IV/96 2,64 2. (a) Grafiken - Sequenz (b) Transformieren - Zeitreihen erstellen - Funktion: Zentrierter gleitender Durchschnitt Spanne 12 hier am besten geeignet (c) Grafiken - Sequenz (d) Analysieren - Zeitreihen - Saisonale Zerlegung Saisonindex April: 17,326 November: -12,830 (e) Analysieren - Regression - Kurvenanpassung x̂ = 79, 3147 + 0, 8408t t = 1, ..., 48 (f) Prognose 1/83 139,47 2/83 132,18 3/83 135,84 4/83 140,36 5/83 141,71 6/83 121,26 31 3. (a) Datum erstellen mit Daten - Datum definieren (b) Analysieren - Zeitreihen - Saisonale Zerlegung und Analysieren - Regression - Kurvenanpassung Prognose: additives Modell: I/97 II/97 III/97 IV/97 49,48 48,00 52,38 55,37 multipl. Modell: I/97 II/97 III/97 IV/97 (c) Grafiken - Sequenz 4. (a) Grafik - Sequenz (b) Analysieren - Zeitreihen - Exponentielles Glätten Modell: Einfach, Parameter: Gittersuche, Speichern: Zur Datei hinzufügen α = 0, 7 5. periodische Zeitreihe mit Saisoneinüssen: multiplikatives Modell 32 49,83 47,55 52,26 55,70 1. Aufgabe zur Wiederholung Laden Sie die Datei Bsp5.sav. 1. Verschaen Sie sich einen Überblick darüber, welche Variablen und entsprechenden Kodierungen diese Datei enthält. 2. Untersuchen Sie die Datei auf mögliche grobe Eingabefehler. Versuchen Sie, diese Fehler möglichst eektiv zu nden. (Hinweise zur Korrektur der Fehler nden Sie unten auf der Seite.) 3. Bilden Sie aus der Variablen v391 (monatliches Nettoeinkommen) eine neue Variable, die folgende Einkommensklassen beschreibt: monatliches Einkommen 0 100-999 DM 1000-1999 DM 2000-2999 DM 3000-3999 DM 4000-4999 DM 5000-10000 DM 99996-99999 Einkommensklasse 0 1 2 3 4 5 6 9 4. Berechnen Sie eine neue Variable, die das Geburtsjahr enthält, aus der Variablen v317 (Alter). 5. Vergleichen Sie die Häugkeiten für den allgemeinen Schulabschluÿ nach dem Geschlecht. (Geben Sie die Häugkeiten in einer Tabelle aus, getrennt nach männlich/weiblich.) Stellen Sie wieder die ursprüngliche Reihenfolge der Daten her (sortiert nach Fragebogennummer). 6. Bestimmen Sie folgende Häugkeitstabellen: • für die Variable v147 (Schulabschluÿ), • für die Variable v170 (jetzige Berufshauptgruppe), aber nur für die weiblichen Befragten, • für die Variable v391 (monatliches Einkommen) für alle männlichen Personen, die aus den Altbundesländern kommen und deren Alter zwischen 25 und 40 Jahren liegt. Hinweis: Eingabefehler in dieser Datei sind wie folgt zu korrigieren: v146: 4 → 1, 12 → 2 v147: 13 → 3 v447: 19 → 9, 18 → 13. 33 2. Aufgabe zur Wiederholung Laden Sie die Datei umsatz02.sav. 1. Die Umsatz- und Werbungskosten dieser Datei seien quartalsweise gegeben, beginnend mit dem 1. Quartal 1992. Erzeugen Sie die entsprechenden Variablen für das Datum. 2. Führen Sie je 3 geeignete Klassen ein für die Variablen umsatz und werbung. 3. Bestimmen Sie den durchschnittlichen Umsatz, sowie Median, Varianz und Spannweite der Werbungskosten. Bestimmen Sie den Wert, unter dem 40% der Umsätze liegen. Wieviel Prozent der Umsätze liegen unter 3,8? 4. Erstellen Sie eine geeignete Grak für die Variable umsatz. Wie kann man einfach überprüfen, ob die Daten der Variable umsatz einer Normalverteilung genügen? Erstellen Sie ein gruppiertes Balkendiagramm für die Werbungsklassen, gruppiert nach den Quartalen. Beschriften Sie die Balken, und stellen Sie die Balken mit 3D-Eekt dar. Wie läÿt sich dieses Diagramm hinsichtlich der Werbungskosten interpretieren? 5. Vergleichen Sie in einer Tabelle den mittleren, maximalen und minimalen Umsatz in jedem Quartal. Erstellen Sie dann dazu für jedes Quartal eine Tabelle. Stellen Sie jetzt den mittleren, maximalen und minimalen Umsatz in jedem Quartal grasch dar. Erstellen Sie eine Tabelle, die die gesamten Werbungskosten für jedes Jahr enthält und die Summe aller Werbungskosten. Erstellen Sie eine Tabelle, die Werbungskosten und Umsatz nur für das erste Quartal von jedem Jahr enthält. 6. Erstellen Sie ein Streudiagramm für die Variablen umsatz und werbung. Dierenzieren Sie diese Werte in einem weiteren Streudiagramm nach dem Quartal. Erstellen Sie eine Kreuztabelle für die Klassen der Variablen Umsatz und Werbungskosten, die sowohl absolute als auch prozentuale Werte enthält. Erstellen Sie ein dreidimensionales Balkendiagramm für Umsatz- und Werbungsklassen mit kreisförmigen beschrifteten Säulen. 34 Aufgaben zur Wiederholung 1. Önen Sie die Datei Bank.sav. Die Variablen age, sex, jobcat und salbeg enthalten Angaben über Alter, Geschlecht, Beruf und Anfangsgehalt der befragten Personen. (a) Wieviel Prozent der Büroangestellten sind jünger als 50 Jahre? (b) Bestimmen Sie die Einkommensgrenze, unter welcher das Anfangsgehalt von 50% der männlichen Befragten liegt. (c) Wieviele der weiblichen Befragten sind jünger als 38 Jahre? (d) Bestimmen Sie das durchschnittliche aktuelle Gehalt der Befragten in jeder Jobkategorie. Speichern Sie das Ergebnis unter t1.spo . (e) Berechnen Sie das durchschnittliche aktuelle Gehalt derjenigen Befragten, die zu den Jobkategorien Büroangestellte oder Techniker gehören und älter als 30 und jünger als 50 Jahre sind. Notieren Sie den Wert, und beschreiben Sie Ihre Vorgehensweise. 2. Zur Überprüfung der Wirkung von Kraftfutter für Milchkühe verwenden sechs benachbarte Bauern mit gleichem Viehbestand verschiedene Mengen. Diese Kraftfuttermengen (in kg) und die Milcherträge (in l) sind in der folgenden Tabelle dargestellt: Bauer A B C D E F Kraftfuttermenge 80 200 240 140 400 320 Milchertrag 2700 3250 3500 3100 4000 3800 (a) Geben Sie diese Daten in geeigneter Form ein. Speichern Sie die Daten unter a1.sav . (b) Stellen Sie die Werte der Tabelle in einer Grak dar mit der Sie prüfen können, ob es gerechtfertigt ist, einen annähernd linearen Zusammenhang zwischen den beiden Merkmalen anzunehmen. Speichern Sie diese Grak unter g1.spo . (c) Durch welche Maÿzahl kann man überprüfen, ob sich der Zusammenhang der beiden Merkmale gut durch ein lineare Funktion beschreiben läÿt? Geben Sie den konkreten Zahlenwert für diese Daten an und interpretieren Sie ihn. (d) Ermitteln Sie eine lineare Regressionsfunktion, und geben Sie deren Gleichung an: (e) Welchen Milchertrag kann man mit dieser Regressionsfunktion erwarten bei einem Einsatz von 500 kg Kraftfutter? (f) Wäre eine Funktion der Form Y = a · ebX besser geeignet um den Zusammenhang zwischen beiden Merkmalen zu beschreiben? (Begründung!) 35 3. Önen Sie die Datei Dax.sav. Die Datei enthält Werte des DAX an 22 (Börsen-)Tagen über den Zeitraum 16.10.97 bis 14.11 97. (a) Glätten Sie diese Zeitreihe durch die Berechnung gleitender Durchschnitte der Ordnung 3 und 6. Beschreiben Sie stichpunktartig Ihre Vorgehensweise bei dieser Glättung: Was ist an den geglätteten Werten zu erkennen? (b) Speichern Sie die Daten einschlieÿlich der Werte der geglätteten Reihen unter: a2.sav . (c) Erstellen Sie eine geeignete Grak, die sowohl die Ausgangsdaten als auch die geglätteten Werte enthält. Speichern Sie diese Grak unter: g2.spo . (d) Geben Sie eine quadratische Regressionsfunktion für die Daten an. 4. Önen Sie die Datei Autos.sav. Die Datei enthält Angaben zu 406 zufällig ausgewählten Autos. (a) Stellen Sie in einem Balkendiagramm die durchschnittlichen Hubraumvolumina (Variable hubraum) in Abhängigkeit von der Anzahl der Zylinder (Variable zylinder) dierenziert nach dem Herstellungsland (Variable land) dar. Weisen Sie jedem Balken das durchschnittliche Hubraumvolumen zu. Speichern Sie diese Grak unter: g3.spo . (b) Halten Sie stichpunktartig Ihre Vorgehensweise bei der Erstellung dieses Balkendiagramms fest. (c) Geben Sie jetzt die durchschnittlichen Hubraumvolumina in Abhängigkeit von der Zylinderzahl für jedes Herstellungsland in einer geeigneten Tabelle an. Speichern Sie diese unter: t2.spo . (d) Erstellen Sie jetzt eine zu g3.spo analoge Grak, in der nur Europa und Japan (Variable land) berücksichtigt werden. Speichern Sie diese Grak unter: g4.spo . (e) Erstellen Sie eine Kreuztabelle für die Variablen Herstellungsland und Anzahl Zylinder. Wieviel Prozent der Autos sind in Europa hergestellt und haben 4 Zylinder? Wieviel Prozent der in Europa hergestellten Autos haben 4 Zylinder? Wieviel Prozent der Autos mit 4 Zylindern wurden in Europa hergestellt? 36 5. Önen Sie die Datei Hyper.sav. (a) Stellen Sie den Zusammenhang zwischen den Variablen chol0 und chol1 bzw. chol0 und chol12 in Abhängigkeit vom Geschlecht der untersuchten Personen geeignet grasch dar. Speichern Sie diese beiden Graken unter: g5.spo . (b) Berechnen Sie den Korrelationskoezienten nach Pearson paarweise für die Variablen gew (Körpergewicht), gr (Körpergröÿe), rrso (Blutdruck), chol0 und chol12 (Cholesterinwerte). Interpretieren Sie die Ergebnisse! (c) Stellen Sie in einer Grak die gemeinsamen Verteilungen für alle möglichen Paare der Variablen bz0, bz1, bz6, bz12 dar. 6. Önen Sie die Datei B00.sav. (a) Teilen Sie die befragten Personen in geeignete Altersklassen ein. Bilden Sie dazu zunächst eine neue Variable Alter aus dem Geburtsjahr der Personen. (b) Stellen Sie tabellarisch den Zusammenhang zwischen den Variablen Altersklasse und Partei bzw. Konfession und Partei dar. Wählen Sie dabei jeweils eine solche Tabelle aus, die auch die Häugkeiten für jede einzelne Variable enthält. Speichern Sie diese beiden Tabellen unter: t3.spo . (c) Stellen Sie in einer geeigneten Grak die Zahl der Anhänger jeder Partei dar in Abhängigkeit von der Konfession. Speichern Sie die Grak unter: g6.spo . 7. Önen Sie die Datei Besuch.sav. (a) Führen Sie eine Glättung der Daten mit Hilfe der Methode der gleitenden Durchschnitte durch, wählen Sie dabei eine sinnvolle Ordnung. Verschaen Sie sich dazu zunächst einen Überblick über die Daten durch eine geeignete Grak. Bestimmen Sie die Parameter einer Geraden, die die geglätteten Werte nach der Methode der kleinsten Quadrate am besten beschreibt. Wie gut ist die Darstellung durch die Gerade? (Welche Gröÿe beschreibt diese Güte zahlenmäÿig?) (b) Zerlegen sie die Zeitreihe in die einzelnen Komponenten (additives Modell). Geben Sie die Saisonfaktoren an für die Monate März und August. (c) Erstellen Sie eine Prognose für die Besucherzahlen im Jahr 2000. Verwenden Sie dazu das additive Modell und eine lineare Regressionsfunktion für die Ausgangsdaten. Stellen Sie in einer Grak die Ausgangsdaten als auch die Prognosewerte dar. Speichern Sie die Grak unter: g7.spo . (d) Geben Sie die prognostizierten Besucherzahlen für März und August 2000 an. 37 Lösungshinweise Aufgaben zur Wiederholung: 1. (a) Daten - Fälle auswählen: falls jobcat=1 Analysieren - Deskriptive Statistiken - Häufigkeiten: Häugkeitstabelle für Ergebnis: 69,2% alter (b) Daten - Fälle auswählen: falls sex=0 Analysieren - Deskriptive Statistiken - Häufigkeiten: Häugkeitstabelle für Anfangsgehalt (oder Median) Ergebnis: 6 300 DM (c) Daten - Fälle auswählen: falls (sex=1) & (alter<38) Ergebnis: 125 Personen (d) Daten - Datei aufteilen - Gruppen vergleichen: jobcat Analysieren - Deskriptive Statistiken - Häufigkeiten: Mittelwert für aktuelles Gehalt oder Analysieren - Mittelwerte vergleichen - Mittelwerte: abhängige Variable: aktuelles Gehalt, unabhängige Variable: jobcat (e) Daten - Fälle auswählen: falls (jobcat=1|jobcat=7) & (alter>30) & (alter<50) Analysieren - Deskriptive Statistiken - Häufigkeiten: Mittelwert für aktuelles Gehalt Ergebnis: 13 585,09 DM 2. (b) Grafiken - Streudiagramm: einfach (c) Analysieren - Korrelation - Bivariat: Korrelationskoezient nach Pearson 0,989 (d) Analysieren - Regression - Kurvenanpassung: unabhängige Variable X : Kraftfuttermenge, abhängige Variable Y : Milchertrag, Modell: linear Ergebnis: y = 2 467, 98 + 4, 0160 · x (e) Regression mit speichern, vorhergesagte Werte Ergebnis: y ∗ (500) = 4 475, 996 (f) Analysieren - Regression - Kurvenanpassung: Modell: linear und exponentiell Vergleich von rsq: 0,977 (linear) und 0,959 (exponentiell) −→ nein! 3. (a) Transformieren - Zeitreihen erstellen - Funktion: Zentrierter gleitender Durchschnitt Spanne: 3 und 6 (c) Grafiken - Sequenz: Variablen: Dax, MA(dax,3,3), MA(dax,6,6) (d) Analysieren - Regression - Kurvenanpassung Modell: quadratisch: x = 4 211, 33 − 49, 294 · t + 1, 2409 · t2 , t = 1, 2, ..., 22 4. (a) Grafiken - Balken: gruppiert, Auswertung über Kategorien einer Variablen Kat.achse: zylinder, Gruppen def: land, Auswertefunktion: mean(hubraum) Diagrammeditor, Datenbeschriftung (c) Analysieren - Tabellen - Einfache Tabellen: Zeilen: zylinder, Spalten: land, Auswerten: hubraum, Statistik: Mittelwert (d) wie (a), vorher Daten - Fälle auswählen: falls land=2|land=3 (e) Analysieren - Deskriptive Statistiken - Kreuztabellen: Zeilen: land, Spalten: zylinder, Zellen: Prozentwerte (vorher wieder Daten - Fälle auswählen - alle Fälle!!) Antwort auf die Fragen: 16,3% , 90,4% , 31,9% 5. (a) Grafiken - Streudiagramm - einfach: Markierung: Geschlecht (b) Analysieren - Korrelation - Bivariat (c) Grafiken - Streudiagramm - Matrix 38 6. (a) Transformieren - Berechnen: alter=104-jahr Einteilung in Altersklassen z.B.: Kl 1: 25-39, Kl 2: 40-54, Kl 3: 55-69, Kl 4: 70-84 Transformieren - Umcodieren - in andere Variable: alte und neue Werte angeben (b) Analysieren - Tabellen - einfache Tabellen: Zeilen: Altersklasse bzw. Konfession, Spalten: Partei, Gesamtwerte (c) Grafiken - Balken: Auswertung über Kategorien einer Variablen, gruppiert Kategorienachse: Partei, Gruppe: Konfession 7. (a) Grafiken - Sequenz: Variable: anzahl, Zeitachse: date Transformieren - Zeitreihen erstellen: Funktion: zentrierter gleitender Durchschnitt, Spanne: 12 Analysieren - Regression - Kurvenanpassung: abh. Variable: MA(anzahl,12,12), unabh. Variable: Zeit, Modell: linear Ergebnis Regressionsgerade: X = 6, 863 + 0, 0337 · t, t = 7, 8, ..., 54 (b) Analysieren - Zeitreihen - Saisonale Zerlegung Ergebnis Saisonfaktoren: März: -2,15424 August: 3,95410 (c) Analysieren - Regression - Kurvenanpassung: abhängige Variable: Anzahl, unabhängige Variable: Zeit, Modell: linear speichern: vorhergesagte Werte bis 12/2000 Transformieren - Berechnen: prog=SAF+FIT Grafiken - Sequenz (d) Ergebnis Prognose 2000: März: 6 940 September: 12 720 39