datorövning 2: sannolikhetsfördelningar. statistisk inferens.

Transcription

datorövning 2: sannolikhetsfördelningar. statistisk inferens.
DATORÖVNING 2:
SANNOLIKHETSFÖRDELNINGAR.
STATISTISK INFERENS.
START
Logga in och starta Minitab.
Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående
datorövning).
SANNOLIKHETSFÖRDELNINGAR
Välj en av Sveriges kommuner. Svara sedan på följande frågor.
a) Om du skulle välja 30 personer slumpmässigt ur den kommun som du valt, hur stor
är sannolikheten att du skulle få minst 5 personer som har minst eftergymnasial
utbildning?
Ledning: sök den information du behöver på Internet.
b) Gör en bedömning av tillförlitligheten hos data (datakvaliteten).
Ledning: fundera på datavärdens trovärdighet.
STATISTISK INFERENS MED DATORNS HJÄLP
Vi skall nu utnyttja ett hyggligt stort datamaterial. Datamaterialet finns i en fil inlagd på
hemsidan i Excelformat och heter HUS.xls. Öppna Excelfilen och kopiera hela datafilen. Ställ dig
sedan högst upp (i den grå raden i kolumn C1) i Minitabs datablad och klistra in. Datamaterialet
innehåller 11 kolumner och antalet observationer (rader) är 522.
Datamaterialet avser försäljning av bostadshus i en stad i USA år 2002, och man var främst
intresserad av att se samband mellan försäljningspriserna och ett antal variabler som beskriver
huset och dess omgivning. I filen ingår följande variabler i tur och ordning.
1. Löpnummer (identifikationsnummer)
2. Försäljningspris (dollar)
3. Bostadsyta (kvadratfot)
4. Antal sovrum
5. Antal badrum
6. Förekomst av luftkonditionering, 1 = luftkonditionering finns, 0 annars
1
7. Antal bilar som garaget är konstruerat för
8. Förekomst av pool, 1 = pool finns, 0 annars
9. Byggår
10. Byggkonstruktionens kvalitet, 1 = hög, 2 = medium, 3 = låg
11. Tomtstorlek (kvadratfot)
I Minitab, under Basic Statistics, hittar du 1-Sample t, som kan användas för att beräkna
konfidensintervall och testa hypoteser.
UPPGIFT 1
Vi ska börja med att granska data.
a) Rita lämpliga diagram för att studera variablerna försäljningspris, förekomst av pool
samt byggkonstruktionens kvalitets fördelning.
b) Beräkna lämpliga beskrivande mått för variablerna försäljningspris, förekomst av pool
samt byggkonstruktionens kvalitet.
UPPGIFT 2
a) Vi vill undersöka om det förväntade försäljningspriset kan vara 250 000 eller inte. Testet
vill vi göra på signifikansnivån 1%, dvs konfidensintervallet skall ha 99% konfidensnivå.
Använd 1-Sample t. Studera konfidensintervall och testresultat som kommer ut. Hur
tolkar du intervallet? Testvariabelns värde?
b) Vi vill göra om testet med en enkelsidig mothypotes, nämligen att väntevärdet är större
än 250 000. Genomför ett sådant test på signifikansnivån 1%, genom att göra lämplig
justering under Options. Hur tolkar du intervallet? Testvariabelns värde?
UPPGIFT 3
Vi vill nu bilda konfidensintervall för försäljningspriset för dels villor med hög
konstruktionskvalitet (kod 1) och dels de som inte har denna kvalitet (kod 2 och 3).
a) Vi måste därför koda om kvalitetsvariabeln (den näst sista kolumnen) till en ny variabel
där t.ex. 1 kan betyda hög kvalitet medan 0 betyder att kvaliteten är ”lägre”. För att göra
denna omkodning kan du utnyttja fliken Data och under den Code-Numeric to
Numeric. Kolla att den nya kolumnen fick bara värdena 0 och 1 och att det ser korrekt
ut. Ge den ett lämpligt namn.
b) Vi vill nu ha två kolumner, där den ena innehåller försäljningspriser för alla objekt med
kvalitet 1 och den andra priserna för objekt med kvalitet 0. Utnyttja under fliken Data
kommandot Copy-Columns to Columns. Ange i rutan Copy from columns
Försäljningspris och tryck sedan på knappen Subset the Data. Markera Rows that match
och tryck sedan på knappen Condition. Fyll nu i rutan som öppnar sig så att Minitab
kopierar de rader där den nya kvalitetsvariabeln antar värdet 1. Tryck OK och sedan OK
igen. Under rutan Store Copied Data in Columns, välj In current worksheet, in columns och
2
skriv sedan in den kolumn som ni vill spara de utsorterade försäljningspriserna i. Tryck
OK.
Gör om för kvalitet 0. Sätt lämpliga rubriker på kolumnerna.
c) Beräkna ett 95% konfidensintervall för det förväntade försäljningspriset vid kvalitet 1
och vid kvalitet 0. Utnyttja t-fördelningen och observera att båda beräkningarna kan
göras i samma körning. Studera resultaten. Verkligen stor skillnad mellan intervallen,
eller hur? (högst naturligt)
UPPGIFT 4
Vi går nu över till att göra hypotesprövning och konfidensintervall för andelar. Vi är intresserade
av förekomsten av pool och vill se om denna förekomst är olika beroende på husens kvalitet.
Åter är det Basic Statistics som kan utnyttjas och under den 1 Proportion.
a) Beräkna ett 99% konfidensintervall för andelen hus med pool. Tolka resultatet.
b) Jämför andelen hus med pool för hus med högsta kvalitet med motsvarande andel för de
som har något lägre kvalitet. Låt konfidensnivån vara 99%. Tolka resultaten som erhålls i
utskriften.
3