Föreläsning 2 Introduktion Tabeller och diagram

Transcription

Föreläsning 2 Introduktion Tabeller och diagram
Grunder i statistisk metodik, ht 2015
Föreläsning 2
Genomsnitt och spridning
Jörgen Säve-Söderbergh
[email protected]
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Numerisk sammanfattning av datamaterial
Tabeller utgör en sammanfattning av ett datamaterial. Vi har
reducerat data
i någon mån när vi åstadkommer en tabell.
Graska sammanfattningar utgör också sammanfattningar. T. ex.
histogrammet över vikterna för de fyrtio Cloetta konfektyrerna.
Nu vill vi göra en ännu starkare reduktion av ett datamaterial. Vi
vill göra en numerisk sammanfattning.
Vi skiljer på
lägesmått
och
spridningmått
efter vilken information vi
önskar från dem.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Numerisk sammanfattning av datamaterial
Ni är redan bekanta med några mått från tidigare studier.
Varje lägesmått hänger ihop med ett spridningsmått enligt följande
tabell:
Lägesmått
Spridningsmått
(Aritmetiskt) medelvärde
x
Standardavvikelse
Median
Kvartilavstånd
Typvärde
Variationsvidd
Typvärde och variationsvidd är konstruerade för variabler på
nominalskalenivå.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Ordnat stickprov
Antag att vi har
n=4
observationer
x1 = 9.34 x2 = 4.22 x3 = 0.56 x4 = 22.33.
Låt oss ordna dem i storleksordning, från minst till störst
x3 = 0.56 x2 = 4.22 x1 = 9.34 x4 = 22.33.
Det minsta värdet kallas
y4 .
y1 ,
det näst minsta
Dessa variabler benämns ibland
y2 .
Det största kallas
ordningsstatiskor.
Här har vi alltså
y1 = x3 y2 = x2 y3 = x1 y4 = x4 .
Det gäller alltid att
y1 ≤ y2 ≤ y3 ≤ y4 .
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Percentiler
Antag att vi har ett datamaterial
För ett datamaterial
x1 , . . . , xn
x1 , . . . , xn
med
n
observationer.
önskar vi nna ett tal sådant
att 50% av observationerna benner sig till vänster om det.
Eller sådant att 25% av observationerna ligger till vänster.
I allmänhet önskar vi ett tal sådant att för en godtycklig
proportion 0
<p<1
är
Ett sådant tal kallas en
(100p)%
av observationerna mindre.
percentil.
Kända specialfall är
Kvartilerna (medianen)
Deciler (används ibland i samband med inkomster)
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Att beräkna percentiler
Antag att vi har ett datamaterial
Beräkna ordningstatistikorna
Välj ett
p.
x1 , . . . , xn
med
n
observationer.
y1 , . . . , yn .
För att nna percentilen gör vi följande
Beräkna
(n + 1)p .
Om heltal, låt den
(n + 1)p :a
ordningstatistikan utgöra
percentilen.
Om
r :te
(n + 1)p = r + ba så används ett viktat
och (r + 1):a ordningstatistikorna:
Percentil = yr +
Jörgen Säve-Söderbergh
16 augusti 2015
F2
medelvärde av den
a
(yr +1 − yr )
b
Grunder i statistisk metodik, ht 2015
Exempel: medianen md
(y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33)
Låt oss hitta medianen med denna metod. Då
p = 0.5,
1
1
2
2
blir
(n + 1)p = (4 + 1) = 2.5 = 2 + ,
alltså är
r =2
och
md = y2 +
Jörgen Säve-Söderbergh
1
2
a/b = 1/2.
(y3 − y2 ) = 4.22 +
16 augusti 2015
F2
1
2
(9.34 − 4.22) = 6.78.
Grunder i statistisk metodik, ht 2015
Exempel: undre kvartilen q1
(y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33)
Låt oss nu hitta den undre kvartilen.
1
1
4
4
(n + 1)p = 5 = 1.25 = 1 + .
Därmed blir
r =1
q1 = y 1 +
Jörgen Säve-Söderbergh
1
4
och
a/b = 1/4.
(y2 − y1 ) = 0.56 +
16 augusti 2015
F2
1
4
(4.22 − 0.56) = 1.475.
Grunder i statistisk metodik, ht 2015
Exempel: övre kvartilen q3
(y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33)
Slutligen, övre kvartilen.
3
3
4
4
(n + 1)p = 5 = 3.75 = 3 + ,
alltså
r =3
samt
q3 = y3 +
Med hjälp av
3
4
a/b = 3/4.
3
(y4 − y3 ) = 9.34 +
q1
och
q3
4
(22.33 − 9.34) = 19.0825.
kan vi beräkna
kvartilsavståndet
som
q3 − q1 = 19.0825 − 1.475 = 17.6075
Vi beräknar även
Jörgen Säve-Söderbergh
variationsvidden:
16 augusti 2015
22.33
F2
− 0.56 = 21.77
Grunder i statistisk metodik, ht 2015
Boxplot (lådagram) I
En metod för att illustrera spridningen i datamaterial är
boxplot.
Vi ska rita en låda, där lådans vänsterkant ges av undre kvartilen
och högerkanten av den övre kvartilen.
Markera medianen med ett lodrätt streck genom lådan.
Drag linjer till det minsta värdet och det största värdet.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Boxplot (lådagram) II
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Boxplot (lådagram) III - uteliggare
Om det nns extrema värden i datamaterialet, så måste detta
anges.
Vad betyder extremt ?
Observationer som ligger mer än 1.5 kvartilavstånd från
kallas
q1
eller
q3
uteliggare.
Om avståndet överstiger 3 kvartilavstånd kallas sådana
observationer för
Jörgen Säve-Söderbergh
avlägsna uteliggare.
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Boxplot (lådagram) IV
I vårt datamaterial har vi
q1 = 1.475, q3 = 19.0825,
En uteliggare måste alltså vara mindre än
q1 − 1.5 (q3 − q1 ) = 1.475 − 1.5 (19.0825 − 1.475) = −24.9362
eller större än
q3 + 1.5 (q3 − q1 ) = 19.0825 + 1.5 (19.0825 − 1.475) = 45.4937.
Några sådana observationer nns inte i vårt datamaterial.
Men, nu lägger vi till 50
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Boxplot (lådagram) V
Enligt Körner borde uteliggaren markeras med
använt
R
∗.
Här har jag
som markerar med en ring istället.
Det borde även nnas en linje från lådan till 22.33.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Exempel på följder av tal
Låt
x1 , x2 , . . . , xn
vara
n
st tal. Här följer några exempel på följder
av tal:
x1
x2
x3
x4
x5
1
2
3
4
5
x1
x2
x3
x4
x5
1
1
1
1
1
x1
x2
x3
x4
x5
1
2
4
8
16
eller
eller
Beteckningen
x1 , x2 , . . . , xn
kan alltså rymma många olika följder av
tal.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Summatecknet
Summan av
x1 , x2 , . . . , x5
skrivs som
x1 + x2 + x3 + x4 + x5 .
Hur ska vi skriva upp summor av väldigt många tal? Vi använder
den grekiska bokstaven stora sigma,
P
, på följande sätt
x1 + x2 + x3 + x4 + x5 =
5
X
xi .
i=1
Symbolkombinationen utläses som summan av
till 5.
Σ
kallas då
Jörgen Säve-Söderbergh
xi ,
då
i
går från 1
summatecknet.
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Ytterligare exempel
Vi kvadrerar varje tal och adderar dem:
x12 + x22 + x32 + x42 + x52 =
5
X
xn2 .
n=1
Vi subtraherar det aritmetiska medelvärdet från varje observation
och adderar:
(x1 − x) + (x2 − x) + (x3 − x)
5
X
+ (x4 − x) + (x5 − x) =
(xk − x) = 0.
k=1
Vi kommer att möta summan
Jörgen Säve-Söderbergh
P5
16 augusti 2015
k=1 (xk
F2
− x)2
senare.
Grunder i statistisk metodik, ht 2015
Lägesmått: aritmetiskt medelvärde: ogrupperat material
Antag att vi har
n
observationer
x1 , . . . , xn .
Ogrupperat material
x=
1
n
n
X
xi .
i=1
xi = värdena på observationerna, i = 1, 2, . . . , n
n = antalet observationer
Exempel: Sjutton observationer på
4
Här blir
7
2
9
17
X
i=1
Jörgen Säve-Söderbergh
7
2
1
20
xi = 135,
7
5
3
45
6
2
6
5
4
så x = 135
= 7.94
17
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Egenskaper hos det aritmetiskta medelvärdetextremvärden
Nu visar det sig att de bägge observationerna 20 och 45 var
felregistrerade. De skulle vara 2 och 5 istället.
Då har vi:
17
X
i=1
xi = 77,
77
så x = 17
= 4.53
Ni kan bekräfta att medianen är 5 i bägge dessa fall.
Det aritmetiska medelvärdet påverkas mycket starkt av extrema
variabelvärden.
Om fördelningen är sned, så kommer medelvärdet att dras upp
(eller ner) av de höga variabelvärdena.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Lägesmått: aritmetiskt medelvärde: grupperat material
Antag att vi har
n
observationer
x1 , . . . , xn .
Om vi har skapat en
frekvenstabell av våra observationer, så har vi
grupperat
vårt
material.
Grupperat material
x=
1
n
n
X
fi x i .
i=1
xi = olika variabelvärden, i = 1, 2, . . . , n
fi = frekvensen för det i:te variabelvärdet, i = 1, 2, . . . , k
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Exempel på ett grupperat material
Vi återvänder till vårt exempel angående matematikbetygen.
Betyg (xi )
Frekvens (fi )
1
2
2
5
3
9
4
6
5
3
25
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Grupperade data - lägesmåttmotivering
För medelvärdet ska vi ju beräkna
Summan av observationerna
Antalet observationer, d v s n .
Den önskvärda summan kommer vi åt genom konstruktionen
f1 x1 + f2 x2 + · · · + fk xk =
k
X
fi xi .
i=1
Alltså erhåller vi medelvärdet genom kvoten
Pk
x=
Jörgen Säve-Söderbergh
16 augusti 2015
i=1 fi xi
n
F2
.
Grunder i statistisk metodik, ht 2015
Grupperade data - lägesmått - exempel
Låt oss beräkna det genomsnittliga matematikbetyget i vårt
exempel.
xi
fi
1
2
2
2
5
10
3
9
27
4
6
24
5
Av tabellen vet vi att
fi xi
3
15
25
78
Pk
i=1 fi xi
= 78.
Pk
x=
Jörgen Säve-Söderbergh
i=1 fi xi
n
16 augusti 2015
=
F2
Alltså blir
78
25
= 3.12.
Grunder i statistisk metodik, ht 2015
Spridningsmått
Variationen i alla datamaterial är (förstås) inte lika stor.
Två datamaterial kan ha samma medelvärde, men ändå vara olika
spridda.
Vi behöver ett mått på spridningen.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Kvadratsumman kring det aritmetiska medelvärdet
P5
i=1 (xi − x) = 0, men detta öde gäller inte
2
i=1 (xi − x) om inte alla observationerna är exakt lika.
Som
P
5
vi såg ovan är
Låt oss meditera över uttrycket
n
X
(xi − x)2 = (x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2
i=1
Om alla
xi = a
blir
Pn
i=1 (xi
− x)2 = 0.
Det nns ingen
spridning, så det är rimligt.
Om alla
xi
ligger nära
x
blir
Pn
i=1 (xi
− x)2
liten. Då nns liten
spridning och vi får ett (mindre) tal.
Om alla
xi
ligger långt från
x
blir
Pn
i=1 (xi
− x)2
större än i de
andra fallen. Då nns större spridning och vi får ett större tal
(än tidigare).
Alltså verkar detta uttryck fungera som vi vill.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Variansen och standardavvikelsen
Om vi delar kvadratsumman med antalet observationer som den
bygger på
Pn
i=1 (xi
erhåller vi det som kallas
− x)2
n
genomsnittlig avvikelse.
n − 1 så
Pn
(xi − x)2
2
s = i=1
n−1
Av olika skäl delar vi med
som kallas
(stickprovs)variansen.
För att bli av med eekten av att vi kvadrerar tar vi kvadratroten
ur variansen
sP
s=
och erhåller därmed
Jörgen Säve-Söderbergh
n
i=1 (xi
− x)2
n−1
standardavvikelsen.
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Beräkningsformel
Pn
2
s =
i=1 (xi
− x)2
n−1
I vårt exempel ovan såg vi att
att
n
X
2
i=1 xi = 2829.
Pn
2
(xi −x) =
n
X
2
xi −
i=1
i=1
Då
Pn
=
Pn
n = 17
1
n
n
X
2
i=1 xi
i=1 xi
P
− n1 ( ni=1 xi )2
n−1
= 135.
!2
xi
Man kan även visa
blir
= 2829−
i=1
1
17
×1352 = 1756.941176
Alltså blir
s2 =
Jörgen Säve-Söderbergh
1756.941176
16
= 109.8088235 ⇒ s = 10.47897
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Grupperade data - spridningsmått
Vi ska deniera variansen och standardavvikelsen i fallet med
grupperade data.
Variansen mäter ju
Summan av de kvadrerade avvikelserna fran medelvardet .
n−1
Summan ges i detta fall av
2
2
2
f1 (x1 − x) + f2 (x2 − x) + · · · + fk (xk − x) =
k
X
fi (xi − x)2 .
i=1
Kvoten
2
s =
Pk
(xi − x)2
n−1
i=1 fi
stickprovsvariansen.Tar vi den positiva kvadratroten
erhåller vi standardavvikelsen som betecknas s .
ges oss
Jörgen Säve-Söderbergh
16 augusti 2015
F2
ur
s2
Grunder i statistisk metodik, ht 2015
Grupperade data - spridningsmått - beräkningsformel
Det är ansträngande och oklokt att beräkna
Pk
i=1 fi
(xi − x)2
precis som ovan. Med liknande metoder kan man visa att
k
X
2
fi (xi − x) =
k
X
2
fi x i −
i=1
i=1
1
n
k
X
!2
fi xi
i=1
Vi återvänder till exemplet med betygen:
Jörgen Säve-Söderbergh
fi x i
xi2
2
2
1
2
5
10
4
20
3
9
27
9
81
4
6
24
16
96
5
3
15
25
25
78
xi
fi
1
2
16 augusti 2015
fi xi2
75
274
F2
Grunder i statistisk metodik, ht 2015
Grupperade data - spridningsmått - exempel
Kvadratsumman blir alltså
k
X
2
fi (xi − x) =
k
X
2
fi x i −
i=1
i=1
1
k
X
n
!2
fi xi
= 274 −
i=1
78
2
25
= 30.64
och därmed har vi
s2 =
samt
30.64
25
−1
= 1.2767,
s = 1.1299.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Lägesmått: aritmetiskt medelvärde: klassindelat material
Antag att vi har
n
observationer
x1 , . . . , xn
(som vi inte kan få tag
i) och som redan är klassindelade.
x=
1
n
k
X
fi x i .
i=1
xi = klassmitten i den i :te klassen, i = 1, 2, . . . , n
fi = frekvensen för den i :te klassen, i = 1, 2, . . . , k
k = antalet klasser
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Lägesmått: aritmetiskt medelvärde: klassindelat material
Man har mätt etthundrafemtio telefonsamtal som är slumpmässigt
utvalda under en månad hos ett företag. Vi mäter i minuter.
Vi bestämmer
Samtalets
Antal
längd
samtal
1.02.9
9
3.04.9
39
5.06.9
45
7.08.9
42
9.010.9
11
11.012.9
4
klassmitterna:
x1 =
0.95
+ 2.95
2
= 1.95,
alltså medelvärdet av undre och övre klassgränsen.
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015
Lägesmått: aritmetiskt medelvärde: klassindelat material
Vi beräknar
Pk
i=1 fi xi genom nedanstående tabell:
fi
xi
fi xi
1.02.9
9
1.95
17.55
3.04.9
39
3.95
154.05
5.06.9
45
5.95
267.75
7.08.9
42
7.95
333.90
9.010.9
11
9.95
109.45
11.012.9
4
11.95
47.80
150
930.50
Alltså blir medelvärdet
x=
Jörgen Säve-Söderbergh
1
n
k
X
i=1
fi x i =
1
150
16 augusti 2015
6
X
fi xi =
i=1
F2
930.50
150
= 6.20
Grunder i statistisk metodik, ht 2015
Variationskoecienten
Genom att använda standardavvikelsen kan vi deniera ett mått på
en variabels
relativa spridning.
Variationskoecient=
standardavvikelse
medelvärde
× 100%
Alltså i formler
Variationskoecient=
Jörgen Säve-Söderbergh
16 augusti 2015
F2
s
x
× 100%
Grunder i statistisk metodik, ht 2015
Tolkning av standardavvikelsen
Normalfördelningsregeln
säger att ca 68% av observationerna
benner sig mellan gränserna
x −s
och
x + s.
Omkring 95% av observationerna ligger mellan
x − 2s
och
x + 2s .
Datamaterialets histogram måste ungefär se ut som
normalfördelningen(klockform).
Jörgen Säve-Söderbergh
16 augusti 2015
F2
Grunder i statistisk metodik, ht 2015