OG H0JSKOLE - Nørgaards Højskole

Transcription

OG H0JSKOLE - Nørgaards Højskole
Nils Karl Sørensen
Statistik HA / Esbjerg
Forelæsningsnoter
BO kapitel 2: Deskriptiv Statistik
Disponering
•
•
•
•
•
•
•
•
•
•
Metode
Grafisk beskrivelse med histogram
Positionsmål
Spredningsmål
Percentiler og boksdiagrammer
Grupperede observationer og interpolation
Median og kvartiler i grupperede fordelinger
Lidt om konfidensintervaller
Beskrivende statistik med Excel – et eksempel
Et specielt histogram
BO 2.1
+ EDB-note
BO 2.2, 2.9 + EDB-note
BO 2.3, 2.8
BO 2.4
BO 2.8
Excel-ark på hjemmeside
Note på hjemmeside
1) Metode
Formålet med deskriptiv statistik er at fastlægge en række egenskaber ved et data sæt
omfattende en variabel.
Omfatter data mange observationer kan en gruppering af materialet være hensigtsmæssig.
Ved en gruppering fastlægges frekvensfordelingen.
Frekvens = hyppighed.
Fordeling af elementer i en stokastisk undersøgelse efter et bestemt kriterium og opdelt i
nærmere angivne kategorier eller klasser.
Frekvenser angives absolut eller relativt. Summen af de relative frekvenser er lig 100.
Opskrevet lidt mere matematisk haves:
Frekvens:
x
Hyppighed
= i hvor i=1,2,3,…,n
Samlede antal hyppigheder n
1
Endvidere kan den kumulerede frekvens beregnes ved anvendelse af en sumkurve.
Materialet kan videre undersøges ved beregning af:
• Positionsmål
• Spredningsmål
= hvad er det typiske?
= hvor usikkert er det typiske?
Lad os indledningsvis tabulere og tegne materialet.
2) Grafisk beskrivelse med histogram
BO 2.1
Et histogram viser klassifikationen af en kvantitativ variabel. Det er som regel x-aksen, der
benyttes som intervalskala ved klassifikationen mens frekvensen måles på y-aksen.
På side 47 i Bowerman anvendes en metode omkring opdeling af intervaller, som nok kan
diskuteres. Generelt er det tilrådelig at anvende sin logiske sans.
Lad os anvende et lille sæt observationer om fra salget fra 20 kasseapparater i 1000 DKK
Datasættet ser ud som følger:
9
6
12
10
13
15
16
14
14
16
17
16
24
21
22
18
19
18
20
17
18
19
20
21
22
24
Antallet af observationer er lig n=20.
Det er lidt uorganiseret, så lad os sortere materialet efter størrelse:
6
9
10
12
13
14
14
15
16
16
16
17
17
18
Næste interessante observation er, at der er flere observationer af med samme værdi. Dem
kunne man søge at samle. Det er netop denne egenskab, der anvendes i et histogram.
• Gennemgå handout om histogram i Excel
Lad os nu tegne et histogram for vort data sæt:
Interval
Under 5
5 til 10
11 til 15
16 til 20
Over 20
2
Hyppighed
0
3
5
9
3
Sådan bliver diagrammet hvis det opsættes nogenlunde nydeligt. Til højre vises den
grupperede fordeling.
Man kan beskrive fordelingen ud fra dens form. I eksemplet ovenfor er der tale om en
venstreskæv fordeling.
(M0 = mode; Md = median og µ = mean)
Disse beskrivelser er meget anvendte!
3) Positionsmål
BO 2.2, 2.8-9
Disse omfatter:
•
•
•
•
Middelværdien
Medianen (fraktilen) (samt 5-punkt opsummeringen).
Modus eller typetallet
Geometrisk gennemsnit (omtalt i afsnit 2.9)
Alle disse begreber er lettest at definere:
Middelværdien (aritmetisk gennemsnit) er et udtryk for den gennemsnitlige observation. Det
er defineret som:
n
X =
∑ xi
i =1
n
n
ved grupperede observationer X =
3
∑f
i =1
i
n
× xi
hvor fi betegner frekvensen. Grupperede observationer er omtalt i Bowerman afsnit 2.8 samt
Bowerman side 59. Ved grupperede observationer anvendes som regel midtpunktet i
intervallet. Mere om grupperede observationer senere i disse noter.
I visse fremstillinger opereres der med to typer af gennemsnit dels stikprøve gennemsnittet
(n) og gennemsnittet for totalpopulationen (N). Hvis det stikprøven er korrekt skal de to
middelværdier være identiske.
Modus:
Er den eller de observationer, der optræder hyppigst, dvs. som har størst frekvens pr.
enhedsinterval. Modus benævnes også typetallet eller tilstand:
Medianen:
Er den midterste observation når data er opstillet i række efter størrelse.
Geometrisk gennemsnit:
Defineres som:
XG =
n
n
∏x
i
i =1
Geometrisk gennemsnit anvendes ved forholdstal. Det geometriske gennemsnit er altid
mindre end det aritmetiske gennemsnit.
I Excel:
Indsæt│Funktion│Statistik│Geomiddelværdi
I forhold til fordelingens skævhed findes følgende forhold mellem middeltal (µ), modus
(M0) og medianen (Md) er gengivet i figur 2.22 side 62:
(M0 = mode; Md = median og µ = mean)
4
Mange af de ovennævnte informationer kan let bringes til veje ved anvendelse af funktionen
”beskrivende statistik” i Excel.
• Gennemgå ”beskrivende statistik i Excel”.
• Udført på vort lille data sæt haves (bemærk at jeg altid prøver at reducere antallet af
decimaler i udskriften – vi er ikke ingeniører):
Middelværdi
Median
Tilstand
Standardafvigelse
Stikprøvevarians
Område
Minimum
Maksimum
Sum
Antal
Konfidensniveau(95,0%)
15,85
16
16
4,46
19,92
18
6
24
317
20
2,09
Vi kan beregne medianen til 16. Dette kan gøres på to måder. Lad os også beregne nogle
andre momenter.
Betegnes en given fraktil P kan positionen af denne findes ved anvendelse af formlen
(n+1)P/100 (alternativt np+1−p), se også Bowerman side 80. For vort data sæt kan vi
beregne 5-punkts opsummeringen:
1. decil
Nedre kvartil
Medianen
Øvre kvartil
9. decil
obs
tal
1
6
2
9
er 0,10-fraktilen
er 0,25-fraktilen
er 0,50-fraktilen
er 0,75-fraktilen
er 0,90-fraktilen
3
10
4
12
5
13
6
14
7
14
8
15
9
16
(kaldes også 1. fraktil (nedre decil))
(kaldes også 1. kvartil)
(kaldes også 2. kvartil)
(kaldes også 3. kvartil)
(kaldes også 9. fraktil (øvre decil))
10
16
11
16
12
17
Vi får:
10:
25:
50:
75:
90:
(20+1)10/100 = 2,10
(20+1)25/100 = 5,25
(20+1)50/100 = 10,50
(20+1)75/100 = 15,75
(20+1)90/100 = 18,90
obs
obs
obs
obs
obs
= 9,10
= 13,75
= 16,00
= 18,25
= 21,90
5
13
17
14
18
15
18
16
19
17
20
18
21
19
22
20
24
I Excel findes kvartilerne ved anvendelse af funktionen:
Indsæt│Funktion│Statistik│Kvartil
Tryk: 1 = 1 kvartil og 3 = 3 kvartil.
I Excel findes fraktilerne ved anvendelse af funktionen:
Indsæt│Funktion│Statistik│Fraktil
Værdien K vil angive en fraktilværdi mellem 0 og 1.
Anvendes kumulerede værdier fås et andet resultat! I større data sæt anvendes de
kumulerede værdier, mens ovennævnte finder anvendelse i små data sæt. I grupperede data
sæt anvendes ofte interpolation. Herom senere!
6
4) Spredningsmål
BO 2.3, 2.8
Disse beskriver usikkerheden omkring middelværdien.
Disse omfatter:
•
•
•
•
•
•
Variationsbredden og kvartilafstande
Varians og standardafvigelsen
Standardfejlen
Variationskoefficienten
Skævhed og topstejlhed
Chebyshev’s teorem
Variationsbredden (område eller ”range”) og kvartil- samt decilafstanden:
• Variationsbredden er den største fratrukket den mindste observation her 24 − 6
= 18.
• Kvartilafstanden (inter quartile range) er forskellen mellem øvre og nedre
kvartil. Indenfor kvartilafstanden findes 50 % af observationerne. Her 18,75 −
13,25 = 4,50
• Decilafstanden (decile range) er forskellen mellem 9. og 1. decil. Her 21,90 −
9,10 = 12,80. Inden for decilafstanden findes 80 % af observationerne.
Varians og standardafvigelsen
I modsætning til de ovennævnte mål udnytter varians og standardafvigelsen informationer
fra alle observationerne.
Standardafvigelsen er kvadratroden af variansen.
Variansen angiver alle kvadrerede afvigelser fra middelværdien. Hvis vi ikke tager
kvadratet, så vil negative og positive afvigelser gå ud mod hinanden.
Standardafvigelsen i en stikprøve er givet ved:
s=
∑
n
i =1
( xi − X ) 2
n −1
Se også Bowerman side 69. Der sondres mellem stikprøvevariansen s2 og
populationsvariansen σ2. Tilsvarende for gennemsnittet x i stikprøven og µ i populationen. I
7
afsnit 2.8 i Bowerman er omtalt, hvordan standardafvigelsen er beregnet for grupperede
observationer.
Der divideres med n−1 da der er tale om en stikprøve. Dette skyldes, at der ved overgangen
til stikprøve tabes en frihedsgrad. Det blev gennemgået, hvordan dette fremkommer.
Standardfejlen
Udtrykker den ”normaliserede” standardafvigelse. Den er givet ved
s
. Antallet af
n
observationer er således normaliseringsfaktoren.
Variationskoefficienten:
Omtales Bowerman side 75. Er lig CV =
middeltallet.
s
X
dvs. standardafvigelsen divideret med
• Hvis fordelingen har stor spredning (er meget flad) antager CV en stor værdi.
• Hvis fordelingen har lille spredning (er meget stejl) antager CV en lille værdi.
Variationskoefficienten anvendes også i undersøgelser af sæsonelementer. Hvis der er et
betydelig sæsonaspekt antager CV en stor værdi.
8
Skævhed og topstejlhed
Skævhed = (skewness) = et udtryk for hvor meget en fordeling afviger fra det ”normale”.
Topstejlhed = (kurtosis) = et udtryk for fordelingens ”koncentration”
Følgende figur taget fra E.M. Bøye, 2003, Deskriptive Statistik, 3. udgave, forlaget
Swismark, side 205.
9
Chebyshev’s teorem
Omtales i Bowerman side 74 og er en empirisk regel til fastlæggelse af spredningen i en
given fordeling. Teoremet siger, at for en given population med middelværdi µ og standard
afvigelse σ vil for en given værdi af k>1 mindst 100(1−(1/k2))% af populationen være at
finde inden for intervallet [µ ±kσ].
Eksempel
Lad os antage at k=2. Så vil det forventes at mindst 100(1−(1/22))% = 100(3/4) = 75 % af
populationens observationer vil forventes at kunne findes i intervallet [µ ±2σ].
Hvis nu µ=40 og σ=5, så vil 75 % af observationerne findes i intervallet [40 ±2(5)] =
[40±10] eller [30 ; 50].
Illustration Chebyshev`s teorem:
F(X)
75 % obs
X
30
40
5) Percentiler og boksdiagrammer
50
BO 2.4
Percentiler er omtalt ovenfor.
Et boksdiagram anvendes til i det datasæt at identificere outliers og mistænkte outliers.
• En outlier kan defineres som en observation, der ligger mere end 3 kvartilafstande
under eller over 1. eller 3. kvartil.
• En mistænkt outlier mere end halvanden (men under 3) kvartilafstande under eller
over 1. eller 3. kvartil.
Boks-plottet blev først gang opstillet i slutningen af 1970’erne. Boks-plottet kan kritiseres
for at værdierne 1,5 og 3,0 ikke har det store teoretiske belæg.
Boks-plottet er imidlertid godt til at identificere ekstreme observation samt til at sige noget
om udseendet af en fordeling.
Lad os tegne et Boks-plot med udgangspunkt i vore data ved anvendelse af Megastat. Det er
vist i et handout hvordan dette gøres. Vi har at:
10
BoxPlot
0
5
10
15
20
25
30
Vi kan beregne ”inner fence” og ”outer fence” som:
Lower inner fence:
Lower outer fence:
Q1 − 1,5IQR = 13,75 − 1,5(4,5) =
Q1 − 3IQR = 13,75 − 3,0(4,5) =
7,00
0,25
Upper inner fence:
Upper outer fence:
Q3 + 1,5IQR = 18,75 + 1,5(4,5) =
Q3 + 3IQR = 18,75 + 3,0(4,5) =
25,50
32,25
Det ses, at mindst observation (på 6) netop kan karakteriseres som en “mistænkt outlier”
6) Grupperede observationer og interpolation
BO 2.8
Et særligt problem opstår ved grupperede observationer. Se eksemplet i Bowerman side
102.
Her beregnes middelværdi og standardafvigelse som:
Satisfaction
rate
36-38
39-41
42-44
45-47
48-50
Sum
Frequency
fi
4
15
25
19
2
65 = n
Class
Midpoint Mi
37
40
43
46
49
fiMi
4(37) = 148
15(40) = 600
25(43) = 1075
19(46) = 874
2(49) = 98
2795
Deviation
(Mi−µ)
37−43=−6
40−43=−3
43−43= 0
46−43= 3
49−43= 6
Squared
(Mi−µ)2
36
9
0
9
36
Vi kan nu beregne gennemsnit, standardafvigelsen og variansen som:
∑
X=
n
fi M i
2795
= 43
n
65
n
f (M i − X ) 2
522
∑
2
i =1 i
=
= 8,15625
s =
65 − 1
n −1
i =1
=
s = s 2 = 8,15625 = 2,8559
11
fi(Mi−µ)2
4(36) = 144
15(9) = 135
25(0) = 0
19(9) = 171
2(36) = 72
522
7) Median og kvartiler i grupperede fordelinger
Her opstår der lige ledes et problem. Dette kan løses ved interpolation. Ideen heri er
anskueliggjort i nedenstående diagram:
Der anvendes eksempelvis en formel som:
Værdi = ”Slutinterval” -
" for langt i forhold til fraktil"
Intervalbredde i værdi
"Total bredde i pct. po int"
Man kan således beregne tilbage.
Frekvens %
52,2
50
33,4
100
?
indkomst (1000 DKK)
149
Data stammer her fra et lille datasæt om indkomster. Lad os vise beregningen af momenter
her:
Indkomster i Danmark 1987, procentvis fordeling
Interval, DKK
Kumuleret, % Ændring, %
0
− 49.999 6,6
50.000
− 99.999 33,4
26,8
100.000 − 149.999 52,2
18,8
150.000 − 199.999 66,9
14,7
200.000 − 249.999 81,7
14,8
250.000 − 299.999 91,2
9,5
300.000 − 399.999 97,5
6,3
400.000 −
100,0
2,5
Vi finder nu momenterne ved lineær interpolation, idet fordelingen af observationerne
indenfor intervallet forudsættes at være uniform.
For medianen kan det observeres at vi ved en indkomst på 149.999 DKK er ved 52,2 % af
indkomsterne. Vi er således kommet ”2,2 % for langt” i et interval bestående af en (højde)
på 18,8 procentpoint.
Ved anvendelse af formlen ovenfor haves:
Medianen:
150.000 −
(52,2 − 50)
× 50.000 = 150.000 − 5.851 = 144.149
18,8
12
Tilsvarende for de andre momenter:
Nedre kvartil:
100.000 −
(33,4 − 25)
× 50.000 = 84.328
26,8
(Q1)
Øvre kvartil:
250.000 −
(81,7 − 75)
× 50.000 = 227.365
14,8
(Q3)
Nedre decil:
100.000 −
(33,4 − 10)
× 50.000 = 56.343
26,8
Øvre decil:
300.000 −
(91,2 − 90)
× 50.000 = 293.684
9,5
Inter Quartile Range (IQR):
(Q3−Q1) = 227.365 − 84.328 = 143.037
Opstilling af en sumfunktion for data blev vist I forelæsningen
Som tidligere kan der optagnes et Boks-plot:
Lower inner fence:
Lower outer fence:
Q1 − 1,5IQR = 84.328 − 1,5(143.037) =
Q1 − 3IQR = 84.328 − 3,0(143.037) =
−130.228
−344.783
Upper inner fence:
Upper outer fence:
Q3 + 1,5IQR = 227.365 + 1,5(143.037) =
Q3 + 3IQR = 227.365 + 3,0(143.037) =
441.921
656.476
Boks-plottet for denne grupperede af indkomsternes fordeling ser da ud som følger:
LOF = −345
−300
LIF = −130
−200 −100
Q1=84 M=144 Q3=227
0
100
13
200
UIF = 442
300
UOF = 656
400 500 600
8) Lidt om konfidensintervaller
Vi vender tilbage til dette emne i kapitel 7.
I udskriften fra ”beskrivende statistik” kan man få udskrevet et ”konfidensinterval” ved
eksempelvis 95 %.
Konfidensintervallet udtrykker for en given procent (95 %), hvor stor en andel af
populationens observationer, der må forventes at befinde i et interval omkring
middelværdien.
For nærværende antages det at data er normalfordelt. Betegnes normalfordelingen Z kan et
95 % konfidensinterval skrives som værdien i normalfordelingen gange med standardfejlen.
X ± Zα / 2
s
hvor Z = 1,96 for nærværende.
n
Illustration:
Z(X)
95 % obs
X
0.025
I vort eksempel fås at X ± Z α / 2
0.975
s
4,46
⇒ 15,85 ± 1,96
⇒ 15,85 ± 1,954
n
20
Det er ikke helt det samme som i udskriften. Vi havde forventet, at få 2,09. Dette skyldes at
i små stikprøver er normalfordelingen ikke helt god. I stedet anvendes noget, der kaldes en
t-fordelingen. Det vender vi tilbage til i kapitel 6.
For nærværende skal man bare vide at man i Bowerman appendiks A side 825 kan finde en
t-værdi med frihedsgrader (n−1) = 20−1 = 19 (har jo tabt en frihedsgrad) til værdien 2,093.
Indsættes denne værdi for Z i udtrykket ovenfor fås at konfidensintervallet er lig:
15,85 ± 2,09.
Dette var også hvad der stod i udskriften.
14
9) Beskrivende statistik med Excel – et eksempel
Eksemplet er gennemgået ovenfor og ligger på hjemmesiden i Excel-format.
Funktionen beskrivende statistik i Excel kan anvendes til sammen med histogram og
boksdiagram, at give en fuldstændig udtømmende analyse af en given variabel.
I forbindelse med kapitlerne 5 til 7 vil vi uddybe nogle af elementerne i udskriften. Det
drejer sig om:
•
•
•
•
Kurtosis eller topstejlhed
Skævhed eller skewness
Standardfejlen
Konfidensintervallet
10) Et specielt histogram
På side 51 i Udarbejdelse af rapporter i beskrivende økonomi findes to diagrammer. Det
øverste viser indkomstfordelingen som den vil blive tegnet af funktionen søjlediagram i
Excel.
Dette diagram lider under den mangel, at der ikke tages højde for at intervalbredden er
varierende. Dette problem er løst i det nederste histogram på side 51. Problemet er
imidlertid, at der i lærebogen ikke gives anvisninger på, hvordan man kan tegne diagrammet
med anvendelse af et regneark.
Dette rådes der bod på i notatet ”et specielt histogram”, der kan findes på hjemmesiden.
Lad os prøve at betragte diagrammet på side 51. Det er åbenbart at såvel indkomstintervallet
samt frekvensen (tætheden) varierer. Skal vi kunne tegne diagrammet skal vi således
anvende en metode, hvor såvel x- som y-aksen kan ændres. Dette kan gøre i et
scatterdiagram eller xy-diagram.
15