OG H0JSKOLE - Nørgaards Højskole
Transcription
OG H0JSKOLE - Nørgaards Højskole
Nils Karl Sørensen Statistik HA / Esbjerg Forelæsningsnoter BO kapitel 2: Deskriptiv Statistik Disponering • • • • • • • • • • Metode Grafisk beskrivelse med histogram Positionsmål Spredningsmål Percentiler og boksdiagrammer Grupperede observationer og interpolation Median og kvartiler i grupperede fordelinger Lidt om konfidensintervaller Beskrivende statistik med Excel – et eksempel Et specielt histogram BO 2.1 + EDB-note BO 2.2, 2.9 + EDB-note BO 2.3, 2.8 BO 2.4 BO 2.8 Excel-ark på hjemmeside Note på hjemmeside 1) Metode Formålet med deskriptiv statistik er at fastlægge en række egenskaber ved et data sæt omfattende en variabel. Omfatter data mange observationer kan en gruppering af materialet være hensigtsmæssig. Ved en gruppering fastlægges frekvensfordelingen. Frekvens = hyppighed. Fordeling af elementer i en stokastisk undersøgelse efter et bestemt kriterium og opdelt i nærmere angivne kategorier eller klasser. Frekvenser angives absolut eller relativt. Summen af de relative frekvenser er lig 100. Opskrevet lidt mere matematisk haves: Frekvens: x Hyppighed = i hvor i=1,2,3,…,n Samlede antal hyppigheder n 1 Endvidere kan den kumulerede frekvens beregnes ved anvendelse af en sumkurve. Materialet kan videre undersøges ved beregning af: • Positionsmål • Spredningsmål = hvad er det typiske? = hvor usikkert er det typiske? Lad os indledningsvis tabulere og tegne materialet. 2) Grafisk beskrivelse med histogram BO 2.1 Et histogram viser klassifikationen af en kvantitativ variabel. Det er som regel x-aksen, der benyttes som intervalskala ved klassifikationen mens frekvensen måles på y-aksen. På side 47 i Bowerman anvendes en metode omkring opdeling af intervaller, som nok kan diskuteres. Generelt er det tilrådelig at anvende sin logiske sans. Lad os anvende et lille sæt observationer om fra salget fra 20 kasseapparater i 1000 DKK Datasættet ser ud som følger: 9 6 12 10 13 15 16 14 14 16 17 16 24 21 22 18 19 18 20 17 18 19 20 21 22 24 Antallet af observationer er lig n=20. Det er lidt uorganiseret, så lad os sortere materialet efter størrelse: 6 9 10 12 13 14 14 15 16 16 16 17 17 18 Næste interessante observation er, at der er flere observationer af med samme værdi. Dem kunne man søge at samle. Det er netop denne egenskab, der anvendes i et histogram. • Gennemgå handout om histogram i Excel Lad os nu tegne et histogram for vort data sæt: Interval Under 5 5 til 10 11 til 15 16 til 20 Over 20 2 Hyppighed 0 3 5 9 3 Sådan bliver diagrammet hvis det opsættes nogenlunde nydeligt. Til højre vises den grupperede fordeling. Man kan beskrive fordelingen ud fra dens form. I eksemplet ovenfor er der tale om en venstreskæv fordeling. (M0 = mode; Md = median og µ = mean) Disse beskrivelser er meget anvendte! 3) Positionsmål BO 2.2, 2.8-9 Disse omfatter: • • • • Middelværdien Medianen (fraktilen) (samt 5-punkt opsummeringen). Modus eller typetallet Geometrisk gennemsnit (omtalt i afsnit 2.9) Alle disse begreber er lettest at definere: Middelværdien (aritmetisk gennemsnit) er et udtryk for den gennemsnitlige observation. Det er defineret som: n X = ∑ xi i =1 n n ved grupperede observationer X = 3 ∑f i =1 i n × xi hvor fi betegner frekvensen. Grupperede observationer er omtalt i Bowerman afsnit 2.8 samt Bowerman side 59. Ved grupperede observationer anvendes som regel midtpunktet i intervallet. Mere om grupperede observationer senere i disse noter. I visse fremstillinger opereres der med to typer af gennemsnit dels stikprøve gennemsnittet (n) og gennemsnittet for totalpopulationen (N). Hvis det stikprøven er korrekt skal de to middelværdier være identiske. Modus: Er den eller de observationer, der optræder hyppigst, dvs. som har størst frekvens pr. enhedsinterval. Modus benævnes også typetallet eller tilstand: Medianen: Er den midterste observation når data er opstillet i række efter størrelse. Geometrisk gennemsnit: Defineres som: XG = n n ∏x i i =1 Geometrisk gennemsnit anvendes ved forholdstal. Det geometriske gennemsnit er altid mindre end det aritmetiske gennemsnit. I Excel: Indsæt│Funktion│Statistik│Geomiddelværdi I forhold til fordelingens skævhed findes følgende forhold mellem middeltal (µ), modus (M0) og medianen (Md) er gengivet i figur 2.22 side 62: (M0 = mode; Md = median og µ = mean) 4 Mange af de ovennævnte informationer kan let bringes til veje ved anvendelse af funktionen ”beskrivende statistik” i Excel. • Gennemgå ”beskrivende statistik i Excel”. • Udført på vort lille data sæt haves (bemærk at jeg altid prøver at reducere antallet af decimaler i udskriften – vi er ikke ingeniører): Middelværdi Median Tilstand Standardafvigelse Stikprøvevarians Område Minimum Maksimum Sum Antal Konfidensniveau(95,0%) 15,85 16 16 4,46 19,92 18 6 24 317 20 2,09 Vi kan beregne medianen til 16. Dette kan gøres på to måder. Lad os også beregne nogle andre momenter. Betegnes en given fraktil P kan positionen af denne findes ved anvendelse af formlen (n+1)P/100 (alternativt np+1−p), se også Bowerman side 80. For vort data sæt kan vi beregne 5-punkts opsummeringen: 1. decil Nedre kvartil Medianen Øvre kvartil 9. decil obs tal 1 6 2 9 er 0,10-fraktilen er 0,25-fraktilen er 0,50-fraktilen er 0,75-fraktilen er 0,90-fraktilen 3 10 4 12 5 13 6 14 7 14 8 15 9 16 (kaldes også 1. fraktil (nedre decil)) (kaldes også 1. kvartil) (kaldes også 2. kvartil) (kaldes også 3. kvartil) (kaldes også 9. fraktil (øvre decil)) 10 16 11 16 12 17 Vi får: 10: 25: 50: 75: 90: (20+1)10/100 = 2,10 (20+1)25/100 = 5,25 (20+1)50/100 = 10,50 (20+1)75/100 = 15,75 (20+1)90/100 = 18,90 obs obs obs obs obs = 9,10 = 13,75 = 16,00 = 18,25 = 21,90 5 13 17 14 18 15 18 16 19 17 20 18 21 19 22 20 24 I Excel findes kvartilerne ved anvendelse af funktionen: Indsæt│Funktion│Statistik│Kvartil Tryk: 1 = 1 kvartil og 3 = 3 kvartil. I Excel findes fraktilerne ved anvendelse af funktionen: Indsæt│Funktion│Statistik│Fraktil Værdien K vil angive en fraktilværdi mellem 0 og 1. Anvendes kumulerede værdier fås et andet resultat! I større data sæt anvendes de kumulerede værdier, mens ovennævnte finder anvendelse i små data sæt. I grupperede data sæt anvendes ofte interpolation. Herom senere! 6 4) Spredningsmål BO 2.3, 2.8 Disse beskriver usikkerheden omkring middelværdien. Disse omfatter: • • • • • • Variationsbredden og kvartilafstande Varians og standardafvigelsen Standardfejlen Variationskoefficienten Skævhed og topstejlhed Chebyshev’s teorem Variationsbredden (område eller ”range”) og kvartil- samt decilafstanden: • Variationsbredden er den største fratrukket den mindste observation her 24 − 6 = 18. • Kvartilafstanden (inter quartile range) er forskellen mellem øvre og nedre kvartil. Indenfor kvartilafstanden findes 50 % af observationerne. Her 18,75 − 13,25 = 4,50 • Decilafstanden (decile range) er forskellen mellem 9. og 1. decil. Her 21,90 − 9,10 = 12,80. Inden for decilafstanden findes 80 % af observationerne. Varians og standardafvigelsen I modsætning til de ovennævnte mål udnytter varians og standardafvigelsen informationer fra alle observationerne. Standardafvigelsen er kvadratroden af variansen. Variansen angiver alle kvadrerede afvigelser fra middelværdien. Hvis vi ikke tager kvadratet, så vil negative og positive afvigelser gå ud mod hinanden. Standardafvigelsen i en stikprøve er givet ved: s= ∑ n i =1 ( xi − X ) 2 n −1 Se også Bowerman side 69. Der sondres mellem stikprøvevariansen s2 og populationsvariansen σ2. Tilsvarende for gennemsnittet x i stikprøven og µ i populationen. I 7 afsnit 2.8 i Bowerman er omtalt, hvordan standardafvigelsen er beregnet for grupperede observationer. Der divideres med n−1 da der er tale om en stikprøve. Dette skyldes, at der ved overgangen til stikprøve tabes en frihedsgrad. Det blev gennemgået, hvordan dette fremkommer. Standardfejlen Udtrykker den ”normaliserede” standardafvigelse. Den er givet ved s . Antallet af n observationer er således normaliseringsfaktoren. Variationskoefficienten: Omtales Bowerman side 75. Er lig CV = middeltallet. s X dvs. standardafvigelsen divideret med • Hvis fordelingen har stor spredning (er meget flad) antager CV en stor værdi. • Hvis fordelingen har lille spredning (er meget stejl) antager CV en lille værdi. Variationskoefficienten anvendes også i undersøgelser af sæsonelementer. Hvis der er et betydelig sæsonaspekt antager CV en stor værdi. 8 Skævhed og topstejlhed Skævhed = (skewness) = et udtryk for hvor meget en fordeling afviger fra det ”normale”. Topstejlhed = (kurtosis) = et udtryk for fordelingens ”koncentration” Følgende figur taget fra E.M. Bøye, 2003, Deskriptive Statistik, 3. udgave, forlaget Swismark, side 205. 9 Chebyshev’s teorem Omtales i Bowerman side 74 og er en empirisk regel til fastlæggelse af spredningen i en given fordeling. Teoremet siger, at for en given population med middelværdi µ og standard afvigelse σ vil for en given værdi af k>1 mindst 100(1−(1/k2))% af populationen være at finde inden for intervallet [µ ±kσ]. Eksempel Lad os antage at k=2. Så vil det forventes at mindst 100(1−(1/22))% = 100(3/4) = 75 % af populationens observationer vil forventes at kunne findes i intervallet [µ ±2σ]. Hvis nu µ=40 og σ=5, så vil 75 % af observationerne findes i intervallet [40 ±2(5)] = [40±10] eller [30 ; 50]. Illustration Chebyshev`s teorem: F(X) 75 % obs X 30 40 5) Percentiler og boksdiagrammer 50 BO 2.4 Percentiler er omtalt ovenfor. Et boksdiagram anvendes til i det datasæt at identificere outliers og mistænkte outliers. • En outlier kan defineres som en observation, der ligger mere end 3 kvartilafstande under eller over 1. eller 3. kvartil. • En mistænkt outlier mere end halvanden (men under 3) kvartilafstande under eller over 1. eller 3. kvartil. Boks-plottet blev først gang opstillet i slutningen af 1970’erne. Boks-plottet kan kritiseres for at værdierne 1,5 og 3,0 ikke har det store teoretiske belæg. Boks-plottet er imidlertid godt til at identificere ekstreme observation samt til at sige noget om udseendet af en fordeling. Lad os tegne et Boks-plot med udgangspunkt i vore data ved anvendelse af Megastat. Det er vist i et handout hvordan dette gøres. Vi har at: 10 BoxPlot 0 5 10 15 20 25 30 Vi kan beregne ”inner fence” og ”outer fence” som: Lower inner fence: Lower outer fence: Q1 − 1,5IQR = 13,75 − 1,5(4,5) = Q1 − 3IQR = 13,75 − 3,0(4,5) = 7,00 0,25 Upper inner fence: Upper outer fence: Q3 + 1,5IQR = 18,75 + 1,5(4,5) = Q3 + 3IQR = 18,75 + 3,0(4,5) = 25,50 32,25 Det ses, at mindst observation (på 6) netop kan karakteriseres som en “mistænkt outlier” 6) Grupperede observationer og interpolation BO 2.8 Et særligt problem opstår ved grupperede observationer. Se eksemplet i Bowerman side 102. Her beregnes middelværdi og standardafvigelse som: Satisfaction rate 36-38 39-41 42-44 45-47 48-50 Sum Frequency fi 4 15 25 19 2 65 = n Class Midpoint Mi 37 40 43 46 49 fiMi 4(37) = 148 15(40) = 600 25(43) = 1075 19(46) = 874 2(49) = 98 2795 Deviation (Mi−µ) 37−43=−6 40−43=−3 43−43= 0 46−43= 3 49−43= 6 Squared (Mi−µ)2 36 9 0 9 36 Vi kan nu beregne gennemsnit, standardafvigelsen og variansen som: ∑ X= n fi M i 2795 = 43 n 65 n f (M i − X ) 2 522 ∑ 2 i =1 i = = 8,15625 s = 65 − 1 n −1 i =1 = s = s 2 = 8,15625 = 2,8559 11 fi(Mi−µ)2 4(36) = 144 15(9) = 135 25(0) = 0 19(9) = 171 2(36) = 72 522 7) Median og kvartiler i grupperede fordelinger Her opstår der lige ledes et problem. Dette kan løses ved interpolation. Ideen heri er anskueliggjort i nedenstående diagram: Der anvendes eksempelvis en formel som: Værdi = ”Slutinterval” - " for langt i forhold til fraktil" Intervalbredde i værdi "Total bredde i pct. po int" Man kan således beregne tilbage. Frekvens % 52,2 50 33,4 100 ? indkomst (1000 DKK) 149 Data stammer her fra et lille datasæt om indkomster. Lad os vise beregningen af momenter her: Indkomster i Danmark 1987, procentvis fordeling Interval, DKK Kumuleret, % Ændring, % 0 − 49.999 6,6 50.000 − 99.999 33,4 26,8 100.000 − 149.999 52,2 18,8 150.000 − 199.999 66,9 14,7 200.000 − 249.999 81,7 14,8 250.000 − 299.999 91,2 9,5 300.000 − 399.999 97,5 6,3 400.000 − 100,0 2,5 Vi finder nu momenterne ved lineær interpolation, idet fordelingen af observationerne indenfor intervallet forudsættes at være uniform. For medianen kan det observeres at vi ved en indkomst på 149.999 DKK er ved 52,2 % af indkomsterne. Vi er således kommet ”2,2 % for langt” i et interval bestående af en (højde) på 18,8 procentpoint. Ved anvendelse af formlen ovenfor haves: Medianen: 150.000 − (52,2 − 50) × 50.000 = 150.000 − 5.851 = 144.149 18,8 12 Tilsvarende for de andre momenter: Nedre kvartil: 100.000 − (33,4 − 25) × 50.000 = 84.328 26,8 (Q1) Øvre kvartil: 250.000 − (81,7 − 75) × 50.000 = 227.365 14,8 (Q3) Nedre decil: 100.000 − (33,4 − 10) × 50.000 = 56.343 26,8 Øvre decil: 300.000 − (91,2 − 90) × 50.000 = 293.684 9,5 Inter Quartile Range (IQR): (Q3−Q1) = 227.365 − 84.328 = 143.037 Opstilling af en sumfunktion for data blev vist I forelæsningen Som tidligere kan der optagnes et Boks-plot: Lower inner fence: Lower outer fence: Q1 − 1,5IQR = 84.328 − 1,5(143.037) = Q1 − 3IQR = 84.328 − 3,0(143.037) = −130.228 −344.783 Upper inner fence: Upper outer fence: Q3 + 1,5IQR = 227.365 + 1,5(143.037) = Q3 + 3IQR = 227.365 + 3,0(143.037) = 441.921 656.476 Boks-plottet for denne grupperede af indkomsternes fordeling ser da ud som følger: LOF = −345 −300 LIF = −130 −200 −100 Q1=84 M=144 Q3=227 0 100 13 200 UIF = 442 300 UOF = 656 400 500 600 8) Lidt om konfidensintervaller Vi vender tilbage til dette emne i kapitel 7. I udskriften fra ”beskrivende statistik” kan man få udskrevet et ”konfidensinterval” ved eksempelvis 95 %. Konfidensintervallet udtrykker for en given procent (95 %), hvor stor en andel af populationens observationer, der må forventes at befinde i et interval omkring middelværdien. For nærværende antages det at data er normalfordelt. Betegnes normalfordelingen Z kan et 95 % konfidensinterval skrives som værdien i normalfordelingen gange med standardfejlen. X ± Zα / 2 s hvor Z = 1,96 for nærværende. n Illustration: Z(X) 95 % obs X 0.025 I vort eksempel fås at X ± Z α / 2 0.975 s 4,46 ⇒ 15,85 ± 1,96 ⇒ 15,85 ± 1,954 n 20 Det er ikke helt det samme som i udskriften. Vi havde forventet, at få 2,09. Dette skyldes at i små stikprøver er normalfordelingen ikke helt god. I stedet anvendes noget, der kaldes en t-fordelingen. Det vender vi tilbage til i kapitel 6. For nærværende skal man bare vide at man i Bowerman appendiks A side 825 kan finde en t-værdi med frihedsgrader (n−1) = 20−1 = 19 (har jo tabt en frihedsgrad) til værdien 2,093. Indsættes denne værdi for Z i udtrykket ovenfor fås at konfidensintervallet er lig: 15,85 ± 2,09. Dette var også hvad der stod i udskriften. 14 9) Beskrivende statistik med Excel – et eksempel Eksemplet er gennemgået ovenfor og ligger på hjemmesiden i Excel-format. Funktionen beskrivende statistik i Excel kan anvendes til sammen med histogram og boksdiagram, at give en fuldstændig udtømmende analyse af en given variabel. I forbindelse med kapitlerne 5 til 7 vil vi uddybe nogle af elementerne i udskriften. Det drejer sig om: • • • • Kurtosis eller topstejlhed Skævhed eller skewness Standardfejlen Konfidensintervallet 10) Et specielt histogram På side 51 i Udarbejdelse af rapporter i beskrivende økonomi findes to diagrammer. Det øverste viser indkomstfordelingen som den vil blive tegnet af funktionen søjlediagram i Excel. Dette diagram lider under den mangel, at der ikke tages højde for at intervalbredden er varierende. Dette problem er løst i det nederste histogram på side 51. Problemet er imidlertid, at der i lærebogen ikke gives anvisninger på, hvordan man kan tegne diagrammet med anvendelse af et regneark. Dette rådes der bod på i notatet ”et specielt histogram”, der kan findes på hjemmesiden. Lad os prøve at betragte diagrammet på side 51. Det er åbenbart at såvel indkomstintervallet samt frekvensen (tætheden) varierer. Skal vi kunne tegne diagrammet skal vi således anvende en metode, hvor såvel x- som y-aksen kan ændres. Dette kan gøre i et scatterdiagram eller xy-diagram. 15