Föreläsning 2 Introduktion Tabeller och diagram
Transcription
Föreläsning 2 Introduktion Tabeller och diagram
Grunder i statistisk metodik, ht 2015 Föreläsning 2 Genomsnitt och spridning Jörgen Säve-Söderbergh [email protected] Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Numerisk sammanfattning av datamaterial Tabeller utgör en sammanfattning av ett datamaterial. Vi har reducerat data i någon mån när vi åstadkommer en tabell. Graska sammanfattningar utgör också sammanfattningar. T. ex. histogrammet över vikterna för de fyrtio Cloetta konfektyrerna. Nu vill vi göra en ännu starkare reduktion av ett datamaterial. Vi vill göra en numerisk sammanfattning. Vi skiljer på lägesmått och spridningmått efter vilken information vi önskar från dem. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Numerisk sammanfattning av datamaterial Ni är redan bekanta med några mått från tidigare studier. Varje lägesmått hänger ihop med ett spridningsmått enligt följande tabell: Lägesmått Spridningsmått (Aritmetiskt) medelvärde x Standardavvikelse Median Kvartilavstånd Typvärde Variationsvidd Typvärde och variationsvidd är konstruerade för variabler på nominalskalenivå. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Ordnat stickprov Antag att vi har n=4 observationer x1 = 9.34 x2 = 4.22 x3 = 0.56 x4 = 22.33. Låt oss ordna dem i storleksordning, från minst till störst x3 = 0.56 x2 = 4.22 x1 = 9.34 x4 = 22.33. Det minsta värdet kallas y4 . y1 , det näst minsta Dessa variabler benämns ibland y2 . Det största kallas ordningsstatiskor. Här har vi alltså y1 = x3 y2 = x2 y3 = x1 y4 = x4 . Det gäller alltid att y1 ≤ y2 ≤ y3 ≤ y4 . Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Percentiler Antag att vi har ett datamaterial För ett datamaterial x1 , . . . , xn x1 , . . . , xn med n observationer. önskar vi nna ett tal sådant att 50% av observationerna benner sig till vänster om det. Eller sådant att 25% av observationerna ligger till vänster. I allmänhet önskar vi ett tal sådant att för en godtycklig proportion 0 <p<1 är Ett sådant tal kallas en (100p)% av observationerna mindre. percentil. Kända specialfall är Kvartilerna (medianen) Deciler (används ibland i samband med inkomster) Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Att beräkna percentiler Antag att vi har ett datamaterial Beräkna ordningstatistikorna Välj ett p. x1 , . . . , xn med n observationer. y1 , . . . , yn . För att nna percentilen gör vi följande Beräkna (n + 1)p . Om heltal, låt den (n + 1)p :a ordningstatistikan utgöra percentilen. Om r :te (n + 1)p = r + ba så används ett viktat och (r + 1):a ordningstatistikorna: Percentil = yr + Jörgen Säve-Söderbergh 16 augusti 2015 F2 medelvärde av den a (yr +1 − yr ) b Grunder i statistisk metodik, ht 2015 Exempel: medianen md (y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33) Låt oss hitta medianen med denna metod. Då p = 0.5, 1 1 2 2 blir (n + 1)p = (4 + 1) = 2.5 = 2 + , alltså är r =2 och md = y2 + Jörgen Säve-Söderbergh 1 2 a/b = 1/2. (y3 − y2 ) = 4.22 + 16 augusti 2015 F2 1 2 (9.34 − 4.22) = 6.78. Grunder i statistisk metodik, ht 2015 Exempel: undre kvartilen q1 (y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33) Låt oss nu hitta den undre kvartilen. 1 1 4 4 (n + 1)p = 5 = 1.25 = 1 + . Därmed blir r =1 q1 = y 1 + Jörgen Säve-Söderbergh 1 4 och a/b = 1/4. (y2 − y1 ) = 0.56 + 16 augusti 2015 F2 1 4 (4.22 − 0.56) = 1.475. Grunder i statistisk metodik, ht 2015 Exempel: övre kvartilen q3 (y1 = 0.56, y2 = 4.22, y3 = 9.34, y4 = 22.33) Slutligen, övre kvartilen. 3 3 4 4 (n + 1)p = 5 = 3.75 = 3 + , alltså r =3 samt q3 = y3 + Med hjälp av 3 4 a/b = 3/4. 3 (y4 − y3 ) = 9.34 + q1 och q3 4 (22.33 − 9.34) = 19.0825. kan vi beräkna kvartilsavståndet som q3 − q1 = 19.0825 − 1.475 = 17.6075 Vi beräknar även Jörgen Säve-Söderbergh variationsvidden: 16 augusti 2015 22.33 F2 − 0.56 = 21.77 Grunder i statistisk metodik, ht 2015 Boxplot (lådagram) I En metod för att illustrera spridningen i datamaterial är boxplot. Vi ska rita en låda, där lådans vänsterkant ges av undre kvartilen och högerkanten av den övre kvartilen. Markera medianen med ett lodrätt streck genom lådan. Drag linjer till det minsta värdet och det största värdet. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Boxplot (lådagram) II Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Boxplot (lådagram) III - uteliggare Om det nns extrema värden i datamaterialet, så måste detta anges. Vad betyder extremt ? Observationer som ligger mer än 1.5 kvartilavstånd från kallas q1 eller q3 uteliggare. Om avståndet överstiger 3 kvartilavstånd kallas sådana observationer för Jörgen Säve-Söderbergh avlägsna uteliggare. 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Boxplot (lådagram) IV I vårt datamaterial har vi q1 = 1.475, q3 = 19.0825, En uteliggare måste alltså vara mindre än q1 − 1.5 (q3 − q1 ) = 1.475 − 1.5 (19.0825 − 1.475) = −24.9362 eller större än q3 + 1.5 (q3 − q1 ) = 19.0825 + 1.5 (19.0825 − 1.475) = 45.4937. Några sådana observationer nns inte i vårt datamaterial. Men, nu lägger vi till 50 Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Boxplot (lådagram) V Enligt Körner borde uteliggaren markeras med använt R ∗. Här har jag som markerar med en ring istället. Det borde även nnas en linje från lådan till 22.33. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Exempel på följder av tal Låt x1 , x2 , . . . , xn vara n st tal. Här följer några exempel på följder av tal: x1 x2 x3 x4 x5 1 2 3 4 5 x1 x2 x3 x4 x5 1 1 1 1 1 x1 x2 x3 x4 x5 1 2 4 8 16 eller eller Beteckningen x1 , x2 , . . . , xn kan alltså rymma många olika följder av tal. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Summatecknet Summan av x1 , x2 , . . . , x5 skrivs som x1 + x2 + x3 + x4 + x5 . Hur ska vi skriva upp summor av väldigt många tal? Vi använder den grekiska bokstaven stora sigma, P , på följande sätt x1 + x2 + x3 + x4 + x5 = 5 X xi . i=1 Symbolkombinationen utläses som summan av till 5. Σ kallas då Jörgen Säve-Söderbergh xi , då i går från 1 summatecknet. 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Ytterligare exempel Vi kvadrerar varje tal och adderar dem: x12 + x22 + x32 + x42 + x52 = 5 X xn2 . n=1 Vi subtraherar det aritmetiska medelvärdet från varje observation och adderar: (x1 − x) + (x2 − x) + (x3 − x) 5 X + (x4 − x) + (x5 − x) = (xk − x) = 0. k=1 Vi kommer att möta summan Jörgen Säve-Söderbergh P5 16 augusti 2015 k=1 (xk F2 − x)2 senare. Grunder i statistisk metodik, ht 2015 Lägesmått: aritmetiskt medelvärde: ogrupperat material Antag att vi har n observationer x1 , . . . , xn . Ogrupperat material x= 1 n n X xi . i=1 xi = värdena på observationerna, i = 1, 2, . . . , n n = antalet observationer Exempel: Sjutton observationer på 4 Här blir 7 2 9 17 X i=1 Jörgen Säve-Söderbergh 7 2 1 20 xi = 135, 7 5 3 45 6 2 6 5 4 så x = 135 = 7.94 17 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Egenskaper hos det aritmetiskta medelvärdetextremvärden Nu visar det sig att de bägge observationerna 20 och 45 var felregistrerade. De skulle vara 2 och 5 istället. Då har vi: 17 X i=1 xi = 77, 77 så x = 17 = 4.53 Ni kan bekräfta att medianen är 5 i bägge dessa fall. Det aritmetiska medelvärdet påverkas mycket starkt av extrema variabelvärden. Om fördelningen är sned, så kommer medelvärdet att dras upp (eller ner) av de höga variabelvärdena. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Lägesmått: aritmetiskt medelvärde: grupperat material Antag att vi har n observationer x1 , . . . , xn . Om vi har skapat en frekvenstabell av våra observationer, så har vi grupperat vårt material. Grupperat material x= 1 n n X fi x i . i=1 xi = olika variabelvärden, i = 1, 2, . . . , n fi = frekvensen för det i:te variabelvärdet, i = 1, 2, . . . , k Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Exempel på ett grupperat material Vi återvänder till vårt exempel angående matematikbetygen. Betyg (xi ) Frekvens (fi ) 1 2 2 5 3 9 4 6 5 3 25 Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Grupperade data - lägesmåttmotivering För medelvärdet ska vi ju beräkna Summan av observationerna Antalet observationer, d v s n . Den önskvärda summan kommer vi åt genom konstruktionen f1 x1 + f2 x2 + · · · + fk xk = k X fi xi . i=1 Alltså erhåller vi medelvärdet genom kvoten Pk x= Jörgen Säve-Söderbergh 16 augusti 2015 i=1 fi xi n F2 . Grunder i statistisk metodik, ht 2015 Grupperade data - lägesmått - exempel Låt oss beräkna det genomsnittliga matematikbetyget i vårt exempel. xi fi 1 2 2 2 5 10 3 9 27 4 6 24 5 Av tabellen vet vi att fi xi 3 15 25 78 Pk i=1 fi xi = 78. Pk x= Jörgen Säve-Söderbergh i=1 fi xi n 16 augusti 2015 = F2 Alltså blir 78 25 = 3.12. Grunder i statistisk metodik, ht 2015 Spridningsmått Variationen i alla datamaterial är (förstås) inte lika stor. Två datamaterial kan ha samma medelvärde, men ändå vara olika spridda. Vi behöver ett mått på spridningen. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Kvadratsumman kring det aritmetiska medelvärdet P5 i=1 (xi − x) = 0, men detta öde gäller inte 2 i=1 (xi − x) om inte alla observationerna är exakt lika. Som P 5 vi såg ovan är Låt oss meditera över uttrycket n X (xi − x)2 = (x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 i=1 Om alla xi = a blir Pn i=1 (xi − x)2 = 0. Det nns ingen spridning, så det är rimligt. Om alla xi ligger nära x blir Pn i=1 (xi − x)2 liten. Då nns liten spridning och vi får ett (mindre) tal. Om alla xi ligger långt från x blir Pn i=1 (xi − x)2 större än i de andra fallen. Då nns större spridning och vi får ett större tal (än tidigare). Alltså verkar detta uttryck fungera som vi vill. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Variansen och standardavvikelsen Om vi delar kvadratsumman med antalet observationer som den bygger på Pn i=1 (xi erhåller vi det som kallas − x)2 n genomsnittlig avvikelse. n − 1 så Pn (xi − x)2 2 s = i=1 n−1 Av olika skäl delar vi med som kallas (stickprovs)variansen. För att bli av med eekten av att vi kvadrerar tar vi kvadratroten ur variansen sP s= och erhåller därmed Jörgen Säve-Söderbergh n i=1 (xi − x)2 n−1 standardavvikelsen. 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Beräkningsformel Pn 2 s = i=1 (xi − x)2 n−1 I vårt exempel ovan såg vi att att n X 2 i=1 xi = 2829. Pn 2 (xi −x) = n X 2 xi − i=1 i=1 Då Pn = Pn n = 17 1 n n X 2 i=1 xi i=1 xi P − n1 ( ni=1 xi )2 n−1 = 135. !2 xi Man kan även visa blir = 2829− i=1 1 17 ×1352 = 1756.941176 Alltså blir s2 = Jörgen Säve-Söderbergh 1756.941176 16 = 109.8088235 ⇒ s = 10.47897 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Grupperade data - spridningsmått Vi ska deniera variansen och standardavvikelsen i fallet med grupperade data. Variansen mäter ju Summan av de kvadrerade avvikelserna fran medelvardet . n−1 Summan ges i detta fall av 2 2 2 f1 (x1 − x) + f2 (x2 − x) + · · · + fk (xk − x) = k X fi (xi − x)2 . i=1 Kvoten 2 s = Pk (xi − x)2 n−1 i=1 fi stickprovsvariansen.Tar vi den positiva kvadratroten erhåller vi standardavvikelsen som betecknas s . ges oss Jörgen Säve-Söderbergh 16 augusti 2015 F2 ur s2 Grunder i statistisk metodik, ht 2015 Grupperade data - spridningsmått - beräkningsformel Det är ansträngande och oklokt att beräkna Pk i=1 fi (xi − x)2 precis som ovan. Med liknande metoder kan man visa att k X 2 fi (xi − x) = k X 2 fi x i − i=1 i=1 1 n k X !2 fi xi i=1 Vi återvänder till exemplet med betygen: Jörgen Säve-Söderbergh fi x i xi2 2 2 1 2 5 10 4 20 3 9 27 9 81 4 6 24 16 96 5 3 15 25 25 78 xi fi 1 2 16 augusti 2015 fi xi2 75 274 F2 Grunder i statistisk metodik, ht 2015 Grupperade data - spridningsmått - exempel Kvadratsumman blir alltså k X 2 fi (xi − x) = k X 2 fi x i − i=1 i=1 1 k X n !2 fi xi = 274 − i=1 78 2 25 = 30.64 och därmed har vi s2 = samt 30.64 25 −1 = 1.2767, s = 1.1299. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Lägesmått: aritmetiskt medelvärde: klassindelat material Antag att vi har n observationer x1 , . . . , xn (som vi inte kan få tag i) och som redan är klassindelade. x= 1 n k X fi x i . i=1 xi = klassmitten i den i :te klassen, i = 1, 2, . . . , n fi = frekvensen för den i :te klassen, i = 1, 2, . . . , k k = antalet klasser Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Lägesmått: aritmetiskt medelvärde: klassindelat material Man har mätt etthundrafemtio telefonsamtal som är slumpmässigt utvalda under en månad hos ett företag. Vi mäter i minuter. Vi bestämmer Samtalets Antal längd samtal 1.02.9 9 3.04.9 39 5.06.9 45 7.08.9 42 9.010.9 11 11.012.9 4 klassmitterna: x1 = 0.95 + 2.95 2 = 1.95, alltså medelvärdet av undre och övre klassgränsen. Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015 Lägesmått: aritmetiskt medelvärde: klassindelat material Vi beräknar Pk i=1 fi xi genom nedanstående tabell: fi xi fi xi 1.02.9 9 1.95 17.55 3.04.9 39 3.95 154.05 5.06.9 45 5.95 267.75 7.08.9 42 7.95 333.90 9.010.9 11 9.95 109.45 11.012.9 4 11.95 47.80 150 930.50 Alltså blir medelvärdet x= Jörgen Säve-Söderbergh 1 n k X i=1 fi x i = 1 150 16 augusti 2015 6 X fi xi = i=1 F2 930.50 150 = 6.20 Grunder i statistisk metodik, ht 2015 Variationskoecienten Genom att använda standardavvikelsen kan vi deniera ett mått på en variabels relativa spridning. Variationskoecient= standardavvikelse medelvärde × 100% Alltså i formler Variationskoecient= Jörgen Säve-Söderbergh 16 augusti 2015 F2 s x × 100% Grunder i statistisk metodik, ht 2015 Tolkning av standardavvikelsen Normalfördelningsregeln säger att ca 68% av observationerna benner sig mellan gränserna x −s och x + s. Omkring 95% av observationerna ligger mellan x − 2s och x + 2s . Datamaterialets histogram måste ungefär se ut som normalfördelningen(klockform). Jörgen Säve-Söderbergh 16 augusti 2015 F2 Grunder i statistisk metodik, ht 2015