Miljøgodkendelse til karteringsplads og
Transcription
Miljøgodkendelse til karteringsplads og
Stephan Skovlund APRIL 2013 GRUNDLÆGGENDE STATISTIK Statistik med fokus på anvendelighed i erhvervslivet Statistik – Excel - Dataanalyse Statlearn.com Indholdsfortegnelse FORORD ...................................................................................................................................... 6 KAPITEL 1: STATISTIKKENS ABC ............................................................................................... 8 KAPITEL 2: BESKRIVENDE STATISTIK ...................................................................................... 11 Punktestimater – beskrivelse af stikprøven ................................................................. 11 Valg af gennemsnit eller median ................................................................................... 12 Alternative mål for spredning ........................................................................................ 16 Kvartiler .............................................................................................................................. 17 Procentiler .......................................................................................................................... 17 Kurtosis ............................................................................................................................... 18 Punktestimater for grupperede data ............................................................................ 19 Opsummering af punktestimater .................................................................................. 21 Grafer – Illustration af data ............................................................................................ 21 Indeks tal ............................................................................................................................ 25 Appendiks – Beskrivende statistik ................................................................................. 29 Øvelser i beskrivende statistik ....................................................................................... 31 Løsninger til beskrivende statistik ................................................................................. 34 Anvendelse af Excel til beskrivende statistik .............................................................. 41 Udvalgte videolektioner (klik på links) ......................................................................... 46 KAPITEL 3: GRUNDLÆGGENDE SANDSYNLIGHEDSREGNING ............................................... 48 Forskellige typer af sandsynligheder ............................................................................ 48 Grundlæggende forudsætninger ................................................................................... 49 Grundlæggende begreber ............................................................................................... 50 Foreningsmængden (”ELLER” hændelsen) ................................................................... 54 Komplementær hændelsen ............................................................................................ 55 Betingende sandsynligheder – Afhængige hændelser .............................................. 56 Regneregler for sandsynligheder .................................................................................. 60 Øvelser ................................................................................................................................ 64 Løsninger ............................................................................................................................ 67 Videolektioner > s. 2 Grundlæggende statistik Med fokus på erhvervslivet KAPITEL 4: STOKASTISK VARIABEL ........................................................................................ 73 Regneregler for en stokastisk variabel ......................................................................... 74 Øvelser med stokastisk variabel .................................................................................... 77 Løsninger til stokastisk variabel ..................................................................................... 78 KAPITEL 5: SANDSYNLIGHEDSFORDELINGER ........................................................................ 82 Relativ frekvens- og teoretiske fordelinger ................................................................. 83 Forskellige fordelinger ..................................................................................................... 84 Oversigter over fordelinger og deres kendetegn ....................................................... 90 Case ..................................................................................................................................... 91 Opsummering .................................................................................................................... 99 Fordelingsøvelser .............................................................................................................. 99 Løsninger til sandsynlighedsfordelinger .................................................................... 103 Appendiks 1: Approksimationsregler ......................................................................... 108 KAPITEL 6: KONFIDENSINTERVALLER ................................................................................... 110 Konfidensintervaller som koncept .............................................................................. 112 Den centrale grænseværdisætning ............................................................................. 113 Normalfordelingens rolle .............................................................................................. 114 Betydningen af konfidensniveauet ............................................................................. 115 Konfidensintervallets grundelementer ....................................................................... 116 Opsummering .................................................................................................................. 117 Bestemmelse af stikprøvestørrelse såfremt en specifik bredde ............................. 118 af konfidensinterval er angivet Fremgangsmåde til beregning af konfidensintervaller ........................................... 119 Oversigt over konfidensintervaller, 1 stikprøve ........................................................ 121 Beregning af konfidensintervaller (KI), 1 stikprøve ................................................. 122 Eksempler på konfidensintervaller for en stikprøve ................................................ 123 Konfidensintervaller for to stikprøver ........................................................................ 126 Oversigt over konfidensintervaller for differensen ................................................. 127 Beregning af konfidensintervaller for differensen ................................................... 128 Eksempler på konfidensintervaller for differens ...................................................... 129 Øvelser med konfidensintervaller ............................................................................... 131 Løsninger til konfidensintervaller ................................................................................ 135 Med fokus på erhvervslivet s. 3 Grundlæggende statistik Med fokus på erhvervslivet KAPITEL 7: HYPOTESETEST .................................................................................................... 141 Hypotesetest som koncept .......................................................................................... 141 Opsummering .................................................................................................................. 148 Generel metode til løsning af hypotesetest .............................................................. 149 Hypotesetest oversigt, 1 stikprøve .............................................................................. 151 Beregning af hypotesetest, 1 stikprøve ...................................................................... 152 Beregning af styrken (type 2 fejl) ved test af andele .............................................. 152 Beregning af styrken (type 2 fejl) ved test af gennemsnit ..................................... 153 Eksempler på hypotesetest med en stikprøve .......................................................... 153 Hypotesetest med to stikprøver .................................................................................. 157 Beregning af hypotesetest, 2 stikprøver .................................................................... 158 Eksempler på hypotesetest med 2 stikprøver ........................................................... 159 Variansanalyse (ANOVA) ............................................................................................... 162 Eksempel på variansanalyse ......................................................................................... 163 Øvelser med hypotesetest ............................................................................................ 165 Løsninger til hypotesetest ............................................................................................. 172 KAPITEL 8: REGRESSIONSANALYSE ...................................................................................... 180 Korrelationsanalyse ........................................................................................................ 180 Ekstreme observationer - Outliers ............................................................................... 182 Simpel lineær regression .............................................................................................. 183 Mindste Kvadrat Metoden (MKM) .............................................................................. 184 Fremgangsmåde ved regressionsanalyse ................................................................... 187 Eksempel på anvendelse af simpel lineær regression ............................................. 191 Forudsigelsesinterval ..................................................................................................... 193 Multipel regression ........................................................................................................ 194 Faldgrupper ved multipel regression .......................................................................... 195 Valg af den optimale regressionsmodel ..................................................................... 196 Sammenligning af regressionsmodeller ..................................................................... 197 Tilføjelse af en kvalitativ variabel (dummy variabel) ............................................... 197 Øvelser med regressionsanalyse .................................................................................. 198 Løsninger til regressionsanalyse .................................................................................. 201 Med fokus på erhvervslivet s. 4 Grundlæggende statistik Med fokus på erhvervslivet Appendiks til regressionsafsnit .................................................................................... 206 KAPITEL 9: STIKPRØVETEORI ................................................................................................ 211 Introduktion til før og efterstratifikation ................................................................... 212 Førstratifikation .............................................................................................................. 212 Punktestimater af andele og middelværdi ved stratifikation ................................ 214 Eksempler på et stratificeret konfidensinterval ....................................................... 215 Øvelser med stratifikation ............................................................................................ 216 Løsninger til stratifikation ............................................................................................. 218 KAPITEL 10: MULTINOMISKE HYPOTESETEST ...................................................................... 221 Beregning af multinomiske test ................................................................................... 222 Anvendelsesområder for multinomiske test ............................................................. 224 Antalstabeller .................................................................................................................. 224 Analyse af teststørrelsen ............................................................................................... 226 Formler til beregning af multinomiske test ............................................................... 228 Eksempler på beregning af multinomiske test .......................................................... 229 Øvelser med multinomiske hypotesetest ................................................................... 234 Løsninger til multinomiske hypotesetest ................................................................... 237 Med fokus på erhvervslivet s. 5 Forord I kølvandet på de sidste års rivende IT revolution har statistik gennemgået en drastisk udvikling. Den stigende digitalisering af virksomheders forretningsgange og hastigheden hvormed informationer spredes, har medført et øget behov for statistik til at tøjle de markante mængder af data der ophobes. Denne bog er skrevet i erkendelse af, at mange studerende får brug for praktiske talfærdigheder på deres fremtidige arbejdsplads. Her vil der være et behov for solidt kendskab til grundlæggende dataanalyse og effektiv håndtering af store datamængder. I det perspektiv vil det være i de færrestes interesse, at få en uddybende gennemgang af teoretisk statistik og matematisk bevisførelse. Derfor har denne bog nedtonet mængden af formler og i stedet øget mængden af forklaringer. Målet er at gøre de statistiske koncepter intuitive og mest af alt – mulige at omsætte i praksis. For at styrke den studerende i anvendelsen af statistiske analyser medfølger et statistikprogram, som kan anvendes til at beregne alle de analyser der bliver gennemgået i bogen. Herudover er der et grundlæggende kursus i Excel, som er en forudsætning for at arbejde effektivt med tal. Excel fik i 2007 en gennemgribende opgradering og der kom mange vigtige funktioner som bliver gennemgået i Excelkurset. Excelkurset baseres på videolektioner som du kan finde på ccved at logge dig ind med din tilsendte adgangskode. I skrivende stund er der omkring 500 stillingsopslag på www.jobindex.dk hvor gode Excel kundskaber er et krav - God læselyst! Med venlig hilsen Stephan Skovlund Videolektioner > s. 6 KAPITEL 1 STATISTIKKENS ABC Statlearn.com KAPITEL Statistikkens ABC 1 S Statistikkens ABC Statistik tager sit udgangspunkt i den del af matematikken, der har til formål at indsamle, beskrive og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt element der skal skabe og hjælpe osder med at til træffe de rigtige tatistik tageri de sitprocesser udgangspunkt i den deloverblik af matematikken, har formål at indsamle, beskrive og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt beslutninger. element i de processer, der skal skabe overblik og hjælpe os med at træffe de rigtige beslutninger. Ordet statistik kommer af status som er den latinske betegnelse for tilstand. I tidernes morgen Ordet statistik kommer af status, som er den latinske betegnelse for tilstand. I tidernes morgen blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets ekspansion. ekspansion.tidI den efterfølgende tid har udvikling, og er i dag I den efterfølgende har statistik undergået enstatistik drastiskundergået udvikling,en ogdrastisk er i dag blevet en sofistikeret blevet der har spredt sig tilEssensen alle hjørner af samfundet. af videnskab, der en harsofistikeret spredt sig videnskab til alle hjørner af samfundet. af statistik er dogEssensen uændret. Behovet statistik for at omdanne store datamængder viden ogstore tydeliggøre sammenhænge, mindst er dog uændret. Behovet for attilomdanne datamængder til viden oger tydeliggøre ligeså aktuel i dag som dengang romerne skulle optælles. sammenhænge, er mindst ligeså aktuel i dag som dengang romerne skulle optælles. Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik. Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik. Ligesom ord kan beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at beskrive Ligesom karaktertræk for data. ord kan beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at beskrive karaktertræk data. Med induktiv statistik forsøger for man, at generalisere for en hel population på baggrund af en stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og ud fra Med induktiv statistik forsøger man, at generalisere for en hel population på baggrund af en denne stikprøve forsøger at sige noget om hele populationen, der består af alle danskere. stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og ud fra denne stikprøve forsøger at sige noget om hele populationen der består af alle danskere. FIGUR 1: N n For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten komkomme fra en population (N) eller en stikprøve (n). me fra en population (N) eller en stikprøve (n). Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal Videolektioner > Af Stephan Skovlund (Copyright) s. 8 Side | 7 Grundlæggende statistik Med fokus på erhvervslivet Statistikkens ABC Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal opfattes som den samlede mængde af mulige observationer - eksempelvis alle danskere eller alle bildæk på et lager. Stikprøven er et antal observationer udtaget fra den givne population. At indsamle data for en hel population er både tids- og ressourcekrævende, derfor anvender man næsten altid stikprøvedata. Formålet med stikprøven er, at skabe en minipopulation som derefter kan anvendes til at beskrive tendenser eller særlige karakteristika for hele populationen, hvilket kendetegner induktiv statistik. Op til et valg i Danmark udtager medierne jævnligt stikprøver, exit pools, for at se hvilket parti der vil få flest stemmer. I denne sammenhæng er populationen (N) samtlige 2,3 millioner stemmeberettigende danskere. Stikprøven (n) er sammensat af tilfældigt udvalgte personer fra populationen og udgør blot en lille del af den samlede population. De termer vi anvender for en population og stikprøve er byggestenene i statistik, så lad os derfor bruge et kort øjeblik på at definere begreberne. Termer som eksempelvis gennemsnit og standardafvigelse anvendes for både population og stikprøve, men angives med forskellige symboler. De beregninger der foretages ud fra populationsdata kaldes populationsparametre og angives hovedsagligt med græske bogstaver. De beregninger der foretages ud fra en stikprøve kaldes punktestimater og angives med bogstaverne fra vores eget alfabet. De mest gængse termer fremgår af den nedenstående tabel. Deres betydning diskuteres i afsnittet: Beskrivende statistik. Er du er en anelse forvirret over de nye fagtermer så holdt fast i, at essensen af statistik er at beskrive en hel population på baggrund af en stikprøve. TABEL 1: Populationsparametre og punktestimater Betegnelse Populationsparameter Punktestimat Gennemsnit m –x Standardafvigelsen s s Varians s2 s2 Andel p pˆ Intensitet l ˆ l Formler til de enkelte beregninger findes i appendiks til afsnittet om Beskrivende statistik. Med fokus på erhvervslivet s. 9 KAPITEL 2 BESKRIVENDE STATISTIK Statlearn.com KAPITEL 2 Beskrivende Statistik V i fortolker dagligt mere eller mindre bevidst store mængder informationer. Medierne er blevet relativt sofistikerede til at anvende grafer og nøgletal for at reducere store datamængder til letforståelige informationer. Den del af statistikken, som beskriver data med estimater og grafer, betegnes som beskrivende statistik. Ofte er anvendelsen af beskrivende statistik ikke en mulighed, men en nødvendighed. Når du kommer ud i en virksomhed vil du sandsynligvis skulle håndtere store datamængder i et regneark som Excel. Om det er finansielle nøgletal eller ren og skær dataanalyse er sådan set underordnet. Formålet er at reducere data til essentiel information, og præsentere det på en letforståelig måde. �Beskrivende statistik omfatter at reducere data til essentiel information, og præsentere det på en letforståelig måde.” Indledningsvis skal det nævnes, at de beregninger vi anvender i forbindelse med dette afsnit, alle kan foretages med Statlearn programmet. Punktestimater – beskrivelse af stikprøven Som vi var inde på i afsnittet: “Statistikkens ABC” sondres der mellem punktestimater og populationsparametre. Ligesom ord kan beskrive karaktertræk ved et ansigt, kan punktestimater og populationsparametre beskrive karaktertræk for en stikprøve eller en population. Dette er ikke synderligt relevant, hvis du arbejder med få data, men hvis du sidder med 30.000 datarækker i et regneark og mangler overblikket, kan punktestimater give dig en hurtig og værdifuld indsigt. Lad os antage du arbejder som aktieanalytiker i Danske Bank. Du er i den forbindelse blevet bedt om at foretage en risikoanalyse af tre aktier. Formålet med analysen er at undersøge hvordan aktiekurserne for hhv. Microsoft, Nike og Danisco har udviklet sig i perioden januar – juli 2011. Resultatet af analysen skal anvendes til at rådgive en kunde, som ønsker sig en aktie med en lav risikoprofil. Kaster vi et hurtigt blik på kurserne i tabel 2, kan vi umiddelbart se, at alle aktierne har haft en vis variation i perioden. Skal vi grave et spadestik dybere og udpege den aktie, der oplevede det største kursudsving og dermed var mest risikobetonet, bliver det straks en anelse vanskeligere at vurdere ved blot at læse tallene i tabellen. Videolektioner > s. 11 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik TABEL 2: Aktiekurser til beskrivende statistik. 2011 Microsoft Nike Danisco jan 35,8 64,3 73,6 feb 31,1 61,6 66,2 mar 27,2 60,2 66,2 apr 28,8 68,6 70,4 maj 28,5 66,8 67,0 jun 28,2 68,3 65,9 jul 25,9 58,4 65,7 For at udvikle et sammenligningsgrundlag for de tre aktier, kan vi starte med at beregne gennemsnitskursen. Gennemsnittet, som også betegnes middelværdi og forventet værdi, er et mål for den centrale værdi i datasættet, heraf betegnelsen middelværdi. TABEL 3: Beregning af gennemsnit Populationsparameter for gennemsnit 1 m5 N Punktestimat af gennemsnit N –x 5 1 n xi i51 n xi i51 Valg af gennemsnit eller median Et gennemsnit skal anvendes med det forbehold, at data skal være relativt normalfordelt1 som i nedenstående fordeling A. I afsnittet om fordelinger kommer vi nærmere ind på betydningen af normalfordelingen. Indtil videre kan vi blot hæfte os ved, at data kan være fordelt forskelligt som i figur 1. FIGUR 2: Normal versus skæve fordelinger P(X) A Normal fordeling 1 B Højreskæv fordeling C Venstreskæv fordeling ormalfordelingen refererer til data, der følger en klokkeformet symmetrisk fordeling omkring gennemsnittet, se N mere herom i afsnittet om fordelinger. Med fokus på erhvervslivet s. 12 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Er fordelingen af data enten højre- eller venstreskæv som i henholdsvis B og C, tyder det på, at enkelte observationer afviger meget i forhold til de øvrige, heraf skævheden. I de tilfælde er medianen et mere repræsentativt mål end et gennemsnit. Medianen er værdien af den midterste observation i et datasæt, der er sorteret fra laveste til højeste værdi, hvilket med andre ord kaldes, at datasættet er sorteret stigende. I modsætning til gennemsnittet er medianen ikke påvirkelig for ekstremobservationer, da den repræsenterer værdien af datasættets midterobservation. Medianen påvirkes dermed ikke af de ekstraordinære høje eller lave værdier, som kendetegner skæve fordelinger. TABEL 4: Beregning af median og gennemsnit i en stikprøve Median (stikprøve) Gennemsnit (stikprøve) (n 1 1) Median 5 2 –x 5 1 n n xi i51 Lad os tage et simpelt eksempel. Forestil dig en by hvor 99 % af husstandene tjener 500.000 kr., og den sidste 1 % af husstandene tjener 100 millioner. Vi kan ræsonnere os til, at gennemsnittet vil blive trukket gevaldigt op af den ene procents høje indkomster. I denne situation vil vi have en meget højreskæv fordeling af indkomsten. Gennemsnittet vil således blive alt for højt og dermed et dårligt mål for datasættets centrale værdi. Det er derfor vigtigt at fastlægge, i hvor høj grad dine data er normalfordelte, inden et gennemsnit tages i brug. For at beregne om data er normalfordelte eller skæve, anvendes et mål for skævheden. Skævhed indikerer i hvor høj grad dine data er skæve eller symmetriske. Formlen for skævheden fremgår af appendiks til dette afsnit. Er skævhedens værdi negativ, er fordelingen af data venstreskæv, og omvendt vil fordelingen af data være højreskæv ved en positiv skævhedsværdi. Er data helt normalfordelte er skævheden tilnærmelsesvis 0. TABEL 5: Fortolkning af fordelingens “skævhed” Venstreskæv Normalfordelt Højreskæv skævhed , 0 skævhed 5 0 skævhed . 0 For en mere eksakt vurdering af hvorvidt data er normalfordelte anvendes en hypotesetest, se mere herom i afsnittet om multinomiske hypotesetest. Vender vi tilbage til eksemplet med kursudviklingen for de tre aktier og antager at kursudviklingen er normalfordelt, beregnes den gennemsnitlige kurs som i følgende. Med fokus på erhvervslivet s. 13 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik TABEL 6: Gennemsnit for de tre aktiekurser (ud fra stikprøve) Microsoft Nike Danisco 205,5 448,2 475 7 7 7 29,4 64 67,9 Sum af kurserne Antal obs. (n) –x (sum/n) Nu hvor vi har identificeret gennemsnittet, er det næste skridt at se på variationen i kurserne. Denne information er afgørende for at kunne sammenholde risikoen ved at investere i de tre aktier. En af de hyppigste metoder til at beregne variation er standardafvigelsen. Standardafvigelsen kan tolkes som observationernes “normale” afvigelse fra gennemsnittet, eller mere konkret: observationernes gennemsnitlige afvigelse fra gennemsnittet. Beregning af standardafvigelsen: TABEL 7: Populationsparameter s5 1 n Punktestimat N (xi 2 m) 1 (n 2 1) s5 2 i51 n (xi 2 –x )2 i51 EKSEMPEL: Standardafvigelsen for Microsoft’s aktiekurs: s5 1 (7 2 1) n n (35,8 2 29,4)2 1 ... 1 i51 (31,1 2 29,4)2 5 3,3 i51 NB: Observationerne kommer fra tabel 2 Standardafvigelsen for alle tre aktiekurser fremgår af nedenstående: TABEL 8: Estimater for aktiekurser Standardafvigelse (s) Gennemsnit (x– ) Med fokus på erhvervslivet Microsoft Nike Danisco 3,3 4,1 3 29,4 64 67,9 s. 14 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Med standardafvigelsen har vi kvantificeret de gennemsnitlige kursudsving. Umiddelbart ser det ud til, at Nike er den aktie som har de største kursudsving. Denne konklusion er dog kun delvist korrekt - vi mangler at sætte standard-afvigelsen i relation til størrelsen af selve gennemsnittet. Ud fra fordeling X og Y i nedenstående kan vi ræsonnere os til, at en standardafvigelse på 4 ud fra et gennemsnit på 10 som i fordeling X, er en højere relativ variation end en tilsvarende standardafvigelse for et gennemsnit på 100 som i fordeling Y. FIGUR 3: m 5 10 X m 5 100 Y s54 s54 m m For at gøre kursudsvingene på de tre aktier sammenlignelige, kan vi beregne variationskoefficienten (VK): VK 5 Standardafvigelse s s 5 – (eller for populationen) Standardafvigelse x m TABEL 9: Aktiekurser og estimater Microsoft Nike Danisco Standardafvigelse (s) Gennemsnit (x– ) 3,3 4,1 3 29,4 64 67,9 VK 11 % 6% 4% På baggrund af variationskoefficienten kan vi tydeligt se, at kursen for Microsoft har de største relative udsving, og i den sammenhæng indtager - statistisk set - pladsen som den mest risikobetonede aktie. Da en myriade af faktorer påvirker kursen på en aktie, kan den beskrivende statistisk ikke stå alene, men som et redskab til at kvantificere generelle tendenser, og til at gøre forskellige aktier sammenlignelige, er det et yderst værdifuldt redskab. Med fokus på erhvervslivet s. 15 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Alternative mål for spredning Ligesom medianen anvendes frem for et gennemsnit ved skæve fordelinger, er det vigtigt at forholde sig kritisk til anvendelsen af standardafvigelsen. Standardafvigelsen bør kun anvendes på data, der tilnærmelsesvis følger normalfordelingen. Følger data skæve fordelinger, benyttes i stedet interkvartilbredden, også betegnet IQR2, som et alternativt mål for spredningen. Interkvartilbredden bygger på samme logik som medianen og er dermed ikke følsom overfor ekstremobservationer, som det eksempelvis er tilfældet med et gennemsnit og standardafvigelse. Interkvartilbredden beregnes som forskellen mellem første og tredje kvartil: TABEL 10: Interkvartilbredden (IQR: Inter Quartile Range) Interkvartilbredden (IQR) 3 Kvartil 2 1 kvartil 1. kvartil (n 1 1) IQR er et mål for spredningen og anvendes når data følger skæve fordelinger 3. kvartil 25 100 Den observation der ligger 25% inde i datasættet når data sorteres stigende (n 1 1) 75 100 Den observation der ligger 75% inde i datasættet når data sorteres stigende Ved at tage afstanden mellem 1. og 3. kvartil bliver interkvartilbredden et stabilt mål. Dette skyldes at interkvartilbredden ikke påvirkes af de ekstremobservationer der enten ligger i intervallet “minimum - 1. kvartil” (x-værdi: 26-33) eller i intervallet “3. kvartil - maksimum” (x-værdi: 37-43). Se nedenstående Box and Whisker diagram. FIGUR 4: Eksempel på Box and Whisker diagram (data er fiktive) 20 2 25 30 35 40 45 IQR – Inter Quartile Range Med fokus på erhvervslivet s. 16 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Kvartiler Når du arbejder med store datasæt, kan kvartiler være en hjælp til at skabe overblik over værdierne af dine observationer. Når data er sorterede stigende fra mindst til størst, anvendes kvartiler til at inddele dine data i fire grupper. K Beregning af kvartiler: (n 1 1) hvor “K” repræsenterer 1, 2 eller 3 kvartil 4 EKSEMPEL: Med udgangspunkt i nedenstående observationer, som viser højden på 15 tilfældigt udvalgte personer, beregnes det første kvartil. TABEL 11: Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Højde (cm) 155 157 163 167 168 169 171 172 174 178 184 187 188 191 198 1 54 4 Værdien af den 4 observation svarer til 167 cm. Med andre ord er de 167 cm den største værdi blandt de første 25 % af observationerne. Tilsvarende vil det andet kvartil svare til værdien af den midterste observation hvilket er 172 cm (5medianen). 1. Kvartil beregnes: (15 1 1) Hvis du arbejder med et datasæt, som medfører at dine kvartilberegninger bliver ulige tal – eksempelvis 1. kvartil 5 30,5 – bør du vælge den værdi, der ligger i midten af observation 30 og 31. Hvis observation nr. 30 5 180 cm og observation nr. 31 5 190 cm er værdien af første kvartil således 185 cm (gennemsnittet). Procentiler Antag at du havde været til statistikeksamen og ønskede at se din karakter i relation til de øvrige studerende. Hvis du befinder dig i det 70 procentil betyder det, at 70 % af de studerende har fået en karakter, som var lavere end din - eller omvendt, at du ligger blandt de 30 %, som har fået højst karakterer. På den måde kan en procentil hurtigt sætte en enkelt observation (en enkelt karakter) i relation til de samlede observationer (alle karakterer). Procentiler beregnes på samme vis som med kvartiler. I stedet for kvartiler “K” anvendes procentsatsen “P” jf. nedenstående. Beregning af procentil: (n 1 1) Med fokus på erhvervslivet P hvor “P” repræsenterer procentsatsen 100 s. 17 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Kurtosis Hvor skævheden er et mål for fordelings symmetri, anvendes kurtosis til at beregne fordelingens stejlhed. På samme måde som med skævheden kan kurtosis give os et værdifuldt indblik i fordelingens egenskaber. Dette kan især være til gavn i situationer hvor mange variable inddrages, eksempelvis i forbindelse med aktieanalyse, hvor kursudviklingen for mange virksomheder sammenlignes. Beregning af kurtosis: n(n 1 1) (n 2 1)(n 2 2)(n 2 3) xi 2 –x 4 s Kurtosis betegner om en fordeling er relativ spids eller flad sammenlignet med en normalfordeling. En positiv kurtosis betyder at fordelingen er relativ spids (leptokurtisk fordeling) hvorimod en negativ kurtosis (platykurtisk fordeling) er tegn på en flad fordeling. En fuldkommen normalfordeling (mesokurtisk fordeling) vil have en kurtosis på 0. FIGUR 5: Flad fordeling Spids fordeling Normal fordeling I relation til aktieanalyse vil en spids fordeling være et tegn på at relativt mange observationer har samme værdi som gennemsnittet, og at de resterende ligger relativt spredt fra gennemsnittet. Omvendt vil en flad fordeling have mange observationer fordelt omkring gennemsnittet og dermed – alt andet lige – være mindre udsat for store kursudsving. Med fokus på erhvervslivet s. 18 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Punktestimater for grupperede data Ofte når vi arbejder med store datamængder, eksempelvis i forbindelse med markedsanalyser, inddeles observationerne i intervaller for at skabe overblik. Når vi arbejder med observationer grupperet i intervaller, kender vi ikke den eksakte værdi af en observation, men vi ved blot, at den kan antage en vilkårlig værdi indenfor det givne interval. TABEL 12: Grupperet data Interval Obs. 0 X 10000 93 10000 , X 20000 116 20000 , X 30000 88 30000 , X 40000 110 40000 , X 50000 87 Ud fra tabellen har vi et godt overblik over, hvordan observationerne fordeler sig i de enkelte intervaller. Det fremgår eksempelvis, at de fleste observationer ligger mellem 10.000 og 20.000. Overblikket er imidlertid sket på bekostningen af detaljerede informationer om de enkelte observationers værdi. Vi kender med andre ord ikke den eksakte værdi af hver af de 93 observationer i intervallet 0-10.000. Det eneste vi ved om observationerne er, at de ligger i intervallet. Af samme årsag kan vi ikke beregne gennemsnittet som tidligere anvist, da metoden kræver, at vi kender den eksakte værdi af hver enkelt observation. Som alternativ anvendes intervallets midtpunkt som et substitut for den reelle værdi. Denne tilgang har åbenlyse svagheder såfremt data ikke er normalfordelt. I de tilfælde vil observationerne overvejende ligge i den ene ende af intervallet, hvilket betyder at intervallets midtpunkt (Mi) ikke bliver repræsentativt. 1 n Gennemsnit for grupperet datasæt (stikprøve): –x 5 i51 fi Mi n hvor Mi 5 Med fokus på erhvervslivet (Nedre intervalgrænsei 1Øvre intervalgrænsei) 2 s. 19 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik TABEL 13: Beregning af gennemsnit for grupperet data Interval Obs (fi) Midtpunkt (Mi) fi ∙ Mi 0 X 10000 93 5.000 465.000 10000 , X 20000 116 15.000 1.740.000 20000 , X 30000 88 25.000 2.200.000 30000 , X 40000 110 35.000 3.850.000 40000 , X 50000 87 45.000 3.915.000 Total 494 - 12.170.000 –x 5 1 n n f i Mi 5 i51 12.170.000 5 24.635,63 494 Standardafvigelsen for et grupperet datasæt (stikprøve): s5 1 n21 n fi (Mi 2 X– )2 i51 TABEL 14: Beregning af standardafvigelsen for grupperet data Interval Obs (fi) Midtpunkt (Mi) fi ∙ (Mi – x–)2 0 X 10000 93 5.000 35.856.881.772 10000 , X 20000 116 15.000 10.770.056.877 20000 , X 30000 88 25.000 11.683.522 30000 , X 40000 110 35.000 11.816.223.836 40000 , X 50000 87 45.000 36.079.566.949 Sum 494 - 94.534.412.955 1 s5 n21 Med fokus på erhvervslivet n i51 1 fi (Mi 2 X– )2 5 √ 94.534.412.955 5 623,66 493 s. 20 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Opsummering af punktestimater Ligesom ord kan beskrive et ansigt, kan punktestimater beskrive karaktertræk for data. Dette er ikke synderligt relevant, hvis du arbejder med få data, men hvis du en dag sidder med 30.000 talrækker i et regneark og mangler et overblik, kan punktestimater give dig en hurtig og værdifuld indsigt. Mål som gennemsnit og standardafvigelse er gode til at indikere datasættets midtpunkt, samt det interval hvori vi kanGrafer forvente fleste af vores observationer vil ligge. Er vores data normalfordelt, – de Illustration af data kan vi med et gennemsnit og en standardafvigelse indkredse det interval hvori ca.til70at%beskrive af voresstore Som vi diskuterede i forrige afsnit, er punktestimater velegnede observationer vil ligge. På den måde får vi nogle hurtige rough-cut betragtninger om det interval, datamængder med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samm hvor størstedelen af vores observationer vil ligge. formål. Tilgangen er her blot at præsentere data visuelt med vægten lagt på letforståelig En forudsætning for at anvende gennemsnittet og standardafvigelsen er, at data er relativt normalkommunikation. Styrken ved grafer er, at de fleste kan tyde en visuel fremstilling af data, fordelt. Det er derfor altid et godt udgangspunkt at beregne skævheden for at undersøge i hvor høj mens færre har kendskab til betydningen begreber som standardafvigelse og grad vores data er symmetrisk fordelt. Er data skævt fordeltafanvendes medianen og interkvartilinterkvartilbredde. bredden som alternativ til gennemsnittet og standardafvigelsen. I det følgende gennemgår vi de mest hyppige grafer. Afsnittet rundes af med en diskussion a Grafer – Illustration af data de faldgruber og områder, hvor du skal være særlig opmærksom på visuel manipulation. Som vi diskuterede i forrige afsnit, er punktestimater velegnede til at beskrive store datamængder med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samme formål. Tilgangen er her blot at præsentere data visuelt med vægten lagt på letforståelig kommunikation. Styrken ved Cirkeldiagrammer grafer er, at de fleste kan tyde en visuel fremstilling af data, mens færre har kendskab til betydningen af begreber som standardafvigelse og interkvartilbredde. Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer I det følgende gennemgår vi de mest hyppige grafer. Afsnittet rundes af med de som udgangspunkt hele datasættet, som herefter brydes neden på diskussion forskelligeaf kategorier af cirk faldgruber og områder, hvor du skal være særlig opmærksom på visuel manipulation. Cirkeldiagrammer er yderst intuitive når få kategorier sammenlignes, men øges antallet af kategorier mistes overblikket hurtigt. Det skyldes til dels at farvenuancerne kan være Cirkeldiagrammer vanskelige at adskille, og yderligere at et cirkeldiagram angiver værdierne ud fra den vinkel Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer som kategorier i cirklen. udgangspunkt heleenkelte datasættet, somdanner herefter brydes ned på forskellige kategorier af cirklen. Cirkeldiagrammer er yderst intuitiFigur 3: Cirkeldiagrammer med markedsandele ve når få kategorier sammenlignes, FIGUR 6: Cirkeldiagrammer med markedsandele men øges antallet af kategorier Markedsandele Markedsandele mistes overblikket hurtigt. Det skyldes til dels at farvenuancerne kan være vanskelige at adskille, og yderligere at et cirkeldiagram angiver værdierne ud fra den vinkel de enkelte kategorier danner i A B C D E F A B C cirklen. Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger end vinkler. Data Med fokus på erhvervslivet illustreret 21 med et søjlediagram er derfor mere velegnet til at synliggøre små s.forskelle end et cirkeldiagram, hvilket tydeligt fremgår af de to nedenstående figurer. 15 10 5 0 mer 10 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik 5 end vinkler. Data illustreret Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger med et søjlediagram er derfor mere velegnet til at synliggøre små forskelle end et cirkeldiagram, hvilket tydeligt fremgår af de to nedenstående figurer. 0 A 4: Søjlediagram B 7: Søjlediagram Figur medCmarkedsandele FIGUR med markedsandele A Markedsandele B C D E F Markedsandele 15 10 10 5 5 mstå så grafisk som overhovedet muligt 0er piktogrammer oplagte. Pikt 0 A B C A B C D E F egnede til at kommunikere en tydelig tendens. Dataværdierne vil ofte v Piktogrammer , et eksempel kan være en situation hvor salget af biler er steget kraftig Piktogrammer Skal data fremstå så grafisk som overhovedet muligt er piktogrammer oplagte. Piktogrammer Skal data fremstå så grafisk som overhovedet muligt, er piktogrammer oplagte. Piktogrammer er er yderst velegnede tilkommunikere at kommunikere tydelig tendens. Dataværdierne ofte være stærktunuyderst velegnede til at en en tydelig tendens. Dataværdierne vilvil ofte være stærkt unuancerede, et eksempel en situation salget af biler er steget kraftigt en ancerede, et eksempel kan kan værevære en situation hvorhvor salget af biler er steget kraftigt overover en årrække –årrække illustreret i nedenstående figur. Ulempen ved denne er, at er, detatkan – illustreret i nedenstående figur. Ulempen ved type dennediagrammer type diagrammer detvære kan en anelse diffust at vurdere hvor meget en bil, meget som ikke er hel reelt salg,tilsei f.eks. salg ise 2007 det være en anelse diffust at vurdere hvor en bil somsvarer ikke til er ihel svarer reelt salg, i den nedenstående figur. f.eks. salg i 2007 i den nedenstående figur. ustreret i nedenstående figur. Ulempen ved denne type diagrammer er, anelse diffust at vurdere hvor meget en bil som ikke er hel svarer til i re 2007 i den nedenstående figur. FIGUR 8: 2006 2007 2008 Søjlediagrammer Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt 2006 2006 2007 2008 2007 2008 selvforklarende. mmer 15 15 10 10 mmerne (Bar charts) som du kan se i nedenstående figurer er relativt nde. Med fokus på erhvervslivet s. 22 5 5 0 0 A B C D A B C D 2006 Grundlæggende statistik Med fokus på erhvervslivet 2007 2008 Beskrivende Statistik Søjlediagrammer Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt Søjlediagrammer selvforklarende. (Bar charts) som du kan se i nedenstående figurer er relativt selvforklarende. Søjlediagrammerne FIGUR 9: 15 15 10 10 5 5 Der er enkelte punkter du bør være opmærksom på. Bredden af søjlerne og afstanden imellem 0 0 A C D A B D dem spiller ingen rolle, det Ber udelukkende højden som har betydning forC værdien af de enkelte søjler. Der er enkelte punkter du bør Af Stephan Skovlund (Copyright) være opmærksom på. Bredden af søjlerne og afstanden Side imellem | 21 Søjlediagrammets y-akse skal som udgangspunkt altid starte med værdien 0, dog kan det være dem spiller ingen rolle, det er udelukkende højden som har betydning for værdien af de enkelte en en god ide at lade søjlen starte i en højere værdi for at tydeliggøre forskellen mellem søjler. søjlerne. Hvis du i dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at Søjlediagrammets y-akse skal som udgangspunkt altid starte med værdien 0, dog kan det være en søjlediagrammet ikkestarte starteri en i 0 højere og at forskellen de enkelte søjler mellem dermed søjlerne. vil være Hvis du god ide, at lade søjlen værdi for mellem at tydeliggøre forskellen i forstærket. dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at søjlediagrammet ikke starter i 0, og at forskellen mellem de enkelte søjler dermed vil være forstærket. Figur 5: Søjlediagram hvor y-aksen ikke starter i "0" FIGUR 10: Søjlediagram hvor y-aksen ikke starter i “0” 15 10 5 A B C D I Excel har du mulighed for at justeres bredden og afstanden mellem søjlerne samt angive en I startværdi Excel har for du y-aksen, mulighedsefor at justeres Graf bredden og afstanden mellem søjlerne samt angive en videolektion: og formatering. startværdi for y-aksen, se videolektion: Graf og formatering. Linjediagrammer Med fokus på erhvervslivet Linjediagrammer er velegnede til at vise en udvikling over en længere periode. Linjediagrammer er udbredte i forbindelse med rapportering af virksomheders nøgletal, eksempelvis i form af aktiekurs. En af de helt store fordele ved ved linjediagrammer er at de s. 23 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Linjediagrammer Linjediagrammer er velegnede til at vise en udvikling over en længere periode. Linjediagrammer er udbredte i forbindelse med rapportering af virksomheders nøgletal, eksempelvis i form af aktiekurs. En af de helt store fordele ved linjediagrammer er, at de kan komprimeres drastisk uden at information går tabt. Figur 6: Linjediagram forLinjediagram en aktiekurs for en aktiekurs FIGUR 11: Novo Nordisk aktiekurs 2001-2008 400 300 200 100 0 2001 2003 2005 2007 Et linjediagram har den unikke egenskab, at det kan reduceres til frimærkestørrelse, uden at Et væsentlig linjediagram har den unikke egenskab, at det kan reduceres til frimærkestørrelse, uden at væinformation går tabt. sentlig information går tabt. Figur 7: Formindsket linjediagram for aktiekurs (Novo Nordisk 2001-2008) FIGUR 12: Formindsket linjediagram for aktiekurs (Novo Nordisk 2001-2008) Nu Min. Maks. 297 81 Nu 337 Min. 297 81 Maks. 337 Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere udviklingen for hele perioden. Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere udviklingen for hele perioden. Histogram Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår det, at der er nogle væsentlige forskelle. I modsætning til et søjlediagram har bredden af søjlerne betydning når vi aflæser et histogram. X-aksen bygger på en numerisk skala, som Med fokus på erhvervslivet tildeler hvert interval en specifik værdi og Y-aksen angiver antallet af observationer i hvert s. 24 interval. Ofte tildeles y-aksen ingen titel, da et histogram som udgangspunkt altid illustrerer et antal observationer målt som frekvens eller sandsynlighed. Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Histogram Figur 8: Histogrammer Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår Karakterer (sandsynlighed) Karakterer (frekvens) det, at der er nogle væsentlige forskelle. I modsætning til et søjlediagram har bredden af søjlerne betydning når vi aflæser et histogram. X-aksen bygger på en numerisk skala, som 15 30% tildeler hvert interval en specifik værdi, og Y-aksen angiver antallet af observationer i hvert interval. Ofte tildeles 10 y-aksen ingen titel, da et histogram som udgangspunkt altid illustrerer et antal20% observationer målt som frekvens eller sandsynlighed. 5 10% Figur 8: Histogrammer FIGUR 13: Histogrammer 0 0% 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Karakterer (sandsynlighed) Karakterer (frekvens) 15 10 5 0 Indeks tal Indeks tal 30% 20% Indekstal ser vi i mange sammenhænge, eksempelvis i forbindelse med udviklingen af boligmarkedet, hvor indekstal anvendes til at beskrive den relative prisudvikling i forhol 10% bestemt år. Fordelen ved indekstal er at, de omregner en bestemt udvikling til et tal, som 0% med andre indeks. 1 2 3 4 sammenligneligt 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Lad os tage et simpelt eksempel. Virksomheder der klarer sig godt har som regel en stige Indeks tal omsætning, men denne omsætning er i høj grad påvirket af inflationen. Når vi analysere Indekstal ser vi i mange sammenhænge, eksempelvis i forbindelse med udviklingen af kan eksempelvis det være interessant at undersøge om omsætningen blot er fulgt med Indekstal ser vi i mangeomsætningen, sammenhænge, i forbindelse med udviklingen af boligmarboligmarkedet, hvor indekstal anvendes til at beskrive den relative prisudvikling i forhold til et år. kedet, hvor indekstal anvendes til at beskrive i forhold til betyder et bestemt inflationen eller om derden har relative været enprisudvikling reel vækst, hvilket blot at omsætningen er s bestemt ved år. Fordelen indekstal er at, deenomregner en bestemttiludvikling til er et tal, som er Fordelen indekstalved er, at de omregner bestemt udvikling et tal, som sammenligneligt mere end inflationen. Da inflation er et makroøkonomisk nøgletal kan det ikke umiddelb med andre indeks. sammenligneligt med andre indeks. sammenlignes med en virksomheds omsætning. Men hvis vi omregner et indeks der vis Lad os tage et simpeltudviklingen eksempel. Virksomheder derog klarer sig godt som regel en stigende for både inflation omsætning harhar vi derved et sammenligningrundlag Lad os tage et simpelt eksempel. Virksomheder der klarer sig godt har som regel fået en stigende omsætning, men denne omsætning kan være påvirket af prisstigninger. Når vi analyserer i nedenstående omsætning, men omsætning erfigur. i at høj grad påvirket af inflationen. Når vi analyserer omsætningen, kan denne det være interessant omsætningen, kan det være interessant at undersøge omSimpelt omsætningen FIGUR 14: indeksblot er fulgt med undersøge om omsætningen er fulgt Figur 9:blot Simpelt indeks med den procentvise om vækst, hvilket blot betyder at omsætningen er steget inflationen eller om prisstigning, der har væreteller en reel 150% Omsætning der harend været en reel Da vækst, hvilket mere inflationen. inflation er blot et makroøkonomisk nøgletal kan det ikke umiddelbart Inflation betyder at omsætningen er steget mere 130% sammenlignes med en virksomheds omsætning. Men hvis vi omregner et indeks der viser end prisstigningerne. De procentvise pris110% udviklingen både inflation og omsætning har vi derved fået et sammenligningrundlag, som stigninger kanfor ikke umiddelbart sammen90% i nedenstående figur. lignes med en virksomheds omsætning. Men hvis vi omregner det til et indeks, der 70% Figurudviklingen 9: Simpelt for indeks viser både prisstigning og 50% omsætning, har vi derved fået et sammen2001 2002 2003 2004 2005 2006 2007 2008 150% Omsætning ligningrundlag, som vist i figuren. Inflation 130% 110% Med fokus på erhvervslivet 90% 70% Af Stephan Skovlund (Copyright) 50% s. 25 Af grafen fremgår det, at væksten er fulgt med inflationen og at omsætningen kun i et enkelt år var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt Grundlæggende statistik Med fokus på erhvervslivet generelt stigende velstand. Herfra er der ikke langt til antagelsen Beskrivende hjulpet af samfundets omStatistik at sammenhængen formentligt også vil gælde, hvis inflationen falder. Det kan her diskuteres om er reel eller blot inflationsbåret. Af omsætningsfremgangen grafen fremgår det, at væksten er fulgt med inflationen, og at omsætningen kun i et enkelt år var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt Simple versus sammensatte indeks hjulpet af samfundets generelt stigende velstand. Herfra er der ikke langt til antagelsen om at sammenhængen ogsåvivilsondre gælde,mellem hvis inflationen Det kan her diskuteres om omsætNår vi talerformentligt om indeks kan indeks derfalder. er baseret på hhv. én eller flere ningsfremgangen er reel eller blot inflationsbåret. faktorer. Sidstnævnte indeks kaldes sammensatte indeks og anvendes eksempelvis når prisudviklingen for en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har Simple versus sammensatte indeks et væld af muligheder for at anvende deres indkomst, er det nødvendigt at nuancere indekset Når vi taler om indeks kan vi sondre mellem indeks, der er baseret på hhv. én eller flere faktorer. så det repræsenterer et bredt udsnit af varer. Sidstnævnte indeks kaldes sammensatte indeks og anvendes eksempelvis når prisudviklingen for en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har et væld af muligheder Lad os indledningsvis tage et eksempel med et simpelt indeks og forestille os et samfund, hvor for at anvende deres indkomst, er det nødvendigt at nuancere indekset, så det repræsenterer et manudsnit kun kan købe varen brød. bredt af varer. LadSåfremt os indledningsvis eksempel et kroner simpelterindeks og forestille os et samfund, man at prisen påtage brødetstiger fra 12med til 15 det ikke helt tilstrækkeligt at sigehvor at brød kun købe varen brød. da det ikke fortæller os hvor stor den relative stigning har været. Hvis erkan steget med 3 kroner, brødetatstiger frapå 100-103 kr. vil prisstigning 3 kr. være den samme, Såfremt prisen brød stiger fraden 12 nominelle til 15 kroner, er det ikkepåhelt tilstrækkeligt at sige,mens at brød er steget med 3 kroner, da deterikke fortæller hvormindre stor den relative stigning den relative prisstigning omkring syv os gange (3/15 versus 3/103).har været. Hvis brødet stiger fra 100-103 kr. vil den nominelle prisstigning på 3 kr. være den samme, mens den relative prisstigning er omkring gange (3/15 prisudvikling, versus 3/103).hvilket er essensen af et indeks. Et Der er således behov syv for at målemindre den relative indeks viser os den relative udvikling af en variabel i forholdhvilket til en bestemt periode, f.eks. Der er således behov for at måle den relative prisudvikling, er essensen af et indeks. Et prisudviklingen brød de senesteaf5en år variabel eller befolkningstilvæksten de seneste 10f.eks. år. prisudvikindeks viser os denfor relative udvikling i forhold til en bestemt periode, lingen for brød de seneste 5 år eller befolkningstilvæksten de seneste 10 år. Simpelt prisindeks 5 pn po 100 5 Pris i indeværende år 100 Pris i basis år Figur 10: Simpelt (brød) (brød) FIGUR 15: prisindeks Simpelt prisindeks År 2001 2002 2003 2004 2005 2006 150% 100% 50% 0% 2001 Af Stephan Skovlund (Copyright) Med fokus på erhvervslivet 2002 2003 2004 Indeks 1 1,11 1,17 0,95 1,21 1,14 2005 Side | 25 s. 26 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Vær opmærksom på at indeks som regel angives i procent og at udgangspunktet, basisåret, altid er 100 %. Det betyder at indeksværdier over 100 vil repræsentere en stigning i forhold til basisåret, og indeksværdier under 100 omvendt vil repræsentere et fald i forhold til basisåret. Fra vores indekstal i figur 13 fremgår det, at prisstigningen fra 2001- 2002 var på 11 %. Men ser vi på udviklingen fra 2002 til 2003, kan vi ikke overføre logikken sige at prisen steg med 6 %. Udviklingen for indeks er altid i forhold til basisåret. Så for at beregne udviklingen fra 2002 til 2003 skal vi i stedet sætte disse to års værdier i forhold til hinanden, ved at dividere indekset for 2003 med indekset for 2002: 1,17/1,11 5 1,054. Hermed ses en reel prisstigning på 5,4 %. Lad os udvide eksemplet og antage, at forbrugerne i landsbyen kan købe andre varer end brød. For at beregne et prisindeks skal vi nu tage højde for at indekset repræsenterer et bredt udsnit af dagligvarer, og at husstande ikke fordeler deres indkomst ligeligt på alle varegrupperne. I den forbindelse kan vi tage udgangspunkt i en hel gruppe af varer kaldet varekurven. Den repræsenterer den gennemsnitlige husstands typiske indkøb. Værdien af denne varekurv bliver vores udgangspunkt i basisåret. I de efterfølgende år ser vi så, hvordan varekurvens priser har udviklet sig. Som du muligvis har gættet, er problemet med denne tilgang, at vi antager, at folk køber den samme kvantitet af varer som i basisåret uanset prisudviklingen. For at beregne mere repræsentative indeks anvendes to forskellige metoder, henholdsvis Laspeyres og Paasches indeks. Laspeyres indeks Laspeyres indeks bygger på antagelsen om, at folk til stadighed køber den samme mængde varer som i basissåret, den eneste ændring bliver derved prisudviklingen. I den forstand er Laspeyres indeksets udgangspunkt, at det er prisen der alene bestemmer indeksudviklingen. ko,a pn,a Laspeyres formel: k p hvor “K� er kvantitet og “P� pris o,a o,a NB: “n,a� tolkes som vare “a� i år “n� og betegnelsen “o,a� er vare “a� i basisåret “o�. Lapeyres oversat: Kvantiteterne i basisåret til de nuværende priser Kvantiteterne i basisåret til priserne i basis året Paasches indeks Ved anvendelse af Paasches indeks er udgangspunktet det modsatte, nemlig at folk købte det samme i basisåret, som de køber nu. Købes der 30 brød i indeværende år er antagelsen, at der også blev købt 30 brød i udgangsåret. Paasche indeks: kn,a pn,a hvor “K� er kvantitet og “P� pris kn,a po,a Med fokus på erhvervslivet s. 27 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik NB: “n,a� tolkes som vare “a� i år “n� og betegnelsen “o,a� er vare “a� i basisåret “o�. Paasche oversat: De nuværende kvantiteter til de nuværende priser De nuværende kvantiteter til de nuværende priser Spørgsmålet er hvilket af de to indeks, der er det bedste at anvende? Da begge indeks har forsimplede antagelser om forbrug, er spørgsmålet nærmere hvilken af de to forsimplinger der betyder mindst for dig. Med Laspeyres indeks er antagelsen, at folk køber den samme mængde af en specifik vare som sidste år. Beregnes Laspeyres indekset i en periode på 10 år, svarer det til at forbruget af varer er uændret i 10 år. Denne antagelse kan være ganske sand for visse varetyper, eksempelvis tandpasta, men for andre varer, hvor salget præges af mode og trends, vil antagelsen om et statisk forbrug gøre indekset upræcist. Paasche indekset tager højde for at forbruget ændrer sig, men er i modsætningen til Laspeyres mere tidskrævende at beregne. Antag at vi skulle beregne Paasche indekset for en varegruppe bestående af flere hundrede produkter. For hvert af disse produkter skal vi ud over prisudviklingen indsamle informationer om mængden, der bliver købt. Herudover kan basisindekset, som er indekset for basisåret, beregnes en gang for alle med Laspeyres metoden. Med Paasche metoden ændres indekset for basisåret hvert år, hvilket betyder, at alle indekstallene derfor vil ændre sig, hver gang indekset opdateres med ny data. FIGUR 16: Beregning af sammensatte indeks (Paasche og Laspeyres indeks) 2007 2008 p0 k0 pn kn p0 ∙ k0 p0 ∙ kn pn ∙ k0 pn ∙ kn Rugbrød 16 109 17 113 1.744 1.808 1.853 1.921 Pasta 9 54 12 49 486 441 648 588 Mælk 7 223 6 217 1.561 1.519 1.338 1.302 Sum 3.791 3.768 3.839 3.811 Laspeyres indeks Paasche indeks 101,27 % 101,14 % Med fokus på erhvervslivet s. 28 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Appendiks – Beskrivende statistik Populations parametre Betegnelse Gennemsnit Symbol m Excel Formel N 1 N 5middel( ) xi i51 Standardafvigelse s 5stdafvp( ) 1 N (xi 2 m)2 Varians s2 5varians( ) 1 N (xi 2 m)2 Andel p - xi N Median M 5median( ) (N 1 1)/2 Population størrelsen N 5antal( ) – 1 N Skævhed N xi 2 m s 3 i51 Populations parametre for grupperede data Betegnelse Gennemsnit Symbol Excel m Beregnes med tabel Formel 1 N N f i ∙ Mi i51 Varians s2 Beregnes med tabel 1 N N fi (Mi 2 m)2 i51 Standardafvigelse s Beregnes med tabel 1 N N fi (Mi 2 m)2 i51 Med fokus på erhvervslivet s. 29 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Punktestimater (estimater baseret på en stikprøve) Betegnelse Stikprøvegennemsnit Symbol –x Excel Formel n 1 n 5middel( ) xi i51 Varians s2 5varians( ) 1 n21 (xi 2 –x )2 Standardafvigelse s 5stdafv( ) 1 n21 (xi 2 –x )2 Andel pˆ - xi n Median m 5median( ) (n 1 1)/2 Stikprøvestørrelsen n 5antal( ) – 1 n Skævhed n xi 2 –x s 3 i51 Punktestimater for grupperede data (estimater baseret på en stikprøve) Betegnelse Symbol Excel Gennemsnit –x Beregnes med tabel Formel 1 n n f i ∙ Mi i51 Varians s 2 Beregnes med tabel 1 n21 n fi (Mi 2 m)2 i51 Standardafvigelse s Beregnes med tabel 1 n21 n fi (Mi 2 m)2 i51 Med fokus på erhvervslivet s. 30 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Øvelser i beskrivende statistik De første spørgsmål er relateret til fortolkning. Du skal her med dine egne ord forsøge at forklare betydningen af specifikke parametre og estimater. De efterfølgende opgaver vil være beregningsøvelser. Fortolkningsøvelser 1. Hvordan vil du fortolke forskellen på et gennemsnit og en median? 2. Hvornår er det hensigtsmæssigt at anvende median frem for et gennemsnit? 3. Hvad er forskellen på standardafvigelsen og interkvartilbredden? 4. Hvad er det grundlæggende kendetegn ved data, som er normalfordelt? 5. Hvorfor bør du beregne skævheden for en fordeling? 6. I hvilke tilfælde giver det mere mening at anvende interkvartilbredden frem for standardafvigelsen? Beregningsøvelser Opgave 1. I nedenstående tabel ses den månedlige udvikling af salget for to produkter. TABEL 15: Interkvartilbredden (IQR: Inter Quartile Range) jan feb mar apr maj jun Bolsjer 93 76 69 26 92 32 Lakridser 35 151 185 110 148 33 jul aug sep 59 70 43 143 148 127 Spørgsmål 1. Beregn gennemsnit og standardafvigelsen for begge produkter med anvendelse af Statlearn programmet. Spørgsmål 2. Foretag tilsvarende beregninger med anvendelse af en pivot tabel. Med fokus på erhvervslivet s. 31 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Opgave 2. I nedenstående ses en række punktestimater, som beskriver priserne (kr.) på lejligheder i henholdsvis København og London. Hvordan vil du ud fra data vurdere prisforskellene i de to byer? Hvilke parametre er særlig værd at bemærke? TABEL 16: Punktestimater London København Middel 2.207.829 4.268.615 Median 2.016.956 4.886.969 Standardafvigelsen 1.283.150 1.857.796 Skævhed 1,351 -0,287 Minimum 544.123 1.144.303 Maksimum 4.332.525 6.966.632 Sum 44.156.584 85.372.292 20 20 Antal obs. Opgave 3. Gå ind på http://finance.yahoo.com/ og find 3 aktier hvorefter gennemsnit og standardafvigelse for den månedlige kurs beregnes for de sidste 3 år. Hvilken af de 3 aktier er mest attraktiv at investere i, hvis der ønskes en lav risikoprofil? (se evt. videolektion om “Import af aktiekurser” på statlearn.com) Opgave 4. I forbindelse med en undersøgelse af elevantallet på skoler i København blev følgende data indsamlet. TABEL 17: Antal studerende Obs (skoler) 0-199 38 200-399 32 400-599 49 600-799 46 800-1000 35 Total 200 Spørgsmål 1. Beregn gennemsnittet og standardafvigelsen af antallet af elever. Med fokus på erhvervslivet s. 32 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Opgave 5. I den nedenstående tabel ses aktiekursen for de to konkurrerende virksomheder, IBM og HP. På hvilken måde kan man med indekstal sammenligne de to virksomheders relative kursudvikling? Hvorfor giver det mening at anvende indekstal i denne sammenhæng? TABEL 18: Måned (2008) jan feb mar apr maj jun jul aug sep okt nov dec IBM (kurs) 104 111 112 118 127 116 125 120 115 91 81 83 HP (kurs) 43 47 45 46 47 44 44 47 46 38 35 35 Opgave 6. 6.1Indsæt en pivottabel som bygger på datasættet: “Omsætning”- Datasættet ligger i Statlearn programmet under punkt 9.a. Med udgangspunkt i pivottabellen ønskes følgende information: a) Summen af omsætningen for hele datasættet. b) Identifikation af den sælger, som omsætter mest. c) Identifikation af det produkt, som sælger mest i antal stk. 6.2På baggrund af pivottabellen opstilles et søjlediagram/histogram, der viser omsætningen for hver enkelt sælger. 6.3 Beregn den månedlige omsætning i henholdsvis 2008 og 2009. 6.4Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af beregningerne? 6.5 Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008? 6.6 I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008? 6.7 Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning? 6.8Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt på stk.)? Med fokus på erhvervslivet s. 33 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Løsninger til beskrivende statistik Fortolkning: 1. Både median og gennemsnit er mål for den centrale værdi i et datasæt. Et gennemsnit er summen af observationer divideret med antallet, hvorimod medianen repræsenterer værdien af datasættets midterste observation. 2. I forbindelse med skæve fordelinger er det mere hensigtsmæssigt, at anvende en median i stedet for et gennemsnit. Et gennemsnit baseres på alle observationer og påvirkes derfor i høj grad af ekstremobservationer (outliers). I modsætning til et gennemsnit lader en median sig ikke påvirke af ekstremobservationer, da den repræsenterer datasættets midterste værdi. 3. Når data er relativt normalfordelt, anvendes standardafvigelsen som et mål for spredningen fra gennemsnittet. Interkvartilbredden er også et mål for spredningen, men anvendes i forbindelse med skæve fordelinger. Standardafvigelsen hører sammen med et gennemsnit på samme vis som medianen hører sammen med interkvartilbredden. 4. Symmetrisk klokkeformet fordeling med gennemsnittet i midten. 5. Skævheden beregnes for at se i hvor høj grad data er normalfordelte. Som mål for centralværdi og spredning anvendes gennemsnit og standardafvigelse ved data der følger normalfordelingen, ved skæve fordelinger anvendes tilsvarende median og interkvartilbredde. 6. Når data følger en skæv fordeling. Beregning: Opgave 1. TABEL 19: Punktestimater Lakridser Bolsjer Sum 1080 560 Antal obs. 9 9 Maksimum værdi 185 93 Minimum værdi 33 26 Gennemsnit 120 62,22 Standardafvigelse 52,71 24,33 Median 143 69 Med fokus på erhvervslivet s. 34 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Opgave 2. Den beskedne stikprøve på 20 observationer betyder, at punktestimaterne skal tages med de forbehold omkring usikkerhed, som små stikprøver altid giver anledning til. Data indikerer, at gennemsnitsprisen (middel) på lejligheder er højst i København. I den sammenhæng ses, at standardafvigelsen i København også er væsentlig højere end i London. Dette er med til at skabe usikkerhed om den reelle gennemsnitspris. Den positive skævhed indikerer, at observationerne i London er højreskæve, og at enkelte lejligheder dermed har en markant højere pris end de øvrige i stikprøven. Indikationen af højreskævhed styrkes af, at den relative afstand mellem gennemsnit og maksimumsværdien er højst i London, som angivet nedenfor (Maksimum/Middel). TABEL 20: Punktestimater London København Middel 2.207.829 4.268.615 Maksimum 4.332.525 6.966.632 Maksimum/Middel 1,962 1,632 Opgave 3. Beregningen i nedenstående punktestimater er baseret på Microsoft, Coca-Cola og Apples aktiekurser i perioden 2006-2008. Kursdata findes på http://finance.yahoo.com/. Kurserne er baseret på månedsniveau, således at der i alt er 36 observationer for hver enkelt virksomhed. Punktestimaterne fremgår af nedenstående tabel. TABEL 21: Virksomhed Middelkurs Standardafvigelse Variationskoefficient Microsoft 26,815 3,628 14% Coca-Cola 47,905 6,642 14% Apple 115,743 43,048 37% Tabellen indikerer at Apples aktiekurs har den største relative variation (varianskoefficient) og dermed, statistisk set, må antages at være mere risikobetonet end de to andre virksomheder. Med fokus på erhvervslivet s. 35 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Opgave 4. TABEL 22.ATABEL 22.B Interval-midtpunkter Obs Punktestimater 100 38 Gennemsnit (x–) 300 32 Varians (s2) 500 49 Standardafvigelse (s) 700 46 900 35 508 74307,538 272,594 Opgave 5. Indekstallene er med5.til at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne Opgave bedre sammenlignes, udviklingen fremgår af nedenstående. Indekstallene er med til, at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne bedre sammenlignes, udviklingen fremgår af nedenstående. FIGUR 17: 130% 100% 70% jan feb mar apr maj jun jul aug sep okt nov dec IBM 100% 107% 108% 113% 122% 112% 120% 115% 111% 88% 78% 80% HP 100% 109% 105% 107% 109% 102% 102% 109% 107% 88% 81% 81% Med fokus på erhvervslivet s. 36 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Opgave 6. 6.1Indsæt en pivottabel som bygger på datasættet. Med udgangspunkt i pivottabellen ønskes følgende information: TABEL 23: Bentsen Produkt navn Henriksen Total Salg (stk) Omsætning Salg (stk) Omsætning Salg (stk) Total Omsætning Hekse 49.400 926.533 40.864 897.409 90.264 1.823.942 Hjul 508 8.975 2.674 42.183 3.182 51.157 Køer 6 132 6 132 Måner 83.780 1.558.666 157.528 2.893.093 Piercings 17.636 357.624 17.636 357.624 Skærme Sole 73.748 1.334.427 2.880 52.834 2.880 52.834 30.636 506.715 30.636 506.715 Tattoos 1.260 21.319 1.802 44.213 3.062 65.532 Toppe 19.340 372.936 200.550 3.546.600 219.890 3.919.536 Hovedtotal 171.930 3.246.184 353.154 6.424.380 525.084 9.670.564 a) Summen af omsætningen for hele datasættet Den totale sum af omsætningen er ca. 9.670.564 kr. b) Identifikation af den sælger som omsætter mest Henriksen omsætter for mest (6.424.380 kr. mod Bentsens 3.246.184 kr.). c) Identifikation af det produkt som sælger mest i antal stk. Der bliver solgt flest Toppe, nemlig 219.890 stk. 6.2På baggrund af pivotta- FIGUR 18: bellen opstilles et søjleBentsens og Henriksens omsætning diagram/histogram, der 7.000.000 viser omsætningen for 6.000.000 hver enkelt sælger. Grafen viser ligesom pivottabellen, at Henriksen er den sælger, der omsætter for mest. Med fokus på erhvervslivet 5.000.000 4.000.000 3.000.000 2.000.000 1.000.000 - Bentsen Henriksen s. 37 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik 6.3Beregn den månedlige omsætning i henholdsvis 2008 og 2009. Vi kan se, at år 2009 er det bedste år. Desuden er sommermånederne bedst i begge år (juli og august især) og vintermånederne dårligst, hvilket tyder på et sæsonpræget salg. TABEL 24: Måned 2008 2009 jan 186.957 220.869 feb 328.513 350.423 mar 437.658 546.107 apr 436.105 466.771 maj 439.968 458.788 jun 441.325 432.223 jul 558.113 662.077 aug 590.266 692.314 sep 373.112 433.711 okt 358.556 446.115 nov 221.986 244.421 dec 173.023 171.163 4.545.582 5.124.982 Hovedtotal 6.4Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af beregningerne? TABEL 25: 2008 2009 Gennemsnit Stdafv Gennemsnit Stdafv jan 2.710 3.610 3.201 4.330 feb 4.761 7.830 5.079 8.040 mar 6.252 11.313 7.802 15.610 apr 6.142 11.032 6.574 11.785 maj 6.567 10.135 6.848 10.882 jun 7.005 12.553 6.861 11.563 jul 8.089 12.851 9.595 18.645 aug 8.810 15.035 10.333 19.047 sep 5.182 8.047 6.024 10.115 okt 5.273 8.876 6.561 12.712 nov 3.127 5.432 3.443 5.857 dec 2.622 4.223 2.593 4.041 Hovedtotal 5.530 9.946 6.235 12.178 Med fokus på erhvervslivet s. 38 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Vi kan udlede, at der i gennemsnit sælges for 5.530 kr. pr. dag i 2008 og for 6.235 kr. pr. dag i 2009. Af standardafvigelserne kan vi udlede, at der er en stor spredning fra gennemsnittet, dvs. at omsætningens størrelse svinger megetæa dag tiæag. Vi skal dog være kritiske over for både gennemsnit og standardafvigelse, hvis data for omsætningen følger normalfordelingen – hvis data i stedet følger skæve fordelinger, er det mere hensigtsmæssigt at anvende median og interkvartilbredde, da disse ikke er følsomme over for ekstremobservationer. 6.5. Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008? TABEL 26: Sum af Omsaetning Saelger År 2008 Bentsen Henriksen 33,09% 66,91% Henriksen tegner sig for knapt 67 % af omsætningen i 2008. 6.6. I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008? TABEL 27: Sælger Henriksen Dato 2008 2009 jan 21% feb 7% mar 28% apr 7% maj 3% jun –14% jul 15% aug 21% sep 6% okt 33% nov –6% dec –4% Henriksen opnåede den største omsætningsfremgang i oktober måned 2009 i forhold til samme måned året før – hans omsætning var med andre ord 33 % større i oktober ’09 end i oktober ’08. Med fokus på erhvervslivet s. 39 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik 6.7. Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning? TABEL 28: Omsætning 2008 2009 Kvartal1 615.624,0 742.444,4 Kvartal2 907.145,0 Kvartal3 Kvartal4 i% 2008 2009 Kvartal1 10% 12% 897.264,7 Kvartal2 14% 14% 1.020.534,0 1.176.420,0 Kvartal3 16% 18% 498.209,0 566.738,4 Kvartal4 8% 9% I begge år er 3. kvartal det bedste, hvad angår omsætningen. 6.8Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt på stk.)? TABEL 29: Produkt navn Omsætning Salg (stk) Toppe 40,5% 41,9% Måner 29,9% 30,0% Hekse 18,9% 17,2% Sole 5,2% 5,8% Piercings 3,7% 3,4% Tattoos 0,7% 0,6% Skærme 0,5% 0,5% Hjul 0,5% 0,6% Køer 0,0% 0,0% Med fokus på erhvervslivet s. 40 Anvendelse af Excel til beskrivende statistik Grundlæggende statistik Med fokus på erhvervslivet NårAnvendelse vi arbejder med data skal vi ofte beregne simpleBeskrivende statistikkerStatistik som gennemsnit, s af Excel til beskrivende statistik lignende. denne med type data beregninger er regneark Excel et glimrende redskab. Når viTil arbejder skal vi ofte beregne som simple statistikker som gennemsn Funktionerne til de mesttype gængse beregninger - se nedenstående - kan me lignende. Til denne beregninger er regneark som Excel screenshot et glimrende redsk Anvendelse af anvendes Excelhvis tildubeskrivende statistik blot ønsker nogle få hurtige estimater. Kræver din analyse derimo til de mest statistikker gængse beregninger - se nedenstående screenshot - kan Når vi arbejder med data, skal Funktionerne vi ofte beregne simple som gennemsnit, sum og ligberegninger er en pivot tabel mere velegnet. Vi vender tilbage til pivot anvendes hvis som du blot ønsker nogle få redskab. hurtige estimater. Kræver dintabeller analysesene der nende. Til denne type beregninger er regneark Excel et glimrende Funktionerne til de mest gængse beregninger - se nedenstående screenshot - kan med fordel anvendes, hvis du blot pivot tabel mere velegnet. Vi at vender til pivot tabeller Nårberegninger du anvendererenenfunktion, er det vigtigt at sikre du hartilbage markeret alle de data s ønsker nogle få hurtige estimater. Kræver din analyse derimod flere beregninger, er en pivot tabel indgå beregningen, hvilket er illustreret i nedenstående hvor cellerne F Når du anvender funktion, er det vigtigt at sikre atscreenshot du har markeret alle de da mere velegnet. Vi vender tilbage tili pivot tabeller en senere. summeres. indgå i beregningen, hvilket er illustreret i nedenstående screenshot hvor cellern Når du anvender en funktion, er det vigtigt at sikre, at du har markeret alle de data, som skal indgå summeres. i beregningen, hvilket er illustreret i nedenstående screenshot hvor cellerne F3:F6 summeres. TABEL 30: Parameter Funktion Måned Salg Sum 5 sum( ) jan 1740 Gennemsnit 5 middle( ) feb 1684 Standardafvigelse (n) 5 stdafv( ) mar 1996 Standardafvigelse (N) 5 stdafvp( ) apr 1658 Median 5 median( ) Minimums værdi 5 min( ) maksimums værdi 5 maks( ) 5SUM(F3:F6) Er du i tvivl om al data er medtaget, kan du markere cellen med formlen og efterføl dig Er i formellinjen. vil du markering detmarkere data som indgår i formlen, du i tvivl omHer al data er se medtaget, kanafdu cellen med formlen hvilket og efte Antal observationer Kvartil tæ( ) nedenstående tilfælde er F2-F3. dig i formellinjen. 5 kvartil( ) Her vil du se markering af det data som indgår i formlen, hvi nedenstående tilfælde er F2-F3. Er du i tvivl om al data er medtaget, kan du markere cellen med formlen og efterfølgende stille dig i formellinjen. Her vil du se markering af det data som indgår i formlen, hvilket i nedenstående tilfælde er F2-F3. Hvis du glemmer eller har brug for mere avancerede funktioner, kan du altid finde overHvis samtlige funktioner aktiverer fx ikonet: du glemmer ellernår hardubrug for mere avancerede funktioner, kan du altid fin Hvis du glemmer eller har brug for mere avancerede funkover samtlige funktioner når du aktiverer fx ikonet: tioner, kan du altid finde en liste over samtlige funktioner når du aktiverer fx ikonet: Af Stephan Skovlund (Copyright) Med fokus på erhvervslivet Af Stephan Skovlund (Copyright) s. 41 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Autoberegninger Autoberegninger Autoberegninger som etetalternativ alternativtiltil skrive funktionen manuelt. Det eneste Autoberegningerkan kan anvendes anvendes som at at skrive funktionen manuelt. Det eneste autoberegningerne “kræver” er, at du markerer dine data. Så længe de er markerede, vil stanautoberegningerne ”kræver” er, at du markerer dine data. Så længe de er markerede vil dardberegningerne fremgå som i nedenstående screenshot. standardberegningerne fremgå som i nedenstående screenshot. Ønskerdudumulighed mulighedfor foratatvælge vælgeflere flereautoberegninger, autoberegninger, eksempelvis eksempelvis antal antal observationer Ønsker observationer,skal skal du du blot højreklikke på beregningerne på værktøjslinien. En af ulemperne ved autoberegninger blot højreklikke på beregningerne på værktøjslinien. En af ulemperne ved autoberegninger er, at deer,forsvinder så snartsådata er markeret. at de forsvinder snartikke datalængere ikke længere er markeret. Pivottabeller (se video) Pivottabeller er et af de vigtigste redskaber i hele Microsoft Office pakken. Med pivottabeller kan Pivottabeller du på sekunder få et fortrinligt overblik over flere tusind datarækker. At anvende Excel uden pivottabeller, svarerer tiletkun første gear i en formel 1 bil. Office pakken. Med pivottabeller Pivottabeller af at de bruge vigtigste redskaber i hele Microsoft kan du på sekunder fortrinligt overblik over flere tusind At anvende Excel Pivottabeller er ingenfånyet opfindelse, de har eksisteret næstendatarækker. lige så længe som Excel. Alligevel uden pivottabeller, svarer til kun at bruge første gear til i en formel 1 bil.og at endnu færre anvender skønnes det, at kun de færreste Excel brugere kender pivottabeller, 3 dem hensigtsmæssigt. Pivottabeller er ingen ny opfindelse, de har eksisteret næsten ligeså længe som Excel. Jeg har arbejdet med virksomheder og set personer blive 60-80 % mere effektive, efter de lærte at Alligevel skønnes det, at kun de færreste Excel brugere kender til pivottabeller og at endnu anvende pivottabeller. Af samme grund3 ønsker jeg, at du kommer til at mestre netop denne del af færre anvender dem hensigtsmæssigt. Excel. AtJeg pivotere betyder "atvirksomheder dreje om et fast og det er hvad pivot tabellerne går efter ud på: dreje har arbejdet med og punkt", set personer blive 60-80 % mere effektive de"At lærte beregninger (statistikker), Af hvor rækkeoverskrifter og kolonneoverskrifter kan skifte plads, mens at anvende pivottabeller. samme grund ønsker jeg, at du kommer til at mestre netop denne beregningen af data forbliver uændret. del af Excel. Forudsætningen for at bruge Pivot tabellen er, at data er samlet i databaseformat: det betyder helt konkret, at hver kolonne skal være med et enpivot overskrift, og atgår felternes indhold At pivotere betyder "at dreje om etangivet fast punkt", ognavn, det erdvs. hvad tabellerne ud på: "At i de respektive kolonner skal værehvor formateret som: tekst,og et kolonneoverskrifter tal eller en dato. kan skifte plads, dreje beregninger (statistikker), rækkeoverskrifter mens beregningen af data forbliver uændret. 3 3 Kilde: Bil Jelen: “Number crunching with Pivot Tables” Kilde: Bil Jelen: “Number crunching with Pivot Tables” Med fokus på erhvervslivet Af Stephan Skovlund (Copyright) s. 42 Side | 39 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik TABEL 31: Sælger Produkt Dato Salg Lund 70 17-12-2008 14.098 Nielsen 70 22-11-2008 10.707 Det er vigtigt, at formaterne ikke kombineres således, at der i kolonnen med dato ikke pludselig indgår bogstaver, og at der i kolonnen med sælgere ikke pludselig indgår tal som i nedenstående tabeller. TABEL 32: Sælger Produkt Dato Salg 123 70 17-12-2008 14.098 Nielsen 70 22-11-2008 10.707 Rislund 70 Marts 08 10.096 Egefelt 70 01-03-2008 15.524 Hvad angår datoen, er pivottabellen meget følsom for at formatet genkendes som en Excel dato. Nogle vælger derfor at angive dato som en kolonne med måneder og en kolonne med år. Det er i midlertidigt ikke hensigtsmæssigt, da man fraskriver sig vigtige pivotfunktioner, eksempelvis muligheden for at konsolidere datoen fra uger til år, hvis ikke datoen formateres korrekt. Er du i tvivl, kan du altid anvende funktionen “dato”, som indikerer hvordan data skal angives. TABEL 33: Optimalt Uhensigtsmæssigt Dato Uge Måned År 17-12-2008 51 dec 2008 22-11-2008 48 nov 2008 En anden vigtig detalje er, at dine data ikke afbrydes af tomme rækker som i nedenstående. Afbrydes dit datasæt af en tom række, dvs. en række uden et eneste tegn, vil pivottabellen opfatte det som et afbræk i datasættet, hvilket medfører at pivotabellen ikke medtager alle data. I tilfælde af tomme rækker kan du indsætte et enkelt tegn “-” som anvist i nedenstående. TABEL 34: Forkert Korrekt Uge Salg Uge Salg 19 212 19 212 27 Med fokus på erhvervslivet 321 27 321 s. 43 Uge 19 Salg 212 27 321 Uge 19 27 Salg 212 321 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Grundlæggende funktioner i pivottabeller Grundlæggende funktioner i pivottabeller I det følgende anvendes en pivottabel til at skabe et hurtigt overblik og beregne enkle estimater I det følgende anvendes en pivottabelØvelsen til at skabe et hurtigtpå overblik beregne enkle som gennemsnit og standardafvigelsen. baseres fiktiveogdata, som duestimater finder i Excel filen gennemsnit og standardafvigelsen. Øvelsen baseres på fiktive data som du finder i Excel “Salgsdata”som under menuen Data på hjemmesiden www.statlearn.com filen ”Salgsdata” under menuen Data på hjemmesiden www.statlearn.com Når du åbner filen, er det første skridt at markere den øverste celle i venstre hjørne, celle A1. For at Når du åbner filen er det første markere øverste celle i venstre hjørne, celleatA1. sikre, at pivottabellen medtager alleskridt dataatnår den den oprettes, er grundreglen altid stille sig i dataFor at sikre, at pivottabellen medtager alle data når den oprettes, er grundreglen altid at stille sættets første celle, hvilket som regel er celle A1. Når du har markeret hele dit datasæt, vælger du i datasættets første hvilket er celle A1.der Nårkommer du har markeret Pivottabel isig værktøjslinjen ogcelle, klikker ok isom denregel dialogboks frem.hele dit datasæt vælger du Pivottabel i værktøjslinjen og klikker ok i den dialogboks der kommer frem. Det næste du ser, er et nyt ark med selve pivottabellen. Det næste du ser, er et nyt ark med selve pivottabellen. Af Stephan Skovlund (Copyright) Side | 41 Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer alle de forskellige kolonner i datasættet. Med fokus på erhvervslivet Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering). s. 44 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer Arket i et område en tom tabel og et område med feltlister, som repræsenterer alle alle er de opdelt forskellige kolonnermed i datasættet. de forskellige kolonner i datasættet. Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i Nedenfor ses feltlisten, der indeholder fire bokse. Hver boks svarer til et bestemt område i pivotpivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til tabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering). kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering). Lad tageet et simpelt simpelt eksempel. du du ønsker at seatdet salg forsalg helefor perioden. Lad osostage eksempel.Antag Antagat at ønsker sesamlede det samlede hele perioden. Dennesimple simpleforespørgsel forespørgsel svarer svarer til Salg fra feltlisten ned i boksen med værdier, Denne til atatføre førefeltet feltet “Salg” fra feltlisten ned i boksen med værdier, som somi nedenstående: i nedenstående: Resultat ses omgående i tabel området. Ved at føre feltet ”Salg (stk.)” ned i værdiboksen har tabellen summeret salget hele perioden 2007-2008. Resultat ses omgående i tabelfor området. Ved at føre feltet “Salg (stk.)” ned i værdiboksen har tabellen summeret salget for hele perioden 2007-2008. Af Stephan Skovlund (Copyright) Side | 42 Lad os nu antage, at vi ønsker at se fordelingen af salget på de enkelte salgskanaler. Da feltet Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række Med fokus på erhvervslivet felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler. s. 45 Grundlæggende statistik Med fokus på erhvervslivet Beskrivende Statistik Lad Lad os nu at atviviønsker fordelingenafafsalget salget de enkelte salgskanaler. Da feltet os antage, nu antage, ønskerat at se se fordelingen på på de enkelte salgskanaler. Da feltet Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række felter. Føres feltet over i række boksen, ses det totale salg nu fordelt på de enkelte salgskanaler. felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler. Med disse få trin har vi uden beregninger fået et godt overblik over et datasæt som rummer 30.000 Af Stephan Skovlund (Copyright) 43 rækker. Pivottabeller rummer et væld af funktioner, som kan være en fantastisk hjælp, nårSide du |arbejder med dataanalyse. I nedenstående er der links til en række videolektioner som viser de grundlæggende og mere avancerede pivotfunktioner (hvis du ikke har adgangskode, kan denne bestilles på hjemmesiden). Udvalgte videolektioner (klik på links) Grundlæggende færdigheder 2.1 Markering af data 2.2 Flyt data 2.3 Vend data (indsæt speciel) 2.4 Cellereferencer 2.5 Regler for anvendelse af formler 2.6 Opsætning af grafer Med fokus på erhvervslivet Redskaber til dataanalyse 3.1 Anvendelse af autofilter 3.2 Avancerede funktioner til autofilter 3.3 Pivottabeller 3.4 Feltindstillinger i pivottabeller 3.5 Manuelle beregninger med pivottabel 3.6 Kategorisering af data med pivottabel s. 46 KAPITEL 3 GRUNDLÆGGENDE SANDSYNLIGHEDSREGNING Statlearn.com KAPITEL 3 Grundlæggende sandsynlighedsregning S andsynlighedsregning er paradoksalt nok både et af de mest simple og samtidig et af de mest komplekse områder af statistik. En del af forklaringen skyldes, at sandsynlighedsregning rummer mulighed for at kombinere, udelukke og inkludere forskellige sandsynligheder, hvilket kan øge kompleksiteten betydeligt. Eksempelvis kan vi ræsonnere os frem til, at sandsynligheden for at slå en sekser i et enkelt terningkast nødvendigvis må være 1/6. Men udvides regnestykket til at kombinere 3 terninger, er sandsynligheden for at slå seks med dem alle mindre gennemskuelig. I dette afsnit starter vi med den grundlæggende sandsynlighedsregning og efterfølgende ser vi på mulighederne for at arbejde med mere komplekse problemstillinger. Lad os starte med en definition af sandsynlighedsbegrebet. Ordet er i sig selv er relativt selvforklarende, men hvad betyder det egentligt, når vi siger at sandsynligheden for at slå en sekser ved et terning kast er en 1/6? Rent matematisk er 6 1/6 netop 100 %, men betyder det så, at vi efter 6 kast kan være sikre på at få en sekser? Som du formentligt allerede ved eller har gættet, skal sandsynligheder betragtes som sandsynligheder i det lange løb, altså sandsynligheder, der vil indtræde hvis et eksperiment, som eksempelvis et terningkast udføres et uendeligt antal gange. Hvis et eksperiment kun udføres et få antal gange kan udfaldene fremstå som tilfældige. Der er med andre ord ingen garanti for at få en sekser ved seks terningkast, men har du tålmodighed til at kaste terningen en milliard gange, vil antallet af seksere tilnærmelsesvis være 1/6. Forskellige typer af sandsynligheder Når vi taler om sandsynlighedsregning sondres mellem 3 forskellige typer: objektive, estimerede og subjektive sandsynligheder. Objektive sandsynligheder kendetegnes ved, at vi kan ræsonnere os frem til den eksakte sandsynlighed for en given hændelse, hvilket eksempelvis er tilfældet med et terningkast. Forudsætningen for elementær sandsynlighedsregning er, at alle udfald er lige sandsynlige, hvilket passer fint med terningkast, hvor alle udfald må antages at være lige sandsynlige. Udover terninger er de fleste kasinospil klassiske eksempler på objektive sandsynligheder. Videolektioner > s. 48 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning I den �virkelige” verden er det relativt sjældent, at vi arbejder ud fra eksakte sandsynligheder. Ofte må vi estimere os frem til sandsynligheder ud fra en stikprøve. Estimerede sandsynligheder betegnes eksperimentel sandsynlighedsregning, hvilket refererer til at vi må eksperimentere os frem til sandsynligheden. Et eksempel kan være den amerikanske valgkamp i 2008, hvor der dagligt blev foretaget stikprøvebaserede analyser for at estimere sandsynligheden for en sejr til Obama. Estimaterne vil ikke være eksakte som i tilfældet med terningkast, men sandsynlighederne vil blive mere eksakte jo større stikprøven er. Med andre ord vil en stikprøve på 250 mio. amerikanere give en mere eksakt sandsynlighed for andelen af amerikanske vælgere, der vil stemme på Obama, end en stikprøve på kun 10. amerikanske vælgere. Den sidste type sandsynligheder kan beskrives som subjektive, i den forstand at vi ikke har et faktuelt grundlag at beregne dem ud fra. I modsætning til terningkast - hvor vi ved, at der er seks mulige udfald - er der hver dag en række situationer, hvor vi ikke har denne slags information til rådighed. Hvis du eksempelvis en dag sætter alle dine spareskillinger på en ny hest som aldrig før har løbet væddeløb, må sandsynligheden for at hesten vinder i høj grad bero på din egen subjektive vurdering af hestens kvalifikationer. Grundlæggende forudsætninger Sandsynlighedsregning bygger på nogle enkle og relativt intuitive forudsætninger. Som det første skal alle sandsynligheder være mellem 0 og 1 eller i procent ligge mellem 0 og 100 %. I daglig tale falder der ofte bemærkninger som �jeg er 110 % sikker på at...” Daglig tale og knastør statistikteori er ikke helt forenelige størrelser. TABEL 35: Interval for sandsynligheder Forudsætning 1:0 P(Xi) 1 Den næste forudsætning er, at sandsynlighederne TABEL 36: Summering af sandsynligheder for alle de mulige udfald af variablen Xi skal sumn meret blive lig med 1 (100 %). Hvis vores variabel Forudsætning 2: i51 P(Xi) 5 1 eksempelvis er summen af et terningkast, så skal sandsynlighederne af de mulige udfald af terningkastet kunne summeres til 1 (100 %). Ved et terningkast er der 6 mulige udfald, hvor hvert udfald har en sandsynlighed på 1/6, hvilket netop giver en samlet sandsynlighed på 1 (6 1/6). Som den sidste grundlæggende forudsætning skal sandsynligheden for en bestemt hændelse (Hi) være summen af alle de sandsynligheder, der tilhører denne hændelse. Ved et enkelt terningkast vil sandsynligheden for hændelsen �mindst 5” derved blive summen af sandsynligheden for at få �5” og �6”. Med fokus på erhvervslivet TABEL 37: Sandsynlighed for en hændelse n Forudsætning 3: P(H) 5 XiH P(Xi) s. 49 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Grundlæggende begreber Inden vi ser nærmere på regneregler for sandsynligheder, skal vi først have begreberne et udfald, et udfaldsrum og en hændelse på plads. Et udfald kan vi definere som resultatet af et eksperiment. Et eksperiment fører tankerne hen mod hvide kitler og Frankenstein, men er i princippet blot udtryk for en bestemt handling. Denne handling kunne være at kaste en mønt eller udfaldet af Wimbledon finalen. Begge eksempler rummer nogle klare udfald, ved møntkastet får vi enten plat eller krone, og ved Wimbledon finalen taber eller vinder en af tennisspillerne. Udfaldsrummet (U) kan vi definere som alle de mulige udfald i et eksperiment. Kaster vi en enkelt terning kan udfaldsrummet defineres som U(1,2,3,4,5,6) 5 6 mulige udfald. En hændelse (Hi) defineres som det udfald vi ønsker at beregne sandsynligheden for. Hvis du ved et møntkast vinder, hvis resultatet bliver �krone,” defineres hændelsen: H(Krone). Hvis du ved et terningkast vinder, hvis summen er mindst 4, så defineres hændelsen: H(4,5,6) I nedenstående ses begreberne illustreret. Kassen repræsenterer selve eksperimentet og dermed alle de mulige udfald (U). Cirklen repræsenterer hændelse H. FIGUR 19: – H H H– er den komplementære mængde, hvilket er de(t) udfald, som ikke indgår i hændelsen H. Tilsammen udgør �H� og �H–� det samlede udfaldsrum U. Objektive sandsynligheder Forestil dig at du var med i lodtrækningen om at vinde en million kr. Selve lodtrækningen foregår ved, at der tilfældigt udtages en ud af 100 nummererede kugler. Hvis kuglen der trækkes har nummer �1” vinder du. Jeg håber at du er enig i at sandsynligheden for at udtage en vinderkugle, kugle nummer 1, nødvendigvis må være 1/100 eller 1 %. Med andre ord har vi fundet sandsynligheden for at hændelsen vinderkugle indtræffer ud af alle de mulige hændelser. Formelt set betegnes sandsynligheden for en hændelse med: P(hændelse) - i dette eksempel P(vinderkugle). Sandsynligheder der beregnes i vinderkugleeksemplet kaldes a priori sandsynligheder. A priori refererer til, at vi kan beregne den eksakte sandsynlighed før hændelsen indtræffer. Vi kan med andre Med fokus på erhvervslivet s. 50 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning ord på baggrund af den viden vi har om eksperimentet, ræsonnere os frem til, at sandsynligheden for en vinderkugle må være 1/100. A priori sandsynligheder bygger på en grundlæggende forudsætning om, at alle udfald skal være lige sandsynlige. For at vores sandsynlighed med vinderkuglen skal holde stik, er det nødvendigt, at kuglerne er udformet ens - der må eksempelvis ikke være forskel på vægt eller størrelse. TABEL 38: A priori sandsynlighed A priori sandsynligheder beregnes som: Antal mulige udfald af X P(X) 5 Antal mulige udfald i alt EKSEMPEL: Hvis de første 4 ud af de 20 kugler var vinderkugler angives sandsynligheden: P(Vinderkugle) 5 X(1,2,3,4) 5 4/20 5 1/5 U(1…20) Estimerede sandsynligheder Grundlaget for at beregne a priori sandsynligheder er, at vi kender antallet af mulige udfald, og kan tælle antallet af de mulige hændelser vi ønsker. Vi antager at logistikchefen for Post Danmark ønsker at kende sandsynligheden for, at sorteringsmaskinen begår fejl. Han er derfor nødt til at observere maskinen i en given periode og efterfølgende tælle antallet af fejl. Spørgsmålet er, i hvor lang tid han skal observere maskinen, for at få den retvisende sandsynlighed for fejl. Du vil forhåbentligt være enig i, at 5 minutter vil være i underkanten, men hvad så med at observere maskinen en hel dag eller uge? På den ene side vil vi, alt andet lige, nærme os en mere præcis sandsynlighed for maskinens fejl, jo længere vi observerer den. På den anden side forekommer det ligeså intuitivt, at vi formentligt vil få to forskellige resultater, hvis vi observerer maskinen i to forskellige uger. Dermed vil vi opnå forskellige sandsynligheder for maskinens fejl, hvilket kan illustreres således: P(Fejl i uge 1) 5 152 5 0,00011 1.368.210 P(Fejl i uge 2) 5 261 5 0,000183 1.422.892 I modsætning til de objektive sandsynligheder som i eksemplet med terningkast, er der her to forhold der gør sig gældende. For det første kan vi ikke på forhånd beregne sandsynligheden for at maskinen laver en fejl. Vi er nødt til at foretage et eksperiment, hvor maskinens fejl tælles over en periode. Med fokus på erhvervslivet s. 51 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning For det andet kan vi se, at estimerede sandsynligheder ændrer sig ved hvert forsøg. Vi kan derfor ikke tale om eksakte sandsynligheder, men derimod estimerede (tilnærmede) sandsynligheder. TABEL 39: Estimerede sandsynligheder Estimerede sandsynligheder beregnes som: Antal hændelser (X) P(X) 5 Antal eksperimenter(n) Subjektive sandsynligheder I gennemgangen af sandsynligheder har vi indtil videre beskæftiget os med situationer, hvor data enten kan måles objektivt eller ud fra estimater. Subjektive sandsynligheder falder uden for begge kategorier. Som navnet antyder, er subjektive sandsynligheder baseret på erfaring og fornemmelser - ikke tal. Vi er dagligt omgivet af subjektive sandsynligheder. Eksempelvis er din fornemmelse af om en person taler sandt ofte en subjektiv vurdering. Hver dag er mange af vores handlinger mere eller mindre ubevidst styret af subjektive sandsynligheder. Vi kunne muligvis kalde det instinktive handlinger. Fællesmængden (“OG hændelsen”) Indtil videre har vi diskuteret sandsynligheder for en enkelt hændelse, eksempelvis sandsynligheden for at vi med en enkelt terning kan slå en sekser, eller for at en sorteringsmaskine hos Post Danmark laver fejl. Det vi nu skal se, er hvordan vi kan kombinere sandsynligheder og dermed beregne sandsynligheder for, at to eller flere forskellige hændelser indtræffer. Helt grundlæggende kan hændelser kombineres på to måder, enten sandsynligheden for hændelse �A og B” eller hændelsen �A eller B”. Med fællesmængden søger vi sandsynligheden for at to hændelser indtræffer samtidigt. Fællesmængden kan vi illustrere med nedenstående Venn diagram. FIGUR 20: Fællesmængden illustreret i et Venn diagram A B Det område som begge cirkler har til fælles betegnes fællesmængden, hvilket er det grå område i diagrammet. Med fokus på erhvervslivet s. 52 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning TABEL 40: A priori sandsynlighed Beregning af fællesmængden (forudsat uafhængighed mellem A og B): P(A∩B) 5 P(A) P(B) EKSEMPEL: Antag at vi har en hvid og en sort terning, og ønsker sandsynligheden for at få en sekser med dem begge. Vi ved at sandsynlighed for en sekser med en enkelt terning er 1/6, så hvordan kan vi beregne sandsynligheden for, at begge terninger bliver seksere? Definition af hændelserne: AHvid(6) P(AHvid) 5 1 6 BSort(6) P(BSort) 5 1 6 P(A∩B) 5 P(A) P(B) 5 1 1 1 5 5 2,78% 6 6 36 Det kan undre os, at sandsynligheden for at få to seksere kun er 2,78%, når vi samtidig tænker på, at sandsynligheden for at få en enkelt sekser er ca. 17 %. Hvorfor er der denne store forskel, og hvorfor er det seks gange mindre sandsynligt at slå to seksere frem for en sekser? Illustreres udfaldsrummet for to terninger vil du hurtigt kunne se hvorfor. FIGUR 21: Fællesmængden ved to terningkast 1 2 3 4 5 6 Hvid terning Sort terning 1 11 21 31 41 51 61 2 12 22 32 42 52 62 3 13 23 33 43 53 63 4 14 24 34 44 54 64 5 15 25 35 45 55 65 6 16 26 36 46 56 66 Med en enkelt terning har vi seks mulige udfald, derfor ved vi at sandsynligheden for en sekser må være 1/6, men med to terninger er vores udfaldsrum ikke blot fordoblet, men seksdoblet til 36. Dette forklarer at sandsynligheden for to seksere (gråt felt) må være seks gange mindre end sandsynligheden for at få en sekser med en enkelt terning. Med fokus på erhvervslivet s. 53 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Fællesmængden er ikke kun begrænset til 2 hændelser, da kombinationsmulighederne i princippet er uendelige. Sandsynligheden for at 3 terninger alle bliver seksere vil eksempelvis være: P(A∩B∩C) 5 P(A) P(B) P(C) 5 1 1 1 1 5 ≅ 0,005 6 6 6 216 Foreningsmængden (”ELLER” hændelsen) I modsætning til fællesmængden hvor hændelserne A og B skal indtræffe, er foreningsmængden mindre krævende. Med foreningsmængden søger vi, at mindst en af hændelserne indtræffer. For at illustrere dette, kan vi anvende et Venn diagram, hvor foreningsmængden repræsenterer det samlede areal af begge cirkler. FIGUR 22: Foreningsmængden illustreret i et Venn diagram A B Foreningsmængden er således opfyldt, når enten A eller B eller både A og B indtræffer. Hvis vi for simpelheden skyld genbruger eksemplet med de to terninger, vil foreningsmængden være sandsynligheden for at den hvide eller sorte terning bliver en sekser, eller at de begge gør det. TABEL 41: Beregning af foreningsmængden Beregning af foreningsmængden (forudsat uafhængighed mellem A og B): P(A ∪ B) 5 P(A) 1 P(B) 2 P(A∩B) EKSEMPEL: Hvis vi fortsætter eksemplet med den hvide og den sorte terning, hvad er så sandsynligheden for at få foreningsmængden, dvs. enten at slå seks med hvid, sort eller begge terninger? AHvid(6) BSort(6) 1 6 1 P(BSort) 5 6 P(AHvid) 5 P(A ∪ B) 5 P(A) 1 P(B) 2 P(A∩B) 5 Med fokus på erhvervslivet 1 1 1 1 12 1 11 1 2 5 2 5 * 6 6 6 6 36 36 36 s. 54 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Årsagen til at vi fratrækker fællesmængden fra summen af A og B er, at fællesmængden både er en del af A og B. Når vi adderer sandsynligheden for A og B betyder det, at vi kommer til at medtage fællesmængden to gange - se det mørkegrå felt i celle �66” i nedenstående. FIGUR 23: Fællesmængden ved to terningkast 1 2 3 4 5 6 Hvid terning Sort terning 1 11 21 31 41 51 61 2 12 22 32 42 52 62 3 13 23 33 43 53 63 4 14 24 34 44 54 64 5 15 25 35 45 55 65 6 16 26 36 46 56 66 Komplementær hændelsen Komplementær hændelsen kan defineres som den modsatte hændelse af den vi har defineret. Hvis hændelsen (A) defineres som udfaldet �krone” ved et møntkast, så er den komplementære hændelse (A–) at få �plat”. TABEL 42: Beregning af komplementærsandsynligheden Beregning af komplementærsandsynligheden: – P(A) 5 1 2 P(A) Når vi bruger komplementære sandsynligheder, så er det ofte for at beregne fælles- eller foreningsmængden på en mere simpel måde. EKSEMPEL: Antag at vi har et samlebånd, hvor to kontrolmekanismer skal sikre, at defekte varer kasseres. Hver kontrolmekanisme er 99 % præcis, og der er således kun 1 % sandsynlighed for fejl. Som produktionschef er du interesseret i at kende sandsynligheden for, at en defekt vare slipper igennem begge kontrolmekanismer uden at blive opdaget. Denne sandsynlighed kan løses ved anvendelse af foreningsmængden, hvor vi finder sandsynligheden for, at fejlen enten spottes af kontrol 1, kontrol 2 eller af begge kontroller: A: Fejl opdages af kontrol 1 P(A) 5 0,99 B: Fejl opdages af kontrol 2 P(B) 5 0,99 P(A ∪ B) 5 P(A) 1 P(B) 2 P(A∩B) 5 0,99 1 0,99 2 0,99 * 0,99 5 0,9999 Med fokus på erhvervslivet s. 55 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning I stedet for at anvende foreningsmængden kan sandsynligheden løses mere simpelt (elegant J) med komplementærmængden. Frem for at finde sandsynligheden for at fejl opdages af en eller begge kontroller, kan vi blot finde sandsynligheden for, at en fejl ikke opdages og efterfølgende fratrække denne fra 1 hvilket svarer til vores totale4 sandsynlighed (100 %). –: Fejl opdages ikke af kontrol 1 P(A –) 5 0,01 A –: Fejl opdages ikke af kontrol 2 (B–) 5 0,01 B – er det modsatte af hændelsen A, hvilket markeres med en streg over B: Bemærk at hændelsen A N bogstavet. –∩B – ) 5 1 2 0,01 0,01 5 1 2 0,0001 5 0,9999 1 2 P(A Betingende sandsynligheder – Afhængige hændelser Indtil videre har vi set på hændelser som uafhængige hændelser, dvs. eksperimenter der har udfald som ikke afhænger eller påvirkes af hinanden. TABEL 43: Beregning af foreningsmængden Hvis uafhængighed mellem 2 hændelser gælder: P(A) 5 P(AIB) Hvis afhængighed gælder: P(A) P(AIB) Notationen med en streg der deler A og B(AIB) tolkes som A på betingelse af B, eller A når B er indtruffet. EKSEMPEL: Vi har stadig en hvid og en sort terning og definerer hændelsernes �A: 1 med hvid terning” og �B: 6 med sort terning”. Er der så tale om to uafhængige hændelser? Da udfaldet af den sorte terning på ingen måde påvirker udfaldet af den hvide terning gælder følgende: P(A) 5 1 1 og P(AIB) 5 6 6 Med andre ord påvirkes sandsynligheden for hændelsen �A” ikke af udfaldet af hændelse �B”. Dermed bekræftes reglen for uafhængighed. Alt har en modsætning, og som du sikkert har gættet, er der en række situationer, hvor vi ikke kan antage uafhængighed mellem A og B. I sådanne tilfælde gælder reglen: Afhængighed hvis P(A) P(AIB) 4 Et eksempel på den totale sandsynlighed findes i afsnittet: Regneregler for sandsynligheder. Med fokus på erhvervslivet s. 56 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der er afhængighed så er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A. EKSEMPEL: Antag at vi har et spil lotto med 10 nummererede kugler, hvor vinderkriteriet er at få kugle nr. 1. Vi ved at sandsynligheden for at få en given kugle i første forsøg nødvendigvis må være 1 ud af 10. Hermed definerer vi hændelserne: A: Kugle nr.1 → P(A) 1 5 0,1 10 B: Kugle nr.2 → P(B) 1 5 0,1 10 Men hvad med P(AIB)? Såfremt kugle nr. 1 ikke bliver trukket i første forsøg vil der nu, hvor den næste kugle trækkes, nødvendigvis være en sandsynlighed på 1/9 for at kugle nr. 1 udtrækkes. Sandsynligheden for kugle nr. 1 er således øget fra 1/10 til 1/9, når kugle to er udtaget. Dermed er der en kugle mindre, hvilket bekræfter reglen for afhængighed: P(A) P(AIB) da 1 1 10 9 Omvendt betingede sandsynligheder (Bayes teorem) Den omvendt betingende sandsynlighed, eller rettere Bayes teorem, gør os i stand til at finde P(A I B) når kun P(B I A) er givet, dermed betegnelsen �omvendt betingede sandsynlighed”. TABEL 44: Beregning af den omvendt betingede sandsynlighed Beregning af den omvendt betingede sandsynlighed (Bayes teorem): P(A I B) 5 P(A) P(BIA) P(B) EKSEMPEL: Antag at Bilka fra erfaring ved at 30 % af kunderne køber Coca-Cola og at 20 % køber chips. Herudover har Bilka fundet frem til, at hvis en kunde køber Coca-Cola, så er der 40 % sandsynlighed for at vedkommende også køber chips. Hvis en kunde køber chips, hvad er så sandsynligheden for, at kunden også køber Coca-Cola? Med fokus på erhvervslivet s. 57 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning LØSNING Det vi ved indtil videre: P(ACola) 5 0,3 P(BChips) 5 0,2 P(BChips I ACola) 5 0,4 Den omvendt betingede sandsynlighed, hvilket svarer til sandsynligheden for at købe cola, når man har købt chips: P(ACola IBChips) 5 P(ACola) P(BChips IACola) 0,3 0,4 5 5 0,6 P(BChips) 0,2 Der er hermed 60 % sandsynlighed for, at en vilkårlig kunde, der køber chips også vil købe CocaCola. Det kan undre at forholdet mellem Coca-Cola og Chips ikke er 1:1 begge veje, hvorfor påvirkes sandsynligheden af, om man først lægger chips eller cola i indkøbskurven først? Problemstillingen kan illustreres med følgende matrix, der består af 100 celler. FORKLARING Vi ved, at 30% af kunderne køber Coca-Cola. Vi kan derfor anvende en matrix med 100 felter (5100 %), hvoraf de 30 felter er de kunder der køber Coca-Cola, hvilket svarer til det grå område i den nedenstående matrix. FIGUR 24: 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 Symbolforklaring Køber Coca-Cola 7 8 9 10 Vi ved, at der er 20% af kunderne der køber chips, men vi ved ikke hvordan disse fordeler sig i forhold til de 30% af kunderne der køber Coca Cola. Vi ved derimod, at hvis en kunde køber Coca-Cola, Med fokus på erhvervslivet s. 58 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning så er der 40 % chance for, at kunden også køber chips. Derfor skal 40 % af det grå område reserveres til chips, hvilket svarer til 12 felter, som markeres med 1 i nedenstående matrix. FIGUR 25: 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Symbolforklaring Køber Coca-Cola 1 Køber Chips 7 8 9 10 Når vi ved, at der er 20 % sandsynlighed for at der købes chips, må de resterende 8 felter således tilhøre det segment der ikke køber Coca-Cola (hvidt område) Såfremt en kunde køber chips - område markeret med 1 - kan vi se at der er 12 felter med chips i Coca-Cola området, hvilket betyder at sandsynligheden for at købe chips, når der købes Coca-Cola, er 12/20 5 60 %. FIGUR 26: 1 2 3 4 5 6 7 8 9 10 Med fokus på erhvervslivet 1 1 1 1 1 2 1 1 1 1 3 1 1 1 1 4 1 1 1 1 5 1 1 1 1 6 7 8 9 10 s. 59 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Regneregler for sandsynligheder 1. A priori sandsynligheder (objektive sandsynligheder) TABEL 45: P(X) 5 Antal mulige udfald af X X 5 Antal mulige udfald i alt U(5udfaldsrum) EKSEMPEL: Hvad er sandsynligheden for at slå en 6’er i et terningkast? X: Sum af et terningkast 5 6 P(X 5 6) 5 1 6 2. Summering af sandsynligheder TABEL 46: n P(H) 5 P(Xi) hvor H(Xi51)…Xi5n) XiH EKSEMPEL: Hvis vi har 12 kugler hvoraf der er 5 røde, 4 blå og 3 er grønne, hvad er så sandsynligheden for at få en rød eller en blå kugle? Definition af hændelsen (H): H(XR1,XR2,XR3,XR4,XR5,XB1,XB2,XB3,XB4) n P(H) 5 P(Xi) 5 i51 1 9 95 12 12 3. Fællesmængden når A og B er uafhængige (“OG” hændelsen) TABEL 47: P(A ∩ B) 5 P(A) P(B) Fællesmængden tolkes som hændelsen �A” og �B”. Med fokus på erhvervslivet s. 60 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning EKSEMPEL: Vi har to terninger, en hvid og en sort, hvad er sandsynligheden for at slå 1 med begge terninger? AHvid 5 1 P(AHvid) 5 P(A ∩ B) 5 1 1 BSort 5 1 P(BSort) 5 6 6 1 1 1 5 6 6 36 4. Fællesmængden ved afhængighed mellem A og B (betinget sandsynlighed) TABEL 48: P(A ∩ B) 5 P(A) P(BIA) Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der er afhængighed er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A. EKSEMPEL: Vi observerer et spil lotto med 10 kugler, nummereret fra 1 til 10. Blandt de 10 kugler udtrækkes der 2 kugler. Vinderkriteriet er at udtrække kugle nr. 1 og 2 – rækkefølgen er underordnet. Hvad er sandsynligheden for at vinde? Sandsynligheden for at få kugle nr. 1 eller 2 i første udtræk må nødvendigvis være 1 ud af 10. Hvis vi hypotetisk antager, at vi i første udtræk udtager kugle nr. 1, så er sandsynligheden for at udtage kugle nr. 2 ikke længere 1 ud af 10 men 1 ud af 9, da der kun er 9 kugler tilbage. P(A ∩ B) 5 P(A) P(BIA) → P(1 ∩ 2) 5 P(1) P(2I1) 5 1 1 1 5 10 9 90 5. Regneregel for uafhængighed TABEL 49: Hvis der er uafhængighed gælder P(A) 5 P(AIB) EKSEMPEL: Hvis vi har to terninger og ønsker at slå 1 med den hvide terning (A) og 2 med den sorte terning (B), er der så tale om to uafhængige hændelser? Da udfaldet af den sorte terning ikke har indflydelse på udfaldet af den hvide terning gælder: P(A) 5 1 1 og P(AIB) 5 6 6 Hvilket svarer til at P(A) 5 P(AIB), dermed er der uafhængighed. I tilfælde af at reglen for uafhængighed ikke er opfyldt, er der tale om afhængige hændelser. Med fokus på erhvervslivet s. 61 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning 6. Foreningsmængden (“ELLER” hændelsen) TABEL 50: P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B) Foreningsmængden tolkes hændelserne “A” eller �B” eller både �A og B”. EKSEMPEL: Antag at vi kaster to terninger, en hvid (A) og en sort (B). Hvad er sandsynligheden for at få mindst en 6’er? 1 AHvid 5 6 P(AHvid) 5 6 BSort 5 6 P(BSort) 5 1 6 Af regneregel følger: P(A ∪ B) 5 1 1 1 1 6 6 1 11 1 2 5 1 2 5 6 6 6 6 36 36 36 36 7. Komplementærmængden (“OG” hændelsen) TABEL 51: –) 5 1 2 P(A) P(A Komplementærmængden kan opfattes som det “modsatte” af hændelsen A. EKSEMPEL: Hvad er den komplementære sandsynlighed til at slå en etter med en terning? A(1) P(A) 5 1 6 –) 5 1 2 P(A) 5 1 2 1 5 5 P(A 6 6 Sandsynligheden er 5 ud af 6, hvilket er det vi forventer, da den komplementære mængde til at slå en etter vil være at slå alt andet end en etter. Med fokus på erhvervslivet s. 62 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning 8. Den totale sandsynlighed TABEL 52: –) P(A 5 P(A ∩ B) 1 P(A ∩ B Den totale sandsynlighed bruges til at beregne sandsynligheden for en hændelse, som er sammensat af flere sandsynligheder. EKSEMPEL: Ud af alle studerende er der 30 % som er mænd og som har haft erhvervserfaring, men kun 25 % af alle studerende er kvinder med tilsvarende erhvervserfaring. Hvor mange studerende har haft erhvervserfaring? –(Kvinder) A(Erhvervserfaring) B(Mænd) B –) → P(A) 5 0,3 1 0,25 5 0,55 5 55 % P(A) 5 P(A ∩ B) 1 P(A ∩ B 9. Den omvendte betingede sandsynlighed (Bayes teorem) TABEL 53: P(A I B) 5 P(A) P(BIA) P(B) EKSEMPEL: Fra Danske Banks statistiske afdeling oplyses det, at sandsynligheden for at en tilfældig låner anmoder om et lån på mere end 250.000 kr. er 0,45. Yderligere oplyses det, at sandsynligheden for, at et lån på mere end 250.000 kr. er optaget af en husejer, er 0,60. Antag at sandsynligheden for, at en vilkårlig låner er husejer, er 0,35. Hvad er sandsynligheden for at en låner, som er husejer, optager et lån på mere end 250.000 kr. Det vi ved: A: Låner der anmoder om mere end 250.000 kr. B: Husejer P(A) 5 0,45 P(B) 5 0,35 P(BIA) 5 0,6 Den omvendt betingede sandsynlighed, dvs. sandsynligheden for at anmode om et lån på 250.000 kr. når man er husejer: P(A I B) 5 Med fokus på erhvervslivet P(A) P(BIA) 0,45 0,6 5 5 0,771 P(B) 0,35 s. 63 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Øvelser De første spørgsmål er relateret til fortolkning, dvs. her skal du forsøge med egne ord at forklare betydningen af de forskellige sandsynlighedsbegreber. Efterfølgende er opgaverne rettet mod beregninger. Fortolkningsøvelser 1. Anvend et Venn diagram (to overlappende cirkler) til at illustrere fælles- og foreningsmængden for følgende to hændelser: A) at købe en Audi og B) at købe et B&O lydanlæg til en bil. 2. Hvad er forskellen på fælles, forenings og komplementærmængden? 3. Hvordan ville formlen for fællesmængden se ud, hvis der eksempelvis var tre hændelser: A, B og C. 4. Hvad menes med a priori sandsynligheder? 5. Nævn tre eksempler på a priori sandsynligheder. 6. I hvilke tilfælde må man anvende subjektive frem for objektive sandsynligheder? Beregningsøvelser Opgave 1. Antag at vi observerer et spil, hvor en enkelt terning kastes. Spørgsmål 1. Definer udfaldsrummet. Spørgsmål 2. Hvad er sandsynligheden for, at terningkastet viser mere end 3? Spillet udvides nu til to terninger, en hvid og en sort. Hvad er sandsynligheden for: Spørgsmål 3. At få en enkelt etter når de to terninger kastes? Spørgsmål 4. At mindst en af terningerne viser 1? Spørgsmål 5. At få 3 med den sorte og 2 med den hvide terning. Spørgsmål 6. At summen af terningkastet er mindre end 4. Spørgsmål 7. Hvad er sandsynligheden for at slå tre 6’ere i et enkelt kast med 3 terninger? Med fokus på erhvervslivet s. 64 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Opgave 2. Forestil dig afholdelsen af 2 VM semifinaler i fodbold, hvor alle 4 hold (A, B, C, D) har samme sandsynlighed for at vinde, tabe eller spille uafgjort. I den første semifinale mødes hold A og B, og i den anden mødes hold C og D. Spørgsmål 1. Hvad er sandsynligheden for at begge semifinaler ender uafgjort? Spørgsmål 2.Hvad er sandsynligheden for at semifinale 1 vindes af hold A, og semifinale 2 tabes af hold D? Opgave 3. Ved et pokerbord er der allerede uddelt 10 kort, hvoraf 6 er hjerter, og ingen er billedkort. Hvad er sandsynligheden for at det næste kort bliver en spar, klør eller ruder? Opgave 4. Sandsynligheden for en københavner går til fitness (A) er 0,3 og tilsvarende er sandsynligheden for, at en tilfældig københavner ejer en Nokia mobiltelefon (B) 0,35. Såfremt at en københavner ejer en Nokia mobiltelefon, er der en sandsynlighed på 0,45 for at vedkommende også går til fitness. Er hændelserne A og B da uafhængige? Opgave 5. På Niels Brock er der 1000 studerende hvoraf 500 læser finansøkonomi, 400 læser til markedsføringsøkonom og 100 læser multimediedesign. Hvad er sandsynligheden for, at en tilfældigt udvalgt elev læser en økonomisk uddannelse? Opgave 6. Antag at 10 % af alle lærebøgerne købes brugt og at 70 % af alle elever køber deres bøger fra starten af semesteret. Hvis der forudsættes uafhængighed mellem tidspunkt for bogkøb og bogens tilstand, hvad er da sandsynligheden for, at en tilfældig elev har købt en: Spørgsmål 1. Ny bog ved semester start? Spørgsmål 2. Brugt bog efter semester start? Spørgsmål 3. (Opgave 6 fortsat). Ny bog efter semester start? Med fokus på erhvervslivet s. 65 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Opgave 7. Ud af alle københavnere med videregående uddannelse er der: • 25 % mandlige akademikere som har haft lederstillinger og • 8 % kvindelige akademikere som har haft lederstillinger. Hvad er sandsynligheden for at en akademiker i København har haft en lederstilling? Opgave 8. Antag at boligmarkedet stiger med en sandsynlighed på 50 %, og at renten falder med 40 % sandsynlighed. Hvis renten falder, er der 80 % sandsynlighed for at boligmarkedet vil stige. Spørgsmål 1.Er der uafhængighed mellem renten og et stigende boligmarked? Hvis ja/nej hvorfor ikke? Spørgsmål 2. Hvad er sandsynlighed for at boligmarkedet stiger og renten falder? Spørgsmål 3. Hvad er sandsynligheden for at renten falder, når boligmarkedet stiger? Opgave 9. På Carlsberg er der en række sikkerhedsforanstaltninger, der skal sikre, at tappemaskinen ikke går i stå, selvom der sker en kortslutning i maskinens kredsløb. For at sikre optimal sikkerhed er der 2 mekanismer, som uafhængigt af hinanden overvåger om tappemaskinen er velfungerende. Sandsynligheden for at en fejl ikke opdages er 1 % for hver af de 2 mekanismer. Spørgsmål 1.Hvad er sandsynligheden for at en fejl opdages? Overvej om der er tale om fælles eller foreningsmængden? (Opstil evt. en matrix over mulighederne) Spørgsmål 2. Hvad er sandsynligheden for at en fejl ikke bliver opdaget? Med fokus på erhvervslivet s. 66 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Løsninger Fortolkningsøvelser: 1. Når hændelsen �A” er at købe en Audi og �B” er at købe et B&O lydanlæg til en bil, så illustreres fællesmængden - P(A∩B) - som det skraverede område i nedenstående: FIGUR 27: A B Fællesmængden er således den hændelse hvor der købes en Audi og et B&O lydanlæg til bilen. 2. Foreningsmængden inkluderer de hændelser, hvor der købes en Audi eller et B&O lydanlæg til bilen eller begge dele - se nedenstående Venn diagram. FIGUR 28: A B Foreningsmængden kan siges at være mindre krævende end fællesmængden, da denne er opfyldt når enten A eller B eller både A og B indtræffer. For fællesmængden gælder at begge hændelser skal indtræffe. Sandsynligheden for foreningsmængden vil derfor altid være højere end for fællesmængden. Komplementærmængden - P(A–) - er den �modsatte” sandsynlighed af hændelsen A. Hvis hændelsen A er solskin, så vil komplementærmængden være sandsynligheden for regnvejr. Med fokus på erhvervslivet s. 67 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning 3. P(A∩B∩C) 4. A priori sandsynligheder er betegnelsen for sandsynligheder som på forhånd er givet. 5. Møntkast, terningkast og roulette – Alle tre aktiviteter har det til fælles at vi kender sandsynligheden for et bestemt udfald. Vi ved på forhånd at sandsynligheden for krone er 50%, at sandsynligheden for at slå en sekser er en 1/6 osv. 6. Subjektive sandsynligheder anvendes når vi ikke har et datagrundlag eller på anden måde kan beregne sandsynligheden for en bestemt hændelse. Beregningsøvelser: Opgave 1. Spørgsmål 1. U(1,2,3,4,5,6) Spørgsmål 2. U(1,2,3,4,5,6) X(4,5,6) P(X) 5 Antal mulige udfald af X 3 1 5 5 Antal mulige udfald i alt (U) 6 2 Spørgsmål 3. A: Terningøjne viser 1 med sort terning B: Terningøjne viser 1 med hvid terning Foreningsmængden fratrukket fællesmængden: P(A∪B) 2 P(A∩B) 5 P(A) 1 P(B) 2 P(A∩B) 2 P(A∩B) 5 1 1 2 10 1 2 5 6 6 36 36 Nb: Vi er nødt til at fratrække fællesmængden fra foreningsmængden, da sidstnævnte indeholder muligheden for, at slå en etter med begge terninger. Spørgsmål 4. A: Terningøjne viser 1 med sort terning B: Terningøjne viser 1 med hvid terning Foreningsmængden: P(A∪B) 5 P(A) 1 P(B) 2 P(A∩B) 5 Med fokus på erhvervslivet 1 1 1 11 1 2 5 6 6 36 36 s. 68 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Spørgsmål 5. A: Terningøjne viser 3 med sort terning B: Terningøjne viser 2 med hvid terning Fællesmængden: P(A∩B) 5 P(A) P(B) 5 1 1 1 5 6 6 36 Spørgsmål 6. U(11,12,13…..66) 5 36 X(11,12,21) 5 3 (ved de tre kombinationer er summen mindre end 4) P(X) 5 Antal mulige udfald af X 3 1 5 5 Antal mulige udfald i alt (U) 36 12 Spørgsmål 7. A: Terningøjne viser 6 med terning nr. 1 B: Terningøjne viser 6 med terning nr. 2 C: Terningøjne viser 6 med terning nr. 3 P(A∩B∩C) 5 1 1 1 1 5 6 6 6 216 Opgave 2. Spørgsmål 1. X: Semifinale nr. 1 ender uafgjort og Y: Semifinale nr. 2 ender uafgjort P(X∩Y) 5 1 1 1 5 3 3 9 Spørgsmål 2. X: Semifinale nr. 1 vindes af hold A og Y: Semifinale nr. 2 tabes af hold D P(X∩Y) 5 Med fokus på erhvervslivet 1 1 1 5 3 3 9 s. 69 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Opgave 3. Ud af 52 kort er der udtaget 10, heriblandt 6 hjerter: Det betyder at der er ud af de resterende 42 kort må være 7 hjerter tilbage. X: Klør, spar eller ruder. P(X) 5 Antal mulige udfald af X 35 5 5 5 Antal mulige udfald i alt (U) 42 6 Opgave 4. A: Københavner går til fitness B: københavner der ejer en Nokia telefon P(A) 5 0,3 P(AIB) 5 0,45 Afhængighed da P(A) P(AIB) Opgave 5. X(finansøkonom, markedsføringsøkonom) P(X) 5 Antal mulige udfald af X (500 1 400) 5 5 0,9 Antal mulige udfald i alt (U) 1000 Opgave 6. A: Lærebøgerne købes nye P(A) 5 0,9 –: Lærebøgerne købes brugt P(A –) 5 0,1 A B: Lærebøgerne købes fra starten af semesteret P(B) 5 0,7 – –) 5 0,3 B: Lærebøgerne købes efter semesteret er startet P(B Spørgsmål 1. Sandsynligheden for at en elev køber en ny bog ved starten af semesteret: P(A∩B) 5 0,9 0,7 5 0,63 Spørgsmål 2. Sandsynligheden for at en elev køber en brugt bog efter starten af semesteret: –∩B –:) 5 0,1 0,3 5 0,03 P(A Spørgsmål 3. Sandsynligheden for at en elev køber en ny bog efter starten af semesteret: –) 5 0,9 0,3 5 0,27 P(A∩B Med fokus på erhvervslivet s. 70 Grundlæggende statistik Med fokus på erhvervslivet Grundlæggende sandsynlighedsregning Opgave 7. A: Lederstillinger B: Mænd –: Kvinder B Opgave 8. –) 5 0,25 1 0,08 5 0,33 P(A) 5 P(A ∩ B) 1 P(A ∩ B Spørgsmål 1. A: Boligmarkedet stiger B: Renten falder P(A) 5 0,5 P(B) 5 0,4 P(AIB) 5 0,80 Afhængighed da P(A) P(AIB) Spørgsmål 2. Sandsynligheden for at boligmarkedet stiger og renten falder: P(A∩B) 5 0,8 0,32 5 0,2 Spørgsmål 3. Sandsynligheden for at renten falder, når boligmarkedet stiger (Bayes teorem): P(BIA) 5 P(B) P(AIB) 0,4 0,8 5 5 0,64 P(A) 0,5 Opgave 9. A: Fejl opdages af mekanisme 1 P(A) 5 0,99 B: Fejl opdages af mekanisme 2 P(B) 5 0,99 Spørgsmål 1. Sandsynligheden for at en fejl opdages (foreningsmængden): P(A∪B) 5 0,99 1 0,99 2 0,99 0,99 5 0,9999 Spørgsmål 2. Sandsynligheden for at en fejl ikke opdages (komplementærmængden til foreningsmængden): 1 2 P(A∪B) 5 1 2 0,9999 5 0,0001 Med fokus på erhvervslivet s. 71 KAPITEL 4 STOKASTISK VARIABEL Statlearn.com KAPITEL 4 Stokastisk variabel E n stokastisk variabel klinger som et fremmedord, men er reelt blot betegnelsen for en variabel, der antager numeriske værdier med en tilknyttet sandsynlighed for hvert udfald. Et terningkast er en stokastisk variabel, da summen af terningøjne angives med tal, og hvert udfald har en bestemt sandsynlighed for at indtræffe (1/6). Enhver stokastisk variabel har tilknyttet en sandsynlighedsfordeling, som angiver sandsynligheden for de forskellige udfald af variablen. I eksemplet med terningen er der til hver af de seks mulige udfald knyttet en sandsynlighed på 1/6. Sandsynlighedsfordelinger, som vi kommer nærmere ind på i følgende afsnit, bygger på stokastiske variable. Lad os derfor indledningsvis opridse de grundlæggende karakteristika for den stokastiske variabel. En stokastisk variabel defineres som P(X 5 x) hvor �P� referer til sandsynligheden, �X� repræsenterer variablen og �x� svarer til selve talværdien. Ved et terningkast repræsenterer �X� selve terningen og �x� værdien af terningkastet, summen af øjnene. Ved sandsynligheden for at en terning viser 4 skrives: X: Sum af øjne ved et terningkast P(X 5 x) Helt grundlæggende sondres mellem to typer stokastiske variable, diskrete og kontinuerte. Diskrete variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod osv. Fælles for diskrete variable er, at de kan tælles i hele enheder. Som du formentligt har gættet, er kontinuerte variabler den direkte modsætning. Kontinuerte variable kan ikke afgrænses i hele enheder, og kan derfor ikke tælles som et eksakt antal. Eksempler på kontinuerte variabler er temperatur og hastighed. Da begge er målbare enheder, som kan antage et uendeligt antal decimaler, er det ikke muligt af fastlægge den helt eksakte temperatur eller hastighed. Det er således ikke muligt at måle den præcise værdi af en kontinuert variabel, da vi altid, rent teoretisk, kan tilføje en ekstra decimal i målingen. Videolektioner > s. 73 Grundlæggende statistik Med fokus på erhvervslivet Stokastisk variabel Regneregler for en stokastisk variabel I nedenstående tabel ses en række generelle regneregler for middel og varians af en stokastisk variabel. For at eksemplificere regnereglerne tages efterfølgende udgangspunkt i nogle simple eksempler. Efter gennemgangen af de enkelte regneregler, er der et mere avanceret eksempel. TABEL 54: Regneregler for en stokastisk variabel Middelværdi Varians n E(X) 5 1. n xi f(xi) VAR(X) 5 i51 (xi 2 m)2 ∙ f(xi) i51 2. E xi 5 E(xi) 3. E(X Y) 5 E(X) E(Y) VAR(X Y) 5 VAR(X) VAR(Y) 4. E(k) 5 k VAR(k) 5 0 5. E(k X) 5 k E(X) k2 VAR(X) VAR(Xi) 5 VAR(Xi) Eksempler på regneregler Til gennemgang af regneregler defineres X som summen af terningøjne ved et kast med hvid terning, og tilsvarende defineres Y som et terningkast med en sort terning. Konstanten k sættes til 2 hvilket også gælder k0 og k1. Regneregel 1: n E(X) 5 xi f(xi) ⇒ 1 i51 1 1 1 6 5 3,5 (5 m) 6 6 n VAR(X) 5 (xi 2 m)2 f(xi) ⇒ (1 2 3,5)2 i51 1 1 1 (6 2 3,5)2 5 3,5 6 6 Regneregel 2: E(xi) ⇒ (1 1 2 … 1 6) 5 3,5 6 VAR(xi) ⇒ Med fokus på erhvervslivet (1 2 3,5)2 (6 2 3,5)2 5 2,917 6 s. 74 Grundlæggende statistik Med fokus på erhvervslivet Stokastisk variabel Regneregel 3: E(X Y) 5 E(X) E(Y) 5 3,5 1 3,5 5 7 eller 3,5 2 3,5 5 0 Samme fremgangsmåde med variansen Regneregel 4: Da en konstant (k) ingen variation har, må middelværdien nødvendigvis være det samme som konstanten. Regneregel 5: E(K X) HVOR (K 5 2) ⇒ 2 1 1 1 1 1 2 2 1 2 6 5 7 6 6 6 Alternativ: k E(X) 5 2 3,5 VAR (X) 5 k2 VAR(X) 5 22 2,91 I det følgende er et praktisk eksempel på anvendelse af regneregler for middelværdi og varians for en stokastisk variabel. Hos Nokia i København ønsker HR-afdelingen5 at undersøge de forventede udgifter i forbindelse med sygedage. Fra erfaring ved HR ved vi at der er: 1. 7 sygedage i middelværdi for de mandlige ansatte med en standardafvigelse på 3 dage. 2. 5 sygedage i middelværdi for kvindelig ansatte med en standardafvigelse på 2 dage. Hvis vi antager, at en sygedag for en mandlig og en kvindelig ansat henholdsvis koster 2000 kr. og 1800 kr. Hvad kan HR så forvente at de årlige omkostninger til sygefravær bliver blandt 39 kvinder og 64 mænd. (både middelværdi og standardafvigelse beregnes). Data: M: Sygedage mandlig ansat K: Sygedage kvindelig ansat E(M) 5 7 VAR(M) 5 32Km 5 2000 nm 5 64 E(K) 5 5 5 VAR(K) 5 22Kk 5 1800 nk 5 39 Human ressource / personaleafdelingen Med fokus på erhvervslivet s. 75 Grundlæggende statistik Med fokus på erhvervslivet Stokastisk variabel De totale forventede udgifter til sygedage: Forventede mandlige sygedage: n 64 E(Mi) 5 i51 7 5 64 7 5 448 i51 Forventede udgifter til mandlige sygedage: E(KM M) 5 KM E(M) 5 2000 448 5 896.000 Forventede kvindelige sygedage: n 39 E(Ki) 5 i51 5 5 39 5 5 195 i51 Forventede udgifter til kvindelige sygedage: E(KK K) 5 KK E(K) 5 1800 195 5 351.00 De totale forventede udgifter til sygedage: E(M 1 K) 5 E(M) 1 E(K) 5 896.000 1 351.000 5 1.247.000 Standardafvigelsen for de totale udgifter til sygedage: Variansen for mandlige sygedage: n 64 VAR(Mi) 5 i51 9 5 64 9 5 576 i51 Variansen for udgifterne til mandlige sygedage: VAR(KM ? M) 5 KM2 1 VAR(M) 5 20002 ? 576 5 2.304.000.000 Variansen for de kvindelige sygedage: n i51 39 VAR(Ki) 5 4 5 39 4 5 156 i51 Variansen for udgifterne til kvindelige sygedage: VAR(KK ? K) 5 KK2 1 VAR(K) 5 18002 ? 156 5 505.440.000 Med fokus på erhvervslivet s. 76 Grundlæggende statistik Med fokus på erhvervslivet Stokastisk variabel Den totale varians for udgifterne til sygedage: VAR(M 1 K) 5 VAR(M) 1 VAR(K) 5 2.304.000.000 1 505.440.000 5 2.809.440.000 Den totale standardafvigelse for udgifterne til sygedage: Std.Afv. (M 1 K) 5 √ VAR(M 1 K) 5 √ 2.809.440.000 5 53004,15 Øvelser med stokastisk variabel De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af begreber relateret til en stokastisk variabel. I de efterfølgende opgaver er fokus rettet mod beregninger. Fortolkningsøvelser: 1. Hvordan vil du definere en stokastisk variabel? 2. Nævn eksempler på variable som er stokastiske. 3. Hvad er forskellen på en diskret og en kontinuert variabel? 4. Antag at DMI6 en given sommerdag måler temperaturen til 18 grader celsius. Sandsynligheden for at DMI har ret er lig med nul - hvorfor? Beregningsøvelser: Opgave 1. For en studerende på Niels Brock forventes det, at de daglige udgifter til mad udgør 35 kr. med en standardafvigelse på 7 kr. Der går 1000 elever på Niels Brock, heraf er de 55 % drenge. Spørgsmål 1. Hvad er de forventede udgifter til mad for hele Niels Brock? Spørgsmål 2. Hvad er standardafvigelsen for de forventede udgifter? Det antages, at de forventede udgifter til mad for en pige er 27 kr. med standardafvigelse på 5 kr. For en dreng er de tilsvarende forventede udgifter på 39 kr. med en standardafvigelse på 11 kr. Spørgsmål 3. Hvad er nu de forventede udgifter til mad for hele Niels Brock? Spørgsmål 4. Hvad er nu standardafvigelsen for de forventede udgifter? 6 Dansk Meteorologisk Institut Med fokus på erhvervslivet s. 77 Grundlæggende statistik Med fokus på erhvervslivet Stokastisk variabel Opgave 2. I starten af semesteret ønsker Niels Brock at estimere de samlede udgifter til bærbare computere for studerende på 2 forskellige skoler: Nørre Voldgade og Kultorvet. På Nørre Voldgade oprettes 15 hold og det forventes, at der er 30 elever pr. hold med en standardafvigelse på 4 elever. Tilsvarende oprettes 12 hold på skolen ved Kultorvet, hvor det forventes, at der er 28 elever pr. klasse med en standardafvigelse på 6 elever. Spørgsmål 1 Hvor mange elever kan man samlet forvente kommer til at gå på begge skoler? Studerende ved Nørre Voldgade er med i en særordning, hvor de kan købe bærbare computere til 3000 kr., mens de studerende ved Kultorvet derimod må betale 3500 kr. Spørgsmål 2.Antag at alle nye studerende fra på begge skoler køber bærbare computere. Hvad bliver de forventede udgifter? Spørgsmål 3.Hvad bliver standardafvigelsen for de forventede udgifter til bærbare computere på begge skoler? Løsninger til stokastisk variabel Fortolkningsøvelser: 1. En stokastisk variabel er betegnelsen for en numerisk variabel med en tilknyttet sandsynlighed for alle de mulige udfald. 2. Terningspil, roulette, lotto, aldersfordeling i en population. 3. Diskrete variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod etc. Fælles for diskrete variabler er, at de forekommer i hele enheder. Kontinuerte modsætningen til diskrete variable. Eksempelvis kan en kontinuert variabel som temperatur ikke afgrænses til en bestemt værdi, da vi kan tilføje et uendeligt antal decimaler til en temperaturmåling. 4. Det er ikke muligt at måle en eksakt værdi af en kontinuert variabel, da der kan tilføjes et uendeligt antal decimaler, derfor er sandsynligheden for en eksakt værdi ikke til stede. Med fokus på erhvervslivet s. 78 Grundlæggende statistik Med fokus på erhvervslivet Stokastisk variabel Beregningsøvelser: Opgave 1. Spørgsmål 1. X 5 Udgift til mad pr.elev (kr) 1000 E(Xi) 5 35 5 1000 35 5 35000 kr. i51 Spørgsmål 2. 1000 VAR(Xi) 5 72 5 1000 49 5 49000 kr. i51 Standardafvigelsen 5 √ 49000 5 221,359 kr. Spørgsmål 3. X 5 Udgift til mad for piger Y 5 Udgift til mad for drenge 450 E(Xi) 5 27 5 450 27 5 12150 kr. i51 550 E(Yi) 5 39 5 550 39 5 21450 kr. i51 E(X Y) 5 E(X) E(Y) 5 12150 kr. 1 21450 kr. 5 33600 kr Spørgsmål 4. 450 VAR(Xi) 5 52 5 450 25 5 11250 kr. i51 550 VAR(Yi) 5 11 5 550 121 5 66550 kr. i51 VAR(X Y) 5 VAR(X) VAR(Y) 5 11250 kr. 1 66550 kr. 5 77800 kr Standardafvigelsen (X Y) 5 √ VAR(X Y) 5 √ 77800 5 278,927 kr. Med fokus på erhvervslivet s. 79 Grundlæggende statistik Med fokus på erhvervslivet Stokastisk variabel Opgave 2. Spørgsmål 1. Hvor mange elever kan man samlet forvente fra begge skoler? X 5 Elever ved Nørre Voldgade Y 5 Elever ved Kultorvet 15 E(Xi) 5 30 5 15 30 5 450 kr. i51 12 E(Yi) 5 28 5 12 28 5 336 i51 E(X Y) 5 E(X) E(Y) 5 450 1 336 5 786 Spørgsmål 2. KX 5 3000 kr. Ky 5 3500 kr. E(KX ? X) 5 KX ? E(X) 5 3000 ? 450 5 1.350.000 kr. E(KX ? X) 5 KX ? E(X) 5 3500 ? 336 5 1.176.000 kr. E(X Y) 5 E(X) E(Y) 5 1.350.000 1 1.176.000 5 2.526.000 kr. Spørgsmål 3. 15 VAR(KX ? X) 5 KX ? VAR(X) 5 3000 ? 2 2 42 5 15 16 5 9.000.000 240 i51 5 2.160.000.000 kr. 12 VAR(KY ? Y) 5 KY2 ? VAR(Y) 5 35002 ? 62 5 15 12.250.000 432 i51 5 5.292.000.000 kr. VAR(X Y) 5 2.160.000.000 1 5.292.000.000 5 7.452.000.000 kr. Standardafvigelsen (X Y) 5 √ VAR(X Y) 5 √ 7.452.000.000 5 86.324,967 kr. Med fokus på erhvervslivet s. 80 KAPITEL 5 SANDSYNLIGHEDSFORDELINGER Statlearn.com KAPITEL 5 Sandsynlighedsfordelinger Sandsynlighedsfordelinger Sandsynlighedsfordelinger E En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de forskellige værdier af en given kan variabel. n sandsynlighedsfordeling beskrives som en illustration af sandsynlighederne for de forskellige værdier af en given variabel. forskellige værdier af en given variabel. Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af Ladterningkastet os antage atervores variabel er resultatet af et terningkast. af de 6 mulige lige sandsynlige, derfor må sandsynligheden forHvert et enkelt udfald være udfald 1/6. af terterningkastet er lige sandsynlige, derfor må sandsynligheden for et enkelt udfald være 1/6. ningkastet er lige sandsynlige,forderfor må vil sandsynligheden et enkelt udfald være Sandsynlighedsfordelingen variablen derfor antage enfor kasselignende form som i 1/6. SandSandsynlighedsfordelingen for variablen vil derfor en kasselignende i synlighedsfordelingen for variablen vil derfor antageantage en kasselignende formform somsom i nedenstående. nedenstående. Fordelingen illustrerer, at alle de forskellige værdier af terningkastet er lige Fordelingen illustrerer, at alle illustrerer, de forskellige værdier af terningkastet lige sandsynlige. nedenstående. Fordelingen at alle de forskellige værdier aferterningkastet er lige sandsynlige. sandsynlige. FIGUR 29: P(x) 20% P(x) 20% 15% 15% 10% 10% 5% 5% 0% 0% 1 1 2 2 3 3 4 4 x (sum af terningkast) x (sum af terningkast) 5 5 6 6 Når vi arbejder med data, er det sjældent at alle udfald er lige sandsynlige som med terninger. vi arbejder med data, detsjældent sjældentatatalle alle udfald udfald er lige sandsynlige Når Når vi arbejder med data, er er det sandsynligesom sommed medterninger. terninger. Det Det vil oftest være værdier, der ligger omkring gennemsnittet, som har den højeste vil oftest værdier, der ligger omkring gennemsnittet, somsom har har denden højeste sandsynlighed for Det vilvære oftest være værdier, der ligger omkring gennemsnittet, højeste sandsynlighed for at forekomme. at forekomme. sandsynlighed for at forekomme. Forestil dig dig at vi dedestuderende og grupperer gruppererobservationerne observationerne Forestil at vejer vi vejer studerende ii din din klasse klasse og i i vægtintervaller. Forestil dig at vi vejer de studerende i din klasse og grupperer observationerne i Sandsynlighedsfordelingen kunne eksempelvis se udeksempelvis som i følgende: vægtintervaller. Sandsynlighedsfordelingen kunne se ud som i følgende: vægtintervaller. Sandsynlighedsfordelingen kunne eksempelvis se ud som i følgende: FIGUR 30: P(x) 40% P(x) 40% 30% 30% 20% 20% 10% 10% 0% 0% 50-55 50-55 55-60 55-60 61-66 61-66 Videolektioner > Af Stephan Skovlund (Copyright) Af Stephan Skovlund (Copyright) 67-72 67-72 73-78 73-78 Vægt Interval (kg) Vægt 50-55 Interval (kg) 50-55 55-60 55-60 61-66 61-66 67-72 67-72 73-78 73-78 Total Total Obs. Obs. 3 63 146 914 79 7 39 39 Relativ frekvens Relativ8% frekvens 8% 15% 15% 36% 36% 23% 23% 18% 18% 100% 100% s. 82 Side | 87 Side | 87 Grundlæggende statistik ligger tæt på MedGennemsnitsvægten fokus på erhvervslivetligger tydeligvis i midten og de fleste observationer Sandsynlighedsfordelinger gennemsnittet med enkelte studerende, der vejer henholdsvis langt mere og mindre end gennemsnittet. Gennemsnitsvægten ligger tydeligvis i midten, og de fleste observationer ligger tæt på gennemsnittet Når medvienkelte studerende, der vejer henholdsvis langt mere mindre end gennemsnittet. arbejder med store datamængder giver fordelinger et og hurtigt overblik over de mest Skulle vi eksempelvis en et tilsvarende analyseover af de mest sandNårsandsynlige vi arbejderværdier. med store datamængder giverudarbejde fordelinger hurtigt overblik synlige værdier. Skulle eksempelvis udarbejde tilsvarende analyse hvor af vægtfordelingen vægtfordelingen forvialle 5 mio. danskere, kan en en fordeling illustrere, stor en andel affor alle 5 mio. danskere, kan en fordeling illustrere, hvor stor en andel af befolkningen som befinder sig i befolkningen som befinder sig i de forskellige vægtintervaller. de forskellige vægtintervaller. Relativ frekvens- og teoretiske fordelinger Der er fordelinger baseret på det data du indsamler og der er fordelinger baseret på teoretiske Relativ frekvens- og teoretiske fordelinger sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan Der er fordelinger baseret på det data du indsamler, og der er fordelinger baseret på teoretiske højden af alle danskere over 18 år er fordelt. Da du ikke har tid til at måle højden af alle sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan højden af stedet en stikprøve påhar 100tid personer. Du højden grupperer herefter de alledanskere, danskereudtager over 18du åri er fordelt. Da du ikke til at måle af alle danskere, udtager du observerede i stedet en stikprøve påhøjden 100 personer. Du grupperer herefter de observerede værdier af højden værdier af i nogle intervaller og beregner intervallets relative størrelse som i nogle og beregner intervallets relative størrelse som vist i nedenstående. vist intervaller i nedenstående. FIGURfrekvensfordeling 31: Relativ frekvensfordeling på 100 observationer Figur 16: Relativ baseret på 100baseret observationer P(x) 18 % 12 % 6% 0% 195-200 190-194 185-189 180-184 175-179 170-174 165-169 160-164 155-159 150-154 x (Højde i cm) Denne måde at illustrere sandsynligheder på kaldes for en relativ frekvens fordeling. Det Denne måde at illustrere på kaldes forinterval, en relativ frekvens Det søjlediagrammet viser, er sandsynligheder andelen af observationer i hvert i forhold til detfordeling. totale antal søjlediagrammet viser, er andelen af observationer i hvert interval, i forhold til det totale antal observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de forforskellige observationer i stikprøven. skellige observationer i stikprøven. Højde/cm 150-154 155-159 160-164 165-169 TABEL 55: Frekvens versus relativ frekvens F(x) 5 9 10 170-174 175-179 180-184 185-189 190-194 195-200 13 16 12 11 10 9 5 13 16 12 11 10 9 5 13% 16% 12% 11% 10% 9% 5% Højde/cm 150-154 155-159 160-164 165-169 170-174 175-179 180-184 185-189 190-194 195-200 P(x) 5% 9% 10% 13% 16% 12% 11% 10% 9% 5% F(x) 24: Frekvens 5 versus relativ 9 10 Tabel frekvens P(x) 5% 9% Af Stephan Skovlund (Copyright) Med fokus på erhvervslivet 10% Side | 88 s. 83 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Den teoretiske sandsynlighedsfordeling er baseret på en matematisk fremstilling af virkeligheden. Den teoretiske sandsynlighedsfordeling kan opfattes som en model, der afspejler de teoretiske sandsynligheder for en hel population, eksempelvis hvordan højden af alle danskere er fordelt. Teoretiske sandsynlighedsfordelinger er universelle, de kan anvendes for alle variable, så længe variablen opfylder bestemte kriterier. Ofte er ressourcer til at indsamle data for en hel population relativt begrænsede. I den sammenhæng kan en teoretisk sandsynlighedsfordeling med fordel anvendes som model for, hvordan data er fordelt i hele populationen. Forskellige fordelinger Der findes mange forskellige fordelinger, og det som adskiller dem er en række forudsætninger, som vi skal se nærmere på. Helt grundlæggende sondres mellem fordelinger der bygger på diskrete og kontinuerte variable. Som vi var inde på i afsnittet om stokastiske variable, kan en diskret variabel afgrænses til en enkelt enhed, eksempelvis en bil eller et hus. Kontinuerte variable er modsætningen, hvor enheden ikke kan opgøres præcist, med derimod kun måles. Eksempler på kontinuerte variable er temperatur, vægt og hastighed. Kontinuerte variabler er kendetegnet ved, at sandsynligheden for en bestemt værdi af variablen er nul. Helt konkret kan vi sige, at sandsynligheden for, at det en dag i juni bliver præcist 20 grader er nul. Vi kan ræsonnere os til at 20 grader ligeså vel kunne være 19,99999 eller 20,000001. Rent teoretisk er 20 grader således en værdi, som kan antage et uendeligt antal decimaler og som derfor ikke kan måles eksakt. Som nævnt er der forskellige typer af fordelinger. Dem vi skal se på er de mest gængse og kan indtil videre klassificeres som værende kontinuerte eller diskrete fordelinger. For at skabe et overblik over forskellen på de enkelte fordelinger, og hvordan de anvendes, vil der i det følgende være en kort gennemgang af egenskaberne for de enkelte fordelinger. Herefter vil der være en case, hvor fordelingerne anvendes i en praktisk sammenhæng. Med fokus på erhvervslivet s. 84 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Binomialfordeling Model: X~b(n, p) Parametre: Hvor �n” er stikprøvestørrelsen og �p” populationsandelen af mærkede elementer. Forudsætninger: a) Diskret variabel - variablen skal kunne opgøres i hele enheder. b) “n” eksperimenter observeres. Hver observation i stikprøven opfattes som udfaldet af ét blandt “n” antal eksperimenter. c) Konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er uafhængige af hinanden. d) Hvert element kan enten defineres som mærket eller ikke-mærket. Heraf betegnelsen binomial som refererer til to mulige udfald. Formel: n P(X 5 x) 5 x px(1 2 p)n2x Hvor “p” er populationsandelen og “n” er stikprøvestørrelsen og hvor n n! 5 x x!(n 2 x)! Middelværdi og varians: E(X) 5 n ? p VAR(X) 5 n ? p ? (1 2 p) EKSEMPEL: En formueforvalter hos PFA ved fra erfaring, at der er 15 % sandsynlighed for, at hun vælger en aktie, som efter et år har givet et negativt afkast. Hun har lige investeret i 10 forskellige aktier og ønsker nu at beregne sandsynligheden for, at alle aktier vil give et positivt afkast efter et år. Løsning: X: Aktie der efter et år giver et negativt afkast X ~ b(p 5 0,15, n 5 10) Beregning med formel: 10 P(X 5 0) 5 0 0,150(1 2 0,15)1020 5 0,19687 Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg binomial og indsæt værdier P(X 5 0) 5 0,19687 Der er således 19,69 % sandsynlighed for, at der vil være 0 aktier, som giver et negativt afkast efter et år. Omvendt er der omkring 80 % sandsynlighed for, at mindst 1 af aktierne vil give et negativt afkast. Med fokus på erhvervslivet s. 85 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Hypergeometrisk fordeling Model: X~h(N, m, n) Parametre: N 5 populationens størrelse, m 5 antal mærkede elementer i populationen og n 5 stikprøvestørrelsen. Forudsætninger: a) Diskret variabel (variablen skal kunne opgøres i hele størrelser). b) “n” elementer udtages fra en endelig population “N” (N skal være kendt, eller som minimum være mulig at opgøre/tælle). c) Der er ikke konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er afhængige af hinanden. d) Hvert element kan defineres som mærket (m) eller ikke mærket (m). Formel: m n2m x n2x P(X 5 x) 5 n n m m! Hvor x 5 x!(m 2 x)! Middelværdi og varians: m Såfremt p beregnes som gælder: N E(X) 5 n ? p VAR(X) 5 n ? p ? (1 2 p) ? N2n N21 EKSEMPEL: I en særlig version af lotto er der 12 kugler som nummereres fra 1-12. Kuglerne 1-4 defineres som vinderkugler. Antag at 4 tilfældige kugler udtrækkes blandt de 12. Hvad er sandsynligheden for at alle vinderkuglerne udtrækkes? Løsning: X: Vinderkugle (kugle 1 2 4) X~h(N 5 12, m 5 4, n 5 4) Med fokus på erhvervslivet s. 86 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Beregning med formel: P(X 5 4) 5 4 4 1224 424 5 0,00202 12 4 Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg hypergeometrisk og indsæt værdier P(X 5 4) 5 0,00202 Der er således 0,2 % (2 promille) sandsynlighed for at være så heldig, at alle 4 vinderkugler udtages. Poissonfordeling Model: X ~ Ps(l) Parametre: Intensiteten, l, fortolkes som det gennemsnitlige antal forekomster i et givent tidsrum eller indenfor et bestemt kvantum. n 5 antal perioder som l baseres på. Forudsætninger: a) Diskret variabel (variablen skal kunne opgøres i hele enheder) b) Antal af forekomster af mærkede elementer observeres over en periode eller opgøres pr. kvantum. Eksempelvis antal ulykker pr. måned eller antal kvindelige studerende pr. klasse. c) Elementerne indtræffer uafhængigt af hinanden i den givne periode (dvs. konstant sandsynlighed ligesom i binomialfordelingen) Formel: P(X 5 x) 5 lx 2l e x! Hvor l repræsenterer populationsintensiteten og e er en konstant med værdien 2,718 Middelværdi og varians: E(X) 5 l VAR(X) 5 l Med fokus på erhvervslivet s. 87 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger EKSEMPEL: Et hospital modtager hver dag gennemsnitligt 3,4 patienter med et brækket ben. Hvad er sandsynligheden for, at hospitalet en tilfældig dag modtager 5 patienter med brækket ben? Løsning: X: Patient med et brækket ben. X~Ps(l 5 3,4) Beregning med formel: P(X 5 5) 5 lx 2l 3,45 e 5 2.718223,4 5 0,12636 5! x! Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg poisson og indsæt værdier P(X 5 5) 5 0,12636 Fortolkning: er er 12,6 % sandsynlighed for, at der på en given dag vil være 5 patienter, der kommer ind med D et brækket ben på hospitalet. Normalfordelingen Model: X~N(m, s2) alternativt X~N(x, s2) Parametre: m / x– er gennemsnit og s2/s2 er standardafvigelsen for population/stikprøve. Forudsætninger: a) Data er tilnærmelsesvis normalfordelt. b) Kontinuert variabel. Hvis variabel er diskret vil denne kunne approksimeres, dvs. føres over i normalfordelingen, såfremt approksimationsbetingelserne herfor er opfyldt. En mere detaljeret redegørelse for approksimationsbetingelserne findes i �Appendiks 1” i slutningen af afsnittet om fordelinger. Formel: P(X # x) 5 P(Z # z) 5 Med fokus på erhvervslivet x2m x2m 5 f s s s. 88 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Alle normalfordelte variable kan med ovenstående formel omdannes til z-værdier. Z-værdier fortolkes som det antal standardafvigelser vi er fra normalfordelingens midtpunkt - mere herom under gennemgangen af normalfordelingen i afsnit Fejl! Henvisningskilde ikke fundet. Bemærk at normalfordelingen er en kumulativ tæthedsfunktion7 (f) baseret på en kontinuert variabel. Kontinuerte variable kan, i modstæning til de diskrete, ikke afgrænses til en hel enhed. I normalfordelingen er det derfor sandsynligheden for intervaller der beregnes - ikke sandsynligheden for eksakte værdier. Eksempelvis beregnes sandsynligheden for, at det bliver mellem 24 og 25 grader og ikke sandsynligheden for, at det vil blive eksakt 25 grader. Af samme årsag anvender vi i normalfordelingen kun symbolerne højst “#” og mindst “$” men ikke “5”. EKSEMPEL: En meteorolog ved, at det i tidsrummet 12-16 gennemsnitligt er 19,3 grader celsius i juni måned med en standardafvigelse på 4,5 grader. Hvad er sandsynligheden for, at det bliver mindst 22 grader? Løsning: X: Temperatur i dagtimerne (grader celsius) i juni måned. X~N(m 5 19,3, s 5 4,5) Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg normalfordeling og indsæt værdier P(X $ 22) 5 0,274 Der er således 27,4 % sandsynlighed for, at det mindst vil blive 22 grader i dagtimerne i juni måned. 7 En kumulativ tæthedsfunktion beskriver “tætheden” af observationerne for en værdi af en given kontinuert variable. Med fokus på erhvervslivet s. 89 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Oversigter over fordelinger og deres kendetegn TABEL 56: Oversigt over diskrete sandsynlighedsfordelinger Diskrete fordelinger Hypergeometrisk Binomial Poisson Model: X ~ h(N, m, n) Model: X~b(n, p) Model: X~Ps Kendetegn: - Diskret variabel - Ikke konstant sandsynlighed Kendetegn: - Diskret variabel - Konstant sandsynlighed Kendetegn: - Diskret variabel - Forekomster i en periode EKSEMPEL: Fra en æske med 100 skruer hvoraf 20 er rustne udtages en stikprøve på 10 skruer. Hvad er sandsynligheden for, at stikprøven indeholder mindst 3 rustne skruer? EKSEMPEL: En tappemaskine der producerer Coca-Cola flasker fylder med 5 % sandsynlighed for meget i flasken. Hvad er sandsynligheden for at 2 ud af 100 flasker indeholder for meget? EKSEMPEL: Hvad er sandsynligheden for, at et hospital modtager mere end 5 patienter med brækket ben, hvis det daglige gennemsnit er 3,4 patienter? X: Rusten skrue X ~ h(N 5 100, m 5 20, n 5 10) P(X $ 3) 5 0,318 X: Overfyldt flaske X ~ b(p 5 0,05, n 5 100) P(X 5 2) 5 0,081 Beregning med Statlearn program: Vælg fordelinger og derefter “Hypergeometrisk” Beregning med Statlearn program: Vælg fordelinger og derefter “Binomial” X: Patient med brækket ben X ~ Ps 5 3,4) P(X $ 6) 5 0,129 Beregning med statlearn program: Vælg fordelinger og “Poisson” TABEL 57: Kontinuert sandsynlighedsfordeling (normalfordelingen) Normalfordelingen (kontinuert fordeling) Model: X ~ N(m ,s2) Kendetegn: - Kontinuert variabel - Fordelingen er symmetrisk og klokkeformet med gennemsnittet i midten. Med andre ord må fordelingen ikke være venstre- eller højreskæv. EKSEMPEL: En meteorolog ved fra erfaring, at det i juni i dagtimerne gennemsnitligt er 19,3 grader med en standardafvigelse på 6 grader. Hvad er sandsynligheden for, at det en tilfældig juni dag i dagtimerne bliver mindst 25 grader? X: Grader (celsius) i dagtimerne i juni. X ~ N(m 5 19,3, s2 5 36) P(X $ 25) 5 0,171 Beregning med Statlearn program: Vælg fordelinger og derefter “Normalfordeling” Med fokus på erhvervslivet s. 90 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Case Virksomheden Gene Food har specialiseret sig i at sælge fødevarer tilsat planteekstrakter med kolesterolsænkende virkning. Siden lanceringen i 2003 har virksomheden oplevet en forrygende vækst, men væksten har ikke været uden omkostninger. Et stigende antal kunder er begyndt at klage over produkterne. Kundernes klager er især møntet på de tre største produkter: 1. Mangodrik der sælges i kasser á 30 stk. 2. Chokoladebagels som sælges i poser á 2 kg 3. Nødder der sælges i æsker á 500 gram. Hvad angår Mangodrik er klagerne møntet på, at etiketterne ofte vender forkert. Med chokoladebagels klages over manglende chokoladeovertræk, og med nødderne klages over at æskerne vejer væsentligt mindre end de 500 gram som står angivet. Som du muligvis har gættet, er alle tre kvalitetsproblemer relateret til sandsynligheder. I tilfældet med Mangodrik er det sandsynligheden for, at etikettemaskinen vender etiketten forkert. Med chokoladebagels er det sandsynligheden for, at overtræksmaskinen mangler chokolade, og med nødderne er det sandsynligheden for, at en æske underfyldes. Som du kan se, varierer forudsætningerne for de enkelte kvalitetsproblemer. Hvad angår flaskerne er variablen diskret, og sandsynligheden for, at etikettemaskinen laver en fejl kan vi med rimelighed antage at være konstant. Hvis etikettemaskinen vender en etikette forkert, påvirker det ikke sandsynligheden for, at den efterfølgende flaske ligeledes får vendt etiketten forkert. Med chokoladebagels er variablen også diskret, men da størrelsen og vægten på en bagel varierer, i modsætning til mangodrik med præcist 30 flasker i en kasse, ved vi ikke nøjagtigt hvor mange bagels der er i en pose. Den sidste klage går på, at æskerne med nødder ofte vejer mindre end 500 gram. Nødderne måles således på vægten af æskerne og er derfor en kontinuert variabel. For at få overblik over de nuværende produktionsforhold, indsamler du information fra din erfarne produktionsleder, som oplyser følgende: 1. Sandsynligheden for en etikettefejl er 5%. 2. Der er i gennemsnit 0,4 bagels der ikke får chokoladeovertræk. 3. Der opfyldes gennemsnitligt 505 gram nødder i æskerne, standardafvigelsen er på 15 gram. Med fokus på erhvervslivet s. 91 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger I forbindelse med Mangodrik måler vi antallet af flasker med etikettefejl. Antal flasker opgøres i hele enheder og er derfor en diskret variabel. Udfordringen er nu at finde den rette diskrete fordeling. Da vi arbejder med et bestemt antal eksperimenter og ikke et gennemsnit eller tidsinterval, kan vi udelukke poissonfordelingen. Spørgsmålet er nu, om variablen følger en hypergeometrisk- eller en binomialfordeling. Kravet til binomialfordelingen er konstant sandsynlighed, dvs. at udfaldet af hændelserne fejl og ikke-fejl ikke må påvirke hinanden. Hvis vi antager, at en flaske der får en etikettefejl ikke påvirker sandsynligheden for, at den efterfølgende flaske også får en etikettefejl, er der tale om konstant sandsynlighed. Det passer med binomialfordelingen. Fra produktionslederen ved vi, at etikettefejl opstår med 5 % sandsynlighed, hvad er så sandsynligheden for, at en hel kasse med 30 flasker indeholder etikettefejl? Fremgangsmåde med binomialfordeling: Variabel: X: Flaske med etikettefejl Model: X ~ b(p 5 0,05, n 5 30) Hvor “p” er sandsynligheden for et udfald af vores variabel, etikettefejl, og “n” er stikprøvestørrelsen. Forudsætninger a) Diskret variabel (hele flasker). b) “n” elementer observeres (30 flasker pr. kasse). c) Konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter. d) Hvert element kan defineres som mærket eller ikke-mærket. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg binomial og indsæt værdier P(X 5 0) 5 0,215 Med fokus på erhvervslivet s. 92 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Der er 21,5 % sandsynlighed for at en kasse indeholder flasker uden etikettefejl. Det er således en anelse bekymrende, at en kunde med ca. 80 % sandsynlighed vil modtage flasker med etikettefejl, hver gang der bestilles en kasse Mangodrik. (Eksempel fortsat) For at sikre dine kunder ikke får varer der indeholder fejl, har du og dine medarbejdere brugt mange kræfter på at kontrollere varerne på lageret. Blandt 100 paller med Mangodrik har i frasorteret 7 paller der skal kasseres. Ved en fejl blev de 7 defekte paller ikke kasseret, men flyttet tilbage sammen med de øvrige paller. Din største kunde har lige bestilt 15 paller Mangodrik og du ønsker derfor hurtigt at beregne sandsynligheden for, at han har modtaget én eller flere paller med defekte varer. Ligesom med flaskerne er en palle en diskret variabel, en variabel der kan opgøres i hele enheder. Men i modsætning til flaskerne ved vi præcist hvor mange mærkede elementer “m” (defekte paller 5 7) der er i vores population “N” (alle paller 5 100). Ved hvert udtag fra populationen (N) ændres sandsynligheden derfor for at udtage en defekt palle. Ved første udtag er sandsynligheden for en defekt palle: 7 100 Afhængig af om der er blevet udtaget en normal eller en defekt palle, er sandsynligheden for en defekt palle ved andet udtag: 6 7 eller 99 99 Som det fremgår ændres sandsynligheden for en defekt palle således efter hvert udtag. Når vi har en diskret variabel (palle), en kendt population (100 paller) med et bestemt antal mærkede elementer (defekt palle) er variablen hypergeometrisk. Vendes tilbage til udgangspunktet ønskes sandsynligheden for at der blandt 15 paller er en eller flere defekte paller. Med fokus på erhvervslivet s. 93 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Fremgangsmåde i den hypergeometriske fordeling: Definition af variabel: X: Defekt palle Model: X ~ h(N 5 100, m 5 7, n 5 15) Hvor “N” er antal elementer i populationen, “m” antal mærkede elementer og “n” stikprøvestørrelsen. Forudsætninger: a) Diskret variabel (en palle) b) “n” elementer udtages fra en endelig population “N” (en kunde køber 15 paller ud af i alt 100). c) Ikke konstant sandsynlighed, dvs. afhængighed mellem de enkelte eksperimenter som i foregående eksempel. d) Hvert element kan defineres som mærket eller ikke mærket (ikke-defekt palle/defekt palle). Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg hypergeometrisk og indsæt værdier P(X $ 1) 5 0,6916 Der er således 69,2 % sandsynlighed for, at der som minimum vil være 1 defekt palle blandt de 15 som kunden har bestilt. (Eksempel fortsat) Hvad angår kvalitetsproblemerne med chokoladebagels klages der over, at de ofte mangler chokoladeovertræk. Produktionslederen har estimeret, at der gennemsnitligt er 0,4 bagels, som mangler chokoladeovertræk pr. pose á 2 kg. På den baggrund ønsker du at kende sandsynligheden for, at en given pose vil indeholde en eller flere bagels uden chokoladeovertræk. Da vægten og størrelsen af bagels varierer, er der ikke altid det samme antal bagels i en 2 kg’s pose. I stedet for at arbejde med et præcist antal eksperimenter, som i eksemplet med mangodrikken og defekte paller, anvendes et gennemsnit. Herudover er en bagel på lige fod med de to førnævnte variable diskret, hvilket leder os over i poissonfordelingen. Hvad er sandsynligheden for, at en enkelt bagelpose indeholder bagels uden chokoladeovertræk? Med fokus på erhvervslivet s. 94 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Fremgangsmåde med poisonfordeling: Definition af variabel: X: Chokoladebagel uden chokoladeovertræk Model: X ~ Ps(l 5 0,4) Forudsætninger: a) Diskret variabel (hele bagels) b) Antal af forekomster af mærkede elementer observeres over en periode el. kvantum (pose á 2 kg). c) Elementerne indtræffer uafhængigt af hinanden. Da en bagel med fejl ikke ændrer på sandsynligheden for, at den næste bagel også produceres med fejl, er produktionsfejl uafhængige af hinanden. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg poisson og indsæt værdier P(X 5 0) 5 0,6703 Fortolkning: Der er hermed 67 % sandsynlighed for, at en pose bagels ikke indeholder fejl, dvs. bagels uden chokoladeovertræk. Omvendt er der 33 % sandsynlighed for, at en pose indeholder fejl, hvilket ikke kan siges at være helt tilfredsstillende for kunderne. Fremgangsmåde ved normalfordeling: Med nødderne klager kunderne over, at vægten på æskerne med nødder ofte er under de 500 af gram, der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger vi os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar størrelse. Når vi vejer en genstand kender vi aldrig den eksakte vægt, da denne kan angives med uendeligt antal decimaler. Af samme årsag klassificeres variablen vægt som kontinuert, hvilket leder os over i normalfordelingen. Med fokus på erhvervslivet s. 95 (Eksempel fortsat) Grundlæggende statistik klager kunderne over, at vægten på æskerne med nødder Sandsynlighedsfordelinger ofte er under de 500 MedMed fokusnødderne på erhvervslivet gram der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk. Betegnelsen vi os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable følger en normalstørrelse. Nåren vi klokkeformet vejer en genstand kender vi aldrig den med eksakte vægt da denne kan angives fordeling. De har sandsynlighedsfordeling gennemsnittet i midten og et ligemed uendeligt antal på decimaler. Af samme årsag klassificeres variablen vægt som kontinuert ligt antal observationer hver side. hvilket leder os over i normalfordelingen. FIGUR 32: Normalfordelingen (Standard normalfordeling) Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk. P(z) normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable Betegnelsen følger en normalfordeling. De har en klokkeformet sandsynlighedsfordeling med gennemsnittet i midten og et ligeligt antal observationer på hver side. Figur 17: Normalfordelingen P(z) .09 .08 .07 .06 .05 z .04 .03 .02 z .01 .00 0.001 10.001 20.001 30.001 40.001 For at forstå tanken med normalfordelingen kan vi antage, at vi udtager en stikprøve på 10 æsker medFor nødder og vejer hver enkelt æske. Efterfølgende vi vi observationerne i kategorier at forstå tanken med normalfordelingen kan viinddeler antage, at udtager en stikprøve på 10 som vist i nedenstående. æsker med nødder og vejer hver enkelt æske. Efterfølgende inddeler vi observationerne i kategorier som vist i nedenstående. FIGUR 33: Fordeling af vægten på 10 tilfældigt udvalgte med Figur 18: Fordelingæsker af vægten pånødder 10 tilfældigt udvalgte æsker med nødder P(x) 30% 20% 10% 505 - 509 500 - 504 495 - 499 490 - 494 485 - 489 480 - 484 475 - 479 < 475 0% x (vægtintervaller af æsker målt i gram) Af Stephan Skovlund (Copyright) Med fokus på erhvervslivet Side | 105 s. 96 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Fordelingen er tydeligvis usymmetrisk uden de store fællestræk med den normalfordeling, du lige er tydeligvis usymmetrisktiluden store fællestræk normalfordeling duog har Fordelingen set. Men øger vi stikprøvestørrelsen barede100 æsker, vil du med se enden langt mere udglattet symmetrisk (normal) fordeling. lige har set. Men øger vi stikprøvestørrelsen til bare 100 æsker vil du se en langt mere udglattet og symmetrisk (normal) fordeling. FIGUR 34: 25% P(x) 20% 15% 10% 5% >519 515 - 519 510 - 514 505 - 509 500 - 504 495 - 499 490 - 494 485 - 489 480 - 484 475 - 479 < 475 0% x (vægtintervaller af æsker målt i gram) Årsagen til denne transformation er, at vi har fået flere observationer, der dækker et bredere Årsagen til denne transformation er, at flereobservationerne observationer, der dækker bredere spekspektrum af værdier. Det betyder at vi vihar kanfået inddele i mindre ogetmere snævre trum af værdier. Det betyder at vi kan inddele observationerne i mindre og mere snævre intervaller, intervaller, som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge stikprøvestørrelsen vil vores stikprøvestørrelsen vil vores intervaller blive uendeligt små, hvilket vil få vores fordeling til at intervaller blive uendeligt små, hvilket vil få vores fordeling til at ligne en glat kurve med gennemligne en glatog kurve med gennemsnittet i midten og tilnærmelsesvis halvdelen af snittet i midten tilnærmelsesvis halvdelen af observationerne på hver side af gennemsnittet. En variabel der fordelerpå sighver somside netop beskrevet er normalfordelt. observationerne af gennemsnittet. En variabel der fordeler sig som netop normalfordelt. Det beskrevet der reeltermenes med normalfordelte va- FIGUR 35: riable er, at de har samme egenskaber som Det der reelt menes med normalfordelte variable er, at de har samme egenskaber som 95% standardnormalfordelingen. Standardnormalfor68% model, der ligger standardnormalfordelingen. Standardnormalfordelingen er den matematiske delingen er en matematisk model hvor gennemtil grund med nødder1-modellen vi lige har diskuteret. Standardnormalfordelingen baseres snittet er 0,for ogeksemplet standardafvigelsen betegnes: X~N(m 5 0, s 5 1). Standardnormalpå såkaldte z-værdier, hvilket svarer til et antal standardafvigelser fra gennemsnittet, dvs. fordelingen baseres på såkaldte z-værdier, hvilket midten af fordelingen. Standardnormalfordelingen kendetegnes ved at have en fast svarer til et antal standardafvigelser fra gennemm sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet og selve snittet, dvs. midten af fordelingen. Standardnorm1z arealet af fordelingen somved illustreret malfordelingen kendetegnes at havenedenfor. en fast m2z sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet og selve arealet af fordelingen som illustreret nedenfor. Med fokus på erhvervslivet Af Stephan Skovlund (Copyright) s. 97 Side | 106 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Som vi kan se, er der eksempelvis 68 % sandsynlighed for, at en vilkårlig observation vil ligge i intervallet mellem 1 standardafvigelse fra gennemsnittet, når variablen følger en normalfordeling. Vender vi tilbage til eksemplet med nødderne, ved du at maskinen gennemsnitligt fylder 505 gram i æskerne med en standardafvigelse på 15 gram. Da vægt er en kontinuert variabel, antages variablen at være normalfordelt8, hvilket betyder at 1/2 68 % af vores observationer (æsker) vil ligge i intervallet 490 til 520 gram. Det bliver nu helt tydeligt, at en væsentlig del af æskerne vil veje mindre end den vægt der er angivet på æskerne. Hvad er i den forbindelse sandsynligheden for, at en æske højst vejer 500 gram? Se videoforklaring af normalfordelingen> Fremgangsmåde med en normalfordeling: Definition af variabel: X: Vægten på en æske med nødder Model: N(m 5 505 gram, s 5 15 gram) Forudsætninger: a) Indsættes data i et normalfraktildiagram skal de tilnærmelsesvis er omkring en ret linje. b) Uafhængighed mellem de enkelte observationer. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg normalfordeling og indsæt værdier P(X # 500) 5 0,3694 Fortolkning: Der er således 36,9 % sandsynlighed for, at en æske højst vil veje 500 gram, når gennemsnittet er 505 gram og standardafvigelsen 15 gram. Det betyder således, at omkring en tredjedel af æskerne vil være underfyldt. 8 Formelt set kan variablen testes for at se om den følger normalfordelingen, se afsnittet om multinomiske test. Med fokus på erhvervslivet s. 98 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Opsummering Vi har nu været inde på fire grundlæggende fordelinger, tre diskrete og en kontinuert. Binomialfordelingen anvendes når vi har konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter. I eksemplet med Mangodrik var der en konstant sandsynlighed for, at etikettemaskinen lavede en fejl. Der var med andre ord uafhængighed mellem hver enkelt flaske der passerede etikettemaskinen. I modsætning til binomialfordelingen, er sandsynligheden ikke konstant ved en hypergeometrisk fordeling. I den hypergeometriske fordeling ændres sandsynligheden for det mærkede element, ved hvert udtag fra populationen. Dette skyldes at populationen indeholder et eksakt antal mærkede elementer. I eksemplet med lotto var der 4 vinderkugler (mærkede elementer) ud af i alt 12 kugler (population). Hver gang en kugle udtages fra populationen (alle lottokuglerne), ændres sandsynligheden for at udtage de resterende vinderkugler, da der efter hver udtrækning er en kugle mindre tilbage. Poissonfordelingen baseres ligesom de to foregående fordelinger på en diskret variabel. I modsætning til binomialfordelingen, hvor vi har et fast antal eksperimenter, så mangler denne information for en variabel der følger poissonfordelingen. I tilfældet med chokoladebagels ved vi ikke præcist hvor mange bagels der er i en pose, og derfor tager vi udgangspunkt i et gennemsnitligt antal defekte bagels pr. pose. Normalfordelingen anvendes når vi arbejder med kontinuerte variable. I eksemplet med nødderne er variablen kontinuert, da vægt er en målbar enhed, der kan angives med et uendeligt antal decimaler. Som vi var inde på, er alle normalfordelte variabler baserede på standardnormalfordelingen, som bygger på en fast sammenhæng mellem antallet af standardafvigelser fra gennemsnittet og arealet af fordelingen. Antallet af standardafvigelser fra gennemsnittet udtrykkes i standardnormalfordelingen med z-værdier. Fordelingsøvelser De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af de forskellige fordelinger. Efterfølgende er opgaverne rettet mod beregninger hvor Statlearn programmet anvendes. Fortolkningsøvelser: 1. Hvorfor anvendes sandsynlighedsfordelinger i det hele taget? 2. Hvordan vil du fortolke forskellen på en diskret og en kontinuert sandsynlighedsfordeling? 3. Hvordan vil du forklare forskellen på en binomial- og en hypergeometrisk variabel? 4. I hvilken sammenhænge anvendes poissonfordelingen? 5. I både poisson og normalfordelingen indgår et gennemsnit til at beregne sandsynligheder. Hvordan ved du om du skal anvende en poissonfordeling i stedet for en normalfordelingen? Med fokus på erhvervslivet s. 99 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Beregningsøvelser Opgave 1. De tre nedenstående spørgsmål er en øvelse i at finde de eksakte fordelinger. Du skal kun tage stilling til hvilken fordeling variablen følger og derfor ikke beregne sandsynligheder. Til alle tre spørgsmål er det vigtigt, at du forsøger at definere variablen (X) og opstiller den korrekte notation for de forskellige fordelinger. Spørgsmål 1.Til det årlige møde i FN er topembedsmænd samlet fra alle nationer. Hvad er sandsynligheden for, at en stikprøve med 10 embedsmænd indeholder tre fra Afrika. Spørgsmål 2.På en bestemt strækning ved Lyngby motorvej, er der en given sandsynlighed for en ulykke. Hvad er chancen for, at der sker 4 ulykker når 2000 biler er kørt forbi strækningen? Spørgsmål 3.En ejendomsmægler ved, at der gennemsnitligt sælges 10 sommerhuse pr. måned i sommerhalvåret – hvad er sandsynligheden for at der sælges 30 sommerhuse på 2 måneder i sommerhalvåret? Opgave 2. Antag at studerende på Niels Brock med 40 % sandsynlighed kommer direkte fra gymnasiet, og at der udtages en stikprøve på 100 studerende. Spørgsmål 1. Hvilken fordeling følger vores variabel? (Uddyb) Spørgsmål 2.Hvad er sandsynligheden for, at stikprøven indeholder mere end 40 og højst 70 studerende, der kommer direkte fra gymnasiet? Opgave 3. En gruppe rejsende ankommer til Barbados i to forskellige fly, A og B. Gruppen er i alt på 100 turister, hvoraf 30 rejser med fly A. Du er som rejseleder blevet informeret, at der blandt de 100 kufferter er mistet 5, og skal nu meddele det til gruppe A som lige er landet. Inden du taler med gruppe A ønsker du at kende sandsynligheden for, at der overhovedet er mistede kufferter blandt denne gruppe? Spørgsmål 1. Definer fordeling og uddyb valg. Spørgsmål 2.Hvad er sandsynligheden for at gruppe A ingen mistede kufferter har? (Husk at definere variabel) Spørgsmål 3.Hvad er sandsynligheden for, at kun én person har mistet en kuffert i gruppe B? (Husk at definere variabel) Med fokus på erhvervslivet s. 100 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Opgave 4. En læge skal bestille en ny sending Epo9 til patienter med svækket iltoptagelse. Lægen ved, at der er 100 patienter der til dagligt skal have 10 ml Epo, og at lægemidlet virker i 90 % af tilfældene. For de resterende 10 % skal patienterne have dobbeltdosis for at medikamentet virker. Ved dobbeltdosis antages Epo at virke med 100 % sandsynlighed. Spørgsmål 1.Hvad er sandsynligheden for, at Epo en given dag virker for mindre end 83 patienter ved en enkelt dosis? Spørgsmål 2.Hvad er sandsynligheden for at mindst 9 og højst 12 patienter skal have dobbeltdosis en given dag? Spørgsmål 3.Hvad er sandsynligheden for, at der er mindre end 65 patienter, der skal have dobbeltdosis på en uge (7 dage)? Spørgsmål 4. Hvor mange liter Epo må lægen forvente, at der bruges på en hel uge? Opgave 5. En børsmægler har igennem længere tid fulgt Nokias aktiekurs. Hun har observeret, at aktien i gennemsnit stiger 5 % med en standard afvigelse på 1,3 %, når virksomheden i kvartalsregnskaberne øger indtjeningen udover det forventede. Antag at det kommende kvartalsregnskab bliver bedre end forventet. Hvad er da sandsynligheden for, at kursen stiger med mindst 6,5 %? Opgave 6. Salgsdirektøren for BMW Odense forventer, at der i sommerhalvåret gennemsnitligt sælges 30 biler pr. måned. Spørgsmål 1.For at tilpasse lageret ønsker logistiklederen at du beregner sandsynligheden for, at der sælges mellem 30 og 40 biler i juni måned? Spørgsmål 2. Hvad er sandsynligheden for, at der i sommerhalvåret sælges over 200 biler? Epo (el. Erythroprotein) er et hormon, som naturligt produceres i nyrerne for at stimulere knoglemarven til produktion af røde blodlegemer, der er nødvendige til transport af ilt til musklerne. 9 Med fokus på erhvervslivet s. 101 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Opgave 7. Vi antager at de små Coca-Cola flasker på 15 ml, der serveres på fly har en gennemsnitlig fyldhøjde på 10 cm og en standardafvigelse på 1 cm. Hvis fyldehøjden er under 8,2 cm er flasken underfyldt, og hvis den er over 11,5 cm er den tilsvarende overfyldt. Spørgsmål 1.Hvad er sandsynligheden for, at en flaske er overfyldt? Illustrer området med en normalfordeling. Spørgsmål 2.Hvad er sandsynligheden for, at en flaske enten vil være over- eller underfyldt? Illustrer som i spørgsmål 1. Spørgsmål 3.Hvis en kasse indeholder 30 Coca-Cola flasker, hvad er så sandsynligheden for, at den gennemsnitlige fyldehøjde for en hel kasse er større end 8,2 cm? Spørgsmål 4.Hvis vi har en z-værdi på 3, hvad svarer det så til i fyldehøjde for en enkelt flaske? Hvad er fyldehøjden hvis z-værdien er – 1? Opgave 8. Antag antallet af klager der hver måned modtages i Nordeas kundeservice, følger en poissonfordeling med et gennemsnit på 255. Spørgsmål 1. Hvad er sandsynligheden for at Nordea: a) En given måned modtager mere end 300 klager? b) I løbet af 3 måneder maksimalt modtager 750 klager? c) I løbet af 1 dag ingen klager modtager (forudsat 23 arbejdsdage/måned)? Spørgsmål 2.Hvad er sandsynligheden for, at Nordea i to sammenhængende måneder præcist modtager 255 klager i hver måned? Der forudsættes uafhængighed mellem antallet af de månedlige klager. (Tip: Fællesmængden) Med fokus på erhvervslivet s. 102 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Løsninger til sandsynlighedsfordelinger I det følgende fremgår løsninger til øvelserne for sandsynlighedsfordelinger. Det skal nævnes, at løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses så den indeholder alle de oplysninger der fremgår ved beregninger foretaget med Statlearn program statistikprogrammet. Fortolkningsøvelser 1. Fordelinger anvendes for at beregne sandsynligheder på en effektiv måde. Styrken ved fordelinger ligger i akkumulation af sandsynligheder. Uden fordelinger ville det være nødvendigt at beregne sandsynligheder manuelt for hver enkelt værdi af den stokastiske variabel. Eksempelvis skulle sandsynligheden: P(X # 3) beregnes ved at summere sandsynlighederne for fire separate beregninger: P(X 5 0) 1 P(X 5 1) 1 P(X 5 2) 1 P(X 5 3). Med en sandsynlighedsfordeling kan aflæses direkte i fordelingen, derved udgås tidskrævende beregninger. 2. En diskret variabel kan opgøres i hele enheder, eksempelvis et hus eller en bil. Kontinuerte variable kan ikke på samme vis afgrænses til hele enheder. Kontinuerte variable kendetegnes ved at være størrelser, der ikke kan måles helt eksakt. Værdien af en kontinuert variabel kan tilføjes et uendeligt antal decimaler - eksempler herpå er temperatur, hastighed og tid. 3. Binomiale variable kendetegnes ved konstant sandsynlighed for hvert udfald af et eksperiment. Kastes en terning er sandsynligheden for et bestemt udfald 1/6. Uanset hvor mange gange terningen kastes, forbliver sandsynligheden 1/6 for et bestemt udfald – deraf konstant sandsynlighed. Med en hypergeometrisk variabel forholder det sig omvendt. I forbindelse med Lotto (36 kugler) er der ved første udtag en sandsynlighed på 1/36 for at udtage en bestemt kugle. Efter hvert udtag ændres sandsynligheden, da der er færre kugler tilbage. 4. Poissonfordelingen anvendes i forbindelse med diskrete variable, hvor hændelserne indtræffer uafhængigt af hinanden i et bestemt tidsinterval. 5. Poissonfordelingen baseres på en diskret variabel, hvorimod normalfordelingen baseres på en kontinuert variabel. Med fokus på erhvervslivet s. 103 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Beregningsøvelser Opgave 1. Spørgsmål 1. X: Antal FN embedsmand fra Afrika. X ~ h(N 5 alle FN embedsmænd, m 5 FN embedsmænd fra Afrika, n 5 10) P(X 5 3) Forudsætninger: a) Diskret variabel b) n elementer udtages fra en endelig population (N) c) Ikke konstant sandsynlighed, dvs. afhængighed mellem de enkelte eksperimenter d) Hvert element kan defineres som mærket eller ikke-mærket (Afrika, ikke-Afrika) Spørgsmål 2. X: Antal ulykker ved Lyngby motorvej X ~ b(p, n) P(X 5 4) Forudsætninger: a) Diskret variabel b) n elementer observeres c) Konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter (en bil) d) Hvert element kan defineres som mærket eller ikke-mærket (ulykke, ikke-ulykke) Spørgsmål 3. X: Antal solgte sommerhuse pr. måned i sommerhalvåret. X ~ Ps(l 5 20) P(X 5 30) Forudsætninger: a) Diskret variabel b) Antal af forekomster af mærkede elementer observeres over en periode (solgte sommerhuse) c) Elementerne indtræffer uafhængigt af hinanden d) Konstant sandsynlighed for forekomst af et mærket element Med fokus på erhvervslivet s. 104 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Opgave 2. Spørgsmål 1. X: Antal Niels Brock studerende der kommer direkte fra gymnasiet ~ b(p 5 0,4 n 5 100) da der er konstant sandsynlighed for, at en elev kommer X direkte fra gymnasiet Spørgsmål 2. P(41 # X # 70) 5 0,456706 Opgave 3. Spørgsmål 1. X ~ h(N 5 100 m 5 5 “n” kendes endnu ikke) en hypergeometriske fordeling vælges, da sandsynligheden for en mistet kuffert ændres D hver gang en turist udvælges. Der er således ikke tale om konstant sandsynlighed for en mistet kuffert. Spørgsmål 2. X: Antal turister med mistet kuffert fra gruppe A X ~ h(N 5 100 m 5 5 n 5 30) P(X 5 0) 5 0,160757 Spørgsmål 3. Y: Antal turister med mistet kuffert fra gruppe B Y ~ h(N 5 100, m 5 5, n 5 70) P(Y 5 1) 5 0,02548 Opgave 4. Spørgsmål 1. X: Antal patienter som kun skal have en enkelt dosis Epo X ~ b(p 5 0,9 n 5 100) da variablen er diskret, og der er uafhængighed mellem patienter der skal have Epo P(X # 82) 5 0,010007 Med fokus på erhvervslivet s. 105 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Spørgsmål 2. Y: Antal patienter som skal have en dobbeltdosis Epo Y ~ b(p 5 0,1 n 5 100) P(9 # X # 12) 5 0,4809 Spørgsmål 3. Y: Antal patienter som skal have en dobbeltdosis Epo på en uge (7 dage) Y ~ b(p 5 0,1 n 5 700) P(X # 64) 5 0,246935 Spørgsmål 4. X: Enkelt dosis Epo (10 ml) Y: Dobbeltdosis Epo (20 ml) E(X) 5 n p 5 700 0,9 5 630 → 10 ml 630 5 6300 ml E(Y) 5 n p 5 700 0,1 5 70 → 20 ml 70 5 1400 ml E(X) 1 E(Y) 5 6300 1 1400 5 7700 ml 5 7,7 l Opgave 5. X: Nokias aktiekurs når virksomheden i kvartalsregnskaberne øger indtjeningen udover det forventede X ~ N(m 5 0,05 s 5 0,013) Normalfordelingen vælges da aktiekursen er en kontinuert variabel P(X $ 0,065) 5 0,124282 Opgave 6. Spørgsmål 1. X: Antal biler der sælges pr. måned i sommerhalvåret (6 måneder) X ~ Ps(l 5 30) P(30 # X # 40) 5 0,491973 Spørgsmål 2. X: Antal biler der sælges i sommerhalvåret X ~ Ps(l 5 180) P(X $ 201) 5 0,065206 Med fokus på erhvervslivet s. 106 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Opgave 7. Spørgsmål 1. X: fyldehøjden på en enkelt flaske (i cm) X ~ N(m 5 10 , s 5 1) da højde er en kontinuert variabel. P(X $ 11,5) 5 0,0668 Spørgsmål 2. P(X # 8,2) 1 P(X $ 11,5) 5 0,0359 1 0,0668 5 0,1027 Spørgsmål 3. X: Gennemsnitlig fyldehøjde for en kasse med 30 flasker. 1 X ~ N(m 5 10, sx 5 5 0,183) √ 30 P(X $ 8,2) ≈ 1 dvs. 100 % Spørgsmål 4. Når den gennemsnitlige fyldehøjde er 10 cm og standardafvigelsen er 1 cm, så svarer en z-værdi på 3 til en fyldehøjde på 13 cm og en z-værdi på -1 til en fyldehøjde 9 cm. Z-værdier svarer til antallet af standardafvigelser fra centrum af fordelingen (gennemsnittet). Opgave 8. Spørgsmål 1. a) P(X $ 301) 5 0,002714 b) P(X # 750) 5 0,301576 c) P(X 50) 5 0,000017 der tages udgangspunkt i et gennemsnit på 11 (255/23) Spørgsmål 2. P(255 klager måned 1 ∩ 255 klager måned 2) 5 0,024975 0,024975 5 0,000624 Med fokus på erhvervslivet s. 107 Grundlæggende statistik Med fokus på erhvervslivet Sandsynlighedsfordelinger Appendiks 1: Approksimationsregler For at approksimere er der nogle forudsætninger, der skal være opfyldt: Fra hypergeometrisk til normalfordelingen: n p̂ (1 2 p̂) N2n . 9 er opfyldt → Approksimation ok N2n Fra binomial til normalfordelingen: n p̂ (1 2 p̂) ? 9 er opfyldt → Approksimation ok Fra poisson til normalfordelingen: ˆ . 9 er opfyldt → Approksimation ok nl dføres konfidensintervallet med Statlearn program udføres automatisk en kontrol af om approkU simationsbetingelserne er opfyldt. Med fokus på erhvervslivet s. 108 KAPITEL 6 KONFIDENSINTERVALLER Statlearn.com KAPITEL 6 Konfidensintervaller A ntag at du op til det amerikanske præsidentvalg i 2008 var kampagnerådgiver for Barack Obama og disponerede over et astronomisk kampagnebudget. For at udnytte budgettet maksimalt er din opgave at identificere de stater, hvor der er størst potentiale for at hente stemmer. I den forbindelse udtages en stikprøve i Texas, der viser at 63 % vil stemme på Obama. Du ved, at stikprøver ikke er helt pålidelige, så inden du åbner champagnen, vælger du for en sikkerheds skyld at foretage en ny stikprøveundersøgelse. Denne gang viser andelen i stikprøven, at opbakningen kun er på 48 %! Hvilket estimat kan du stole på? Hvordan kan du med sikkerhed vide, om det er fornuftigt at bruge af kampagnereserverne i Texas, når det ene estimat indikerer at Obama vil vinde, og det andet indikerer det modsatte? De spørgsmål kan et konfidensinterval hjælpe med at besvare. Et konfidensinterval er et interval som rummer et populationsparameter, eksempelvis en populationsandel med en given sandsynlighed. Resultat af et konfindensinterval kunne lyde: “Andelen af alle amerikanere der stemmer på Obama ligger mellem 51 – 57 % med en sandsynlighed på 95 %” I det indledende kapitel om beskrivende statistik var vi inde på forskellen mellem punktestimater og populationsparametre. Populationsparametre anvendes når vi arbejder med populationsdata, når alle data for vores population er til rådighed. Som regel er det yderst tids- og ressourcekrævende at indsamle data for en hel population, og derfor anvendes der i stedet stikprøver. Formålet med stikprøver er at skabe et retvisende billede af hele populationen ud fra et (lille) udsnit af populationen. TABEL 58: Betegnelse Populationsparameter Punktestimat Gennemsnit m x Standardafvigelsen s s Varians s2 s2 Andel p p̂ Intensitet (obs. i en periode) l ˆ l Videolektioner > s. 110 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Punktestimater er baseret på en stikprøve og skal opfattes som et estimat eller en tilnærmelse af det tilsvarende populationsparameter. Da et punktestimat er baseret på en stikprøve, må vi forvente, at det afviger en smule fra det givne populationsparameter – spørgsmålet er blot hvor meget estimatet afviger. Hvis vi eksempelvis ønsker at undersøge den gennemsnitlige husstandsindkomst i Danmark og i den forbindelse udtager en stikprøve på 100 personer (n), er det intuitivt, at punktestimatet for den gennemsnitlige indkomst (x) ikke vil være helt identisk med den sande gennemsnitlige indkomst (m), dvs. det sande gennemsnit vi havde fået, hvis hele populationen af danske husstande (N) var blevet adspurgt. På den baggrund kan vi ræsonnere os frem til, at et punktestimat rummer en vis usikkerhed, og at punktestimatets nøjagtighed afhænger af stikprøvens størrelse. “Jo større stikprøve desto mere vil stikprøven ligne populationen, og jo mere præcist vil punktestimatet derfor være.” Lad os tage et simpelt eksempel. Antag at du kaster en mønt 5 gange og kun observerer et enkelt udfald af krone. Baseret på denne stikprøve er punktestimatet for andelen af krone (pˆ) kun 20 % til trods for at populationsandelen (p) er 50 %10. Den store afvigelse mellem punktestimatet og populationsandelen kan tilskrives, at stikprøvens størrelse er relativt lille. Øges stikprøvestørrelsen fra 5 til 1000 møntkast vil du se, at andelen af plat og krone tilnærmelses bliver 50 % hver. Nu hvor vi har ræsonneret at stikprøvestørrelsen har en afgørende betydning for præcisionen af punktestimatet, dukker et nyt problem op. Selvom vi ved, at et punktestimat baseret på 1000 observationer er mere nøjagtigt end et på 10, ved vi ikke hvor meget mere nøjagtigt det vil være. Uanset stikprøvens størrelse ved vi således ikke hvor tæt punktestimatet er på det givne populationsparameter. Et konfidensinterval kompenserer for denne problemstilling. Med et konfidensinterval kan vi beregne et interval, der indkredser hvor det sande populationsparameter med en vis sandsynlighed vil ligge. Definition: “Et konfidensinterval er et intervalestimat der rummer et populationsparameter med en given sandsynlighed” Sandsynligheden for plat og krone betegnes en a priori sandsynlighed, dvs. en sandsynlighed hvor vi på forhånd (a priori) kan beregne den eksakte sandsynlighed for plat og krone. 10 Med fokus på erhvervslivet s. 111 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Konfidensintervaller som koncept Lad os se nærmere på konceptet for et konfidensinterval. Hvis du forestiller dig en bilfabrik der kun har fremstillet 10 biler (N 5 10). Alle 10 biler er blevet testet for, hvor langt de kan køre på en 1 liter benzin, og resultatet kan du se i nedenstående. TABEL 59: Obs (Bil) Km/l 1 2 3 4 5 6 7 8 9 10 11 13 9 9 10 15 7 13 15 9 Parametre 11,10 2,77 10 m s N Gennemsnitsforbruget er således 11,10 km/l med en standardafvigelse på 2,77. Bemærk at notationen for populationsparametrene anvendes, da data omfatter hele populationen bestående af 10 biler. Lad os nu antage at vi udtager stikprøver på 3 biler (n 5 3). Hvis vi tog alle kombinationsmuligheder af 3 biler ud af populationen på 10, ville vi få 12011 forskellige stikprøver og et tilsvarende antal forskellige punktestimater af gennemsnittet. For at danne os et overblik over de mange forskellige værdier af punktestimater, kan vi illustrere dem i en frekvensfordeling. FIGUR 36: F(x) NB: Bemærk at her er tale om en fordeling af punktestimater (x) og ikke af enkeltstående observationer (x). 40 35 30 25 20 15 10 5 x (af n 5 3) 0 < 10 +10 - 11 +11 - 12 +12 - 13 13 < Ud fra fordelingen af punktestimater kan vi se at en drastisk forskel på de største og mindste Til beregning af antal excelfunktionen: “5kombin(10;3)” værdier. Til trods forkombinationer at vi tidligereanvendes beregnede populationsgennemsnittet 11 til 11,1 km/l kan vores punktestimater af gennemsnittet baseret på 3 observationer variere fra omkring 9 til 14,33 km/l! Med fokus på erhvervslivet En anden og meget vigtig observation er, at fordelingen af punktestimaterne ser ud til følge en normalfordeling, dvs. en symmetrisk og klokkeformet fordeling. s. 112 25 20 15 10 Grundlæggende statistik Med fokus på erhvervslivet 5 0 < 10 +10 - 11 +11 - 12 +12 - 13 Konfidensintervaller 13 < Ud fra fordelingen af punktestimater kan vi se at en drastisk forskel på de største og mindste Ud fra fordelingen af punktestimater kan viberegnede se en drastisk forskel på de største ogtil mindste værdier. værdier. Til trods for at vi tidligere populationsgennemsnittet 11,1 km/l kan Til trods for at vi tidligere beregnede populationsgennemsnittet (m) til 11,1 km/l, kan vores punktevores punktestimater af gennemsnittet baseret på 3 observationer variere fra omkring 9 til stimater af gennemsnittet baseret på 3 observationer variere fra omkring 10 til 14,33 km/13! 14,33 km/l! En anden og meget vigtig observation er, at fordelingen af punktestimaterne ser ud til følge en En anden ogen meget vigtig observation er, at fordelingen af punktestimaterne ser ud til følge en normalfordeling, dvs. symmetrisk og klokkeformet fordeling. normalfordeling, dvs. en symmetrisk og klokkeformet fordeling. FIGUR 37: 40 35 30 25 20 15 10 5 0 < 10 +10 - 11 +11 - 12 +12 - 13 13 < En vigtig pointe er at punktestimater for andele og gennemsnit, uagtet variablens oprindeligeforEn vigtig pointe er at punktestimater for andele og gennemsnit, uagtet variablens oprindelige fordeling, følger normalfordelingen når stikprøven er stor, hvilket i den sammenhæng deling, følger normalfordelingen når stikprøven er stor, hvilket i den sammenhæng betyderbetyder mindst 30 observationer. mindst 30 observationer. Den centrale grænseværdisætning Den centrale grænseværdisætning Udtager man en stor stikprøve (n < 30) fra en population med en vilkårlig fordeling, vil Udtager man en stor stikprøve (n . 30) fra en population med en vilkårlig fordeling, vil fordelingen fordelingen af punktestimaterne (for stikprøvegennemsnit og -andele) tilnærmelsesvis være af punktestimaterne (for stikprøvegennemsnit og -andele) tilnærmelsesvis være normalfordelte. Det normalfordelte. Det interessante denne sætning er, at lige om fordelingenobservation for den interessante ved denne sætning er, at ligeved meget om fordelingen for meget den enkeltstående enkeltstående observation er højre- eller venstreskæv, så vil fordelingen af dennes Dette har er højre- eller venstreskæv, så vil fordelingen af dennes punktestimat være normalfordelt. en helt central betydning FIGUR 38: Højre- og venstreskæve fordelinger for anvendelsen af hypotesetest ogAfkonfidensintervalStephan Skovlund (Copyright) Sidepr.| 123 Fordelingen af indkomsten ler, som primært baseres på indbygger i Hollywood normalfordelingen. (enkeltstående observation) Lad os tage et eksempel med indkomsten i Hollywood som sandsynligvis er højreskæv, dvs. at mange har en middelmådige indkomst og få har (meget) høje indkomster. Med fokus på erhvervslivet x Fordelingen af den gennemsnitlige indkomst (punktestimat) i Hollywood x s. 113 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Som det fremgår af den ovenstående figur, er fordelingen af punktestimater normalfordelt, til trods for at indkomsten pr. indbygger i Hollywood følger en højreskæv fordeling. Det forhold vil jævnfør den centrale grænseværdisætning altid gøre sig gældende for fordelinger af punktestimater for andele og gennemsnit, så længe de er baseret på stikprøver, som er større end 30 observationer. Vi opsummerer kort de grundlæggende aspekter af konfidensintervaller: a. Punktestimater beregnes på baggrund af stikprøver, som blot er et udsnit af en population. Da et punktestimat ikke er beregnet på baggrund af alle populationens elementer, kan der være stor forskel på værdien af et punktestimat, og værdien af det populationsparameter der søges. b. For at imødekomme usikkerheden ved et punktestimat, kan man beregne et konfidensinterval. Et konfidensinterval vil rumme det givne populationsparameter med en vis sandsynlighed. c. Konfidensintervaller baseres på normalfordelingen12. Fordelingen af punktestimater for andele og gennemsnit følger jf. den centrale grænseværdisætning altid normalfordelingen når stikprøven overstiger 30 observationer. Normalfordelingens rolle Nu hvor vi har opridset det grundlæggende koncept for konfidensintervaller, kan vi fortsætte med et mindre konstrueret eksempel. Antag at du op til præsidentvalget i 2008 havde udtaget en stikprøve på 100 tilfældige amerikanere, hvoraf de 52 ville stemme på Obama (pˆ 5 0,52). Nu ønsker du at vide, hvor præcist punktestimatet (pˆ) er i forhold til den sande andel (p), den andel du havde fået hvis du havde adspurgt samtlige 200 millioner amerikanske vælgere. Fra den centrale grænseværdisætning fremgik det at punktestimater følger en normalfordeling. Som nævnt er normalfordelingen praktisk i den forstand, at der er en fast sammenhæng mellem antallet af standardafvigelser fra gennemsnittet og arealet af normalfordelingen. FIGUR 39: Standardafvigelser og gennemsnit i normalfordelingen. 95% 68% m m1?z m2?z 12 Med undtagelse af konfidensintervaller for standardafvigelsen som baseres på x2- fordelingen Med fokus på erhvervslivet s. 114 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Denne sammenhæng er selve hjørnestenen i et konfidensinterval. Er vi eksempelvis 2 standardafvigelser på hver side af gennemsnittet dækkes 95 % af fordelingen, som det fremgår af ovenstående figur. Det må nødvendigvis betyde, at et vilkårligt punktestimat som fratrækkes og adderes med 2 standardafvigelser, resulterer i et interval som krydser midten af fordelingen med 95 % sandsynlighed. FIGUR 40: Punktestimater der fratrækkes og adderes 2 standardafvigelser. X m X X X Da midten af fordelingen repræsenterer populationsgennemsnittet (m) betyder det, at vi har skabt et interval som med 95 % sandsynlighed rummer populationsgennemsnittet - således har vi skabt et konfidensinterval. Essensen af et konfidensinterval er at fratrække og addere et antal standardafvigelser fra punktestimatet, og dermed skabe et interval hvori populationsparameteret vil ligge med en given sandsynlighed. Betydningen af konfidensniveauet Konfidensniveauet kan opfattes som sandsynligheden eller sikkerheden for, at vores interval indeholder det givne populationsparameter. Jo højere konfidensniveau desto mere sikkert er det, at intervallet indeholder populationsparameteret. Men vær opmærksom på at konfidensniveau og bredden af selve konfidensintervallet er sammenhængende kræfter. FIGUR 41: Standardnormalfordelingen 95% 80% Nb: Eksemplet som bygger på z-fordelingen forudsætter kendt populationsvarians, dvs. at variansen er beregnet på baggrund af data for hele populationen. Er variansen ikke kendt anvendes i stedet t-fordelingen, som er en tilnærmelse til z-fordelingen. m m 1,28 ? Z m 1,96 ? Z Med fokus på erhvervslivet s. 115 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Som regel anvendes altid et 95 % konfidensniveau, men det står dig frit for at anvende andre niveauer. Du skal blot være opmærksom på, at bredden af konfidensintervallet øges i takt med konfidensniveauet. Jo højere konfidensniveau desto bredere og mere unøjagtigt bliver konfidensintervallet. Sammenhængen mellem konfidensniveau og konfidensintervallets bredde kan illustreres med følgende eksempel. En meteorolog kan med 100 % sikkerhed estimere at temperaturen Sankt Hans aften kommer til at ligge mellem - 100 og 100 grader. Alternativt kan meteorologen tilsvarende estimere, at temperaturen Sankt Hans aften med 80 % sandsynlighed vil ligge mellem 16 og 23 grader. Trods det sidste interval har et lavere konfidensniveau og dermed er mindre sikkert, er det langt mere nøjagtigt og anvendeligt. Konfidensintervallets grundelementer Indtil videre har vi diskuterer konceptet for konfidensintervaller. I dette afsnit redegøres for selve opbygningen af konfidensintervallet. Der findes forskellige typer af konfidensintervaller, men helt grundlæggende er fundamentet det samme: TABEL 60: Punktestimat konfidensniveau∙standardafvigelsen 13 Punktestimatet og dennes standardafvigelse er baseret på stikprøven og er således faste værdier. Konfidensniveauet kan vi justere som tidligere illustreret. Hvad angår standardafvigelsen, er det vigtigt at notere, at vi her ikke taler om standardafvigelse for den enkeltstående observation, men om standardafvigelsen for selve punktestimatet. EKSEMPEL Antag at du ønskede at finde gennemsnitsalderen i din klasse. Du indhenter oplysninger om alderen for alle dine medstuderende og beregner efterfølgende gennemsnit og standardafvigelse. I dette eksempel defineres variablen som “alderen for den enkelte elev i din klasse”. Du ønsker nu at udvide undersøgelsen for at finde gennemsnitsalderen for hele skolen. Med flere hundrede studerende er det for tidskrævende at indhente oplysninger fra alle eleverne. I stedet udtager du 10 tilfældige stikprøver med 20 elever i hver og beregner herefter gennemsnitsalderen for hver stikprøve. 13 Med standardafvigelsen forstås standardafvigelsen af punktestimatet Med fokus på erhvervslivet s. 116 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller I denne sammenhæng er vores observation ikke længere alderen på en enkelt studerende, men den gennemsnitlige alder for en hel stikprøve på 20 studerende. Standardafvigelsen skal i overensstemmelse hermed beregnes for punktestimatet (de 20 elever) og ikke den enkeltstående observation (en enkelt elev). Standardafvigelse for et punktestimat påvirkes af stikprøvestørrelsen, jo større stikprøvestørrelse desto mindre vil standardafvigelsen for punktestimatet være. Sammenhængen mellem stikprøvestørrelsen og standardafvigelsen kan illustreres relativt simpelt. Kastes en terning et uendeligt antal gange vil gennemsnittet af summen af terningøjne blive 3,5 (m). Lad os nu antage at vi i stedet kaster en terning to gange og får to 1’ere og efterfølgende får to 6’ere. Gennemsnittet for begge forsøg er henholdsvis 1 og 6. Øger vi stikprøvestørrelsen til eksempelvis 1000 terningkast, vil det være usandsynligt at få 1000 identiske resultater. I stedet må vi forvente en mere jævn spredning af høje og lave resultater, som trækker gennemsnittet ind mod midten (m 5 3,5). Udføres flere eksperimente med 1000 terningkast, vil de respektive gennemsnit således afvige langt mindre end et tilsvarende eksperiment, hvor kun to terninger kastes. FIGUR 42: 1 X X 1 X X X 6 Gennemsnit af 3 eksperimenter, hvor en terning kastes 2 gange i hvert eksperiment. 6 Gennemsnit af 3 eksperimenter, hvor en terning kastes 1000 gange gange i hvert eksperiment. X Beregning af standardafvigelsen for punktestimatet i forbindelse med konfidensintervaller forgår automatisk, når du anvender Statlearn program. I afsnit 0 ses formlerne konfidensintervaller. Opsummering Punktestimater beregnes på baggrund af stikprøver og rummer dermed en vis usikkerhed. Stikprøvestørrelsen har betydning for denne usikkerhed. Jo større stikprøve desto mere nøjagtigt bliver punktestimatet. Til trods for at punktestimater kan blive relativt nøjagtige, kan vi aldrig vide præcist hvor tæt estimatet ligger på det estimerede populationsparameter. Det er i den forbindelse, at et konfidensinterval bliver anvendeligt. Et konfidensinterval er et intervalestimat, der rummer den sande værdi af et populationsparameter med en vis sandsynlighed. Med et konfidensinterval kan vi således kvantificere præcisionen af et punktestimat. Med fokus på erhvervslivet s. 117 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Et konfidensinterval beregnes på baggrund af tre elementer: Punktestimat konfidensniveau∙standardafvigelsen Bredden af konfidensinterval afgøres af standardafvigelsen og konfidensniveauet. Hvor standardafvigelsen er en værdi beregnet ud fra stikprøven, kan konfidensniveauet justeres alt afhængig af den sandsynlighed man ønsker for, at intervallet skal rumme populationsparameteret. Når konfidensniveauet øges, bliver konfidensintervallet bredere, og hermed øges sandsynligheden for at intervallet rummer det givne populationsparameter. Ulempen ved at øge konfidensniveauet er således, at intervallet bliver mere bredt og dermed unøjagtigt. Bestemmelse af stikprøvestørrelse såfremt en specifik bredde af konfidensinterval er angivet I forbindelse med afsnittet om konfidensintervallets grundelementer fremgik det, at bredden af intervallet påvirkes af henholdsvis konfidensniveau og standardafvigelsen af punktestimatet. Som vi tidligere var inde på, påvirkes standardafvigelsen for punktestimatet af stikprøvestørrelsen (n). Når stikprøvestørrelsen påvirker standardafvigelsen, betyder det nødvendigvis at bredden af konfidensintervallet også påvirkes. Jævnfør nedenstående kan bredden af et konfidensinterval beregnes ud fra stikprøvestørrelsen. TABEL 61: Beregning af interval bredde Kriterium Formel n$ Populationens størrelse er ukendt (Z Forudsætning 2 12a/2 ? s)2 2 L0 Ved kendskab til s 2 n$ Z12a/2 ? p(1 2 p) 2 L0 Ved kendskab til p 2 n$ n$ Populationens størrelse er kendt n$ n$ Med fokus på erhvervslivet Z12a/2 ? 0,25 2 L0 s2 (L0/Z12 a2 )2 1 s2/N p(1 2 p) (L0/Z12 a2 )2 1 p(1 2 p)/N 0,25 (L0/Z12 a2 )2 1 0,25/N p kendes ikke Ved kendskab til s Ved kendskab til p p kendes ikke s. 118 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Hvor Z–værdien tolkes som det antal standardafvigelser, der svarer til konfidensniveauet, og L0 er konfidensintervallets margin. a (alfa) er sandsynligheden for fejl. Ved et 95 % konfidensniveau er a 5 5%. EKSEMPEL: Bestemmelse af stikprøvestørrelsen for andel. En forsker hos Novo Nordisk ønsker at beregne et 95 % konfidensinterval for andelen af bivirkninger ved et nyt insulinpræparat. Der stilles det særlige krav, at intervallet maksimalt må have en bredde på 0,04 (dvs. at afstanden mellem den nedre og øvre grænse af intervallet maksimalt må være 0,04). Hvor stor skal stikprøven være, for at imødekomme kravet til intervallets bredde? Løsning beregnet med formel uden kendskab til p: n$ 2 Z12a/2 ? 0,25 1,962 ? 0,25 5 5 601 (husk at runde op) L20 0,042 Løsning beregnet med formel ved kendskab til p (estimeres til 0,5): n$ 2 Z12a/2 ? p(1 2 p) 1,962 ? 0,5 (1 2 0,5) 5 5 601 (husk at runde op) L20 0,042 NB: Størrelsen af stikprøven kan beregnes med Statlearn programmet. Fremgangsmåde til beregning af konfidensintervaller En generel fremgangsmåde til at beregne konfidensintervaller skitseres i nedenstående. Efterfølgende diskuteres de enkelte punkter hver for sig. 1. Definition af variabel 2. Angiv model 3. Opstil data i form af punktestimater og stikprøve 4. Forudsætninger, herunder evt. approksimation 5. Angiv formel for interval 6. Beregning 7. Fortolkning NB: Konfidensintervaller som beregnes med Statlearn program følger denne fremgangsmåde. Med fokus på erhvervslivet s. 119 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Ad 1: Definition af variabel Hermed forstås en kort og præcis beskrivelse af variablen uden inddragelse af tal eller punkestimater. Er du i tvivl om hvad variablen er i opgaven, så stil dig selv spørgsmålet: “Hvad er det som kan variere”? EKSEMPEL: I forbindelse med Obama’s valgkampagne foretog hans medarbejdere dagligt exit polls for at beregne andelen af Obama-stemmer. Her defineres variablen: Antallet af vælgere der stemmer på Obama. Ad 2: Angivelse af model Der findes mange forskellige fordelinger som en variabel kan følge, derfor er det vigtigt at redegøre for den eksakte fordeling. Følger en variabel binomialfordelingen, men anvendes en approksimativ normalfordeling, er det vigtigt at angive, at modellen er binomial. Under forudsætninger kommenteres, at variablen approksimeres fra binomial til en normalfordeling. Se mere om approksimation under punkt 4 (Ad 4). Såfremt der beregnes et interval for et gennemsnit, er det vigtigt at identificere om gennemsnittet er beregnet ud fra hele populationens data (dermed siges variansen at være kendt), eller om beregningen er foretaget ud fra en stikrpøve (hvilket betyder at variansen er ukendt). Ad 3: Data Her opstilles datagrundlaget for intervallet i form af punktestimater som gennemsnit, standardafvigelse og stikprøvestørrelse. Ad 4: Forudsætninger, herunder approksimation Her beskrives de forudsætninger, der ligger til grund for intervallet. Er intervallet baseret på en approksimation, er det vigtigt at skrive om approksimationsbetingelserne er opfyldt. Approksimation betyder, at man skifter den oprindelige fordeling ud med en anden fordeling, som regel normalfordelingen. Det skyldes at hovedparten af konfidensintervaller baseres på normalfordelingen. Da variablen man arbejder med ikke altid er normalfordelt, kan det være nødvendigt at approksimere fra en diskret fordeling (hypergeometrisk, binomial og poissonfordelingen) over til normalfordelingen. For at approksimere er der nogle forudsætninger, der skal være opfyldt, hvilket fremgår af “Appendiks 1” i slutningen af afsnittet om fordelinger. I den forbindelse skal det bemærkes, at der til alle konfidensintervaller, der beregnes med Statlearn programmet, udføres en automatisk kontrol af om approksimationsbetingelserne er opfyldt. Ad 5 og 6: Formel samt beregning Her angives formel og konfidensintervallet beregnes. Ad 7: Fortolkning Beregning af konfidensintervallet er i sig selv sjældent en god afslutning på en opgave. Det er vigtigt at koble det beregnede interval til selve spørgsmålet. Eksempelvis kan et konfidensinterval for en Obama exit poll have en nedre og øvre grænse på henholdsvis 45 % og 65 %. Fortolkning: Andelen af Obama vælgere ligger med 95 % sandsynlighed mellem 45 og 65 %. Med fokus på erhvervslivet s. 120 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Oversigt over konfidensintervaller, 1 stikprøve FIGUR 43: Gennemsnit (m) Intensitet (l) Er variansen baseret på en stikprøve? Approks. Z-KI af l (Nej) (Ja) Z-KI Er stikprøven større end 30 (Nej) (Ja) T-KI Approks. Z-KI Med fokus på erhvervslivet Std.afvigelse (s) Andel (p) x2-KI af s Er variablen binomial (B) eller hypergeo. (H) (H) (B) Approk. Z-KI med korrektions faktor Approks. Z-KI s. 121 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Beregning af konfidensintervaller (KI), 1 stikprøve TABEL 62: Oversigt over konfidensinterval, 1 stikprøve Konfidensinterval Formel z-KI for m m ∈ x Z12a/2 Approksimativt z-KI for m m ∈ x Z12a/2 t-KI for m m ∈ x tn21,12a/2 χ2-KI for s Approksimativt z-KI for p p ∈ p� Z12a/2 Approksimativt z-KI for l l � l∈l � Z12a/2 n Med fokus på erhvervslivet Forudsætning s er kendt (standardafvigelsen for hele populationen) s √ n s n . 30 √ n s √ n s er ukendt, derfor anvendes standard-afvigelsen for stikprøven “s” (n 2 1)s2 (n 2 1)s2 #s# x2n21,12a/2 x2n21,a/2 p�(1 2 p�) n n p� (1 2 p�) . 9 nl �.9l � tolkes som x s. 122 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Eksempler på konfidensintervaller for en stikprøve Eksempel 1: 95% KI for gennemsnit, ukendt varians X~N(m,s2) Blandt en stikprøve på 100 studerende på Niels Brock var den gennemsnitlige indkomst 90.000 kr. med en standardafvigelse på 25.000 kr. Beregn et 95 % konfidensinterval for den gennemsnitlige indkomst. Variabel: Indkomst for en studerende på Niels Brock Model: X~N(m, s2) Data: n 100 x 90.000 kr. s 25.000 kr. Forudsætning: X ~ normalfordelingen jf. den centrale grænseværdisætning da n . 30 Formel: m ∈ x tn21,12a/2 s √ n Beregning: Nedre grænse 5 85.039,458 kr. Øvre grænse 5 94.960,542 kr. Fortolkning: Den gennemsnitlige indkomst for (alle) Niels Brock studerende ligger med 95 % sandsynlighed i intervallet 85.039,458 til 94.960,542 kr. Eksempel 2: 95% KI for gennemsnit, kendt varians X~N(m, s2) En undersøgelse blandt 414 kvinder, der abonnerer på magasinet Eurowoman viste, at gennemsnitsalderen for kvinderne var 19,7 år. På baggrund af mange tidligere studier har man erfaring for, at standardafvigelsen er 5 år. Beregn et 95 % konfidensinterval for gennemsnitsalderen for kvinder der abonnerer på magasinet Eurowoman. Variabel: Alderen for kvinder der abonnerer på Eurowoman. Model: X~N(m, s) Data: n 414 x 19,7 Med fokus på erhvervslivet s 5 s. 123 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Forudsætning: Populationens varians er kendt Observationer er normalfordelt Formel: m ∈ x Z12a/2 s √ n Beregning: Nedre grænse 5 19,218 Øvre grænse 5 20,182 Fortolkning: Med 95 % sandsynlighed er den gennemsnitlige alder for kvinder der abonnerer på Eurowoman mellem 19,2 og 20,2 år. Eksempel 3: 95% KI af andele når X~b(p,n) På Niels Brock har man blandt 125 studerende fundet frem til, at 22 ønsker at fortsætte studiet med en HA. Beregn et 95 % konfidensinterval for andelen af de studerende der forventes at fortsætte med en HA. Variabel: Antal studerende der ønsker at fortsætte med en HA. Model: X~b(n, p) Data: n 125 x 22 p� 0,176 Forudsætning: a) Diskret variabel b) n elementer observeres c) Konstant sandsynlighed, dvs. uafhængighed mellem eksperimenterne d) Hvert element kan defineres som mærket eller ikke-mærket Formel: p ∈ p� Z12a/2 p�(1 2 p�) n Beregning: Nedre grænse 5 0,109 Øvre grænse 5 0,243 Fortolkning: Der er 95% sandsynlighed for, at andelen af studerende på Niels Brock, der ønsker at fortsætte med en HA, ligger mellem ca. 11 og 24%. Med fokus på erhvervslivet s. 124 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Eksempel 4: 90% KI for intensiteten X~Ps(l) På rigshospitalet blev der gennem 30 tilfældigt udvalgte dage observeret et gennemsnit på 3,8 patienter med diagnosen svær lungebetændelse. Beregn et 90 % konfidensinterval for det gennemsnitlige antal patienter der hver dag får stillet diagnosen svær lungebetændelse. Variabel: Antal patienter med svær lungebetændelse pr. dag Model: X~Ps(l) Data: n 30 � l 3,8 Forudsætning: a) Diskret variabel b) Antal af forekomster af mærkede elementer observeres over en periode c) Elementerne indtræffer uafhængigt af hinanden d) konstant sandsynlighed for forekomst af et mærket element Formel: � Z12a/2 p∈l l � n Beregning: Nedre grænse 5 3,215 Øvre grænse 5 4,385 Fortolkning: Vi kan med 90 % sandsynlighed konkludere, at det gennemsnitlige antal patienter, der hver dag kommer til rigshospitalet med svær lungebetændelse, ligger mellem 3,2 og 4,4. Eksempel 5: 95 % KI for standardafvigelsen X~N(m,s2) For at sikre at der ikke opstår flaskehalse ved kassen hos IRMA, er målsætningen at ventetiden i kø maksimalt må have en standardafvigelse på 5 minutter. Ud fra en stikprøve på 50 kunder blev standardafvigelsen for ventetiden målt til 4,3 minutter. Tyder det på at målsætningen overholdes? Variabel: Ventetid i kø hos IRMA (ventetid opgøres i minutter) Model: X~N(m, s) Data: n 50 s 4,3 Forudsætninger: X ~ normalfordelingen jf. den centrale grænseværdisætning da n . 30 Med fokus på erhvervslivet s. 125 Grundlæggende statistik Med fokus på erhvervslivet Formel: (n 2 1)s2 #s# x2n21,12a/2 Konfidensintervaller (n 2 1)s2 x2n21,/2 Beregning: Nedre grænse 5 3,592 Øvre grænse 5 5,358 Fortolkning: Der er 95 % sandsynlighed for at standardafvigelsen for ventetiden i en kø ligger mellem 3,6 og 5,4 minutter. Da intervallets øvre grænse overstiger 5 minutter kan vi ikke afvise, at ventetiden i en kø hos IRMA overstiger 5 minutter. Konfidensintervaller for to stikprøver Som vi på nuværende tidspunkt ved, kan et punktestimat fra en stikprøve anvendes til at indkredse et interval, hvori det tilsvarende populationsparameter vil ligge med en given sandsynlighed. Når vi taler om konfidensintervaller for to stikprøver, er formålet at sammenligne to variabler. Eksempelvis for at undersøge om der kan være forskel på to gennemsnit. I den sammenhæng er et konfidensinterval for to stikprøver en beregning af et interval for differensen mellem to populationsparametre. EKSEMPEL Vi ønsker at beregne om der er forskel på gennemsnitsalderen for henholdsvis mænd og kvinder der bruger sms’er på deres mobiltelefoner. Der udtages to stikprøver med henholdsvis 100 mænd og kvinder. I stikprøven for mænd var der 78 der anvendte sms’er, og for kvinder var antallet 84. Kan vi på denne baggrund konkludere, at der er flere kvinder end mænd der anvender sms? Nej, resultaterne er baserede på stikprøver, som i sig selv er genstand for en vis usikkerhed. Derfor kan vi ikke alene på baggrund af stikprøveresultaterne komme med en endegyldig konklusion. For at anvende en statistisk sammenligningsmetode kan vi i stedet beregne et konfidensinterval for differensen mellem gennemsnitsforbruget af sms’er for mænd og kvinder. Lad os for simpelheden skyld antage, at det beregnede konfidensinterval for differensen resulterer i en nedre grænse på – 2 og en øvre grænse på 6. Konfidensintervallet for differensen kan opfattes som to konfidensintervaller, hvor de nedre og øvre grænser fratrækkes hinanden. Den nedre grænse på minus 2 svarer i dette tilfælde til, at den nedre grænse for kvinder er fratrukket den øvre grænse for mænd. At tallet bliver negativt betyder blot, at den størst mulige værdi for mænd er større end den lavest mulige for kvinder. Omvendt er den øvre grænse på 6 udtryk for den øvre grænse for kvinder fratrukket den nedre grænse for mænd. Hvis konfidensintervallet for differensen overlapper 0, dvs. har en nedre grænse som er negativ og en øvre grænse som er positiv betyder det, at vi ikke kan afvise, at begge variable kan have ens gennemsnit. Det betyder helt konkret, at konfidensintervallerne for hver variabel vil overlappe hinanden. Med fokus på erhvervslivet s. 126 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Fortolkning af konfidensinterval for differensen: 1. Har konfidensintervallet for differensen en nedre grænse som er negativ og en øvre grænse der er positiv betyder det, at de sammenlignede populationsparametre kan være identiske. 2. Har konfidensintervallet for differensen en nedre og øvre grænse, som begge er negative eller begge er positive betyder det, at de sammenlignede populationsparametre sandsynligvis er forskellige. I eksemplet med sms forbruget for kvinder og mænd var udgangspunktet et gennemsnit, men konfidensintervaller for differensen kan lige såvel være for andele, intensiteter og varians, hvilket senere vil fremgå af eksempelberegningerne. Oversigt over konfidensintervaller for differensen Ved konfidensintervaller for differensen mellem to populationsandele eller intensiteter anvendes kun en type interval for hver, derfor undlades denne type intervaller af oversigten. Hvad angår konfidensintervaller for differensen mellem to gennemsnit, er der hele tre muligheder som det fremgår af nedenstående. FIGUR 44: Gennemsnit (m) Er begge stikprøver større end 30? (Ja) (Nej) Z-KI Er populationsvariansen kendt? (Nej) (Ja) F-test af varianshomogenitet Upooled T-KI Med fokus på erhvervslivet (Nej) Er der varianshomogenitet? Z-KI (Ja) Pooled T-KI s. 127 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Beregning af konfidensintervaller for differensen TABEL 63: Oversigt over konfidensintervaller, 2 stikprøver Konfidensinterval Formel Forudsætning Z-KI for mx 2 my (x 2 y) Z12a/2 ? s2x s2y 1 nx ny s2x og s2y er kendte Approksimativt Z-KI for mx 2 my (x 2 y) Z12a/2 ? s2x s2 1 y nx ny nx . 30 og ny . 30 Pooled T-KI for mx 2 my 1 1 (nx1ny22) (x 2 y) t 12a/2 ? s2p 1 n x ny Hvor s2p 5 Approksimativt T-KI for px 2 py (nx 2 1)s2x 1 (ny 2 1)s2y (nx 1 ny 2 2 p�x(1 2 p�x) p�y(1 2 p�y) 1 ny nx (p�x 2 p�y) Z12a/2 ? 2 1 s2x 2 1 s2y n 2 1 ? n 1 n 2 1 ? n x x y y Approksimativ T-KI for lx 2 ly Med fokus på erhvervslivet ny ? p�y(1 2 p�y) . 9 s2x og s2y antages ukendte og der er ikke varianshomogenitet, dvs. ikke ens varians Hvor fg (frihedsgrader) 5 s2x s2 1 y nx ny nx ? p�x(1 2 p�x) . 9 s2x s2 1 y nx ny f g (x 2 y) t 12a/2 ? Upooled T-KI for mx 2 my s2x og s2y er ukendte, forudsat varianshomogenitet, dvs. ens varians �x �x l l �x 2 l � y) Z12a/2 ? (l 1 nx ny 2 �x . 9 nx ? l �y . 9 ny ? l � x 9 og l � y svarer Hvor l til henholdsvis og s. 128 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Eksempler på konfidensintervaller for differens Eksempel 1: 95% KI for differensen mellem 2 populationsandele I forbindelse med en markedsundersøgelse udsendte en virksomhed 150 breve med tilbud om en ny type fladskærm samt en bærbar pc. Virksomheden modtog efterfølgende 19 ordrer på den bærbare pc og tilsvarende 17 ordrer for fladskærmen. Giver dette anledning til at tro, at der vil blive solgt flere bærbare pc’er end fladskærme? Variabel: X: Antal solgte bærbare pc’er Y: Antal solgte fladskærme Model: X og Y ~ b(p, n) Data: nx 150 x 19 p�x 0,127 ny 150 y 17 p�y 0,113 Forudsætning: Normalfordelingsapproksimation: n p�(1 2 p�) . 9 er opfyldt for både X og Y Formel: (p�x 2 p�y) Z12a/2 ? p�y(1 2 p�y) p�x(1 2 p�x) 1 ny nx Beregning: Nedre grænse 5 20,060 Øvre grænse 5 0,087 Fortolkning: Da intervallet for differensen har en negativ nedre grænse og en positiv øvre grænse, kan vi med 95 % sandsynlighed ikke udelukke at begge (populations) andele er ens. Med fokus på erhvervslivet s. 129 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Eksempel 2: 95% KI for differensen mellem 2 gennemsnit,kendt varians En undersøgelse blandt 630 mænd og 414 kvinder, der har en videregående uddannelse, viste at gennemsnitsalderen for mænd var 28,2 år og for kvinder 25,7 år. Fra tidligere undersøgelser ved man at standardafvigelsen for både mænd og kvinder er 5 år. Kan man med 95 % sandsynlighed sige, at der er forskel i den gennemsnitlige alder for mænd og kvinder på videregående uddannelser? Variabel: X: Alder for mænd (år) Y: Alder for kvinder (år) Model: X og Y ~ b(p, n) Data: nx 630 x 28,2 sx 5 ny 414 y 25,7 sy 5 Forudsætning: Begge populationsvarianser er kendte Observationer er normalfordelte Formel: 2 2 (x 2 y) Z12a/2 ? sx 1 sy nx ny Beregning: Nedre grænse 5 1,879 Øvre grænse 5 3,120 Fortolkning: Da intervallet for differensen ikke overlapper 0, kan vi med 95 sandsynlighed konkludere, at gennemsnitsalderen for mænd med videregående uddannelse er højere end for kvinder. Der er således forskel på den gennemsnitlige alder. Med fokus på erhvervslivet s. 130 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Øvelser med konfidensintervaller De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af de forskellige begreber relateret til konfidensintervaller. I de efterfølgende opgaver er fokus rettet mod beregninger. Fortolkningsøvelser: 1. Hvad er forskellen på et punktestimat og et konfidensinterval? 2. Hvad er formålet med at anvende et konfidensinterval i stedet for et punktestimat? 3. Jo større stikprøve der udtages, desto mere præcise bliver de beregnede punktestimater. Hvis man har udtaget en stor stikprøve, er det så ikke tilstrækkeligt at beregne et punktestimat, da vi ved, at dette vil være relativt præcist? 4. Er konfidensintervaller altid et forsøg på at indkredse værdien af et populationsparameter, eller kan man også beregne konfidensintervaller for punktestimater? 5. Hvad betyder konfidensniveau? 6. Hvilken betydning har konfidensniveauet for bredden af et konfidensinterval? 7. Hvorfor vælge et 95 % konfidensniveau, når vi kan øge sikkerheden ved at vælge et niveau på 99 %? 8. Hvad er formålet med at beregne et konfidensinterval for differensen mellem to gennemsnit? Beregningsøvelser: Opgave 1. Danske Bank har en spirende fornemmelse af, at en del kunder er stærkt utilfredse med rådgivningen omkring optagelse af boliglån. For at få et overblik udtages en stikprøve på 193 kunder der har optaget boliglån, heriblandt var 17 stærkt utilfredse med den rådgivning de havde fået. Beregn et 95 % konfidensinterval for andelen af stærkt utilfredse kunder. Opgave 2. En undersøgelse blandt 338 mænd og 254 kvinder der bruger Apples iPhone viste, at gennemsnitsalderen for mænd var 23,2 år og for kvinder kun 20,6 år. Antag at populationens standardafvigelse for begge køn er 5 år. Spørgsmål 1.Definer variabel og beregn et 90 % konfidensinterval for gennemsnitsalderen for henholdsvis mænd og kvinder. Spørgsmål 2.Vurder på baggrund af forrige spørgsmål, om der kan antages at være en forskel på gennemsnitsalderen for mænd og kvinder, der bruger iPhone. Med fokus på erhvervslivet s. 131 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Spørgsmål 3.Beregn et 95 % konfidensinterval for differensen for gennemsnitsalderen for mænd og kvinder, der bruger iPhone. Spørgsmål 4.Antag at der blandt brugere af iPhone er 45 % mænd. Hvis der udtages en stikprøve på 300 iPhone brugere, hvad er da sandsynligheden for at mere end halvdelen er mænd? Opgave 3. Novo Nordisk har lige haft problemer med kvalitetskontrollen i forbindelse med produktionen af deres insulinsprøjter. Produktionen er derfor midlertidigt stoppet, og alle kræfter er sat ind på, at få et overblik over hvor mange af de 12000 insulinsprøjter, der ikke overholder kvalitetskravene. I en stikprøve på 300 insulinsprøjter fandt man 10 der skulle kasseres. Beregn på denne baggrund et 99 % konfidensinterval for andelen af det samlede antal insulinsprøjter, der skal kasserers. Opgave 4. I forbindelse med forberedelsen på en stor reklamekampagne for en ny type bilforsikring har Codan udarbejdet en forundersøgelse. Blandt 200 testpersoner var der 38 der tilkendegav interesse i den nye forsikring. Spørgsmål 1.For at få overblik over markedspotentialet, ønskes et estimat af den øvre og nedre grænse for det forventede antal interesserede i den nye bilforsikring. Spørgsmål 2.I forbindelse med forundersøgelsen udsendte Codan også et tilbud om en ny type livsforsikring, som 47 af testpersonerne var interesserede i. Giver det anledning til at tro, at livsforsikringen er mere populær end bilforsikringen? Opgave 5. Som logistikansvarlig for Coca-Cola i Danmark er en af dine opgaver, at bestille sirup til alt det CocaCola, der skal produceres i den kommende måned. Du er derfor meget optaget af, om salgsprognoserne er retvisende. Fra erfaring ved du, at prognoserne i juni måned som regel er for høje. Du har lige modtaget salgsprognosen for juni, som lyder på 68 tønder sirup. Baseret på de sidste 10 års salgshistorik for juni måned har du beregnet, at der i gennemsnit bruges 57 tønder sirup. Spørgsmål 1. Definer variabel og fordeling Spørgsmål 2. Beregn et 95 % konfidensinterval for det forventede forbrug af sirup i juni. Spørgsmål 3.Hvor stor er sandsynligheden for, at næste uges salg vil være mindst 550.000 liter Coca-Cola, hvis det antages, at det ugentlige gennemsnitsalg er 500.000 liter med en standardafvigelse på 45.000 liter? Med fokus på erhvervslivet s. 132 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Opgave 6. Bilvirksomheden Porsche har iværksat en stor markedsundersøgelse, for at stille skarpt på hvilke modeller der køres i de forskellige alderssegmenter. TABEL 64: Alderssegment (år) Porsche model 911 Boxter Cayenne Cayman Total 21-25 13 9 6 4 31 26-30 87 60 26 18 190 31-35 290 199 86 59 634 Total 390 267 118 81 855 Spørgsmål 1.Opstil et 95 % konfidensinterval for andelen 26-30 årige Porschebilister der kører modellen Boxter? Spørgsmål 2.Beregn et 99 % konfidensinterval for hvor stor en andel Boxter modellen udgør blandt samtlige modeller. Spørgsmål 3.Benyt et konfidensinterval til at vurdere om andelen af dem, der kører Cayenne er større end dem, der kører Cayman i alderssegmentet 31-35 årige. Opgave 7. Det verdensomspændende reklamefirma, Publicys, har udviklet en metode til at sikre, at kun de meste effektive reklamer bliver vist. For hver kunde udvikles mindst to forskellige reklamer, som herefter bedømmes af relevante personer i målgruppen. Publicys har længe arbejdet på en ny reklamekampagne for Nokia og har nu indsnævret feltet til to reklamer. Hver reklame bliver testet på en 10 punkt skala og bedømt af forskellige personer - resultatet ses i nedenstående: Reklame nr. 1: Blandt 31 personer var den gennemsnitlige karakter 7,1 med en standardafvigelse på 1,7. Reklame nr. 2: Blandt 42 personer var den gennemsnitlige karakter 7,9 med en standardafvigelse på 2,4. Da reklame nr. 1 er væsentlig billigere at producere end reklame nr. 2, ønskes en statistisk vurdering af, om der er en signifikant forskel på de to reklamer. Beregn i den forbindelse et 95 % konfidensinterval for differensen mellem de to gennemsnitskarakterer og kommenter hvilken reklame, der vil være mest hensigtsmæssig at anvende. Med fokus på erhvervslivet s. 133 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Opgave 8. Du er ansat i EDC’s markedsføringsafdeling og vil gerne vide, hvor effektiv jeres webside er med henblik på eventuelle forbedringer. Derfor har du udtaget en stikprøve på 215 kunder, og bl.a. spurgt dem om, hvordan deres opfattelse af layoutet på websiden er. Ud af de 215 kunder svarede 21, at de synes, layoutet er kedeligt. Beregn et 95 % konfidensinterval for andelen af kunder, som synes layoutet er kedeligt. Opgave 9 Hos IT producenten Acer har man foretaget en kundetilfredshedsundersøgelse, hvor man har fundet ud af, at mange kunder er utilfredse med den tid, det tager, at få sin computer repareret. En stikprøve på 389 reparationer viste, at det i gennemsnit tager 2,9 uger med en standardafvigelse på 1 uge, før kunden får sin computer tilbage. Beregn et 95 % konfidensinterval for den gennemsnitlige reparationslængde (i uger). Opgave 10 Hos Google er man ved at lave en brugervenlighedstest over Android Market (ejes af Google), som bruges til at hente applikationer til mobiltelefoner. I den forbindelse har man spurgt 350 brugere, hvad de mener om overskueligheden på markedet. Ud af de 350 brugere tilkendegav 214, at de opfatter Android Market som meget overskueligt. Beregn et 95 % konfidensinterval for andelen af brugere, der opfatter Android Market som meget overskueligt. Tidligere eksamensøvelser med konfidensintervaller Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: “Ekstra øvelser”. Øvelser med konfindensintervaller (sideangivelse samt opgavenummer): Side 3 /4.3 Side 4 /1.2 Side 10 /1.2 Side 14 /4.2 Side 21 /3.1 (anvendelse af rå data) Side 27 /2.2 (anvendelse af rå data Side 28 /3.2 (anvendelse af rå data) Side 30 /1.3 (anvendelse af rå data) Side 31 /2.3 Side 32 /3.1 Side 37 /2.3 Med fokus på erhvervslivet s. 134 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Løsninger til konfidensintervaller I det følgende fremgår løsninger til øvelserne for konfidensintervaller. Det skal nævnes, at løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses så den indeholder alle de informationer, som er nævnt under fremgangsmåden i dette afsnit, se afsnittet: Fremgangsmåde til beregning af konfidensintervaller. Fortolkningsøvelser: 1. Et punktestimat kan opfattes som et simpelt estimat baseret på en stikprøve. Punktestimatet anvendes som en indikator for værdien af det givne populationsparameter, eksempelvis gennemsnittet for populationen. Et konfidensinterval kan opfattes som et punktestimat, hvor der tilføjes et ekstra lag information. Et konfidensintervallet er et interval, hvor i det estimerede populationsparameter vil ligge med en given sandsynlighed. 2. Et konfidensinterval er mere informativt end et simpelt punktestimat. 3. Lige meget hvor stor en stikprøve der udtages, kan man med et punktestimat aldrig vide hvor tæt det ligger på det estimerede populationsparameter. Man kan således ikke kvantificere præcisionen af punktestimatet, med mindre man anvender et konfidensinterval. 4. Konfidensintervaller beregnes på baggrund af punktestimater, men gælder altid for populationsparametre. 5. Konfidensniveauet er sandsynligheden for, at intervallet rummer det givne populationsparameter. Jo højere konfidensniveau desto bredere bliver konfidensintervallet. 6. Ligesom konfidensniveauet har stikprøvestørrelsen betydning for intervallets bredde. Jo større stikprøve desto smallere bliver intervallet alt andet lige. Det skyldes, at stikprøven indgår i beregningen af standardafvigelsen, som er et led i intervallets beregning. 7. Fordi et 99 % interval er bredere og dermed mere unøjagtigt end et tilsvarende interval med et 95 % konfidensniveau. 8. At finde frem til om det er en forskel på værdien af de to populationsgennemsnit. Med fokus på erhvervslivet s. 135 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Beregningsøvelser: Opgave 1. X: Antal stærkt utilfredse kunder. X ~ b(p, n) 95% konfidensinterval for andel Nedre grænse: 0,04809829 Øvre grænse: 0,12806752 Opgave 2. Spørgsmål 1. X: Alderen (år) for mænd der bruger en iPhone X ~ N(x 5 23,2 s 5 5 ) 95% konfidensinterval for gennemsnit Nedre grænse: 22,6669601 Øvre grænse: 23,7330399 Y: Alderen (år) for kvinder der bruger en iPhone Y ~ N(x 5 20,6 s 5 5 ) 95% konfidensinterval for gennemsnit Nedre grænse: 19,9851046 Øvre grænse: 21,2148954 Spørgsmål 2. Umiddelbart fremgår det, at konfidensintervallets øverste grænse for kvinders gennemsnitsalder er lavere end konfidensintervallets nedre grænse for mænds alder. Det tyder således på, at kvinders gennemsnitlige alder er lavere end mænds, hvad angår brugere af iPhone. Når to gennemsnit sammenlignes, er det statistisk set mere korrekt, at anvende et konfidensinterval for differensen mellem to gennemsnit - se næste spørgsmål (spørgsmål 3). Spørgsmål 3. 95% konfidensinterval for differensen mellem 2 gennemsnit (mx 2 my) X: Alderen (år) for mænd der bruger iPhone Y: Alderen (år) for kvinder der bruger iPhone X Y n 338 254 s 5 5 x 23,2 233 Nedre grænse: 1,78622613 Øvre grænse: 3,41377387 Konfidensintervallets positive nedre- og øvre grænse indikerer, at kvinders gennemsnitlige alder er lavere end mænds blandt brugere af iPhone. Med fokus på erhvervslivet s. 136 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Spørgsmål 4. X: Antal mænd der bruger iPhone X ~ b(p 5 0, 45 n 5 300) P(X $ 151) 5 0,03627756 Opgave 3. X: Antal insulinsprøjter der skal kasseres X ~ b(p, n 5 300) 99% konfidensinterval for andel Nedre grænse: 0,0066 Øvre grænse: 0,06 onklusion: Samlet skal der med 99 % sandsynlighed kasserers mellem 79 og 720 insulinsprøjK ter ud af i alt 12000 sprøjter. Opgave 4. Spørgsmål 1. X: Antal interesserede i ny bilforsikring X ~ b(p, n 5 200) 95% konfidensinterval for andel Nedre grænse: 0,13563087 Øvre grænse: 0,24436913 Spørgsmål 2. X: Antal interesserede i ny bilforsikring Y: Antal interesserede i ny bilforsikring 95 % konfidensinterval for differensen mellem 2 andele (px 2 py) Nedre grænse: 20,1250562 Øvre grænse: 0,03505619 Konklusion: Da intervallet overlapper 0, kan det ikke udelukkes, at begge andele er lige store. Med fokus på erhvervslivet s. 137 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Opgave 5. Spørgsmål 1. X: Antal tønder med Coca-Cola sirup som skal bruges i juni X ~ Ps(l 5 57) da variablen er diskret og baseres på tidsinterval Spørgsmål 2. 95% konfidensinterval for intensitet Nedre grænse: 52,32065 Øvre grænse: 61,67935 Spørgsmål 3. P(x $ 550.000) 5 0,13326 Opgave 6. Spørgsmål 1. X: Antal 26-30 årige bilister der kører Porsche Boxter X ~ b(p, n 5 190) da variablen er diskret, og hændelserne er uafhængige 95% konfidensinterval for andel Nedre grænse: 0,24969502 Øvre grænse: 0,38188392 Spørgsmål 2. X: Antal bilister der kører Porsche Boxter X ~ b(p, n 5 855) da variablen er diskret, og hændelserne er uafhængige 99% konfidensinterval for andel Nedre grænse: 0,27145702 Øvre grænse: 0,35310439 Spørgsmål 3. X: Antal bilister der kører Porsche Cayenne Y: Antal bilister der kører Porsche Cayman 95% konfidensinterval for differensen mellem 2 andele (px 2 py) Nedre grænse: 0,0076326 Øvre grænse: 0,0775409 Med fokus på erhvervslivet s. 138 Grundlæggende statistik Med fokus på erhvervslivet Konfidensintervaller Opgave 7. X: Karakter for reklame nr. 1 (10 punkt skala, hvor 10 er bedst) Y: Karakter for reklame nr. 2 (10 punkt skala, hvor 10 er bedst) X og Y ~ N(m, s) da begge stikprøver er større end 30 jævnfør den centrale grænseværdisætning 95% konfidensinterval for differensen mellem 2 gennemsnit (mx 2 my) Nedre grænse: 21,7407187 Øvre grænse: 0,14071873 Opgave 8. X: Antal der mener at layoutet er kededeligt X ~ b(p, n 5 215) 95% konfidensinterval for andel Nedre grænse: 0,05799175 Øvre grænse: 0,13735709 Altså kan det med 95 % sandsynlighed konkluderes, at andelen af kunder der synes, at layoutet er kedeligt, er mellem ca. 6 og 14 %. Opgave 9. X: Reparationslængden (i uger). X ~ N(x = 2,9 s 5 1 ) 95% interval for gennemsnit, ukendt populationsvarians Nedre grænse: 2,80031493 Øvre grænse: 2,99968507 Opgave 10. X: Antal kunder der opfatter Android Market som meget overskueligt X ~ b(p, n 5 350) 95% konfidensinterval for andel Nedre grænse: 0,56036369 Øvre grænse: 0,66249346 Altså kan det med 95 % sandsynlighed konkluderes, at andelen af kunder, der opfatter Android Market som meget overskueligt, er mellem ca. 56 og 66 % Med fokus på erhvervslivet s. 139 KAPITEL 7 HYPOTESETEST Statlearn.com KAPITEL 7 Hypotesetest U dgangspunktet for en hypotesetest er, at verificere en given hypotese. Helt konkret kan en hypotesetest opfattes som en kamp mellem to modstridende hypoteser, eller nærmere betegnet to modstridende påstande. En hypotese kan tolkes som en antagelse, der ikke er faktuel, men som tager sit udgangspunkt i et subjektivt skøn. En hypotese kunne eksempelvis være et udsagn om, at folk i lyset af finanskrisen er mindre tilbøjelige til at købe nye biler. Det er en antagelse som umiddelbart virker plausibel, men som indtil den er påvist med data kun er en antagelse. Udgangspunktet for en hypotesetest er at definere to modstridende hypoteser: H0 og H1. H0 hypotesen repræsenterer det, der må antages at være det gældende eller det ’sande’, indtil andet er bevist. H1 hypotesen er derimod vores formodning, som opstilles på baggrund af et punktestimat fra en stikprøve. Hypotesetestens formål er, at afgøre hvorvidt H1 eller H0 er sand. Rent konceptuelt kan en hypotesetest sammenlignes med en retssag, hvor man har indsamlet bevismateriale som tyder på, at en given person er skyldig (H1). Udgangspunktet for retssagen er imidlertid, at den anklagede er uskyldig, indtil andet er bevist (H0). Formålet med retssagen er ligesom med hypotesetesten, at gennemføre en proces som resulterer i en dom: skyldig (H1 accepteres) eller uskyldig (H0 accepteres). Hypotesetest som koncept Antag at du var en sportschef med ansvar for at udtage længdespringerne op til de Olympiske Lege. For at deltage på holdet skal længdespringerne bevise, at de i gennemsnit springer længere end 5 meter. Du er overbevist om at Max Johnson, som er holdets bedste længdespringer springer mere end 5 meter i gennemsnit, men da det endnu ikke er bevist, må du antage, at længden af hans gennemsnitspring maksimalt er 5 meter. Du ønsker derfor, at udføre en hypotesetest der skal bevise, at han gennemsnitligt springer længere end 5 meter, og at han dermed er kvalificeret til OL. Videolektioner > s. 141 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Som træner har du ikke noteret længden af hver enkelt spring Max har udført, og du kan således ikke beregne den eksakte værdi af hans gennemsnitsspring, hvilket svarer til populationsgennemsnittet (m). I stedet laver du et forsøg, hvor du en enkelt dag måler længden af 10 spring (n 5 10) og beregner punktestimatet til at være 6,5 meter (x 5 6,5). Det virker lovende, men som vi var inde på i afsnittet om konfidensintervaller, kan værdien af et punktestimat variere meget i forhold til populationsgennemsnittet, særligt ved små stikprøver. FIGUR 45: Fordelingen af punktestimater for et gennemsnit x– x– x– x– x– x– x– x– x– x– x– x– m Når vi ved, der kan være relativ stor spredning i fordelingen af punktestimaterne (x), kan vi ikke udelukke, at populationsgennemsnittet (m) kan være mindre end 5 meter til trods for, at punktestimat er 6,5 meter. FIGUR 46: x 5 6,5m x m 5 5m m 5 4m x Grundet variationen i værdien af punktestimater er det som illustreret muligt at få punktestimater på 6,5 meter (x), selvom populationsgennemsnittet kun er 4 meter (m). På den anden side forekommer det intuitivt, at jo større afstanden er mellem H0 og punktestimatet, desto mere beviser det, at H0 må være usandsynlig, og H1 hypotesen dermed rigtig. Med fokus på erhvervslivet s. 142 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest FIGUR 47: x 5 10m x m 5 5m (H0) Fra fordelingen kan vi se, at et punktestimat på 10 meter kun er marginalt sandsynligt, hvis populationsgennemsnittet er 5 meter (H0). Med andre ord indikerer punktestimatet på de 10 m, at Max højst sandsynligt har et gennemsnitsspring der overstiger 5 m (H1). Dette rejser spørgsmålet: Hvor meget større end 5 meter skal punktestimatet (x) værre, hvis vi skal konkludere at H1 er sand, og længdespringeren Max derved springer længere end 5 meter i gennemsnit? Spørgsmålet bringer os til essensen af hypotesetesten: Testniveauet. Testniveauet angiver det område af fordelingen hvor H0 forkastes, området betegnes også det “kritiske område”. NB: Det kritiske område repræsenterer et testniveau på 5 % og er markeret med sort. FIGUR 48: H 1 . H0 H0 accepteres H0 forkastes H1 , H0 H0 forkastes H0 accepteres Testniveauets størrelse afhænger af hvor sikker du vil være for at undgå en fejlagtig konklusion, eller med andre ord undgå at forkaste H0 når denne er sand. Med fokus på erhvervslivet s. 143 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Vælges eksempelvis et testniveau på 5 % betyder det at der er 5 % sandsynlighed for at få observationer, punktestimater, i det kritiske område såfremt Ho virkelig er sand. Sagt på en anden måde er der kun 95 % sandsynlighed for ikke at havne i det kritiske område, hvis Ho er sand. Får vi en observation, der ligger i det kritiske område, er testens konklusion derfor, at Ho med 95 % sandsynlighed kan forkastes. Lad os vende tilbage til eksemplet med længdespringeren Max. Vi ønsker at undersøge, om hans gennemsnitsspring er længere end 5 meter. Udgangspunktet må nødvendigvis værre, at han højst kan springe 5 meter, indtil andet er bevist: H0 : m # 5 m og H1 : m . 5 m På baggrund af en stikprøve på 10 spring beregnes gennemsnittet til 6,5 meter (x) og standardafvigelsen (s) til 2 meter. Spørgsmålet er nu, om de 6,5 meter ligger inden - eller udenfor det kritiske område? Beregnes hypotesetesten, bliver resultatet en p-værdi på 2 %. P-værdien er beregnet på baggrund af vores stikprøvedata og kan tolkes som punkestimatet på 6,5 meter (x) omregnet til en skala, som er sammenligneligt med testniveauet, der også angives i procent. En p-værdi på 2 % betyder således, at punktestimatet på de 6,5 m ligger i de yderste 2 % af fordelingen – der hvor H0 forkastes. FIGUR 49: P-værdi 5 2% (stikprøve observation) Testniveau 5 5% (kritisk område) H0 accepteres H0 forkastes Da vores testniveau er 5 %, ligger p-værdien således indenfor det kritiske område, hvilket betyder at H0 forkastes. Dermed kan vi med 95 % sandsynlighed konkludere, at det sande gennemsnitsspring (m) for Max er længere end 5 meter. Med fokus på erhvervslivet s. 144 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Type 1 og 2 fejl Konklusioner fra en hypotesetest er ikke 100 % sikre, der vil altid være en sandsynlighed for fejl afhængig af testniveauets størrelse. Vælges et testniveau på 5 %, er der tilsvarende 5 % sandsynlighed for, at vi kommer til at forkaste en sand Ho hypotese, hvilket formelt betegnes en type 1 fejl: Type 1 fejl 5 a 5 P(forkast H0 I H0 er sand) Udover en type 1 fejl er der en anden og mere subtil fejltype fejl, som ikke overraskende betegnes type 2 fejl: Type 2 fejl 5 b 5 P(forkast H0 I H0 er sand) Som du formentligt har bemærket, er en type 1 og 2 fejl baseret på betingede sandsynligheder, hvilket vil sige sandsynligheder under betingelsen af, at Ho enten er sand (type 1 fejl) eller falsk (type 2 fejl). TABEL 65: type 1 og 2 fejl H0 forkastes H0 accepteres H0 er sand Ho er sand, men forkastes Type 1 fejl (a) Ho er sand og accepteres H0 er falsk Ho er falsk og forkastes Ho er falsk, men accepteres Type 2 fejl (b) Som nævnt er alle hypotesetest forbundet med en sandsynlighed for type 1 og 2 fejl. Hvad angår type 1 fejl reguleres denne udelukkende af testniveauets størrelse. Er testniveauet 5 %, er sandsynligheden for en type 1 fejl tilsvarende 5 %. Så hvorfor ikke mindske testniveauet til 0, og dermed eliminere sandsynligheden for type 1 fejl? Årsagen er, at type 1 og 2 fejl er modsætninger. Mindskes sandsynligheden for en type 1 fejl, øges den tilsvarende for en type 2 fejl. Valget af hvilken fejltype du bør minimere, er afhængig af den givne situation. EKSEMPEL Køkkenchefen på hotel D’Angleterre har travlt og vil gerne undgå, at blive forstyrret midt i sine gastronomiske udfoldelser. Desværre har restauranten en brandalarm, der ofte ringer falsk alarm. For at stoppe afbrydelserne, køber du en ny alarm som ifølge garantien, kun ringer falsk alarm med en sandsynlighed på 0,00001 %. I dette eksempel må vi som udgangspunkt gå ud fra, at der ikke er brand, indtil andet er bevist. I den forbindelse kan vi definere H0 som “Ikke brand” og H1 som “Brand”. Med fokus på erhvervslivet s. 145 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Falsk alarm svarer således til en type 1 fejl, hvor vi forkaster H0 hypotesen til trods for, at denne er sand. Med andre ord er den fejlagtige konklusion, at det brænder når dette ikke er tilfældet. TABEL 66: a 5 Type 1 fejl 5 P(forkast H0 I H0 er sand) Opstår en type 2 fejl, er situationen straks værre. Her accepterer vi, at det ikke brænder, til trods for at der er brand. TABEL 67: b 5 Type 2 fejl 5 P(forkast H0 I H0 er sand) I dette eksempel har vi betragtet to typer fejl, den ene er irriterende, mens den anden er livsfarlig. Det er ikke altid sådan at type 2 fejl er vigtigere end type 1 fejl, det afhænger af situationen. Du skal blot huske på, at en minimering af den ene type fejl, fører til en øget sandsynlighed for den anden type fejl. I modsætning til en type 1 fejl, der udelukkende afgøres af testniveauet, afhænger en type 2 fejl i teorien af uendeligt mange værdier af H1. Derfor angives type 2 fejl med en styrkekurve, som viser sandsynligheden for at begå type 2 fejl for varierende værdier af H1. FIGUR 50: Styrkekurven når H1 , H0 Styrkekurven når H1 . H0 100% Styrken (1-b) Styrken (1- b) 100% 0% 94 Med fokus på erhvervslivet 96 98 100 102 0% 98 100 102 104 106 s. 146 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Eksempel på styrkefunktionen (funktionen for 1-b) Ejeren af en stor æbleplantage har erfaring for, at æblerne i gennemsnit vejer 100 gram med en standardafvigelse på 5 gram. I en stikprøve på 25 æbler var gennemsnittet 97. På den baggrund opstilles følgende hypoteser: H0 : m $ 100 gram (Gennemsnitsvægten af æblerne er højst 100 gram) H1 : m $ 100 gram (Gennemsnitsvægten af æblerne er mindre end 100 gram) I forbindelse med testen ønskes en beregning af styrken, hvilket vil sige sandsynligheden for at forkaste en type 2 fejl (1 2 b). Styrkefunktionen afhænger af det populationsparameter der testes, samt hvordan hypoteserne vender - se oversigt over styrkefunktionerne171 på side Beregning af styrken (type 2 fejl) ved test af andele. I dette eksempel testes populationsgennemsnittet og H1 . H0, herved anvendes følgende styrkefunktion: TABEL 68: b 5 P Z , m0 2 m1 ? √ n 1 Za gælder ved H1 , H0 s Hvor m1 tolkes som varierende værdier af H1. For simpelhedens skyld beregnes styrkekurven i nedenstående ud fra kun tre mulige punkter af H1 (97, 98, 99). Styrken skal i den sammenhæng opfattes som sandsynligheden for at forkaste H0 for hver af de tre værdier af H1. EKSEMPEL BEREGNING: P Z , 100 2 97 ? √ 25 2 1,645 5 P(Z , 1,355) 5 0,912 5 TABEL 69: Hypoteser H1 H0 m1 α 5 P(type 1 fejl) Styrken 5 1 2 b 5 1 2 P(type 2 fejl) 97 - P(Z , 1,355) 5 0,912 98 - P(Z , 0,355) 5 0,639 99 - P(Z , 20,645) 5 0,26 100 P(Z , 21,645) 5 0,05 101 P(Z , 22,645) 5 0,004 Med fokus på erhvervslivet s. 147 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest FIGUR 51: Styrkekurve eksempel m0 Styrken (1-β) 100% m1 0% 97 98 99 100 101 Styrkekurven for 1-b t taler sit tydelige sprog - jo længere værdien af H1(m1) flytter sig fra værdien af H0 hypotesen (m0), desto større er sandsynligheden for at forkaste H0. Fra styrkekurven kan vi eksempelvis udlede, at såfremt gennemsnitsvægten af æblerne for hele populationen er 97 gram, vil sandsynligheden for at forkaste H0 være omkring 90%. Eksemplet med styrketesten tog udgangspunkt i gennemsnit, lignende styrkeberegning kan foretages med test af andele. Opsummering Essensen af en hypotesetest er, at opstille to modsatrettede hypoteser, H0 og H1. H0 hypotesen repræsenterer erfaringen, som er det vi indtil videre må gå ud fra er sandt, og H1 hypotesen er vores formodning baseret på en stikprøve. Hypotesetestens formål er, at afgøre om H1 er sand eller falsk. H0 accepteres eller forkastes ud fra et valgt testniveau. Dette testniveau kan tolkes som den kritiske grænse, som punktestimatet i form af en p-værdi skal overskride, før vi forkaster H0. Der kan forekomme to typer fejl, når en hypotesetest anvendes. Type 1 fejl er sandsynligheden for at forkaste H0 når denne er sand, og type 2 fejl er sandsynligheden for at acceptere H0 når denne er falsk. En type 1 fejl afhænger udelukkende af testniveauets størrelse. Er testniveauet 5 %, er sandsynligheden for en type 1 fejl også 5 %. En type 2 fejl kan ikke isoleres til en bestemt værdi, så denne fejl illustreres i stedet med en styrkekurve for alle de mulige værdier af H1. Med fokus på erhvervslivet s. 148 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Generel metode til løsning af hypotesetest En generel metode til at beregne hypotesetest opridses i nedenstående. Efterfølgende diskuteres punkterne enkeltvist. 1. Definition af variabel 2. Angiv model 3. Opstil data i form af punktestimater og stikprøve 4. Hypoteser 5. Forudsætninger valideres, herunder approksimation 6. Formel for beregning af teststørrelse 7. Vælg testniveau og beregn p-værdi 8. Konklusion NB: Hypotesetest som beregnes med Statlearn programmet følger denne fremgangsmåde. Ad 1: Definition af variabel Udgangspunktet for alle statistiske test er en klar definition af variablen, der skal testes. ermed forstås en kort og præcis beskrivelse af variablen uden inddragelse af tal eller punkestiH mater. Er du i tvivl om, hvad variablen er så stil dig selv spørgsmålet: Hvad er det, der kan variere? EKSEMPEL: I forbindelse med lanceringen af en ny hybridbil ønsker Ford, at teste om kørslen gennemsnitligt overstiger 25 km/l ved bykørsel. Her defineres variablen som: Antal kørte km pr. liter benzin ved bykørsel. Ad 2: Angiv af model Der findes mange forskellige fordelinger, en variabel kan følge. Derfor er det vigtigt, at redegøre for den eksakte fordeling. Følger en variabel binomialfordelingen, men approksimeres og testes i en normalfordeling er det vigtigt at angive. Under punktet med forudsætninger kommenteres at variablen approksimeres fra binomial til en normalfordeling (se mere om approksimation på side 119). Ad 3: Data Her opstilles datagrundlaget for intervallet i form af punktestimater som gennemsnit, standardafvigelse og stikprøvestørrelse. Ad 4: Hypoteser Det kan godt volde en del vanskeligheder, at vende hypoteserne korrekt. Som udgangspunkt kendetegnes H0 hypotesen ved at repræsentere den formodning, der må antages at være sand, indtil andet er bevist. Med fokus på erhvervslivet s. 149 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest EKSEMPEL: Ejeren af en æbleplantage har 30 års erfaring for, at æblerne gennemsnitligt vejer mere end 100 gram (m). En stikprøve på 50 æbler resulterede i et gennemsnit på 110 gram (x) og en standardafvigelse på 40 gram (s). Tyder det på, at æblerne vejer mere end 100 gram i gennemsnit? H0:m # 100 gram H0:m . 100 gram Ho repræsenterer det man har erfaring for, i den forbindelse at æblerne gennemsnitligt vejer 100 gram. En stikprøve har sået tvivl om rigtigheden af de 100 gram. Punktestimatet (x) indikerer med sine 110 gram, at populationsgennemsnittet (m) kunne formodes at være større end 100 gram. Hypotesetesten anvendes for at afgøre, om de 110 gram er en signifikant afvigelse fra de 100 gram og dermed et bevis for, at populationsgennemsnittet er større end 100 gram. Ad 5: Forudsætninger, herunder approksimation Her beskrives de forudsætninger, der ligger til grund for testen. Er testen f.eks. baseret på en approksimation, er det vigtigt, at skrive om approksimationsbetingelserne er opfyldt. Approksimation betyder, at man går fra den oprindelige fordeling over til en anden fordeling, oftest fra en diskret fordeling (binomial, poisson og hypergeometrisk) til normalfordelingen. Hypotesetest er hovedsagligt baserede på normalfordelingen, men det er ikke altid, at den variabel man arbejder med er normalfordelt. Det kan derfor være nødvendigt at approksimere til normalfordelingen. For at approksimere er der nogle forudsætninger, der skal være opfyldt, hvilket fremgår af “Appendiks 1” i slutningen af afsnittet om fordelinger. I den forbindelse skal det bemærkes, at der til alle konfidensintervaller der beregnes med Statlearn programmet, udføres en automatisk kontrol af om approksimationsbetingelserne er opfyldt. Ad 6: Formel for beregning af teststørrelse Formel for beregning af teststørrelsen opstilles. Teststørrelsen er nødvendig for at beregne p-værdien. Det er ved sammenligning af p-værdien og testniveauet, at vi konkluderer, om H1 hypotesen er sand eller falsk. Ad 7: Testniveau og p-værdi Angiv testniveau. Hvis ikke testniveauet er nævnt i opgaven, vælges som regel et testniveau på 5 %. Vær opmærksom på at et testniveau er et udtryk for sandsynligheden for at begå en type 1 fejl: Type 1 fejl:P(forkast H0 I H0) Vælges et testniveau på 5 % er der tilsvarende 5 % sandsynlighed for at forkaste Ho når denne er sand. Som vi tidligere var inde på, øges sandsynligheden for en type 2 fejl, hvis testniveauet mindskes, derfor kan man ikke uden omtanke sænke testniveauet for at minimere sandsynligheden for en type 1 fejl. Med fokus på erhvervslivet s. 150 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Ad 8: Konklusion Er p-værdien mindre end testniveauet, forkastes H0. Hvis testniveau og p-værdi er relativt tæt på hinanden, er konklusionen niveaufølsom, hvilket betyder at konklusionen kan gå begge veje, hvis testniveauet ændres marginalt. I dette eksempel beregnes p-værdien til 4,1% hvilket betyder at H0 forkastes H – Men ændres testniveauet marginalt fra 5 til 4 % accepteres H0. Husk på at p-værdien er et resultat af stikprøvedata og kan dermed ikke ændres, derimod kan testniveauet reguleres. Hypotesetest oversigt, 1 stikprøve FIGUR 52: Gennemsnit (m) Intensitet (l) Andel (p) Std.afvigelse (s) Er variansen baseret på en stikprøve? Approks. Z-test a l Er variablen binomial (B) eller hyp. geometrisk (H) x2-test af s (Nej) (Ja) Z-test (B) (H) Approks. Z-test uden korrektions faktor Approks. Z-test med korrektions faktor Er stikprøven større end 30 (Nej) (Ja) T-KI Approks. Z-test Med fokus på erhvervslivet s. 151 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Beregning af hypotesetest, 1 stikprøve TABEL 70: Oversigt over hypotesetest, 1 stikprøve Hypotesetest Formel Z-test af m Z5 Approksimativ Z-test af m (Med n-1 frihedsgrader) Z5 T-test af m (Med n-1 frihedsgrader) t5 x2-test af s (Med n-1 frihedsgrader) x2 5 Z5 Approksimativ Z-test af p s/√ n x 2 mo s/√ n x 2 mo s/√ n s er kendt (standardafvigelsen for populationen) n . 30 s er ukendt, i stedet anvendes standardafvigelsen for stikprøven, “s” (n 2 1)s2 so2 p� 2 po √ po(1 2 po)/n Z5 Approksimativ Z-test af l x 2 mo Forudsætning l� 2 lo √ lo/n n ? po (1 2 po) . 9 n ? lo . 9 � tolkes som x l Beregning af styrken (type 2 fejl) ved test af andele TABEL 71: Beregning af styrken ved test af andele Hypoteser Formel når H1 . H0 b 5 1 2 P Z , når H1 , H0 b 5 P Z , m0 2 m1 ? √ n 1 Za s når H1 H0 1 2 P Z , m0 2 m1 m0 2 m1 ? √ n 1 Za21 2 P Z , ? √ n 1 Za s s Med fokus på erhvervslivet m0 2 m1 ? √ n 1 Za21 s s. 152 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Beregning af styrken (type 2 fejl) ved test af gennemsnit TABEL 72: Beregning af styrken ved test af gennemsnit Hypoteser Formel p0 2 p 1 p0(1 2 p0) når H1 . H0 b 5 1 2 P Z , p (1 2 p ) ? √ n 1 Za ? 1 1 p1(1 2 p1) p0 2 p 1 p0(1 2 p0) når H1 , H0 b 5 P Z , p (1 2 p ) ? √ n 1 Za ? 1 1 p1(1 2 p1) p0 2 p1 p0(1 2 p0) p0 2 p1 p0(1 2 p0) 2 P Z , ? √ n 1 Za ? når H1 H0 1 2 P Z , p (1 2 p ) ? √ n 1 Za ? p1(1 2 p1) 1 1 p1(1 2 p1) p1(1 2 p1) Eksempler på hypotesetest med en stikprøve Eksempel 1: T-test af gennemsnit når varians er ukendt X ~ N(m,s2) Ud af 50 biler var gennemsnitskørslen 26,5 km/l med en standardafvigelse på 2,9 km/l. Kan det konkluderes, at bilerne gennemsnitligt kører længere end 25 km/l? Variabel: Distance (km) pr. liter benzin Model: X ~ N(m,s) Data: n 50 x 26,5 s 2,9 Hypoteser: H0: m # 25 H1: m . 25 Forudsætninger: X ~ normalfordelingen jf. den centrale grænseværdisætning da n . 30 Formel for teststørrelse: x 2 mo t5 s/√ n Med fokus på erhvervslivet s. 153 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,000311 Konklusion: H0 forkastes da p-værdi , testniveau. Hermed konkluderes med 95 % sandsynlighed, at bilerne kører mere end 25 km i gennemsnit pr. liter. Eksempel 2: Z- test af gennemsnit i en normalfordeling, varians kendt X ~ N(m,s2) I forbindelse med Nordeas årlige kundeundersøgelse baseret på 80 spørgeskemaer, blev den gennemsnitlige tilfredshed med kunderådgivning målt til 70,48. Kan Nordea på denne baggrund konkludere, at tilfredsheden for alle kunder mindst er 70? Det antages, at standardafvigelsen for denne type undersøgelser er 3. Variabel: Tilfredshed med kunderådgivning (skala 0-100) Model: X ~ N(m,s) Data: n 80 x 70,48 s 3 Hypoteser: H0: m # 70 H1: m . 70 Forudsætninger: Populationens varians er kendt Observationerne er normalfordelte Formel for teststørrelse: x 2 mo Z5 s/√ n Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,076203 Konklusion: H0 accepteres da p-værdi . testniveau. Hermed kan det med 95% sandsynlighed ikke afvises, at kundetilfredsheden højst er 70. Med fokus på erhvervslivet s. 154 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Eksempel 3: Chi-test af standardafvigelsen i en normalfordeling Et vigtigt serviceparameter er, at der ikke er stor forskel på ventetiden i de forskellige køer hos Netto. Kravet er, at standardafvigelsen højst må være 3 minutter. Ud af en stikprøve på 47 kunder var standardafvigelsen 2,7 min. Test på 5% niveauet om Nettos krav til ventetiden er opfyldt? Variabel: Ventetid i kø (min.) Model: X ~ N(m,s) Data: n s 47 2,7 Hypoteser: H0: s $ 3 H1: s , 3 Forudsætninger: X ~ normalfordelingen jf. den centrale grænseværdisætning da n . 30 Formel for teststørrelse: (n 2 1)s2 x2 5 so2 Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,182584 Konklusion: H0 accepteres da p-værdi . testniveau. Hermed kan det med 95% sandsynlighed ikke afvises, at standardafvigelsen på ventetiden er mere end 3 minutter. Nettos krav er dermed ikke opfyldt. Eksempel 4: Approksimativ Z-test af populationsandelen i en binomialfordeling En investeringsfond garanterer at 70 % af deres aktier giver et afkast på mindst 12 %. Blandt en stikprøve på 50 af fondens aktier som blev målt over en 1-årig periode, var der 36 aktier med et afkast på mindst 12 %. Tyder det på at garantien overholdes? Variabel: Antal aktier med et afkast på mindst 12% Model: X ~ b(n,p) Data: n 50 x 36 p� 0,72 Med fokus på erhvervslivet s. 155 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Hypoteser: H0: p # 0,70 H1: p . 0,70 Forudsætninger: Normalfordelingsapproksimation: n p�(1 2 p�) . 9 er opfyldt → Approksimation er ok Formel for teststørrelse: p� 2 po Z5 √ po(1 2 po)/n Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,3788104 Konklusion: H0 accepteres da p-værdi . testniveau. Hermed kan det med 95 % sandsynlighed afvises, at andelen af aktier med et afkast på 12 % er mindst 70 %. Eksempel 5: Approksimativ Z-test af intensiteten i en poisson fordeling Som direktør for en ejendomsmæglerkæde der sælger luksushuse i Sydeuropa, har du erfaring for, at der gennemsnitligt sælges mere end 15 huse pr. måned. Baseret på de sidste 2 års salgshistorik var det månedlige gennemsnit 16,4. Er antagelsen om et gennemsnitsalg på mere end 15 huse korrekt? Variabel: Antal solgte sommerhuse pr. måned Model: X ~ Ps(l) Data: n 24 l� 16,4 Hypoteser: H0: l # 15 H1: l . 15 Forudsætninger: Normalfordelingsapproksimation: n l� . 9 er opfyldt → Approksimation er ok Formel for teststørrelse: l� 2 lo Z5 √ lo/n Med fokus på erhvervslivet s. 156 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Testniveau og p-værdi: Testniveau 5 0,05 p-værdi 5 0,0383 Konklusion: H0 forkastes da p-værdi , testniveau. Hermed tyder det med 95 % sandsynlighed på, at gennemsnitsalget overstiger 15 huse pr. måned. Hypotesetest med to stikprøver Med hypotesetest for to stikprøver er fremgangsmåde den samme som med test baseret på en enkelt stikprøve. Forskellen er blot, at vi sammenligner to populationsparametre, eksempelvis om det gennemsnitlige afkast er højere for aktie A end B. For at finde frem til den korrekte test for to populationsparametre, kan nedenstående oversigt anvendes. Bemærk at ligesom med konfidensintervaller for differens mellem to populationsparamtre er det kun test af gennemsnit, som fører til forskellige testmuligheder. For test af andele og intensitet er der kun en type test, hvorfor disse ikke inkluderes i oversigten. FIGUR 53: Gennemsnit (m) Er begge stikprøver større end 30? (Ja) (Nej) Z-test Er populationsvariansen kendt? (Nej) Upooled t-test Med fokus på erhvervslivet (Nej) (Ja) Test af varianshomogenitet Z-test Er der varianshomogenitet? (Ja) Pooled t-test s. 157 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Beregning af hypotesetest, 2 stikprøver TABEL 73: Oversigt over hypotesetest, 2 stikprøver Hypotesetest Formel Z-test for mx 2 my Z5 Approksimativ Z- test for mx 2 my Z5 Pooled T- test for mx 2 my x2y2D s2x s2y 1 nx ny x2y2D t5 Forudsætning s s 1 nx ny 2 x 2 y 1 1 s n 1n x y (nx 2 1)s2x 1 (ny 2 1) s2y s2p 5 (nx1 ny 2 2) Upooled T-test for mx 2 my t5 Approksimativ T-test for mx 2 my t5 x2y2D s2x s2y 1 nx ny x2y2D s2x s2y 1 nx ny p� 2 p�y 2 D Approksimativ T-test for px 2 py 1 1 p�o(1 2 p�o)/ n 1 n x y Approksimativ T-test for lx 2 ly Z5 T-test for sx 2 sy Med fokus på erhvervslivet Ved direkte sammenligning af x og y sættes D til 0. nx . 30 og ny . 30 Ved direkte sammenligning af x og y sættes D til 0. x2y2D 2 p Z5 s2x og s2y er kendte. x1y Hvor p�o 5 n x 1 ny l�x 2 l�y 2 D l�x l�y 1 nx ny f5 s2x s2y s2x og s2y er ukendte, men varianshomogenitet, dvs. ens varians. Ved direkte sammenligning af x og y sættes D til 0. s2x og s2y antages ukendte, og der er ikke varianshomogenitet, dvs. ikke ens varians. Ved direkte sammenligning af x og y sættes D til 0. s2x og s2y antages ukendte, og der er ikke varianshomogenitet, dvs. ikke ens varians. Ved direkte sammenligning af x og y sættes D til 0. nx · p�x(1 2 p�x) . 9 ny · p�y(1 2 p�y) . 9 Ved direkte sammenligning af x og y sættes D til 0. nx l�x . 9 ny l�y . 9 Ved direkte sammenligning af x og y sættes D til 0. Anvendes hyppigt i forbindelse med test af varianshomogenitet s. 158 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Eksempler på hypotesetest med 2 stikprøver Eksempel 1: Approksimativ Z-test af differensen mellem 2 pop. gennemsnit To reklamer blev bedømt på en 5 punkt skala af 40 personer. For reklame 1 og 2 var gennemsnittet henholdsvis 4,3 og 3,9 og standardafvigelse var tilsvarende på 1,7 og 1, 2. Kan det på den baggrund konkluderes, at reklame 1 får en bedre gennemsnitsbedømmelse end reklame 2? Variabel: X: Karakter for reklame 1 Y: Karakter for reklame 2 Model: X og Y ~ N(m,s) Data: nx 40 x 4,3 sx 1,7 ny 40 y 3,9 sy 1,2 Hypoteser: H0: mx # my H1: mx . my Forudsætninger: Normalfordelingsapproksimation: nx og ny er begge . 30 → Approksimation er ok Formel: x2y2D Z5 s2x s2y 1 nx ny Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,11204 Konklusion: Ho accepteres da p-værdi . testniveau. Det kan med 95 % sandsynlighed ikke afvises, at gennemsnitsbedømmelsen for begge reklamer kan værre ens. Med fokus på erhvervslivet s. 159 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Eksempel 2: Approksimativ Z-test af differensen mellem 2 pop. intensiteter I en undersøgelse blandt folk der lider af migræneanfald, blev der nedsat to grupper (A og B) med 50 personer i hver. Begge grupper testede en ny pille mod migræne, men i gruppe B var alle pillerne placebo (piller uden effekt). Det gennemsnitlige antal migræneanfald for gruppe A var 2,4 og for B var gennemsnittet 4,1. Kan det herudfra konkluderes, at den nye pille har effekt? Variabel: X: Antal migræneanfald i gruppe A Y: Antal migræneanfald i gruppe B Model: X og Y ~ Ps(l) Data: nx 12 l�x 2,4 ny 12 l �y 4,1 Hypoteser: H0: lx $ ly H1: lx , ly Forudsætninger: Normalfordelingsapproksimation: n ? l� . 9 er opfyldt for både X og Y Formel: l�x 2 l�y 2 D Z5 l�x l�y 1 nx ny Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,010448 Konklusion: Ho forkastes da p-værdi , testniveau. Det betyder, at migrænemedicinen med 95 % sandsynlighed har en effekt. Med fokus på erhvervslivet s. 160 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Eksempel 3: Approksimativ Z-test for differensen mellem 2 populationsandele For at se om der er en relation mellem kendskabsgraden til bagerkæden Emmerys og geografisk bopæl, udtages en stikprøve på 45 århusianere (Å) og 54 københavnere (K). Blandt århusianerne var der 15 som kendte til Emmerys og blandt københavnerne var antallet 27. Har geografi betydning for kendskabsgraden til Emmerys? Variabel: X: Antal hyppigt besøgende (i Århus) Y: Antal hyppigt besøgende (i Kbh.) Model: X og Y ~ b(p,n) Data: nx 45 x 15 p�x 0,333 ny 54 y 27 p�y 0,5 Hypoteser: H0: px $ py H1: px , py Forudsætninger: Normalfordelingsapproksimation: n p�(1 2 p�) . 9 er opfyldt for både X og Y Formel: Z5 p� 2 p�y 2 D p�o(1 2 p�o)/ 1 1 1 n x ny Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,0474 Konklusion: Ho forkastes da p-værdi , testniveau. Det betyder at andelen af hyppigt besøgende med 95 % sandsynlighed kan siges at være større i København end i Århus. Med fokus på erhvervslivet s. 161 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Variansanalyse (ANOVA) Variansanalyse er en statistisk metode, der anvendes til at vurdere, om der er forskelle mellem gennemsnitlige værdier på tværs af forskellige grupper (populationer). Som eksempel kan nævnes en undersøgelse af tilfredshedsgraden i forskellige banker. Her kan ANOVA anvendes til at vurdere, om tilfredshedsgraden er ensartet, eller om der er tegn på, at der i enkelte banker er en højere grad af tilfredshed end i de øvrige. Alternativt til ovenstående kvantitative variabel (tilfredshedsgrad) kan ANOVA også bruges til at analysere kvalitative variable, eksempelvis hvorvidt brugtvognspriser for et bestemt bilmærke påvirkes af bilens farve, indtræk etc. Således kan ANOVA anses som en fleksibel metode, der ikke nødvendigvis tager udgangspunkt i kvantitative variable, som det er tilfældet med regressionsanalyse. I det enkleste tilfælde, hvor kun to populationer sammenlignes, svarer ANOVA til en hypotesetest af forskellen mellem to gennemsnit. Men i modsætning til traditionelle test af to populationer er ANOVA-metoden egnet til at teste flere gennemsnit samtidigt. Ved envejs-ANOVA vurderes effekten af en enkelt faktor på baggrund af en enkelt responsvariabel. For eksempel kan en fødevarevirksomhed være interesseret i at afgøre, om der er forskelle i præferencerne for fem nye produkter, der endnu ikke er lancerede. I den forbindelse udvælges fem forskellige testgrupper (stikprøver). I hver stikprøve afgiver respondenterne karakterer fra 1-10 (responsvariablen), hvorefter gennemsnittet i hver af de fem stikprøver beregnes. I ovenstående tilfælde kan ANOVA være med til at kvantificere om den variation, der er imellem de fem stikprøvegennemsnit, er tilstrækkelig høj (signifikant) til at konkludere, at der ikke kan være tale om fem identiske populationsgennemsnit, og altså at de fem produkter ikke kan antages at være lige populære. Efterfølgende vil det naturlige skridt være at analysere, hvilke produkter der blev foretrukket. At give dette svar ligger uden for ANOVA-metodens rammer – At svare på dette spørgsmål vil kræve yderligere analyse med Tukey testen. ANOVA giver blot svar på, om de sammenlignede gennemsnit med en vis sandsynlighed, kan betragtes som værende ens. ANOVA bygger på Mindste Kvadrat Metoden, som også ligger til grund for regressionsanalyser og er uddybet i afsnittet om regressionsanalyse, se afsnit MKM. Forudsætninger for ANOVA 1. De populationer vi sammenligner, skal være normalfordelte 2. Stikprøverne skal være udvalgt ensartet tilfældigt fra de givne populationer 3. Populationerne skal have samme varians (varianshomogenitet) Med fokus på erhvervslivet s. 162 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Eksempel på variansanalyse Du er ansat hos Nybolig, og er ved at undersøge prisniveauet for fritidshuse i Sverige, da I overvejer at udvide jeres salgsmarked. Du er interesseret i at vide, om prisniveauet er ensartet i 3 forskellige områder af Sydsverige, og har derfor udtaget 3 stikprøver – en fra Kalmar, en fra Blekinge og en fra Kristianstad. Resultatet ses i nedenstående skema. Tabel 74: Kalmar Blekinge Kristianstad 1.032.000 1.221.000 1.418.000 955.000 2.756.000 1.343.000 855.000 1.436.000 1.340.000 843.000 2.297.000 1.267.000 924.000 1.311.000 1.322.000 755.000 1.315.000 1.313.000 854.000 953.000 1.183.000 1.779.000 1.896.000 1.287.000 1.342.000 1.284.000 1.340.000 886.000 952.000 1.531.000 908.000 1.301.000 1.436.000 1.260.000 1.182.000 1.149.000 1.221.000 1.568.000 1.212.000 Er der forskel på det gennemsnitlige prisniveau i de 3 forskellige områder af Sydsverige (ved et signifikansniveau på 5%)? Med fokus på erhvervslivet s. 163 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Hypoteser: H0: m1 5 m2 5 mi H1: Ej H0 Data Tabel 75: Kilde SS fg MS F Fkritisk P-værdi Imellem 1,33819E+12 2 6,69096E+11 5,4571 3,2594 0,0085 Iblandt 4,41396E+12 36 1,2261E+11 Total 5,75215E+12 38 Forudsætninger Stikprøver er udvalgt simpelt tilfældigt Obs. er fra normalfordelte populationer Populationerne har ens varianser Konklusion Da p-værdi (0,0085107) , testniveau (0,05) forkastes H0 Da p-værdien er mindre end signifikansniveauet på 5 %, kan vi konkludere, at der er forskel på prisniveauet i de 3 forskellige områder af Sydsverige. Med fokus på erhvervslivet s. 164 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Øvelser med hypotesetest De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af specifikke testbegreber. Efterfølgende er opgaverne rettet mod beregninger. Fortolkningsøvelser: 1. Hvad er ideen med en hypotesetest? 2. Hvad er forskellen på en hypotesetest og et konfidensinterval? 3. Hvordan opfatter du forskellen på H0 og H1 hypotesen? 4. Hvordan vil du fortolke testniveauet? 5. Hvilken effekt har størrelsen af testniveauet for konklusionen? 6. Hvornår ved du, at der er tale om en test af to variabler? Beregningsøvelser: Opgave 1. I forbindelse med at forberede markedsføringen af en ny type boliglån ønsker Jyske Bank, at danne sig et indtryk af hvordan boliglånet vil blive modtaget af kunderne. Derfor har banken, i samarbejde med dig, iværksat en undersøgelse, hvor folk i forskellige aldersintervaller, har vurderet om lånet var en god ide. Resultaterne fremgår af nedenstående. Tabel 76: Aldersinterval (år) Vurdering 21-40 41-60 . 60 SUM God ide 97 110 104 311 Neutral 43 61 39 143 Dårlig ide 55 10 14 79 SUM 195 181 157 533 Spørgsmål 1.Test på 1 % niveauet om over halvdelen af kunderne vurderer, at det nye boliglån er en god ide. Spørgsmål 2.Test på 5 % niveauet om der er færre kunder mellem “41–60” end “.60” der mener at lånet er en god ide. Hvad betyder resultatet for kommunikationen til de to segmenter? Med fokus på erhvervslivet s. 165 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Opgave 2. Grønklimas hastige salgsvækst har ikke været uden problemer. Et stigende antal kunder er begyndt at klage over produktfejl og mangler ved virksomhedens ventilationsanlæg. For at få et overblik over fejlprocenten, blev en stikprøve på 193 ventilationsanlæg udtaget, heriblandt var 10 defekte. Spørgsmål 1. Beregn et 95 % konfidensinterval for andelen af defekte ventilationsanlæg. Spørgsmål 2. Test på 5 % niveauet om defektprocenten kan siges at være maksimalt 5 %. For at imødekomme kundernes klager har Grønklima øget antallet af kvalitetskontroller i produktionen og garanteret kunderne en bedre kvalitet En måned efter den skærpede kvalitetskontrol udtog man en stikprøve på 236 ventilationsanlæg og fandt 11 fejl. Spørgsmål 3.Test på 5 % niveauet om den skærpede kvalitetskontrol har virket efter hensigten og medført færre fejl. Opgave 3. Det er snart nytårsaften og du skal holde stor fest. I avisen ser du et godt tilbud fra den lokale fyrværkeriforhandler – men fordi fyrværkeriet er så billigt, er du nervøs for, om det gode tilbud skyldes et stort antal fusere i pakken. Nu lover forhandleren dig, at der er mindre end 10 % fusere, og du får lov til at tage en pakke med hjem og prøve af. Ud af 35 stk. er 7 fusere. Holder fyrværkeriforhandlerens løfte stik ved et signifikansniveau på 5 %? Opgave 4. Du arbejder for Acer, og I er ved at udvikle en ny notebook. For at få en fornemmelse af, hvad kunderne vil synes om den nye notebook, har I oprettet en testgruppe og spurgt deltagerne, hvordan de opfattede den foreløbige version. Testgruppen var på 230 mennesker. Resultaterne blev følgende 130 personer synes særdeles godt om den nye notebook. 26 personer er neutrale over for den nye notebook. 74 personer synes ikke godt om den nye notebook. Test på 5 %-niveauet om over halvdelen af kunderne synes særdeles godt om den nye notebook. Opgave 5. Københavns Lufthavn har på det seneste oplevet en del problemer med deres bagagebånd, som går i stå alt for ofte. Det har betydet utilfredse passagerer, og derfor har man udskiftet båndene. Før udskiftningen gik båndene i gennemsnit i stå 4 gange i løbet af en time, og efter udskiftningen har man foretaget en måling over det sidste døgn, som viser, at båndende i gennemsnit gik i stå kun 1,5 gange i timen. Københavns Lufthavn antager, at båndende nu går i stå under 2 gange i timen. Er Københavns Lufthavns antagelse korrekt? (Test på 5 %-niveauet) Med fokus på erhvervslivet s. 166 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Opgave 6. Du arbejder for Megafon og har foretaget en meningsmåling over, hvorvidt der er tilslutning til afskaffelse af efterlønnen blandt befolkningen på tværs af politiske holdninger. Resultaterne fremgår nedenfor Tabel 77: Stemmer på rød blok Stemmer på blå blok SUM For afskaffelse 74 93 167 Neutral 5 6 11 Imod afskaffelse 51 39 90 SUM 130 138 268 Test på 5 %-niveauet om over halvdelen af de, der stemmer rødt, er for afskaffelse af efterlønnen, og vurder desuden konklusionens følsomhed. Opgave 7. Du er ansat hos et større analysebureau, og er i gang med at udarbejde en markedsanalyse for Finanstilsynet. De vil bl.a. gerne vide, om der er sammenhæng mellem, hvor stor tillid man har til den finansielle sektor, og hvor i landet man bor. Du udtager derfor en stikprøve på 150 århusianere og 200 københavnere. Blandt århusianerne er der 104, der har tillid til den finansielle sektor, og blandt københavnerne er der 132, der har tillid til den finansielle sektor. Er tilliden til den finansielle sektor større i Århus end i København? (Test på 5 %-niveauet) Opgave 8. Hos Apple har man netop færdigudviklet en ny version af Ipad’s, som man nu ønsker at kende den gennemsnitlige batterilevetid på. Der udtages derfor en stikprøve på 32 af de nye Ipads, og man finder ud af, at den gennemsnitlige batterilevetid er 7,9 timer med en standardafvigelse på 1,8 timer. Hos ASUS har man ligeledes udviklet et konkurrerende produkt Ipaper, og her er der udtaget en stikprøve på 35 Ipaper’s, hvor den gennemsnitlige batterilevetid er 8,1 timer med en standardafvigelse på 2,2 timer. Har ASUS’ Ipaper længere batterilevetid end Apples Ipad? Med fokus på erhvervslivet s. 167 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Opgave 9. Du har sat dig for at undersøge gennemsnitsindkomsten for mænd og kvinder, og derfor har du udtaget to stikprøver – resultatet af din undersøgelse ses nedenfor Tabel 78: Mænd Kvinder 47 31 Gennemsnit 318.999 289.381 Standardafvigelse 38.211 42.898 Observationer Test på 1 %-niveauet om gennemsnitsindkomsten for mænd er større end gennemsnitsindkomsten for kvinder. Opgave 10. McDonald’s er i færd med at ekspandere med 2500 franchise restauranter i Kina. Som et led i deres ekspansion ønsker McDonald’s at vurdere, om der kan være stordriftsfordele i at opkøbe kartoffelplantager til deres pommes fritter, eller om det alternativt bedre kan svare sig, at importere dem. McDonald’s har estimeret, at hver franchiserestaurant mindst skal aftage 3 kasser á 500 kg. kartofler om ugen, for at kartoffelplantagen kan betale sig. I en periode på 10 uger blev der indhentet ugentlige observationer fra forskellige franchiserestauranter. Det gennemsnitlige ugentlige forbrug blev estimeret til 3,9 kasser pr. franchise. Spørgsmål 1. Definer variabel og fordeling. Spørgsmål 2. Giver datagrundlaget anledning til, at McDonald’s skal købe kartoffelplantagen? Spørgsmål 3.Hvor meget skal signifikansniveauet ændre sig, for at vi ændrer vores konklusion i spørgsmål 2? For ikke at besværliggøre det logistiske arbejde med at transportere kartoflerne fra plantagen ud til franchiserestauranterne må andelen af de restauranter, som har et ugentlig forbrug på højst 3 kasser, ikke overstige 15 %. På baggrund af de 85 observerede franchiserestauranterne fandt man, at der var 16 som højst aftog 3 kasser ugen. Spørgsmål 4. Test om andelen af butikker der højst aftager 3 kasser om ugen overstiger 15 %. Spørgsmål 5.Hvilken forskel havde det gjort, hvis vi i spørgsmål 1 i stedet for kasser fik oplyst, at det ugentlige forbrug skulle være på mindst 1242 kg pr. restaurant? Med fokus på erhvervslivet s. 168 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Opgave 11. Den førende producent af IT-systemer til virksomheder, SAP, har indført et nyt projektstyringssystem, der skal gøre det lettere at implementere deres systemer og dermed sikre, at projekterne overholder tidsrammen. Der har erfaring for, at 43 % af projekterne overskrider tidsrammen, men med det nye system blev 39 ud af 60 projekter afsluttet til tiden. Spørgsmål 1. Definer variabel og fordeling Spørgsmål 2. Giver dette grund til at antage, at projektstyringssystemet fungerer? Spørgsmål 3.Hvad skal testniveauet ændres til, for at få den modsatte konklusion i spørgsmål 2? Spørgsmål 4.Hvis den sande andel af projekter der overskrider tidsrammen er 25 %, hvor stor er da sandsynligheden for, at højst 30 ud af 120 projekter overskrider tidsrammen? Opgave 12. For at teste de lydmæssige forbedringer for en ny mp3 afspiller har Apple nedsat to testgrupper. Gruppe A skulle vurdere lydkvaliteten af virksomhedens nuværende afspiller, og gruppe B vurderede lyden af den nye afspiller. Resultaterne ses i nedenstående tabel 1. Karakter blev givet på en 10-punkt skala med 10 som topkarakter. Tabel 79: Gruppe A Gruppe B 27 48 Gennemsnit 4,79 6,26 Std. Afv. 2,08 1,53 Observationer Spørgsmål 1.Test på 5 % niveauet om gennemsnitskarakteren i gruppe B kan siges at være større end i gruppe A. I gruppe B var der 28 testpersoner, der mindst gav et syvtal i karakter. Spørgsmål 2.Test på 10 % niveauet om mere end halvdelen af karaktererne for den nye afspiller vil være større end 7. Med fokus på erhvervslivet s. 169 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Opgave 13. Du er ansat hos et analysebureau, og er i færd med at udarbejde en analyse over, hvor tilfredse danskerne er med deres liv. I den forbindelse vil du undersøge, om alder har nogen indvirkning på, hvor tilfreds man er med tilværelsen. Du har udtaget 3 stikprøver inddelt i aldersintervaller, og bedt de medvirkende om, på en skala fra 1 til 10, at vurdere hvor tilfredse de generelt er med tilværelsen. Resultatet fremgår nedenfor. Er der forskel på gennemsnitstilfredshedsgraden på tværs af aldersgrupperne ved et signifikansniveau på 5 %? Tabel 80: Alder 18–30 Alder 31–50 Alder . 50 2 10 7 4 4 4 9 9 8 10 10 2 5 3 2 5 9 4 8 4 4 7 7 7 4 10 4 6 7 4 9 10 7 6 6 6 8 9 10 4 4 2 2 8 4 Med fokus på erhvervslivet s. 170 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Tidligere eksamensøvelser med hypotesetest Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: “Ekstra øvelser”. Øvelser med hypotesetest (sideangivelse samt opgavenummer): Side 2 /2.2 Side 4 /1.3 Side 4 /1.3 Side 5 /3.3 Side 8 /3.2 Side 8 /3.3 Side 9 /4.2 Side 9 /4.4 Side 10 /1.1 Side 10 /1.3 Side 10 /2.2 (rå data) Side 10 /2.3 (rå data) Side 10 /2.4 (resumé data kombineret med rå data) Side 10 /4.2 (fokus på niveaufølsomhed) Side 14 /4.3 Side 27 /2.3 (fokus på niveaufølsomhed) Med fokus på erhvervslivet s. 171 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Løsninger til hypotesetest I det følgende fremgår løsninger til øvelserne for hypotesetest. Det skal nævnes, at løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses, så den indeholder alle de informationer, som er nævnt i afsnittet: “Generel metode til løsning af hypotesetest”. Fortolkningsøvelser: 1. At teste om en given påstand i form af en (H1) hypotese er sand eller falsk. 2. En test fører til en konklusion, om et populationsparameter er mindre/større/forskellig fra en bestemt værdi fremsat i H0 og H1 hypotesen. Et konfidensinterval fører ikke til samme håndfaste konklusion, men er derimod et interval, der indeholder populationsparameteret med en given sandsynlighed (som regel 95 %). 3. H0 hypotesen repræsenterer det vi indtil videre må gå ud fra er sandt. H0 er med andre ord det vi - indtil andet er bevist - må gå ud fra er sandt. H1 udfordrer H0 hypotesen med den modsatte påstand. H1 fremsættes på baggrund af et punktestimat, som indikerer, at H0 hypotesen er forkert. For at teste hvilken af de to modsatrettede hypoteser der er sand, anvendes en hypotesetest. 4. Testniveauet er testens toleranceværdi. Testniveauet repræsenterer sandsynligheden for at begå en type 1 fejl, hvilket betyder at forkaste en sand H0 hypotese. Jo lavere testniveau desto mindre bliver sandsynligheden for, at begå en type 1 fejl. På den anden side øges sandsynligheden for en type 2 fejl, når testniveauet mindskes (en type 2 fejl er at acceptere en falsk H0 hypotese). Testniveauet bør derfor ikke sænkes uden at skele til effekten af en øget sandsynlighed for type 2 fejl. 5. Jo større testniveau desto større er sandsynlighed for at begå en type 1 fejl, og dermed forkaste en H0 hypotese der er sand. 6. Når punktestimaterne kommer fra to forskellige stikprøver. Med fokus på erhvervslivet s. 172 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Beregningsøvelser: Opgave 1. Spørgsmål 1. X: Antal kunder der vurderer, at det nye boliglån er en god ide X ~ b(p, n 5 533) da variablen er diskret og der er uafhængighed mellem hændelserne H0 : p 0 H1 : p 0 # 0,5 . 0,5 Konklusion: Da p-værdi (0,000058) , testniveau (0,01) forkastes H0, hvilket vil sige, at mere end halvdelen af kunderne vurderer, at det nye boliglån er en god ide. Spørgsmål 2. A: 41-60 årige der vurderer, at det nye boliglån er en god ide. B: 160 årige der vurderer, at det nye boliglån er en god ide. A ~ b(p, n 5 181) og B ~ b(p, n 5 157) da diskret variabel og uafhængighed H0 : H1 : pA $ pB pA , pB Konklusion: Da p-værdi (0,149076) . testniveau (0,05) accepteres H0. Således kan der ikke antages, at være forskel på andelen af dem der vurderer, at boliglånet er en god ide i de to forskellige aldersgrupper. Opgave 2. Spørgsmål 1. X: Antallet af defekte ventilationsanlæg X ~ b(p, n 5 193) da variablen er diskret, og der er uafhængighed mellem hændelserne 95% interval for andel Nedre grænse: 0,02054277 Øvre grænse: 0,08308418 Spørgsmål 2. X: Antallet af defekte ventilationsanlæg X ~ b(n, p) da variablen er diskret, og der er uafhængighed mellem hændelserne H0 : p 0 H1 : p 0 # 0,05 . 0,05 Med fokus på erhvervslivet s. 173 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Konklusion: Da p-værdi (0,454) . testniveau (0,01) accepteres H0, hvilket vil sige, at andelen af defekte ventilationsanlæg med 95% sandsynlighed kan siges at være højst 5%. Spørgsmål 3. A: Antallet af defekte ventilationsanlæg før forbedringstiltag B: Antallet af defekte ventilationsanlæg efter forbedringstiltag A og B ~ b(n, p) da variablen er diskret og der er uafhængighed mellem hændelserne Tabel 81: H0 : H1 : pA # pB pA . pB n x p� A 193 10 0,0518 B 236 11 0,0466 Konklusion: Da p-værdi (0,4018) . testniveau (0,05) accepteres H0. Dermed kan vi ikke sige, at der er forskel på andelen af defekte ventilationsanlæg før- og efter forbedringstiltag. Opgave 3. X: Antal fusere X ~ b(p, n 5 35 da variablen er diskret, og der er uafhængighed mellem hændelserne H0 : p 0 H1 : p 0 # 0,05 . 0,05 Da p-værdi (0,0243033) , testniveau (0,05) forkastes H0 Fyrværkeriforhandlerens løfte holder altså ikke stik. Opgave 4. X: Antal brugere der synes særdeles godt om den nye notebook X ~ b(p, n 5 230) da variablen er diskret og der er uafhængighed mellem hændelserne H0 : p 0 H1 : p 0 # 0,05 . 0,05 Da p-værdi (0,0239564) , testniveau (0,05) forkastes H0 Vi må altså antage, at mere end halvdelen af brugerne synes særdeles godt om den nye notebook. Med fokus på erhvervslivet s. 174 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Opgave 5. X: Antal gange bagagebåndene går i stå pr. time X ~ Ps(λ 5 1,5) H0 : λ0 H1 : λ0 #$2 0,05 .,2 0,05 Da p-værdi (0,0416323) , testniveau (0,05) forkastes H0 Københavns Lufthavns antagelse er således korrekt. Dog er konklusionen niveaufølsom, da p-værdien er tæt på testniveauet. Opgave 6. X: Antallet af røde stemmer der ønsker efterlønnen afskaffet. X ~ b(p, n 5 130) da variablen er diskret og der er uafhængighed mellem hændelserne H0 : p 0 H1: p0 #0,5 # 0,5 .0,5 .0,5 Du arbejder for Megafon, og har foretaget en meningsmåling over, hvorvidt der er tilslutning til afskaffelse af efterlønnen blandt befolkningen på tværs af politiske holdninger. Resultaterne fremgår nedenfor Da p-værdi (0,0572019) . testniveau (0,05) accepteres H0 Vi kan altså ikke afvise, at under halvdelen af de, der stemmer rødt, er for afskaffelse af efterlønnen. Dog er konklusionen niveaufølsom, hvilket vil sige, at vi ikke skal ændre testniveauet ret meget, før konklusionen ville være den modsatte. Opgave 7. A: Århusianere der har tillid til den finansielle sektor B: Københavnerne der har tillid til den finansielle sektor H0 : H1 : pa # pb pa . pb Approksimativ z-test af forskellen mellem 2 andele Da p-værdi (0,255104) . testniveau (0,05) accepteres H0 Tilliden til den finansielle sektor er altså ikke større i Århus end i København. Med fokus på erhvervslivet s. 175 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Opgave 8. A: Batterilevetid for Ipad (målt i timer) B: Batterilevetid for Ipaper (målt i timer) H0 : H1 : ma $ mb ma , mb Z-test af forskellen mellem 2 gennemsnit Da p-værdi (0,3414006) . testniveau (0,05) accepteres H0 Altså kan det ikke siges, at ASUS’ Ipaper har længere batterilevetid end Apples Ipad. Opgave 9. A: Indkomst for mænd B: Indkomst for kvinder H0 : H1 : ma # mb ma . mb Z-test af forskellen mellem 2 gennemsnit Da p-værdi (0,0009209) , testniveau (0,01) forkastes H0 Altså kan vi konkludere, at gennemsnitsindkomsten for mænd er større end gennemsnitsindkomsten for kvinder. Opgave 10. Spørgsmål 1. X: Antal kasser der forbruges pr. uge pr. franchise X ~ Ps(λ 5 3,9) Spørgsmål 2. (n 5 10) H0 : l0 H1 : l0 # 3 . 3 Konklusion: Da p-værdi (0,05017) . testniveau (0,05) accepteres H0. Vi kan hermed ikke afvise, at franchiserestauranterne højst aftager 3 kasser kartofler om ugen. Spørgsmål 3. Ændres p-værdien nogle få promille fra 0,05017 til 0,04999, bliver konklusionen den modsatte. Da p-værdien er så tæt på testniveauet, er konklusionen således niveaufølsom, hvilket betyder, at konklusionen ved et testniveau på 5 % reelt kan gå begge veje. Da H0 hypotesen ikke afvises signifikant ved et testniveau på 5 %, kunne man med rimelighed argumentere for, at McDonald’s alligevel skulle investere i kartoffelplantagen. Med fokus på erhvervslivet s. 176 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Spørgsmål 4. H0 : p0 H1 : p0 # 0,15 . 0,15 Konklusion: Da p-værdi (0,162) . testniveau (0,01) accepteres H0. Spørgsmål 5. I så fald havde vores variabel været kontinuert og i stedet for at teste på andele, skulle der testes for et gennemsnit. Opgave 11. Spørgsmål 1. X: Antal projekter der overskrider tidsrammen. X ~ b(p, n 5 60) da variablen er diskret og det antages, at der er uafhængighed mellem de forskellige projekter. I så fald er der konstant sandsynlighed for, at et projekt overskrider tidsrammen. Spørgsmål 2. H0 : p0 H1 : p0 $ 0,43 , 0,43 Konklusion: Da p-værdi (0,105343) . testniveau (0,05) accepteres H0. Det betyder at vi kan afkræfte påstanden om, at projektstyringssystemet fungerer. Spørgsmål 3. Fra 0,05 til 0,11 (dvs. fra 5 til 11 %) Spørgsmål 4. X ~ b(p 5 0,25, n 5 120) P(x # 30) 5 0,548853 Opgave 12. Spørgsmål 1. F-test af 2 standardafvigelser (homogenitetstest): H0 H1 sa 5 sb ej H0 Konklusion: Da p-værdi (0,066) . testniveau (0,05) accepteres H0. Dermed antages varianshomogenitet, hvilket betyder, at de to populationsvarianser antages at være ens. Med fokus på erhvervslivet s. 177 Grundlæggende statistik Med fokus på erhvervslivet Hypotesetest Pooled t-test af forskellen mellem 2 gennemsnit (varianshomogenitet): H0: H1: ma $ mb ma , mb Konklusion: Da p-værdi (0,0003984294) , testniveau (0,05) forkastes H0. Det betyder, at gennemsnitskarakteren med 95% sandsynlighed kan siges, at være større i gruppe B end i gruppe A. Spørgsmål 2. H0 : p0 H1 : p0 # 0,5 . 0,5 Konklusion: Da p-værdi (0,124) . testniveau (0,1) accepteres H0. Det betyder, at maksimalt halvdelen af karaktererne for den nye afspiller vil være større end 7. Opgave 13. Hypoteser: H0: m1 5 m2 5 mi H1: Ej H0 Data Tabel 82: Kilde SS fg MS F Fkritisk P-værdi Imellem 41,3778 2 20,689 3,3386 3,2199 0,0451 Iblandt 260,267 42 6,1968 Total 301,644 44 Forudsætninger Stikprøver er udvalgt simpelt tilfældigt Obs. er fra normalfordelte populationer Populationerne har ens varianser Konklusion Da p-værdi (0,0451219) , testniveau (0,05) forkastes H0 Konklusion: Modeller hinanden. Det betyder, at der er forskel på gennemsnitstilfredshedsgraden på tværs af aldersgrupperne ved et signifikansniveau på 5 %. Med fokus på erhvervslivet s. 178 KAPITEL 8 REGRESSIONSANALYSE Statlearn.com KAPITEL 8 Regressionsanalyse R egressionsanalyse er en metode til at etablere en lineær sammenhæng mellem to eller flere variable. Udgangspunktet for regressionsanalyse er, at man opstiller en model, der forudsiger udviklingen i en variabel ud fra udviklingen i den anden variabel. Når vi arbejder med at skabe sammenhænge i data, kan vi skelne mellem tre forskellige metoder, korrelationsanalyse, simpel lineær- og multipel lineær regression. Korrelationsanalyse kan opfattes som forstadiet til regression. Med korrelation måler vi udelukkende, om sammenhængen mellem to variabler er stærk eller svag. Det kunne eksempelvis være sammenhængen mellem udendørstemperatur og salg af is. Simpel lineær regression er en takt mere avanceret. Her opstilles en lineær funktion, der anvendes til at estimere værdien af den afhængige variabel (Y) ud fra en given værdi af den uafhængige variabel (X), eksempelvis hvor mange is der sælges (Y), når det er 25 grader (X). FIGUR 54: Y b (hældning) Funktion for ret linje (lineær funktion): Y 5 a 1 b ? X Med multipel lineær regression anvendes mere end en uafhængig variabel, eksempelvis hvor mange is der sælges ud fra temperatur og prisen. a (skæring) X Korrelationsanalyse For at illustrere korrelationsanalyse ud fra en praktisk vinkel tages i det følgende udgangspunkt i en dansk IT virksomhed, der har specialiseret sig i at lade forbrugere sammensætte deres computer over Internettet. Lad os antage, at virksomheden ønsker, at ekspandere deres forretningsområde med løsninger til erhvervslivet. I den forbindelse ønsker ledelsen at kortlægge de faktorer, som bidrager mest til virksomhedens telesalg. Fra erfaring har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige salgsopkald (opkaldsfrekvensen) og sælgerens erfaring (angivet i måneder). Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud fra en graf? Lad os forsøge. Videolektioner > s. 180 har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige salgsopkald (opkaldsfrekvensen) og sælgerens erfaring (angivet i måneder). Grundlæggende statistik salgsopkald (opkaldsfrekvensen) og sælgerens erfaring (angivet i måneder). Med fokus på erhvervslivet Regressionsanalyse Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud fra en graf? Lad os forsøge. 55:Lad os forsøge. fraFIGUR en graf? 100 100 30 Erfaring 30 Erfaring Antal Antal opkald opkald i md. i md. 50 50 15 15 Salg Salg 0 00 0 30 30 Salg Salg 0 00 0 60 60 30 30 60 60 Fra grafen der viser sammenhængen mellem opkald og salg ses umiddelbart en positiv og Fragrafen grafender der viser viser sammenhængen sammenhængen mellem positiv ogog stærk Fra mellemopkald opkaldog ogsalg salgses sesumiddelbart umiddelbartenen positiv stærk sammenhæng. Jo flere opkald desto mere salg. Tilsvarende ser vi en tydelig sammenhæng. Jo flereJoopkald desto mere ser vi en sammenhæng mellem stærk sammenhæng. flere opkald desto salg. mereTilsvarende salg. Tilsvarende sertydelig vi en tydelig sammenhæng mellem sælgerens erfaring og salget. Kan vi ud fra graferne bedømme, hvilken sælgerens erfaring og salget. Kan erfaring vi ud fraog graferne hvilken af disse to faktorer der har sammenhæng mellem sælgerens salget. bedømme, Kan vi ud fra graferne bedømme, hvilken af disse to faktorer der har størst indflydelse på salget? størst indflydelse på salget? af disse to faktorer der har størst indflydelse på salget? Spørgsmålet ikke helt eftersomder deranvendes anvendesforskellige forskelligeskalaer: skalaer:Telefonopkald Telefonopkald målt i Spørgsmålet er er ikke helt åbenlyst, åbenlyst eftersom Spørgsmålet er ikke helt åbenlyst eftersom der anvendes forskellige skalaer: Telefonopkald antal og salgserfaring målt i år/tid. målt i antal og salgserfaring målt i år/tid. målt i antal og salgserfaring målt i år/tid. For at gøre de to variable sammenlignelige, skal vi have en ensartet skala, og det er netop her, at For at gøre de to variable skal vi en relation ensartet er skala og det netop her at korrelationsanalyse bliversammenlignelige, anvendelig. Afhængig af have om en positiv elleernegativ, varierer For at gøre de to variable sammenlignelige, skal vi have en ensartet skala og det er netop her at korrelationskoefficienten for population og r� for fra 2er1 positiv til 1 1. elle negativ korrelationsanalyse bliver(ranvendelig. Afhængig afstikprøve) om en relation korrelationsanalyse bliver anvendelig. Afhængig af om en relation er positiv elle negativ korrelationskoefficienten – 1 til + 1. Ivarierer nedenstående er begge relationer(( lineære men henholdsvis positive ogfra negative. varierer korrelationskoefficienten fra – 1 til + 1. I nedenstående er begge relationer lineære, men henholdsvis positive og negative. FIGUR 56: er begge relationer lineære, men henholdsvis positive og negative. I nedenstående 80 80 80 80 Pris i kr. Pris i kr. 40 40 0 00 0 karakkarakter ter 40 40 Antal æbler Antal æbler 30 30 0 00 0 60 60 Antal fejl Antal fejl 15 15 30 30 Korrelationskoefficienten beregnes: rxy 5 Af Stephan Skovlund (Copyright) Af Stephan Skovlund (Copyright) Med fokus på erhvervslivet SAPxy √ SAKx ? SAKy Side | 197 Side | 197 s. 181 Grundlæggende statistik Formler til beregning af hjælpestørrelserne Med fokus på erhvervslivet , og fremgår under punkt 3 på Regressionsanalyse side 203. Vender til eksemplet med IT virksomheden, vi ser på sammenhængen mellem Formlervitiltilbage beregning af hjælpestørrelserne SAPxy, SAKhvor x og SAKy fremgår under punkt 3 på side 203. salg/opkald og salg/erfaring beregnes korrelationskoefficienterne med Statlearn programmet Vender vi tilbage til eksemplet med IT virksomheden, hvor vi ser på sammenhængen mellem salg/ til henholdsvis og . opkald og salg/erfaring, beregnes korrelationskoefficienterne med Statlearn programmet til henholdsvis r�opkald 5 0,831 og r�erfaring 5 0,774. (Data for eksempelberegning findes i regressionsappendiks 1, side 226.) (Data for eksempelberegning findes i regressionsappendiks 1, side 223.) Begge telefonopkald ogog erfaring Beggekorrelationskoefficienter korrelationskoefficienterer erpositive, positive,hvilket hvilket tyder tyderpå på,atatbåde både telefonopkald erfaring har har positiv indvirkning på salget. Men, er endnu muligt at konkludere at en en positiv indvirkning på salget. Men, det det er endnu ikkeikke helthelt muligt at konkludere, at antallet af opkald harafstørst indflydelse, at korrelationskoefficienten blot er et punktestimat. antallet opkald har størst eftersom indflydelse, eftersom at korrelationskoefficienten blot er et I afsnittet om hypotesetest var vi inde på, at værdien skalaftestes, før man kan punktestimat. I afsnittet om hypotesetest var af vipunktestimater inde på at værdien punktestimater skalgeneralisere testes for populationen. Det samme gør sig gældende for punktestimater af korrelationskoefficienter. Se før man kan generalisere for populationen. Det samme gør sig gældende for punktestimater af test af modellens hældningskoefficienter under afsnittet Fremgangsmåde som starter på side 202. korrelationskoefficienter. Se test af modellens hældningskoefficienter under afsnittet Fremgangsmåde som starter på side 204. Ekstreme observationer - Outliers Ekstreme observationer - Outliers Det kan være en god ide at supplere din korrelationsanalyse med en graf. Grundlæggende er der to årsager til at vise resultaterne grafisk. du anvender en graf, det Grundlæggende muligt at spotte markante Det kan være en god ide at supplere dinNår korrelationsanalyse medbliver en graf. er afvigelser også betegnet “outliers”. der to årsager til at vise resultaterne grafisk. Når du anvender en graf bliver det muligt at Som det fremgår af grafenogså i nedenstående, kan outliers tolkes som observationer der afviger radispotte markante afvigelser betegnet ”outliers”. kalt fra den normale sammenhæng. Uden en graf kan der være outliers skjult i dine data og dermed Som fremgår af grafen i nedenstående, kan tolkes som observationer der afviger få endet manipulerede indvirkning på værdien af outliers korrelationskoefficienten. radikalt fra den normale sammenhæng. Uden en graf kan det være outliers være skjult i dine FIGUR 57: indvirkning på værdien af korrelationskoefficienten. data og dermed få en manipulerede 80 Antal opkald 40 Salg 0 0 15 30 Udover at manipulere korrelationskoefficienten kan outliers indeholde værdifuld information. Eksempelvis kan en outlier være en person, som har meget lidt salgserfaring, men som alligevel Af Stephan Skovlund (Copyright) Side | 198 formår at sælge mere end en person med mange års erfaring. Vedkommende har muligvis ekstraordinært salgstalent eller en metode, der kan være interessant at se nærmere på. Med fokus på erhvervslivet s. 182 Simpel lineær regression Grundlæggende statistik I forrige afsnit kom vi frem til at opkaldsfrekvensen (antal salgsopkald pr. dag) er den v Med fokus på erhvervslivet Regressionsanalyse der påvirker salget mest. I den forbindelse kunne det være interessant, hvis vi kunne be hvor mange opkald der skal foretages for at nå et specifikt salgsmål. Det er her at simpe Simpel lineær regression lineær regression bliver anvendelig. Med simpel lineær regression søger vi at oprette en I forrige afsnit kom vi frem til at for opkaldsfreFIGUR 58: to variable, eksempelvis som i nedenstående. funktion sammenhængen mellem kvensen (antal salgsopkald pr. dag) er den variabel, der påvirker salget mest. I den for80 Salg i 1000 stk. bindelse kunne det være interessant, hvis vi kunne beregne, hvor mange opkald der skal foretages for at nå et specifikt salgsmål. Det 40 er her, at simpel lineær regression bliver anvendelig. Med simpel lineær regression Reklamebudget (kr.) søger vi at oprette en lineær funktion for 0 0 1,500,000 3,000,000 sammenhængen mellem to variable, eksempelvis som i nedenstående. Notationen for den simple lineære for regressionsmodel afhænger af, om du arbejder med data Notationen den simple lineære regressionsmodel afhænger af om dufor arbejder med d hele populationen eller blot stikprøve. At indhente for en At helindhente population ressourcekræheleen populationen eller blot endata stikprøve. dataerfor en hel population er vende, derfor vil det næsten altid være den stikprøvebaserede regressionsmodel der anvendes. ressourcekrævende, derfor vil det næsten altid være den stikprøvebaserede regressionsm Den lineære regressionsmodel for henholdsvis population og stikprøve angives: der anvendes. Regressionslinjen for populationen: Y 5 b0 1 b1 ? X1 1 Den lineære regressionsmodel for henholdsvis population og stikprøve angives: Regressionslinjen for stikprøven: y� 5 b0 1 b1 ? X1 Regressionslinjen for populationen: Betegnelsen “” repræsenterer FIGUR 59: residualet, som er afvigelsen melRegressionslinjen for stikprøven: lem regressionsmodellens estimat Y (Y�) og den faktiske observation (Yi). Betegnelsen repræsenterer residualet, som er afvigelsen mellem regressionsmodelle Det er værd at bemærke, at der estimat og den Det er værd at bemærke, at der sjældent ta Yi faktiske observation sjældent tales om observationer i observationer i forbindelse med regressionsanalyse. Det erbi stedet residualerne, der ref forbindelse med regressionsana1 til når der tales om regressionsmodellens præcision eller mangel på samme. lyse. Det er i stedet residualerne, Yreg der refereres til, når der tales om regressionsmodellens præcision b0 eller mangel på samme. Af Stephan Skovlund (Copyright) På samme måde som et punktestimat er stikprøve regressionsmodellen et estimat af regressionsmodellen for hele populationen: Xi X y� 5 b0 1 b1 ∙ X1 → Y� 5 b0 1 b1 ? X 1 1 . Med fokus på erhvervslivet s. 183 Grundlæggende statistik Mindste Metoden (MKM) Med fokus Kvadrat på erhvervslivet Regressionsanalyse SomMindste vi indledningsvis var inde på, er simpel lineær regression et forsøg på, at skabe en lineær Kvadrat Metoden (MKM) sammenhæng mellem den afhængige uafhængige variabel (X). Men hvorfor er deren lineær Som vi indledningsvis var inde på,(Y) er og simpel lineær regression et forsøg på, at skabe Mindste Kvadrat Metoden (MKM) egentligt behov for simpel den lineær regression? Er det ikke relativt simpelt, gennemskue sammenhæng mellem afhængige (Y) og uafhængige variabel (X).atMen hvorfor er der Som vi indledningsvis var inde på, er simpel lineær regression et forsøg på, at skabe en lineær samhvorvidt der er sammenhæng fra etregression? dataplot ogEr efterfølgende tegnesimpelt, en stregatsom følger egentligt behov for simpelud lineær det ikke relativt gennemskue menhæng mellem den afhængige (Y) og uafhængige variabel (X). Men hvorfor er der egentligt behov observationerne? os gøre et forsøg. hvorvidt der regression? erLad sammenhæng frarelativt et dataplot og at efterfølgende en streg følger for simpel lineær Er detud ikke simpelt, gennemskuetegne hvorvidt der ersom sammenhæng observationerne? Lad os gøre tegne et forsøg. ud fra et dataplot og efterfølgende en streg som følger observationerne? Lad os gøre et forsøg. I nedenstående ses to grafer der bygger på samme datagrundlag. I hver graf er der gjort et Iforsøg nedenstående sesden to grafer, derder bygger på på samme datagrundlag. I hver graf er derder gjort på at tegne linje, som bedst repræsenterer sammenhængen reklame og et salg. I nedenstående ses to grafer bygger samme datagrundlag. I mellem hver graf er gjort etforsøg på at tegne den linje, som bedst repræsenterer sammenhængen mellem reklame og salg. forsøg på at tegne den linje, som bedst repræsenterer sammenhængen mellem reklame og salg. FIGUR 60: 80 Salg (mio. 80 Salg kr.) (mio. 40 kr.) Graf A Graf B 80 Salg (mio. 80 Salg kr.) (mio. 40 kr.) Graf A 40 40 Reklame (mio. kr.) 0 0 Graf B 15 0 0 Reklame (mio. kr.) 0 0 30 Reklame (mio. kr.) 15 15 0 0 30 30 Reklame (mio. kr.) 15 30 Til trods for at begge linjer har forskellige skæring og hældninger, forekommer de relativt Til trods for at begge linjer har forskellige skæring og hældninger, forekommer de relativt gode til godeTil tiltrods at illustrere udviklingen af salg i forhold til reklameudgifter. skulle gerne for at begge linjer har forskellige skæring og hældninger,Eksemplet forekommer de relativt at illustrere udviklingen af salg i forhold til reklameudgifter. Eksemplet skulle gerne illustrere, at illustrere, at at det ikke er helt enkelt ataf vælge den linje,til derreklameudgifter. bedst beskriver Eksemplet udviklingenskulle mellem godeertil salg gerne det ikke heltillustrere enkelt atudviklingen vælge den linje, deri forhold bedst beskriver udviklingen mellem salg og reklame. salgillustrere, og betydning reklame. Hvilken betydning kanatdenne manglende præcision have? udviklingen mellem at det ikke er helt enkelt vælge den have? linje, der bedst beskriver Hvilken kan denne manglende præcision salg og reklame. Hvilken betydning kansalget denneved manglende præcision For kan vi reklameudgifter påhave? 25 mio. mio. For For linje linje A Forat at besvare besvare spørgsmålet spørgsmålet kan vi estimere estimere salget ved reklameudgifter på 25 A er estimatet 55 mio., og for B er B det tilsvarende 70 mio.mio. AltsåAltså en afvigelse på 15påmio. En afvigelse er estimatet 55 mio. oglinje for linje tilsvarende en afvigelse 15 mio. En A i For at besvare spørgsmålet kanervidet estimere salget70ved reklameudgifter på 25 mio. For linje denne størrelsesorden kan være forskellen på succes og fiasko, derfor er det vigtigt, at beregne den afvigelse i denne55størrelsesorden kanBvære på succes og fiasko, derfor er det vigtigt estimatet mio.angiver og for sammenhængen linje er detforskellen tilsvarende mio. linjeer som mest præcist mellem 70 X og Y. Altså en afvigelse på 15 mio. En at beregne deni denne linje som mest præcistkan angiver mellem X og Y.derfor er det vigtigt afvigelse størrelsesorden væresammenhængen forskellen på succes og fiasko, FIGUR at beregne den linje som61: mest præcist angiver sammenhængen mellem X og Y. 80 60 Salg (mio. kr.) 80 Salg (mio. kr.) 40 60 20 40 0 20 0 0 Linje A LinjeLinje B A Linje B 5 0 10 15 20 5Reklame 10 (mio. 15kr.) 25 20 Reklame (mio. kr.) Af Stephan Skovlund (Copyright) Med fokus på erhvervslivet Af Stephan Skovlund (Copyright) 30 25 30 Side | 201 s. 184 Side | 201 Grundlæggende statistik Med påvierhvervslivet Regressionsanalyse Nu hvor vi placeringen regressionslinjen afgørende betydning for værdien Nufokus hvor harhar set,set, at at placeringen af af regressionslinjen harhar afgørende betydning for værdien af af regressionsestimatet rejses spørgsmålet: Hvordan beregnes den regressionslinje, der mest af regressionsestimatet rejses spørgsmålet: Hvordan beregnes den regressionslinje, derfor mest Nu hvor vi har set, at placeringen af regressionslinjen har afgørende betydning værdien nøjagtigt beskriver sammenhængen mellem X beskriver mellem X ogog Y.Y. Nunøjagtigt hvor vi har set, at sammenhængen placeringen af regressionslinjen har afgørende betydning for værdien af reregressionsestimatet rejses spørgsmålet: Hvordan beregnes den regressionslinje, der mest gressionsestimatet, rejsessammenhængen spørgsmålet: Hvordan beregnes den regressionslinje, der mest nøjagtigt nøjagtigt beskriver mellem X ogatY.vælge Rent konceptuelt kunne et logisk bud kunne være, den linje, minimerer afstanden Rent konceptuelt kunne et logisk bud kunne være, at vælge den linje, derder minimerer afstanden beskriver sammenhængen mellem X og Y. alle observationerne. Lad os tage udgangspunkt i at denne tilgang som illustreres graferne til til alle observationerne. Lad tage udgangspunkt i denne tilgang som illustreres af af graferne i i Rent konceptuelt etoslogisk bud kunne være, der minimerer Rent konceptuelt kunnekunne et logisk bud være, at vælge denvælge linje, den der linje, minimerer afstandenafstanden til alle nedenstående. I denne situation den bedste linje, den der skær igennem begge punkter. Dettei nedenstående. I Lad denne er den bedste linje, den skær igennem punkter. Dette til alle observationerne. oser tage udgangspunkt i der denne tilgang sombegge illustreres af graferne observationerne. os situation tage Lad udgangspunkt i denne tilgang, som illustreres af graferne i neden- nødvendigvis altid gælde, når der kun er to observationer. måmå nødvendigvis altid gælde, nårbedste der kun er toden observationer. stående. I denne situation er den linje, der skærer begge begge punkter. Dette Dette må nedenstående. I denne situation er den bedste linje, den derigennem skær igennem punkter. nødvendigvis altid gælde, nårgælde, der kun to kun observationer. må nødvendigvis altid nårerder er to observationer. Y Y FIGUR 62: Y X X X Tilføjes yderligere observationer, kan rykke linjen den minimerer afstanden alle Tilføjes yderligere to to observationer, kan vi vi rykke linjen så så den nunu minimerer afstanden til til alle Tilføjes yderligere to observationer, kan vi rykke linjen, så den nu minimerer afstanden til alle fire obserobservationer. Indtil videre virker tilgangen med at minimere afstanden allegansketil firefire observationer. Indtil videre virker med at minimere afstanden til til alle Tilføjes yderligere totilgangen observationer, vi rykke linjen såtilden nuobservationerne minimerer afstanden alle vationer. Indtil videre virker medtilgangen atkan minimere afstanden alle fint. observationerne ganske fint. observationerne ganske fint. fire observationer. Indtil videre virker FIGUR 63: tilgangen med at minimere afstanden til alle observationerne ganske fint. Y Y Y X X X nyt sæt observationer løber vi pludselig i vanskeligheder, hvis samme tilgang vi vi på et nyt sæt observationer løber pludselig indind i vanskeligheder, hvis samme tilgang SerSer viSer på etpå nytet sæt observationer, løber vivipludselig ind i vanskeligheder, hvis samme tilgang med med at minimere afstanden til alle observationer anvendes. at minimere alle observationer anvendes. at med minimere afstanden til observationer alle til observationer Ser vi på et nytafstanden sæt løberanvendes. vi pludselig ind i vanskeligheder, hvis samme tilgang med at minimere afstanden til alle observationer anvendes. FIGUR 64: AA Y Y 2020 20 1515 A Y 2020 B Y 20 1515 15 1010 10 BB Y Y 15 1010 2 2 4 4 2 4 Stephan Skovlund (Copyright) AfAf Stephan Skovlund (Copyright) Med fokus på erhvervslivet Af Stephan Skovlund (Copyright) X X 8 8 6 6 6 8 10 X 2 2 4 4 2 X X 8 8 6 6 4 6 X 8 Side | 202 Side | 202 s. 185 Side | 202 Grundlæggende statistik Med fokus erhvervslivet Regressionsanalyse Til på trods for at regressionslinje A har minimeret afstanden til observationerne ved at skære igennem to punkter og ”ignorere” det sidste, så forekommer linje B at være den linje der bedst beskriver sammenhængen mellem X og Y. Dette betyder at en metode,ved der at søger at iminimere Til trods for at regressionslinje A har minimeret afstanden til observationerne skære gennem to punkter og “ignorere” det sidste, såparadoksalt forekommer B at være den linje, der bedst beskriverer afstanden til alle observationer, kanlinje resultere i en linje, som ikke nødvendigvis sammenhængen mellem X og Y. Dette betyder, at en metode der søger at minimere afstanden til den mest retvisende. alle observationer, paradoksalt kan resultere i en linje, som ikke nødvendigvis er den der er bedst til at forklare sammenhængen mellem X ogbaseres Y. For at imødekomme denne situation, regressionsanalyse på Mindste Kvadrat Metoden MKM denne går ud på at beregne den regressionslinje, hvorpå summen af Kvadrat de kvadrerede For at (MKM). imødekomme situation, baseres regressionsanalyse Mindste Metoden (MKM). MKM gårmellem ud på at den regressionslinje, hvor summenerafmindst. de kvadrerede afvigelser afvigelser deberegne enkelte observationer og regressionslinjen Anvendes MKM mellempåde enkelte observationer og regressionslinjen er mindst. Anvendes MKM på linje A ogvalg B, linje A og B ser vi at linjen B minimerer summen af afvigelserne og derfor er et bedre ser vi at linjen B minimerer summen af afvigelserne og derfor er et bedre valg end A. end A. FIGUR 65: 20 A Y x 15 10 2 4 8 6 y y�(y 2 y�)2 2 10 10 0 4 20 13 49 6 15 15 0 Sum 49 X B Y x 20 15 10 X 2 4 6 y y�(y 2 y�)2 2 10 12 4 4 20 15 25 6 15 18 9 Sum 38 8 MKM metoden er fundamentet i de beregninger, der indgår i en regressionsmodel. Alle formler der MKM metoden er fundamentet i de beregninger, der indgår i en regressionsmodel. Alle ligger til grund for beregninger af regressionsmodellen findes i følgende afsnit under punkt 3. Til formler der ligger til grund for beregninger af regressionsmodellen findes i følgende afsnit beregning af regressionsmodeller anvendes i praksis Excel og Statlearn programmet. under punkt 3. Til beregning af regressionsmodeller anvendes i praksis Excel og Statlearn I det følgende redegøres for den formelle fremgangsmåde, der anvendes til regressionsanalyse. programmet. I det følgende redegøres for den formelle fremgangsmåde, der anvendes til regressionsanalyse. Stephan Skovlund (Copyright) MedAf fokus på erhvervslivet s.Side 186 | 203 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Fremgangsmåde ved regressionsanalyse I dette afsnit diskuteres fremgangsmåden, der anvendes i forbindelse med simpel lineær regressionsanalyse. I korte træk kan fremgangsmåden opridses i nedenstående punkter: 1. Formuler regressionsmodel (simpel eller multipel). 2. Opstil modellens forudsætninger. 3. Beregn regressionskoefficienter (skæring og hældning). 4. Fortolkning af determinationskoefficient. 5. Test af modellens koefficienter. 6. Validering af om modellens forudsætninger er opfyldt (residualanalyse). I det følgende uddybes de enkelte punkter i fremgangsmåden. 1. Formuler regressionsmodel Simpel lineær regressionsmodel for henholdsvis stikprøve og population: Tabel 83: Stikprøvemodel Populationsmodel y� 5 b0 1 b1 ? X1 Y 5 b0 1 b1 ? X1 1 Hvor y� og Y er regressionsestimater, b0 og b0 er skæringen med y-aksen, b1 og b1 er hældningen, og b0 og er residualet. Et residual er som tidligere nævnt et udtryk for afvigelsen mellem regressionsestimatet og den observerede værdi. 2. Opstil modellens forudsætninger a) Sammenhængen mellem X og Y skal være lineær b) Residualerne skal være normalfordelte med en middelværdi på nul c) Residualerne skal have konstant varians d) Residualerne skal være uafhængige af hinanden Forudsætningerne angives formelt som: ~ N(m,s) Ad a) Sammenhængen mellem X og Y skal være lineær. Illustreres data med en graf, skal der være en relativ lineær sammenhæng mellem X og Y. Det er vigtigt, at observationerne ikke følger en parabel, hyperbel eller anden kurvelignende funktion. Ad b) Residualerne skal være normalfordelte med en middelværdi på nul. Med fokus på erhvervslivet s. 187 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Ad b) Residualerne skal være normalfordelte med en middelværdi på nul. Ad b) Residualerne skal være normalfordelte med en middelværdi på nul. Ad b) Residualerne skalnormalfordelte være normalfordelte en middelværdi nul.B ses at den overvejende Residualerne skal være med enmed middelværdi på nul.på I graf Residualerne skal være normalfordelte med en middelværdi på nul. I graf B ses at den andel af residualerne liggernormalfordelte under 0, hvilketmed betyder at fordelingen ikke er normal skæv. Dette Residualerne skal være en middelværdi på nul. I graf B sesmen at den overvejende skal andelvære af residualerne ligger under 0, hvilket betyder at Ifordelingen ikke er normal Residualerne normalfordelte med en middelværdi på nul. graf B ses at den resulterer i et negativt overvejende andel afresidualgennemsnit. residualerne ligger under 0, hvilket betyder at fordelingen ikke er normal men skæv. Dette i et negativt residualgennemsnit. overvejende andel resulterer af residualerne ligger under 0, hvilket betyder at fordelingen ikke er normal Residualdiagram: Vurdering af inormalfordeling men skæv. Dette resulterer et negativt residualgennemsnit. men skæv. Dette resulterer i et negativt residualgennemsnit. Residualdiagram: Vurdering af normalfordeling FIGUR 66: Vurdering af normalfordeling Residualdiagram: Residualdiagram: Vurdering af normalfordeling 200 200 200 0 020 0 20 -20020 -200 -200 Graf A: Middelværdi =0 Graf A: Middelværdi =0 Graf A: Middelværdi =0 70 70 70 Graf B: Negativ middelværdi Graf B: Negativ middelværdi Graf B: Negativ middelværdi 200 200 200 0 020 0 20 -20020 -200 -200 70 70 70 Residualerne skal have konstant variation, ikke udvikles en stigende variation AdAd c) c) Residualerne skal have en en konstant variation, derder måmå ikke udvikles en stigende variation, som Ad c) Residualerne skal have en konstant variation, der må ikke udvikles en stigende variation modvirker konsistente regressionsestimater. som konsistente Ad c) modvirker Residualerne skal haveregressionsestimater. en konstant variation, der må ikke udvikles en stigende variation som modvirker konsistente regressionsestimater. som modvirker konsistente Residualdiagram: Vurdering regressionsestimater. af variation Residualdiagram: Vurdering af variation Residualdiagram: Vurdering af variation Residualdiagram: FIGUR 67:Vurdering af variation Graf A: Konstant varians Graf A: Konstant varians 200 Graf A: Konstant varians 200 200 0 020 70 0 20 70 70 -20020 -200 -200 Graf B: Stigende varians Graf B: Stigende varians 200 Graf B: Stigende varians 200 200 0 020 70 0 20 70 70 -20020 -200 -200 Ad d) Residualerne skal være uafhængige af hinanden. Hvis det modsatte gør sig gældende, Ad d) Residualerne skal være uafhængige af hinanden.Hvis Hvis modsattegør gørsig siggældende, gældende, Ad d)d)der Residualerne skal uafhængige afbryder hinanden. detdet modsatte kan opstå mønstre datasættet, hvilketaf forudsætningen om lineære sammenhænge. Ad Residualerne skalivære være uafhængige hinanden. Hvis det modsatte gør sig gældende, kan dermønstre opstå mønstre i datasættet, hvilket forudsætningen om lineære sammenhænge. derkan opstå i datasættet, hvilket bryderbryder forudsætningen om lineære sammenhænge. Rent Rent vil afhængigheden nøjagtigheden af regressionsestimaterne. kan derpraktisk opstå mønstre i datasættet,reducere hvilket bryder forudsætningen om lineære sammenhænge. praktisk afhængigheden reducerereducere nøjagtigheden af regressionsestimaterne. Rent vil praktisk vil afhængigheden nøjagtigheden af regressionsestimaterne. Rent praktisk vil afhængigheden reducere nøjagtigheden af regressionsestimaterne. Residualdiagram: Vurdering afhængighed Residualdiagram: Vurdering af af afhængighed Residualdiagram: Vurdering af afhængighed Residualdiagram: Vurdering af afhængighed FIGUR 68: Graf A: Uafhængighed Graf B: Afhængighed Graf A: Uafhængighed 200 Graf A: Uafhængighed 200 200 0 020 70 0 20 70 70 -20020 -200 -200 Med fokus på erhvervslivet Af Stephan Skovlund (Copyright) Af Stephan Skovlund (Copyright) Af Stephan Skovlund (Copyright) Graf B: Afhængighed 200 Graf B: Afhængighed 200 200 0 020 70 0 20 70 70 -20020 -200 -200 s. 188 Side | 205 Side | 205 Side | 205 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse 3. Beregn regressionskoefficienter (skæring og hældning) Til beregning af regressionskoefficienterne anvendes Statlearn programmet. Formlerne for de enkelte koefficienter fremgår af nedenstående tabel. Tabel 84: Estimat Beregning b0 y 2 b1 ? x b1 SAPxy SAKx n SAPxy (xi 2 x)(yi 2 y) i51 n SAKx (xi 2 x)2 i51 n SAKy (yi 2 y)2 i51 Bemærk at SAKy anvendes til beregning af determinationskoefficienten, se punkt 4. 4. Fortolkning af determinationskoefficient Den første indikation af regressionsmodellens overordnede anvendelighed læser vi ud fra determinationskoefficienten (R2). R2 5 SAP2xy SAKx Formler til beregning af hjælpestørrelserne SAPxy, SAKx og SAKy fremgår under punkt 3. Determinationskoefficienten er et overordnet mål for hvor meget af den totale variation mellem X og Y, der forklares af regressionsmodellen. Værdien af determinationskoefficienten spænder fra 0-1, jo nærmere 1 desto mere præcist vil regressionsmodellen gengive sammenhængen mellem X og Y. Det er vigtigt ikke at forveksle determinationskoefficienten med præcisionen af regressionsestimatet. En determinationskoefficient på 90 % betyder ikke, at regressionsmodellens estimater vil være 90 % nøjagtige. De 90 % er udelukkende et mål for modellens overordnede evne til at forklare sammenhængen mellem X og Y. Med fokus på erhvervslivet s. 189 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse regressionsmodellens estimater vil være 90 % nøjagtige. De 90 % er udelukkende et mål for modellens overordnede evne til at forklare sammenhængen mellem X og Y. I nedenstående ses hvordan determinationskoefficienten afspejler sammenhængen mellem X og Y. I nedenstående ses hvordan determinationskoefficienten afspejler sammenhængen mellem X og Y. FIGUR 69: R2 = 0,90 100 100 50 50 Y 0 0 X100 50 0 R2 = 0 Y 0 50 X 100 5. Test af modellens koefficienter: 5. Test af modellens koefficienter: 2 Som nævnt er en høj R en væsentlig indikation af regressionsmodellens anvendelighed. Som nævnt er en høj R2 en væsentlig indikation af regressionsmodellens anvendelighed. Foruden Foruden en høj R2betydning, har det også betydning at hældningskoefficienten er signifikant, en høj R2 har det også stor at stor hældningskoefficienten (b1) er signifikant, hvilket vil sige at hældningen er vil forskellig 0. Husk på regressionsmodellens ofte beregnes ud fra hvilket sige at fra hældningen er at forskellig fra 0. Husk på, hældning at en regressionsmodellens en stikprøve, og er derfor ikke nogen garanti for, at derogereren reel hældning. omen reel hældning ofte beregnes ud fra en stikprøve, derfor ikke nogenDerfor garantitestes for ataltid der er hældningen er signifikant, hvilket i den sammenhæng betyder, at hældningen er forskellig fra 0. Er hældning. Derfor testes altid om hældningen signifikant, hvilket i den sammenhæng betyder at hældningen ikke signifikant, udelukker vi en sammenhæng mellem X og Y, hvilket fører til at regreshældningen er forskellig fra 0. Er hældningen ikke signifikant udelukker vi en sammenhæng sionsmodellen forkastes. mellem X og Y hvilket fører til at regressionsmodellen forkastes. Generelt antages hældningskoefficienten at være signifikant, hvis p-værdien er mindre end 5 %. I nedenstående eksempel regressionsoutput fraatExcel p-værdien forp-værdien hældningen tydeligvis Generelt antages på hældningskoefficienten væreer signifikant hvis er mindre end 5 %. signifikant, hvilket indikerer en stærk sammenhæng mellem de givne X og Y variable. I nedenstående eksempel på regressionsoutput fra Excel er p-værdien for hældningen tydeligvis signifikant, hvilket indikerer en stærk sammenhæng mellem de givne X og Y Tabel 85: variable. Koefficienter p-værdi Skæring Koefficienter 10,543 0,4903 p-værdi Skæring 10,543 0,4903 5,322 0,0004 Hældning 5,322 0,0004 Hældning Af på Stephan Skovlund (Copyright) Med fokus erhvervslivet s. 190Side | 207 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Eksempel på anvendelse af simpel lineær regression I det følgende foretages en regressionsanalyse på baggrund af 20 tilfældigt udvalgte sælgere der sælger konsulentydelser til finanssektoren. Modellen ser på sammenhængen mellem. Analysen følger den fremgangsmåde, der blev skitseret i forrige afsnit. De data der ligger til grund for beregningerne findes i regressionsappendiks 2. Alle beregninger er udført med Statlearn programmet. Fremgangsmåde: 1. Regressionsmodel Stikprøvemodel: Populationsmodel: ⇒ y� 5 b0 1 b1 ? X1 Y 5 b0 1 b1 ? X1 1 2. Forudsætninger a) Sammenhængen mellem X og Y skal være retlinjet (lineær). b) Residualerne skal være normalfordelte med en middelværdi på nul c) Residualerne skal have konstant varians d) Residualerne skal være uafhængige af hinanden Forudsætningerne betegnes 3. Beregning regressionskoefficienterne (Beregninger ses i regressionsappendiks 3) Skæring 758.151,647 Hældning 279.558,058 Estimeret regressionslinje: y� 5 758.151,647 1 279.558,058 ? X1 Hvor b0 5 y 2 b1 ∙ x og b1 5 n SAPxy SAKx n SAPxy 5 i51 (x1 ∙ x )(y1 ∙ y ) og SAKx 5 i51 (x1 ∙ x ) 4. Fortolkning af determinationskoefficient (Beregninger ses i regressionsappendiks 3) Determinationskoefficienten (R2) er på 83 %, hvilket betyder, at regressionsmodellen forklarer 83 % af den samlede variation mellem anciennitet og salg. Den høje forklaringsgrad er det første tegn på, at modellen er god til at forklare den sammenhæng der analyseres. Med fokus på erhvervslivet s. 191 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse 5. Test af modellens koefficienter (Beregninger ses i regressionsappendiks 3 Ved test af modellens koefficienter afgøres om koefficienterne er signifikante, hvilket vil sige forskellige fra 0. Som vi var inde på, bør p-værdien være under 5 %, for at hældningen kan siges at være signifikant. I dette eksempel er p-værdien for hældningen tilnærmelsesvis nul, hvilket er en stærk indikation af sammenhæng mellem anciennitet og salg. Rent teoretisk betyder det, at hypotesen som angiver at hældningen er 0 forkastes. Tabel 86: Koefficienter t-stat P-værdi Skæring 758.151,647 3,207 0,0049 Hældning 279.558,058 9,387 ~0 6. Validering af modellens forudsætninger Regressionsanalysen afsluttes med en residualanalyse. En ofte anvendt metode er, at betragte et residualdiagram og vurdere omestimater residualerne tilnærmelsesvis er normalfordelte og har konstant regressionsmodellens vil være 90 % nøjagtige. De 90 % er udelukkende et mål for varians. I nedenstående diagram forekommer spredningen af residualer relativt ensartede og normodellens overordnede evne til at forklare sammenhængen mellem X og Y. malfordelte. Der er dog enkelte observationer ved 7 og 11 år, som ligger langt under regressionsmodellensI estimat, hvilketses fører til de determinationskoefficienten store residualafvigelser. nedenstående hvordan afspejler sammenhængen mellem X og Y. FIGUR 70: R2 = 0,90 100 100 50 50 Y 0 0 50 X100 0 R2 = 0 Y 0 50 X 100 5. Test af modellens koefficienter: Som nævnt er en høj R2 en væsentlig indikation af regressionsmodellens anvendelighed. Foruden en høj R2 har det også stor betydning at hældningskoefficienten er signifikant, hvilket vil sige at hældningen er forskellig fra 0. Husk på, at en regressionsmodellens hældning ofte beregnes ud fra en stikprøve, og er derfor ikke nogen garanti for at der er en reel hældning. Derfor testes altid om hældningen signifikant, hvilket i den sammenhæng betyder at hældningen er forskellig fra 0. Er hældningen ikke signifikant udelukker vi en sammenhæng mellem X og Y hvilket Med fokus på erhvervslivet fører til at regressionsmodellen forkastes. s. 192 Generelt antages hældningskoefficienten at være signifikant hvis p-værdien er mindre end 5 %. I nedenstående eksempel på regressionsoutput fra Excel er p-værdien for hældningen Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Forudsigelsesinterval Et regressionsestimat svarer til et simpelt punktestimat. Begge estimater har det til fælles, at de er baserede på stikprøver og derfor rummer en vis usikkerhed. For at kvantificere denne usikkerhed og bestemme nøjagtigheden af et regressionsestimat, kan et forudsigelsesinterval anvendes. Tanken med forudsigelsesintervallet er, at beregne et interval for værdien af den afhængige variabel (Y), når den uafhængige variabel (X) antager en vilkårlig værdi. Fortsættes eksemplet fra foregående afsnit, hvor vi så på sammenhængen mellem salg af konsulentydelser og salgsanciennitet, kan vi ud fra regressionsmodellen14 beregne, at en sælger med 10 års anciennitet vil få et estimeret salg på 3.553.732 kr. y� 5 758.151,647 1 279.558,058 ? 10 5 3.553.732 De 3.553.732 kr. er et simpelt estimat på lige fod med et punktestimat beregnet ud fra en stikprøve. Præcisionen af regressionsestimatet kendes ikke. Det er i den forbindelse at et forudsigelsesinterval bliver relevant. Med et forudsigelsesinterval kan vi knytte en øvre og nedre grænse til regressionsestimatet og dermed sandsynliggøre, hvor konsulentens omsætning kommer til at ligge. Beregnes et 95 % forudsigelsesinterval af salget for en konsulent med 10 års salgsanciennitet, bliver resultatet et interval mellem 2.316.220 og 4.791.244 kr. I den sammenhæng kan det konkluderes, at en konsulent med 10 års erfaring kommer til at omsætte konsulentydelser for mellem 2.316.220 og 4.791.244 kr. med 95 % sandsynlighed. Tabel 87: 95 % Forudsigelsesinterval Estimat N. grænse Ø. grænse For Y når 5 10 3.553.732 2.316.220 4.791.244 For E(Y) 5 10 3.553.732 3.216.795 3.890.669 Formler for forudsigelsesintervallerne samt eksempelberegningerne i ovenstående fremgår af regressionsappendiks 4 og 5. Forudsigelsesinterval for Y betyder, at en enkelt konsulent med 10 års anciennitet med 95 % sandsynlighed vil omsætte for mellem 2.316.220 og 4.791.244 kr. Forudsigelsesinterval for E(Y) betyder derimod, at alle konsulenter med 10 års erfaring gennemsnitligt vil sælge mellem 3.216.795 og 3.890.669 kr. Intervallet for den forventede værdi E(Y) vil altid være mere snævert end intervallet for den enkeltstående observation (Y). Dette forhold kan tilskrives at variansen for et punktestimat altid er mindre end variansen for den enkeltstående observation – Dette er beskrevet mere uddybende i afsnittet om konfidensintervaller. 14 Under punkt 3 i foregående afsnit blev regressionsmodellen estimeret til y� 5 758.151,647 1 279.558,058 ? X Med fokus på erhvervslivet s. 193 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Multipel regression Forskellen på multipel og simpel lineær regression er ligetil. Ved multipel regression anvendes mere end én uafhængig variabel til at forklare udviklingen i afhængige variabel. Derved tilføjes et ekstra led i notationen: Simpel lineær regression: Y 5 b0 1 b1 ? X1 1 Multipel lineær regression: Y 5 b0 1 b1 ? X1 1 b2 ? X2 ... 1 bn ? Xn 1 Formålet med multipel regression er at øge modellens forklaringsevne (R2) ved at inddrage flere variable (xi, ... Xn) til at forklare udviklingen i Y. I forrige afsnit var regressionsmodellen baseret på to variable: Salgsanciennitet (X1) udtrykt i antal år og salg i kr. (Y) For at illustrere multipel regression kan vi udbygge eksemplet ved at inddrage en ny variabel (X2) i form af “Antal månedlige kundebesøg”. → Y 5 b0 1 b1 ? X1 1 b2 ? X2 1 Hensigten med at inddrage en ekstra forklarende variabel er som nævnt, at skabe en mere nøjagtig model og dermed få bedre regressionsestimater af salget. EKSEMPEL I nedenstående fremgår beregningen af den multiple regressionsmodel. Det data der ligger til grund for beregningerne findes i regressionsappendiks 6. Statlearn programmet er anvendt til beregningen. Koefficienterne til den multiple regressionsmodel: Tabel 88: Koefficient Koefficientværdi Standardfejl t-stat p-værdi Skæring 642.847,351 484.265,186 1,327 0,203 X1: Anciennitet (år) 268.453,477 36.183,670 7,419 0,000 X2: Kundebesøg/måned 37.840,294 46.661,016 0,811 0,429 Således opstilles modellen: y� 5 642.847,351 1 268.453,477 ? X1 1 37.840,294 ? X2 Med den multiple regressionsmodel kan vi estimere salget ud fra ændringer i henholdsvis salgsancienitet og antallet af månedlige kundebesøg. Hvis vi eksempelvis antager, at en sælger har 5 års salgserfaring og aflægger 15 månedlige kundebesøg, så estimeres sælgerens salg til at være omkring 2,5 millioner kr. : y� 5 642.847,351 1 268.453,477 ? 5 1 37.840,294 ? 15 5 2.552.719 kr. Med fokus på erhvervslivet s. 194 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse På lige fod med simple regressionsmodeller anvendes forudsigelsesintervaller også i forbindelse med multiple regressionsmodeller. Som nævnt i afsnittet om forudsigelsesintervaller er formålet at beregne et interval, hvori værdien af den afhængige variabel (Y) vil ligge med en given sandsynlighed. Denne relativt formeltunge beregning udføres med ToolBoox programmet og er dokumenteret i regressionsappendiks 5. Faldgrupper ved multipel regression Når du anvender multipel regression er forudsætningerne de samme som under simpel lineær regression, men der er et ekstra forhold, du skal være opmærksom på: Multikollinearitet. Multikollinearitet betyder, at en eller flere af de forklarende variable (Xi…Xn) er afhængige af hinanden. Tilstedeværelsen af multikollinearitet manipulerer regressionsmodellens koefficienter og dermed anvendelighed. Ideelt set bør de forklarende variable være 100 % uafhængige af hinanden, og hver især bidrage med unik information til at forklare sammenhængen med den afhængige variabel (Y). EKSEMPEL Chefen for telesalg hos Telia ønsker, at beregne en regressionsmodel der forklarer salget af erhvervsabonnementer ud fra antallet af daglige salgsopkald og sælgerens erfaring målt i måneder. Både antallet af salgsopkald og salgserfaring er variable, vi med rimelighed må antage kan påvirke salget. Dog er valget af de to variable problematisk, eftersom antallet af salgsopkald og erfaring formentligt også afhænger af hinanden. En sælger med lang erfaring vil formentligt kunne foretage flere opkald end en person uden tilsvarende erfaring. Der vil således være tale om multikollinearitet, da begge forklarende variable (X1 og X2) påvirker hinanden. I dette eksempel har vi kunne ræsonnere os frem til en situation med multikollinearitet. I praksis identificeres tilstedeværelsen af multikollinearitet ved at anvende korrelationsanalyse. Som nævnt i afsnittet om korrelationsanalyse, udtrykkes styrken af en sammenhæng mellem to variable af korrelationskoefficienten (r). Afhængig af om relationen er positiv eller negativ, varierer korrelationskoefficientenfra – 1 til 1 1. Ideelt set bør korrelationskoefficienten for de uafhængige variable (Xi…Xn) i en multipel regressionsmodel altid være nul. Dette vil betyde, at der et fravær af multikollinearitet, og at de uafhængige variable ikke påvirker hinanden. I praksis vil der som regel kunne spores en vis grad af afhængighed. Der findes ingen håndfast definition af, hvor meget de forklarende variable må korrelere, inden der tales om multikollinearitet. I det lys vil jeg anbefale, at du vælger at kommentere, hvis enkelte variable i din multiple regressionsmodel er væsentligt mere korrelerede end de øvrige. Vær særlig opmærksom på store forandringer i determinationskoefficienten (R2 justeret) når du tilføjer en ny variabel til din multiple regressionsmodel. Dette vil ofte skyldes multikollinearitet. Med fokus på erhvervslivet s. 195 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse EKSEMPEL I nedenstående korrelationsmatrix ses en tydelig afhængighed mellem antal kundebesøg (x1) og anciennitet (x2), hvilket er tegn på multikollinearitet. På den baggrund bør modellen reduceres således, at det kun er en enkelt variabel der anvendes til at forklare udviklingen af salget. Tabel 89: Variabel Salg i kr. (Y) Salg i Kr. Anciennitet (år) Kundebesøg/måned 1 Anciennitet i år (X1) 0,911 1 Kundebesøg/måned (X2) 0,602 0,618 1 I vores tilfælde er der tydelig korrelation mellem kundebesøg og anciennitet (x1 og x2), hvilket er tegn på multikollinearitet. Dog vil der ofte være en mindre grad af korrelation, uden at det behøver at have den store betydning. Der findes ikke håndfaste regler for hvor meget de forklarende variable må korrelere, men hvis du kan se, at der er store ændringer i determinationskoefficienten (R2), når du tilføjer en ny variabel i din model, kan det anbefales at du laver en korrelationsanalyse og kommenterer i hvor høj grad variablerne er relaterede, se afsnit om korrelationsanalyse. Valg af den optimale regressionsmodel Et af de centrale omdrejningspunkter i forbindelse med regressionsanalyse er, at finde den model der er mest velegnet til at beskrive en lineær sammenhæng. Som vi var inde på med multipel regressionsanalyse, er det muligt at inddrage utallige variable (Xi) til at forklare udviklingen af Y. Kunsten er, at sammensætte regressionsmodellen med lige netop de variable, der bedst forklarer udviklingen af Y. Til det formål anvendes determinationskoefficienten (R2). Med determinationskoefficienten har vi et kvantitativt mål for regressionsmodellens evne til at beskrive en sammenhæng. Som vi var inde på, er determinationskoefficienten en ratio for hvor meget af den totale variation mellem Xi og Y der forklares af regressionsmodellen. Værdien af determinationskoefficienten spænder fra 0 til 1 – jo tættere på 1 desto bedre er modellen til at forklare en mulig sammenhæng. Er værdien af determinationskoefficienten 1, betyder det en fuldstændig perfekt lineær sammenhæng, og tilsvarende vil en determinationskoefficient på 0 betyde, at der ingen sammenhæng er mellem Xi og Y. Med fokus på erhvervslivet s. 196 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Sammenligning af regressionsmodeller Antag at du har beregnet to regressionsmodeller til at forklare omsætningen i en virksomhed. Model 1 inddrager udelukkende antallet af sælgere til at forklare salget. Model 2 forklarer salget ud fra reklameudgifter til henholdsvis radio og internet. Modellernes determinationskoefficienter (R2) ses i nedenstående: Model 1: Simpel regression: R2 5 0,837 Model 2: Multipel regression: justeret R2 5 0,630 Ud fra determinationskoefficienterne er det tydeligt, at model 1 er mest velegnet til at forklare salget. Mere konkret forklarer antallet af sælgere omkring 84 % af udviklingen i salget. Inddragelsen af en ekstra variabel i model 2 har således en skadelig effekt på modellens evne til at forklare salget. Pointen er, at modellens forklaringsevne (R2) ikke nødvendigvis øges ved at tilføje en ny variabel i modellen. Tilføjelse af en kvalitativ variabel (dummy variabel) I de foregående afsnit har regressionsmodellerne været baseret på kvantitative (tal) variable, eksempelvis kundebesøg målt i antal og salgserfaring målt i år. Som du sikkert har gættet, kan der sagtens være variable der ikke er kvantitative, men som alligevel har stor indflydelse på den variabel vi søger at forklare (Y). Hvis du ønsker at udbygge din regressionsmodel med en kvalitativ variabel som eksempelvis køn, kan du tilføje en såkaldt dummy variabel. En dummy variabel er kendetegnet ved at antage to værdier: 0 eller 1. EKSEMPEL I nedenstående ses en regressionsmodel der viser sammenhængen mellem pensionsopsparing (Y), alder (X1) og køn (X2). Regressionsmodel: y� 5 b0 1 b1 ? X1 1 b2 ? X2 Hvor y� er den estimerede pensionsopsparing, X1 er alder målt i år og X2 er køn, hvor 0 står for en mand og 1 for en kvinde. Statlearn programmet er anvendt til beregning af modellen. De data der ligger til grund for beregningerne findes i regressionsappendiks 7. y� 5 212.925,343 1 20.451,627 ? X1 2 10.958,436 ? X2 Den negative skæring på omkring 13.000 kr. er ikke ensbetydende med, at et nyfødt barn (0 år) kommer til verden med en gæld på 13.00 kr. Den negative skæring skyldes udelukkende regnetek- Med fokus på erhvervslivet s. 197 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse niske årsager, eftersom modellen skal gå igennem y-aksen i det punkt hvor X antager værdien nul. I den sammenhæng skal du være særlig opmærksom på, at regressionsmodeller kun må anvendes indenfor det datainterval, som modellen bygger på. I vores tilfælde ligger aldersobservationerne i intervallet fra 18 år til 88 år, hvilket betyder at regressionsestimaterne kun bør beregnes indenfor pågældende interval. Den negative hældning for dummy variablen (X2) på knap 11.000 kr. betyder, at det kvindelige køn har en negativ effekt på pensionsopsparing. Mere konkret estimeres at kvinder vil have 11.000 mindre på deres pensionsopsparing end mænd. (NB: Data er fiktive…) Øvelser med regressionsanalyse De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af specifikke regressionsbegreber. Efterfølgende er opgaverne rettet mod beregninger. Fortolkningsøvelser 1. Hvad er formålet med regressionsanalyse? 2. Hvad er forskellen på korrelations og regressionsanalyse? 3. Hvad er forskellen på de to nedenstående regressionsmodeller: y� 5 b0 1 b1 ? X1 og Y 5 b0 1 b1 ? X1 ? 4. I nedenstående ses en regressionsmodel for sammenhængen mellem salg af is og udendørstemperatur: y� 5 10 1 5 ? X hvor X er grader i celsius og y� salget af is i antal. a) Hvordan vil du fortolke regressionslinjens hældning og skæring? b) Er der tale om simpel eller multipel regression? 5. Kan en regressionslinje have flere afhængige variable (Yi)? 6. Hvordan vil du beskrive betydningen af determinationskoefficienten (R2)? 7. Kan determinationskoefficienten alene bestemme om en regressionslinje er anvendelig? 8. Hvilke forudsætninger ligger til grund for regressionsanalyse? 9. I hvilken sammenhæng optræder begrebet multikollinearitet? 10. Hvorfor er det vigtigt, at p-værdien for hældningen er mindre end 5 %? Med fokus på erhvervslivet s. 198 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Beregningsøvelser Opgave 1. For at budgettere rigtigt ønsker et biludlejningsfirma, at undersøge sammenhængen mellem vedligeholdelsesudgifter og antallet af kørte kilometer for biler i udlejningsklasse A. I nedenstående tabel ses data for 15 tilfældigt udvalgte biler i klasse A. Tabel 90: Kørte km (i 10.000) 6 7 6 9 10 10 11 13 14 15 15 17 18 20 20 Vedligeholdelse udgifter (i tusind) 13 16 15 20 19 21 26 24 30 32 30 35 34 40 39 Spørgsmål 1. Identificer den afhængige og uafhængige variabel. Spørgsmål 2.Opstil uden beregninger en model, der kan beskrive sammenhængen mellem vedligeholdelsesudgifter og antallet af kørte kilometer. Spørgsmål 3. Estimer regressionsmodellens koefficienter (hældning og skæring). Spørgsmål 4.Hvordan vil du vurdere regressionslinjens evne, til at forklare variationen mellem vedligeholdelsesudgifter og antallet af kørte kilometer? Spørgsmål 5. Vurder om regressionsmodellen er anvendelig Spørgsmål 6.Beregn et estimat af vedligeholdelsesudgifterne, når en tilfældigt udvalgt bil har kørt 100.000 km. Spørgsmål 7.Fortolk estimatet fra spørgsmål 6 og kommenter hvilket usikkerhedsmoment, der er forbundet hermed. Spørgsmål 8. Bestem et 80 % konfidensinterval for regressionslinjens skæring og hældning. Spørgsmål 9.Hvorfor det kan være en god ide, at beregne et forudsigelsesinterval for regressionsestimatet. Spørgsmål 10.Beregn et 95 % forudsigelsesinterval for vedligeholdelsesudgifterne, når en tilfældigt udvalgt bil har kørt 150.000 km Opgave 2. Ledelsen af Hilton hotellerne er ved at evaluere, om en ny grund på Bahamas er egnet til hoteldrift. For at vurdere om hotellet ligger tæt nok på stranden, ønsker ledelsen at beregne en model, der beskriver sammenhængen mellem Hilton hotellernes belægningsprocent og afstanden til stranden. Herudover ønsker ledelsen også, at se effekten af at have mange swimmingpools. Med fokus på erhvervslivet s. 199 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Stikprøve med data for belægningsprocent, afstand til stranden og antal swimmingpools Tabel 91: Belægningsprocent 92 95 96 90 89 86 90 83 85 80 78 76 72 75 Afstand til stranden (m) 100 110 200 320 400 410 500 600 720 700 810 800 900 930 Antal pools 1 2 3 3 4 5 4 4 5 5 5 5 6 6 Spørgsmål 1. Identificer den afhængige og de uafhængige variable. Spørgsmål 2.Estimer modellens parametre og giv en fortolkning af modellens overordnede evne til at estimere belægningsprocenten. Spørgsmål 3.Hvis der er 2 swimmingpools og 250 meter til stranden, hvad er så estimatet for belægningsprocenten? Spørgsmål 4. Er der nogen af modellens parametre vi kunne udlade (modelreduktion)? Spørgsmål 5.Hvad kan skyldes at antallet at afstanden til stranden har en negativ effekt på belægningsprocenten? Spørgsmål 6.Hvilken betydning har den geografiske beliggenhed for belægningsprocenten? Anvend dummy variabel og fortolk hældningen. (Data fremgår af følgende side) Tabel 92: Belægningsprocent Afstand til stranden (m) Antal swimmingpools Dummy: USA (1) Europa (0) 92 100 2 1 95 110 2 1 96 200 3 0 90 320 3 0 89 400 4 1 86 410 5 1 90 500 4 1 83 600 4 0 85 720 5 0 80 700 5 1 78 810 5 1 76 800 5 0 72 900 6 1 75 930 5 1 Med fokus på erhvervslivet s. 200 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Tidligere eksamensøvelser med regressionsanalyse Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: “Ekstra øvelser”. Øvelser med regressionsanalyse (sideangivelse samt opgavenummer): Side 12/1.1 – 1.5 Side 17/3.1 – 3.4 Side 28/4.3 Side 32/4.1 Side 36/1.1-1.3 Side 42/4.1 Løsninger til regressionsanalyse Fortolkningsøvelser 1. At beregne en model for den lineære sammenhæng mellem to eller flere variable. 2. Med korrelationsanalyse beregnes udelukkende om styrken af sammenhængen mellem to variable er svag eller stærk. Ved anvendelse af regressionsanalyse beregnes en model, der anvendes til at estimere udviklingen af Y (den afhængig variabel) ved ændringer i X (den uafhængige/forklarende variabel). 3. Regressionsmodellen for stikprøven betegnes y� 5 b0 1 b1 ? X1 og for populationen gælder Y 5 b0 1 b1 ? X1 ? . 4. Ved en temperatur på nul grader estimeres salget til 10 is. Når temperaturen stiger med 1 grad, estimeres salget at stige med 5 is. Der er tale om simpel lineær regression, da modellen kun har en enkelt uafhængig variabel (multipel regression har mindst 2) 5. En regressionsmodel har kun en afhængig variabel og en eller flere uafhængige variable. 6. Determinationskoefficienten (R2) fortolkes som regressionsmodellens evne til at forklare den givne sammenhæng. R2 er en ratio der spænder fra 0 til 1. Jo tættere på 1 desto større er sammenhængen mellem modellens variable. En R2 på 1 (100 %) betyder, at der er fuldstændig lineær sammenhæng mellem de valgte variable – Tilsvarende betyder en R2 på 0, at der ingen sammenhæng er. 7. For at anvende regressionsmodellen, er det vigtigt at p-værdien for modellens hældning(er) ikke overstiger 5 %. En p-værdi der overstiger 5 % betyder, at H0 hypotesen om at hældningen er nul accepteres. Accepteres H0 hypotesen betyder det således, at X variablen ingen sammenhæng har med Y variablen. Med fokus på erhvervslivet s. 201 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse 8. Der skal først og fremmest være en lineær sammenhæng mellem X og Y. Herudover skal residualerne (forskellen på regressionsestimat og observation) være normalfordelte omkring regressionslinjen med en konstant varians. Som det sidste må der ikke være afhængighed mellem residualerne. Afhængigheden må kun være mellem X og Y. 9. Multikollinearitet opstår i forbindelse med multipel regressionsanalyse. Multikollinearitet betyder, at der er indbyrdes afhængighed mellem de uafhængige variable (Xi). 10. Er p-værdien for hældningen over 5 % er hovedreglen, at regressionsmodellen forkastes. Er der tale om multipel regression, er det ofte tilfældet at enkelte p-værdier overstiger 5 %. I det tilfælde kan de/den variabel som overstiger 5 % fjernes fra modellen. Efterfølgende beregnes en ny regressionsmodel med de resterende variable. Beregningsøvelser Opgave 1. Spørgsmål 1. Vedligeholdelsesudgifterne afhænger af antal kørte kilometer. Spørgsmål 2.y� 5 b0 1 b1 ? X1 (stikprøve regressionsmodel) ⇒ Y 5 b0 1 b1 ? X1 1 (regressionsmodel for population)" Hvor b0 og b0 er modellens skæring og b1 samt b1 er modellens hældning. Symbolet “” repræsenterer residualet, som er afvigelsen mellem regressionsestimatet og den faktiske observation af Y. Spørgsmål 3. Tabel 93: Koefficient Koefficient værdi b0: Skæring 3,187 b1: Kørte km (i 10.000) 1,813 Spørgsmål 4. Modellen forklarer 97 % af variationen (R2) mellem kørsel og vedligeholdelsesudgifter, hvilket er tæt på en fuldkommen lineær sammenhæng (5 god model). Med fokus på erhvervslivet s. 202 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Spørgsmål 5. Modellen er særdeles anvendelig. Som nævnt er R2 høj og p-værdien for hældningen er tilnærmelsesvis nul, hvilket er betydeligt mindre end de 5 %, der er toleranceværdien (5 testniveauet). Tabel 94: Koefficient Koefficient værdi p-værdi Skæring 3,1875 0,0208 Kørte km (i 10.000) 1,8125 ~0 Spørgsmål 6. y� 5 3,1875 1 1,8125 ? 10 5 21,3125 tusind kr. (nb: udgifter er angivet i 1000 og antal kørte km i 10.000) Spørgsmål 7. Da udgifter måles i tusind betyder det, at de estimerede vedligeholdelsesudgifter er omkring 21.000 kr., når en bil har kørt 100.000 kilometer. Da regressionsestimatet for de forventede vedligeholdelsesudgifter er baseret på en stikprøve, vides ikke hvor tæt estimatet ligger på den reelle forventede udgift, hvilket vil sige den udgift, man havde beregnet med regressionsmodellen for en hel population. Spørgsmål 8. Tabel 95: Nedre 80 % Øvre 80 % Skæring 1,5516 4,8234 Hældning 1,6917 1,9333 Spørgsmål 9. Med et forudsigelsesinterval beregnes et interval, hvor i den forventede værdi af den afhængige variabel (Y) vil ligge med en given sandsynlighed. Spørgsmål 10. Forudsigelsesinterval for Y: 26,783 til 33,967 Forudsigelsesinterval for E(Y): 29,382 til 31,368 Med fokus på erhvervslivet s. 203 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Opgave 2. Spørgsmål 1. Belægningsprocenten afhænger af de to øvrige variable. Spørgsmål 2. Tabel 96: Koefficient Koefficient værdi Skæring 97,056 Afstand til stranden (m) 20,029 Antal pools 0,765 Justeret R2 0,870 Den høje determinationskoefficient (justeret R2) vidner om, at modellen er god til at forklare udviklingen af belægningsprocenten ud fra antallet af swimmingpools og afstanden til stranden. Spørgsmål 3. y� 5 97,056 2 0,029 ? 250 1 0,765 ? 2 5 91,38082 % Spørgsmål 4. Tabel 97: Koefficienter p-værdi Skæring 97,056 ~0 Afstand til stranden (m) 20,029 0,001 0,765 0,577 Antal swimmingpools Som det fremgår, har hældningen for antallet af swimmingpools en p-værdi som overstiger 5 %. Denne variabel bør derfor fjernes, således at det kun er afstanden til stranden der forklarer belægningsprocenten. Spørgsmål 5. Jo længere væk fra stranden desto mindre atraktivt. Med fokus på erhvervslivet s. 204 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Spørgsmål 6. Beliggenhed i USA påvirker belægningsprocenten negativt med 1,6 %. Tabel 98: Koefficient Skæring 99,143 Afstand til stranden (m) 20,025 Antal pools Dummy: USA (1) Europa (0) Med fokus på erhvervslivet Koefficient værdi 0,078 21,600 s. 205 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Appendiks til regressionsafsnit Appendiks 1 Opkald 45 39 39 34 34 34 30 28 24 22 21 19 13 12 8 7 salg Erfaring 27 17 22 16 9 22 18 14 11 8 17 7 4 7,2 4,8 8 1 3 6 6 6 7 7 10 11 11 13 17 21 27 28 30 salg 4 3 12 6 19 37 11 26 27 33 22 22 43 25 33 55 Appendiks 2 Med fokus på erhvervslivet Salg i Kr. Sælgers anciennitet (i år) 702.362 1 909.543 1 1.418.850 2 1.493.862 2 1.910.424 2 1.333.883 3 2.170.936 4 2.324.911 5 2.757.051 5 2.426.205 6 2.870.272 6 2.045.922 7 1.477.618 7 3.403.812 9 4.063.190 11 2.426.205 11 4.514.421 12 4.531.156 13 4.861.948 13 4.981.243 14 s. 206 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Appendiks 3 – Beregning er udført med Statlearn programmet REGRESSIONSSTATISTIK R-kvadreret Justeret R-kvadreret 0,830 0,821 Standardafvigelse 566779,576 Observationer20 ANAVA Regression Residual Total Fg SS MS 1 18 19 28,306,909,975,516 5,782,303,573,491 34,089,213,549,006 28,306,909,975,516 321.239.087.416 KOEFFICIENTTEST OG INTERVALLER Parametre Koefficienter Standard Afv. t-Stat Skæring Anciennitet (i år) 758151,737 279558,054 236379,736 29781,047 3,207 9,387 FobsFkritisk 88,118 4,414 p-værdi 0,000 p-vaerdi Nedre 95% Øvre 95% 0.005 0.000 261536 216990 1254767 342126 Appendiks 4 Forudsigelsesinterval for den forventede y-værdi E(y0) givet x0 E(y0) tn22 12a/2 ? s2 ? 1 (x0 2 x)2 1 n SAKx n Hvor SAKx 5 i51(xi 2 x)2 Appendiks 5 Forudsigelsesinterval for enkeltstående y-værdi givet x 5 x0 y0 tn22 12a/2 ? Med fokus på erhvervslivet 11 1 1 (x0 2 x)2 1 1 n n SAKx s. 207 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Appendiks 6 Salg i Kr. Anciennitet (år) Kundebesøg/måned 702.362 1 6 909.543 1 9 1.418.850 2 13 1.493.862 2 9 1.910.424 2 11 1.333.883 3 11 2.170.936 4 12 2.324.911 5 9 2.757.051 5 13 2.426.205 6 14 2.870.272 6 14 2.045.922 7 11 1.477.618 7 16 3.403.812 9 13 4.063.190 11 17 2.426.205 11 11 4.514.421 12 9 4.531.156 13 19 4.861.948 13 13 4.981.243 14 19 Med fokus på erhvervslivet s. 208 Grundlæggende statistik Med fokus på erhvervslivet Regressionsanalyse Appendiks 7 Pensionsopsparing (i kr) Alder (år) Køn (0 5 M, 1 5 K) 16.570.168 69 1 16.499.187 67 0 15.655.861 65 0 13.188.269 65 1 13.071.263 59 1 12.407.332 58 1 12.271.377 54 1 12.220.612 53 0 11.155.120 52 0 10.335.252 51 1 9.810.592 50 0 9.585.830 50 1 9.388.378 50 1 9.290.130 49 1 9.058.870 49 1 8.735.314 49 1 7.405.064 46 1 7.328.645 44 0 7.160.132 39 0 6.708.485 34 0 5.498.814 32 1 5.211.408 31 1 4.267.652 31 0 2.575.819 28 0 2.254.112 28 0 1.871.687 26 1 1.712.921 25 0 1.658.447 23 1 661.006 22 0 Med fokus på erhvervslivet s. 209 KAPITEL 9 STIKPRØVETEORI Statlearn.com KAPITEL 9 Stikprøveteori I de foreløbige afsnit har vi forudsat, at stikprøver var baseret på simpel tilfældig udvælgelse. Denne udvælgelsesform er udbredt, men ikke altid det mest hensigtsmæssige valg. Styrken ved simpel tilfældig udvælgelse ligger i simpliciteten. Svagheden er, at stikprøverne sjældent bliver tilstrækkeligt repræsentative, hvilket især gør sig gældende ved små stikprøvestørrelser. Forestil dig et lille øsamfund med kun 1000 indbyggere fordelt på to byer, New Port og Mount Caine. New Port har 800 indbyggere og Mount Caine de resterende 200. Hvis vi udtager en lille stikprøve på 10 indbyggere ved anvendelse af simpel tilfældig udvælgelse, er der en potentiel risiko for at alle observationerne vil stamme fra den mindste by. Sandsynligheden for at udtage en stikprøve der kun består af indbyggere fra Mount Caine er naturligvis lav, men eksemplet illustrerer, at simpel tilfældig udvælgelse ikke nødvendigvis fører til repræsentative stikprøver. Der er i den sammenhæng behov for alternative udvælgelsesmetoder til at sikre repræsentative stikprøver. Stratificeret stikprøveudvælgelse er en metode, som på sin vis tvinger stikprøven til at blive repræsentativ. Med repræsentativ forstås, at stikprøven afspejler populationens sammensætning, således at punktestimater fra stikprøven bliver så nøjagtige som muligt. Med stratificeret stikprøveudvælgelse tages udgangspunkt i populationens sammensætning, inden stikprøven udvælges. I forbindelse med øsamfundet kan indbyggerne inddeles i to strata (populationssegmenter), New Port og Mount Caine. Tanken med stratificeret udvælgelse er, at lade andelene for populationen afspejle sig i stikprøven. Det betyder, at en stratificeret stikprøveudvælgelse15 på 10 indbyggere vil indeholde 8 indbyggere fra New Port og de resterende 2 fra Mount Caine. Som udgangspunkt bør man anvende en stratificeret stikprøveudvælgelse. Det resulterer i mere repræsentative stikprøver end ved simpel tilfældig udvælgelse. Dette gælder særligt ved små stikprøvestørrelser, og når populationens forskellige strata (New Port og Mount Caine) er mere ensartede end populationen som helhed. 15 Ved anvendelse af proportionel stratifikation Videolektioner > s. 211 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Introduktion til før og efterstratifikation Stratifikation kan inddeles i før og efterstratifikation. Ved førstratifikation fastlægges hvor mange elementer, der skal udtage fra hvert stratum inden stikprøven udvælges. I forbindelse med efterstratifikation er stikprøven allerede udvalgt. Formålet med efterstratifikation er således, at korrigere den udvalgte stikprøve og gøre den mere repræsentativ. Både før og efterstratifikation kan beregnes med Statlearn programmet. Førstratifikation Som nævnt er formålet med førstratifikation, at beregne hvor mange observationer der ideelt set skal udvælges fra de enkelte strata. Der sondres mellem to forskellige metoder: Proportional og optimal stratifikation. Proportional førstratifikation Ved proportional stratifikation lader man populationsandelene for hvert enkelt stratum styre, hvor mange observationer der udtages. Tager vi udgangspunkt i øsamfundet, ved vi at 80 % af indbyggerne bor i New Port og de resterende 20 % i Mount Caine. Lad os antage, at du var interesseret i at estimere øens gennemsnitsindkomst og til det formål vil udtage en stikprøve på 75 personer. Hvis proportional stratifikation anvendes, hvordan skal stikprøven så sammensættes med indbyggere fra New Port og Mount Caine? I nedenstående ses beregningerne for stikprøvens sammensætning af indbyggere fra de to byer. Det fremgår at populationsandelen for de to strata (New Port 80 % og Mount Caine 20 %) afspejles i stikprøven – heraf betegnelsen proportional stratifikation. Tabel 99: Nj Nj/N (Nj/N) ? n New Port 800 0,8 60 Mount Caine 200 0,2 15 Total (N) 1000 1 75 Hvor nj stikprøvestørrelsen i stratum “j”, Nj er populationsstørrelsen i stratum “j”, N er størrelsen af hele populationen og n er selve stikprøvestørrelsen. Med fokus på erhvervslivet s. 212 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Optimal førstratifikation Ved optimal stratifikation tages variansen med i betragtning, når stikprøvestørrelsen skal beregnes for de enkelte strata. En høj varians er tegn på store afvigelser fra gennemsnittet, hvilket alt andet lige øger stikprøveusikkerheden. Optimal stratifikation korrigerer for denne situation ved, at tildele strata med høj varians ekstra observationer. Optimal stratifikation kompenserer således for den større usikkerhed ved, at øge stikprøvestørrelsen for strata med høj varians og tilsvarende mindske stikprøven for strata med lavere varians. Med udgangspunkt i samme eksempel som under proportional førstratifikation er spørgsmålet nu, hvor mange indbyggere der skal udvælges fra hvert stratum, såfremt den optimale metode anvendes? I den forbindelse antages det, at standardafvigelsen for indkomsten er kendt i både New Port og Mount Caine. Som det fremgår i nedenstående tabel, skal der ved optimal førstratifikation udtages 55 personer fra New Port og de øvrige 20 fra Mount Caine. Bemærk at variansen for Mount Caine er større end for New Port, hvilket betyder, at der med denne metode skal udtages flere fra Mount Caine end ved proportional stratifikation, se forrige tabel. Tabel 100: Nj sj Nj ? sj Nj ? sj ?n Nj ? sj New Port 800 6000 4800000 55 Mount Caine 200 9000 1800000 20 Total (N) 1000 15000 6600000 75 Hvor sj er populationens standardafvigelse i stratum “j”, Nj er populationsstørrelsen i stratum “j” og n er selve stikprøvestørrelsen. Med fokus på erhvervslivet s. 213 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Punktestimater af andele og middelværdi ved stratifikation I forrige afsnit var vi inde på stratificeret stikprøveudvælgelse. I nedenstående fremgår det, hvordan de grundlæggende punktestimater af gennemsnit og standardafvigelse beregnes for denne type stikprøveudvælgelse: Bemærk at Statlearn programmet kan anvendes til alle nedenstående beregninger Tabel 101: Stratificeret gennemsnit og varians –x 5 s –x 2 5 s Stratificeret andel og varians Nj – ∙x N j p�s 5 (x 2 –x j)2 (nj 2 1) VAR(p�s) 5 Nj ∙p N �j Nj p�j(1 2 p�j) ∙ N nj Tabel 102: Konfidensinterval (KI) Stratificeret andel og varians Stratificeret Z-KI for m m ∈ xs Z12a/2 Stratificeret Z-KI for p p ∈ p�s Z12a/2 Nj N Nj N 2 ∙ 2 s2j Nj 2 nj ∙ ∙ nj Nj p�(1 2 p�) Nj 2 nj ∙ Nj nj Se afsnit om konfidensintervaller for nærmere gennemgang. I det følgende er et eksempel på et stratificeret konfidensinterval for gennemsnit og andele. Med fokus på erhvervslivet s. 214 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Eksempler på et stratificeret konfidensinterval Eks. 1: Stratificeret konfidensinterval for gennemsnit (m) Fra kundedatabasen kender Danske Bank den gennemsnitlige indtjening for tre forskellige geografiske kundegrupper. Banken ønsker nu et estimat for den samlede gennemsnitlige indtjening pr. kunde. Beregn et 95 % konfidensinterval for den gennemsnitlige indtjening pr. kunde. Variabel: Indtjening pr. kunde i Danske Bank (kr.) Data: Tabel 103: Nj Nj N nj xj Sj Sjælland 72.478 39 % 100 14.732 2.163 Fyn 47.064 26 % 100 8.126 1.025 Jylland 64.219 35 % 100 9.041 3.877 Sum 183.761 100 % 300 - - Formel: m ∈ xs Z12a/2 Nj 2 s2j Nj 2 nj ∙ ∙ N nj Nj Forudsætning: Approksimation til normalfordeling ok da nj . 30 Interval: Nedre intervalgrænse Øvre intervalgrænse Punktestimat 10.733,508 11.369,027 11.051,267 Fortolkning: Den gennemsnitlige indtjening pr. kunde ligger med 95 % sandsynlighed mellem 10.734 og 11.369 kr. Eks. 2: Stratificeret konfidensinterval for andel (p) I forbindelse med en tilfredshedsundersøgelse ønsker PFA Pension, at estimere andelen af utilfredse kunder. I to stikprøver på henholdsvis 100 mænd og kvinder var andelen af utilfredse kunder som angivet under data. Beregn på den baggrund et 95 % konfidensinterval for andelen af utilfredse kunder. Variabel: Antallet af utilfredse kunder hos PFA Pension Med fokus på erhvervslivet s. 215 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Data: Tabel 104: Nj Nj N nj xj Mænd 449.105 54 % 100 14 Kvinder 376.278 46 % 100 21 Sum 825.383 100 % 200 - Formel: p ∈ p�s Z12a/2 Nj 2 p�(1 2 p�) Nj 2 nj ∙ ∙ N nj Nj Forudsætning: Approksimation til normalfordeling ok da nj . 30 Interval: Nedre intervalgrænse Øvre intervalgrænse Punktestimat 12 % 22,38 % 17,19 % Fortolkning: Andelen af utilfredse kunder ligger med 95% sandsynlighed mellem 12 og 22%. Øvelser med stratifikation De første spørgsmål er relateret til fortolkning. Du skal her med dine egne ord forsøge, at forklare betydningen af specifikke stratifikationsbegreber. De efterfølgende opgaver vil være beregningsøvelser. Fortolkningsøvelser 1. Hvornår er stratifikation især en fordel i forhold til simpel tilfældig udvælgelse? 2. Hvad er ideen med stratifikation i forhold til simpel tilfældig udvælgelse? 3. Hvis en stratificeret stikprøve altid er at foretrække frem for en simpel tilfældigt udvalgt stikprøve, hvorfor anvendes stratifikation så ikke altid? 4. Hvad er betydningen af før og efterstratifikation? 5. Hvad menes med proportional stratifikation? Med fokus på erhvervslivet s. 216 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Opgave 1. I forbindelse med et forestående valg ønsker Berlingske Tidende, at estimere andelen af bornholmske vælgere der stemmer på SF. På baggrund af to stikprøver var der 30 ud af 200 mænd, der ville stemme SF. Tilsvarende var der 19 af 165 kvinder, der ønskede at stemme SF. Antag at der henholdsvis er 12.000 og 15.000 mænd og kvinder, der stemmer på Bornholm. På baggrund af de to stikprøver ønskes et 95 % konfidensinterval for andelen af Bornholmere, der stemmer SF. Opgave 2. I en markedsundersøgelse for Kohberg er der indsamlet information omkring, hvor mange kilo brød der årligt forbruges pr. husstand i Danmark. Resultaterne fra 983 husstande ses i nedenstående: Tabel 105: Antal husstande (n) xj sj Jylland 237 24 13 Fyn 255 34 7 Sjælland 266 17 11 Bornholm 225 37 8 Antag at det fra Danmarks statistik oplyses, at der er 1.035.841 husstande i Jylland, 205.233 på Fyn, 1.054.390 på Sjælland og 19.779 på Bornholm. Spørgsmål 1. Beregn et 95 % konfidensinterval for det gennemsnitlige årlige forbrug af boller og brød pr. husstand. Spørgsmål 2. Kan du med udgangspunkt i det indsamlede data, kommentere hvorfor det i dette tilfælde er en særlig god ide at anvende stratifikation? Opgave 3. Computerproducenten Dell har iværksat en markedsundersøgelse, som skal belyse, i hvor høj grad kunderne er tilfredse med serviceniveauet. Baseret på tre forskellige kundesegmenter har Dell adspurgt kunderne om tilfredshedsgraden med serviceniveauet på en skala fra 1-10 (hvor 10 svarer til “yderst tilfreds”). Fra tidligere undersøgelser kendes standardafvigelsen på tilfredshedsgraden i de forskellige segmenter. Med fokus på erhvervslivet s. 217 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Spørgsmål 1.Hvis Dell ønsker at udtage en stikprøve på 350 kunder, hvor mange skal der så udtages i hvert stratum? Tabel 106: Kundesegment Nj Sj Privat 40.000 2,78 Offentlig 1.350 4,82 Erhverv 12.500 1,29 Sum 53.850 - Spørgsmål 2.På baggrund af stikprøvedata som vist i nedenstående beregnes et 95 % konfidensinterval for den gennemsnitlige tilfredshed med Dells serviceniveau. Tabel 107: Kundesegment Nj nj xj Sj Privat 40.000 134 6,29 2,78 Offentlig 1.350 148 7,88 4,82 Erhverv 12.500 68 5,21 1,29 Sum 53.850 350 - - Løsninger til stratifikation Fortolkning: 1. Som udgangspunkt er det altid en fordel at anvende stratificeret stikprøveudvælgelse, da stikprøven bliver mere repræsentativ end ved simpel tilfældig udvælgelse. Dette gælder især ved små stikprøvestørrelser, og når populationens strata er mere ensartede end populationen som helhed. 2. Tanken med stratifikation er, at lade andelene for populationen afspejle sig i stikprøven. Hvis der eksempelvis er 52 % kvinder i en population, så vil en stratificeret stikprøve på 100 personer indeholde 52 kvinder (ved anvendelse af proportional stratifikation). 3. For at anvende stratifikation, skal man have adgang til data for hele populationen. Dette er ikke altid en mulighed. 4. Med førstratifikation beregnes den optimale stikprøvestørrelse i hvert stratum inden stikprøven udtages. Ved efterstratifikation udtages data simpelt tilfældigt, hvorefter det fordeles på de enkelte strata. 5. Ved anvendelse af proportional stratifikation, lader man andelene for populationens enkelte strata afspejle sig i stikprøvens sammensætning (som beskrevet i spørgsmål 2). Med fokus på erhvervslivet s. 218 Grundlæggende statistik Med fokus på erhvervslivet Stikprøveteori Beregninger: Opgave 1. 95% stratificeret konfidensinterval for en andel Nedre grænse: 0,096 Øvre grænse: 0,165 Opgave 2. Spørgsmål 1. 95% stratificeret konfidensinterval for et gennemsnit Nedre grænse: 20,852 Øvre grænse: 22,767 Spørgsmål 2. De forskellige strata forekommer relativt heterogene, både hvad angår gennemsnit og standardafvigelse. Ved små stikprøver der udvælges simpel tilfældigt, er der således risiko for at resultatet ikke bliver repræsentativt. Opgave 3. Spørgsmål 1. Tabel 108: Segment Proportional Optimal 259,981 290,812 Offentlig 8,774 17,017 Erhverv 81,244 42,170 350 350 Privat Sum Spørgsmål 2. 95% stratificeret konfidensinterval for et gennemsnit Nedre grænse: 5,722 Øvre grænse: 6,435 Med fokus på erhvervslivet s. 219 KAPITEL 10 MULTINOMISKE HYPOTESETEST Statlearn.com KAPITEL 10 Multinomiske hypotesetest I tidligere afsnit har vi set hvordan en hypotesetest kan udføres for et enkelt populationsparameter. I forlængelse heraf var vi også inde på hypotesetest af to populationsparametre, eksempelvis i forbindelse med test af forskellen på to populationsgennemsnit. I dette afsnit ser vi på multinomiske test som kendetegnes ved, at der er mere end to kategorier, der testes – heraf betegnelsen multinomisk. Antag at du som produktchef for Toms Chokolade ønsker, at undersøge forbrugernes præferencer for konkurrerende chokoladebarer. For at indhente markedsinformation, har du udtaget en stikprøve blandt 100 forbrugere og adspurgt dem om deres foretrukne chokoladebar, se resultater i nedenstående: Tabel 109: Produkt Obs (oi) Guldbar (Toms) 25 Kit-Kat 28 Yankee 20 Twix 27 Sum 100 Af stikprøven fremgår det, at variablen Produkt har fire kategorier, og at Kit-Kat umiddelbart ser ud til at være det foretrukne valg. Da stikprøver som bekendt altid rummer en vis usikkerhed, er spørgsmålet om observationernes variation er et tilstrækkeligt bevis for, at det der er forskel i forbrugernes præferencer. Rent statistisk besvares spørgsmålet ved anvendelse af en multinomisk test. Multinomiske test anvendes til at sammenligne data som er inddelt i tre eller flere kategorier. Rent konceptuelt baseres denne type test på en beregning af forskellen på det der observeres og det der forventes i hver kategori. Som udgangspunkt antager H0 hypotesen, at der er ligelig fordeling blandt kategorierne. Oversat til eksemplet med chokoladebarer vil dette betyde af forbrugernes præferencer for de fire chokoladebarer er ens. Videolektioner > s. 221 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Såfremt H0 er sand, må vi forvente, at der er nogenlunde lige mange observationer i hver kategori som i nedenstående tabel: Tabel 110: Produkt Obs (oi) Forventet (ei) ved H0 Guldbar (Toms) 25 25 Kit-Kat 28 25 Yankee 20 25 Twix 27 25 Sum 100 100 Er det modsatte tilfældet, hvilket betyder at forbrugerne ikke har ens præferencer for de forskellige chokoladebarer, vil afvigelserne mellem de forventede og observerede værdier være langt større, som det fremgår af nedenstående tabel: Tabel 111: Produkt Obs (oi) Forventet (ei) ved H0 Guldbar (Toms) 58 25 Kit-Kat 14 25 Yankee 21 25 Twix 7 25 Sum 100 100 Beregning af multinomiske test Som nævnt bygger multinomiske test på en beregning af forskellen mellem den observerede og forventede værdi for hver kategori (Guldbar, Kit-Kat osv.). Mere specifikt er denne beregning baseret på x2 - fordelingen (udtales khi – fordelingen) og beregnes som i nedenstående: 2 xobs 5 (oi 2 ei)2 (5 teststørrelse) ei 2 Resultatet af beregningen for xobs er en værdi der kan aflæses i x2-fordelingen. FIGUR 71: Med fokus på erhvervslivet s. 222 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Fremgangsmåden med at beregne en teststørrelse som omdannes til en p-værdi og efterfølgende aflæses i en fordeling, har vi tidligere været inde på i afsnittet om hypotesetest. Fremgangsmåden med at beregne en teststørrelse som omdannes til en p-værdi og 2 Beregningen af teststørrelsen (xobs ) for eksemplet med chokoladebarer ses i nedenstående: efterfølgende aflæses i en fordeling har vi tidligere været inde på i afsnittet om hypotesetest. TABEL 112: Kategoritabel Beregningen af teststørrelsen Produkt oi Produkt Guldbar (Toms) 25 Guldbar (Toms) 28 Kit-Kat Yankee Yankee 20 Twix 27 Twix Sum Sum 100 Kit-Kat Tabel 36: Kategoritabel for eksemplet med chokoladebarer ses i nedenstående: ei x2obs 5 (oi 2 ei)2/ei 25 25 25 28 20 25 27 25 100100 0 25 25 25 25 100 0,36 1 0,16 1,52 0 0,36 1 0,16 1,52 Ud fra tabellen fremgår det, at teststørrelsen på 1,52 er den summerede variation mellem det Ud fra tabellen fremgår det, at teststørrelsen på 1,52 er den summerede variation mellem det og det observerede antal observationer i hver kategori. større variation, desto forventede forventede og det observerede antal observationer i hver kategori. Jo større Jo variation desto mere mere tyder det på atpræferencer forbrugerneserpræferencer Enpå teststørrelse svarer til tyder det på, at forbrugernes forskellige.erEnforskellige. teststørrelse 1,52 svarerpåtil1,52 en pværdi16 på 68 hvilket16betyder, vi ligger langt inde det område, hvor iHdet Dermed er en%, p-værdi på 68 %,athvilket betyder at viiligger langt inden område hvor accepteres. 0 accepteres. konklusionen, at H0 er accepteres. Det betyder at vi medDet 95 betyder % sandsynlighed konkludere, at der Dermed konklusionen at accepteres. at vi med kan 95 % sandsynlighed kan er ens præferencer for de fire chokoladebarer. konkludere at der er ens præferencer for de fire chokoladebarer. FIGUR 72: p-værdi 5 68 % testniveau 5 5 % F(x2) H0 5 Ens kategoriandele 16 H1 5 ej H0 Beregning af p-værdien ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet 16 Beregning af p-værdien ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet Med fokus på erhvervslivet Af Stephan Skovlund (Copyright) s. 223 Side | 242 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Anvendelsesområder for multinomiske test Multinomiske test anvendes i en række sammenhænge. I det følgende er et oprids af de forskellige områder, som testen indgår i. 1. Test af kategoriandele (se foregående eksempel) 2. Test af fordelinger (følger variablen en binomial, poisson eller en normalfordeling) 3. Test af antalstabeller (test af sammenhæng/homogenitet mellem to forskellige variable) Test af kategoriandele samt test af fordelinger foregår efter samme fremgangsmåde som anvist i foregående eksempel med chokoladebarer. For at undgå gentagelse er der i nedenstående et sæt videolektioner med eksempler på test af forskellige fordelinger med Statlearn programmet. 1. Test af binomialfordelingen 2. Test af poissonfordelingen 3. Test af normalfordelingen Antalstabeller Hvad angår test af antalstabeller adskiller denne type test sig ved at være baseret på en krydstabel, som er baseres på to variable. Formålet med denne type test er, at påvise en sammenhæng eller et afhængighedsforhold mellem de givne variable. I nedenstående ses en antalstabel for køn og overvægt: TABEL 113: Eksempel på en antalstabel Køn ja Overvægt Mand Kvinde Total ja 22 13 35 Nej 11 28 39 Total 33 41 74 Antalstabeller kendetegnes som nævnt ved at have to variable, derfor modificeres beregningen af teststørrelsen til følgende: 2 xobs 5 Med fokus på erhvervslivet (oij 2 eij)2 eij s. 224 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Bemærk at fodtegn angives med både i og j. Fodtegnet “i” tolkes som rækkenummer og “j” som kolonnenummer. Med andre ord svarer “o11” til krydsfeltet mellem kolonne 1 og række 1, se grå celle i nedenstående. TABEL 114: Køn Overvægt Mand Kvinde Total ja 22 13 35 Nej 11 28 39 Total 33 41 74 Den forventede værdi for række/kolonne kategorien beregnes: Rækkesumi ? Kolonnesumj n ei,j 5 EKSEMPEL: eJa,Mand 5 35 ? 33 5 15,608 74 TABEL 115: De forventede værdier for alle cellerne i tabellen Køn Overvægt Mand Kvinde Total ja 15,608 19,392 35 Nej 17,392 21,608 39 Total 33 41 74 Ud fra forskellen mellem de forventede og observerede værdier beregnes teststørrelsen: 2 obs x 5 (oij 2 eij)2 eij TABEL 116: Teststørrelsen for alle cellerne i tabellen Køn Overvægt Med fokus på erhvervslivet Mand Kvinde Sum af x2obs ja 2,618 2,107 4,725 Nej 2,349 1,891 4,24 Sum af x2obs 4,967 3,998 8,964 s. 225 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest En teststørrelse på 8,964 omregnes ved anvendelse af Statlearn programmet til en p-værdi på 0,275 %, hvilket ligger langt under testniveauet på 5 %. Hermed forkastes H0 hypotesen som betyder, at sammenhængen mellem overvægt og køn er stærk. Beregning af p-værdien17 ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet. FIGUR 73: testniveau 5 5 % p-værdi 5 0,275 % F(x ) 2 H0 5 Ens kategoriandele H1 5 ej H0 Analyse af teststørrelsen Som tidligere nævnt er teststørrelsen et udtryk for forskellen mellem de observerede og forventede værdier. Teoretisk set vil en teststørrelse på nul betyde, at der ingen forskel er på det der observeres og forventes, hvilket fører til at H0 hypotesen accepteres (H0 5 ingen sammenhæng). I praksis vil der altid være en vis forskel I variation mellem det observerede og forventede. Variationen afspejles af teststørrelsen. I foregående eksempel med køn og vægt er værdierne af teststørrelsen omtrent ligelig fordelt på de fire celler. En ligelig fordeling af teststørrelsen er tegn på, at de forskellige kategorier i antalstabellen hver især bidrager lige meget til variationen. TABEL 117: Eksempel på ligelig fordeling af teststørrelsen. Køn Overvægt 17 Mand Kvinde Sum af x2obs ja 2,618 2,107 4,725 Nej 2,349 1,891 4,240 Sum af x2obs 4,967 3,998 8,964 Uden Statlearn programmet beregnes p-værdien ud fra et tabelopslag i en fordelingsoversigt, eventuelt “Erlang S.” Med fokus på erhvervslivet s. 226 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Dog vil der ofte være enkelte celler, som står for langt størstedelen af bidraget til teststørrelsen. Det betyder, at enkelte celler har et antal observationer, der afviger dramatisk fra det der forventes. Denne viden kan være yderst værdifuld, når en given sammenhæng skal forklares. Hvis data eksempelvis havde taget sig ud som i nedenstående kommenteres, at det særligt er overvægtige mænd, der bidrager til den samlede variation. TABEL 118: Køn Overvægt Mand Kvinde Sum af x2obs ja 4,509 2,107 4,725 Nej 2,349 0 4,240 Sum af x2obs 4,967 3,998 8,964 En stor del af sammenhængen mellem køn og overvægt kan således tilskrives denne ene kombination. Spørgsmålet er nu, hvorfor denne variation er opstået. Skyldes det at langt flere mænd end forventet er overvægtige – eller er det modsatte tilfældet? I store studier kan denne viden bruges til at målrette fokus på de faktorer, som bidrager mest til en given sammenhæng. Med fokus på erhvervslivet s. 227 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Formler til beregning af multinomiske test TABEL 119: Multinomiske test Test af kategoriandele H0: p1 5 p2 5 p3 H1: ej H0 Formel K x2 5 Forudsætning (oi 2 ei) ei 2 K 5 antal kategorier fi 5 frekvens for kategori nr.i ei 5 n ? pi0 i51 Test af populationsintensitet H0: X~Ps(l) H1: ej H0 K x2 5 Stikprøven på n antal elementer er fordelt på en tabel med en række eller kolonne (oi 2 ei)2 ei i51 Stikprøverne fordelt på “n” antal perioder (kategorier), hvor fi tolkes som frekvensen for kategori nr. i K 5 antal kategorier fi 5 frekvens for kategori nr.i ei 5 n ? pi0 ki 5 værdi for kategori “i” pi0 5 P(X ∈ Ki|X~Ps(l0) “n” antal stikprøver som alle har stikprøvestørrelsen “m”. Test af binomialfordeling H0: X~b(n,p) H1: ej H0 Test af afhængighed (homogenitet) H0: Uafhængighed mellem det første og andet indelingskriterium H1: ej H0 Med fokus på erhvervslivet K x2 5 (oi 2 ei) ei 2 i51 Kij 2 x 5 (oij 2 eij)2 eij Stikprøverne er fordelt på K kategorier hvor tolkes som frekvensen for kategori nr. i K 5 antal kategorier fi 5 frekvens for kategori nr.i pi0 5 P(X ∈ Ki|X~b(n,p0) ei 5 n ? pi0 ki 5 værdi for kategori “i” Stikprøven på n elementer fordeles på en tabel med mindst 2 rækker og kolonner. fij 5 frekvens for kategori nr.i i51 s. 228 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Eksempler på beregning af multinomiske test Eksempel 1: Test af kategoriandele, ligelig fordeling Nordea ønsker at fastlægge om andelen af kunder, der anvender Mastercard er ligeligt fordelt blandt forskellige indkomstgrupper. Kan det ud fra en stikprøve på 150 kunder påvises, at der er tale om en ligelig fordeling? Variabel: Antal kunder i forskellige indkomstgrupper der bruger Mastercard Model: χ2-fordelingen Hypoteser: H0: p1 5 0,33 p2 5 0,33 p3 5 0,33 H1: ej H1 Data: TABEL 120: Indkomst (i tusind) Obs.(O) Forventede andele (p) Forventede antal (np) Test-størrelse ,200 49 0,333 50 0,020 200-400 45 0,333 50 0,500 .400 56 0,333 50 0,720 Sum 150 1 150 1,240 Forudsætning: Test er acceptabel da alle forventede værdier . 3 Teststørrelse: K x2 5 i51 (oi 2 ei)2 ei Konklusion: Da p-værdi 5 0,538 . testniveau (0,05) accepteres Ho. På den baggrund konkluderes at andelen af dem der anvender Mastercard er lige stor på tværs af de forskellige indkomstgrupper. Med fokus på erhvervslivet s. 229 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Eksempel 2: Test af kategoriandele, specifik fordeling Som produktchef for billån i Nordea har du en forventning om, at 50 % af bilisterne fortrækker jeres produkt, 30 % foretrækker billån fra Danske Bank og de resterende 20 % er spredt ud på andre banker. Ud fra en stikprøve på 86 forbrugere ønsker du at få denne antagelse bekræftet – er det muligt? Variabel: Antal billån fra forskellige banker Model: χ2 fordelingen Hypoteser: H0: p1 5 0,5 p2 5 0,3 p3 5 0,2 H1: ej H1 Data: TABEL 121: Billån fra Obs. (O) Forventede andele (p) Forventede antal (np) Test-størrelse Nordea 37 0,5 43 0,837 Danske Bank 32 0,3 25,8 1,490 Andre banker 17 0,2 17,2 0,002 Sum 86 1 86 2,329 Forudsætning: Test er acceptabel da alle forventede værdier . 3 Teststørrelse: K 2 x 5 i51 (oi 2 ei)2 ei Konklusion: Da p-værdi 5 0,312 . testniveau (0,05) accepteres Ho. På den baggrund konkluderes med 95 % sandsynlighed, at andelen af bilister der optager billån fra forskellige banker, er som hidtil antaget. Med fokus på erhvervslivet s. 230 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Eksempel 3: Test af binomialfordeling Som aktieanalytiker indenfor farmaceutiske virksomheder ønsker du, at vide om bivirkningerne af Novo Nordisk nye insulin følger en binomialfordeling. Novo har tilsendt data fra 50 stikprøver med hver 20 testpersoner (i alt 1000 personer). Variabel: Antal bivirkninger Model: χ2 fordelingen Hypoteser: H0: X ~ b(p, n) H1: ej H1 Data: (populationsandelen estimeres fra stikprøven til 0,0556) TABEL 122: Kategori Obs. Forventede sandsynligheder forudsat Ho Forventede antal forudsat Ho Test-størrelse højst 0 320 32% 319 0,007 -1 388 38% 375 0,448 -2 183 21% 210 3,413 -3 78 7% 74 0,206 Mindst 4 31 2% 23 3,111 Sum 1000 100% 1000 7,18487 Forudsætning: Test er acceptabel da alle forventede værdier . 3 Teststørrelse: K x2 5 i51 (oi 2 ei)2 ei Konklusion: Da p-værdi 5 0,066233 . testniveau (0,05) accepteres Ho. Hermed konkluderes med 95 % sandsynlighed, at antallet af bivirkninger følger en binomialfordeling. Med fokus på erhvervslivet s. 231 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Eksempel 4: Test af poissonfordeling En bookmaker ønsker at vide, om målscoren for FCK følger en poissonfordeling. Blandt 50 kampe var fordelingen af mål som angivet under Data i nedenstående. Variabel: Antal mål scoret af FCK Model: χ2 fordelingen Hypoteser: H0: X ~ Ps(l) H1: ej H1 Data: (populationsintensiteten estimeres fra stikprøven til 1,5) TABEL 123: Kategori Obs. Forventede sandsynligheder forudsat Ho Forventede antal forudsat Ho Test-størrelse højst 0 12 0,223 14,727 0,505 -1 19 0,335 22,090 0,432 -2 26 0,251 16,567 5,370 -3 8 0,126 8,284 0,010 Mindst 4 1 0,066 4,332 2,563 Sum 66 1 66 8,880 Forudsætning: Test er acceptabel da alle forventede værdier . 3 Teststørrelse: K x2 5 i51 (oi 2 ei)2 ei Konklusion: Da p-værdi 5 0,030924 , testniveau (0,05) forkastes Ho. Hermed konkluderes med 95 % sandsynlighed, at antallet af FCK mål ikke følger en poissonfordeling. Med fokus på erhvervslivet s. 232 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Eksempel 5: Test i antalstabel I forbindelse med en undersøgelse hvor sammenhængen mellem øjenfarve og køn belyses, er der udtaget en stikprøve på 74 tilfældigt udvalgte personer. Kan man på den baggrund konkludere, at øjenfarve er kønsbestemt? Model: χ2 fordelingen Hypoteser: H0: Uafhængighed mellem køn og øjenfarve H1: ej H1 Data: TABEL 124: Obs. Forventet. Teststørrelse Mand Kvinde Sum Mand Kvinde Sum Mand Kvinde Sum Brune 22 13 35 15,6 19,4 35,0 2,6 2,1 4,7 Blå 11 28 39 17,4 21,6 39,0 2,3 1,9 4,2 Sum 33 41 74 33,0 41,0 74,0 5,0 4,0 9,0 Forudsætning: Test er acceptabel da alle forventede værdier . 3 Teststørrelse: K x2 5 i51 (oij 2 eij)2 eij Konklusion: Da p-værdi 5 0,002753 , testniveau (0,05) forkastes Ho. Således kan vi med 95 % sandsynlighed konkludere, at der er en sammenhæng mellem køn og øjenfarve. Med fokus på erhvervslivet s. 233 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Øvelser med multinomiske hypotesetest Opgave 1. Når paperback bøger lanceres i USA, produceres forsiden i flere forskellige farvede udgaver. Traditionen tro skulle der være forskellige præferencer for forsidens farve i forskellige geografiske områder. Da det er betydeligt dyrere at producere flere forskellige forsider i stedet for én enkelt, ønsker forlaget Mcgraw Hill, at undersøge sammenhængen mellem salg af paperbacks og forsidens farve i de forskellige stater. Ud af en stikprøve på 300 kunder i Barnes & Nobles bogkæden fordelt på tre byer blev der observeret nedenstående. TABEL 125: Rød Blå Grøn Total New York 34 46 20 100 Washington 22 41 37 100 Boston 29 31 40 100 Total 85 118 97 300 Er der grund til at fortsætte med at trykke forsiderne i forskellige farver (test om sammenhæng mellem geografi og farve)? Opgave 2. For at identificere sit kernemarked igangsatte Porsche en markedsundersøgelse blandt eksisterende kunder. I forbindelse med testen blev der først spurgt til hvilken model, der var den foretrukne blandt: A: Porsche 911 B: Porsche Boxer C: Porsche Cayenne D: Porsche Cayman Efterfølgende blev kunden bedt om at vælge de værdier der bedst beskrev bilen ud fra: A: Aggression B: Køreglæde C: Prestige D: Magt TABEL 126: Aggression Køreglæde Prestige Magt Total Cayenne 22 21 56 133 232 Boxer 39 45 68 194 346 Cayman 77 89 80 342 588 911 82 83 82 378 625 Total 220 238 286 1047 1791 Med fokus på erhvervslivet s. 234 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Spørgsmål 1. Kan det konkluderes, at Porschemodellerne signalerer forskellige værdier? Spørgsmål 2.Hvordan vil du beskrive betydningen af prestige blandt de kunder, der foretrækker Cayenne? Opgave 3. Som produktchef for Nestlé ønsker du at undersøge positioneringen af jeres megabrand: Kit-Kat. Blandt 100 tilfældigt udvalgt forbrugere der købte Kit-Kat og konkurrerende produkter, var resultatet som i nedenstående: TABEL 127: Produkt Twix Kit-Kat Mars Bounty Holly Total Observeret 12 38 12 23 15 100 Spørgsmål 1.Kan der på baggrund af observationerne siges at være forskel i præferencerne for de forskellige produkter? Spørgsmål 2. Kan de forventede markedsandele jf. nedenstående antages at være sande? TABEL 128: Produkt Twix Kit-Kat Mars Bounty Holly Total Observeret 12 38 12 23 15 100 Forventede andele 0,1 0,3 0,2 0,2 0,2 1 Opgave 4. På rigshospitalet er man i færd med et projekt, som skal sikre en bedre behandling af personer, der kommer ind med svær lungebetændelse i vinterhalvåret. Denne type patienter kræver skærpet opmærksomhed og dermed ekstra bemanding. I den forbindelse ønsker man at undersøge, om antallet af nævnte patienter følger en binomialfordeling. Spørgsmål 1.Med udgangspunkt i nedenstående data som er baseret på 38 stikprøver med 12 patienter i hver, testes på 5 % niveauet om antallet af patienter med svær lungebetændelse følger en binomialfordeling? TABEL 129: Patienter med lungebetændelse 0 1 2 3 4 Observeret 7 10 9 11 1 Med fokus på erhvervslivet s. 235 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Spørgsmål 2.Kan man med et testniveau på 10 % konkludere, at patienter som kommer ind med svær lungebetændelse følger en binomialfordeling med p 5 0,19 (binomial sandsynlighed 5 19 %)? Spørgsmål 3.Overlægen på rigshospitalet har de sidste tre år observeret antallet af patienter, som hver måned kommer ind med malaria. Lægen mener, at der hver måned gennemsnitligt ankommer 3 personer med malaria, men er nu kommet i tvivl – Kan du ud fra nedenstående data bekræfte at gennemsnittet er 3? TABEL 130: Malaria obs. 1 2 3 4 5 6 Måneder 3 4 13 11 2 3 Tidligere eksamensøvelser med multinomiske hypotesetest Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: “Ekstra øvelser”. Øvelser med multinomiske hypotesetest (sideangivelse samt opgavenummer): Side 4 /2.1 Side 8 /3.1 Side 4 /2.2 Side 11 /4.1 Side 15 /1.3 Side 15 /1.3 Side 15 /1.4 Side 19/1.3 Side 19/1.3 Side 26/1.1 Side 27/4.2 Med fokus på erhvervslivet s. 236 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Løsninger til multinomiske hypotesetest Opgave 1. Hypoteser: H0: Uafhængighed mellem paperback forsidens farve og salget i de forskellige byer i USA H1: Ej H0 Konklusion: Da p-værdi (0,0126914) , testniveau (0,05) forkastes Ho. Forsidens farve har således betydning for salget af paperback. Opgave 2. Spørgsmål 1. Hypoteser: H0: Uafhængighed mellem valg af Porschemodel og de værdier som bilen repræsenterer H1: Ej H0 Konklusion: Da p-værdi (0,002194) , testniveau (0,05) forkastes Ho. Det kan hermed antages, at der er sammenhæng mellem valg af Porschemodel og de værdier som bilen repræsenterer. Spørgsmål 2. I følgende tabel fremgår det, at bidraget til teststørrelsen er særlige høj i cellen der repræsenterer Porsche Cayenne og prestige (celle er markeret med grå). Den høje variation skyldes, at der var 56 observationer, hvorimod der kun blev forventet 37 observationer såfremt, at der havde været uafhængighed. Der er således flere, der har tillagt prestige betydning end man havde forventet i kategorien for Porsche Cayenne. Prestige spiller således en ekstra stor rolle for ejerne af Porsche Cayenne. TABEL 131: Aggression Køreglæde Prestige Magt Total Cayenne 22 21 56 133 232 Boxer 39 45 68 194 346 Cayman 77 89 80 342 588 911 82 83 82 378 625 Total 220 238 286 1047 1791 Med fokus på erhvervslivet s. 237 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Forventet: TABEL 132: Aggression Køreglæde Prestige Magt Total Cayenne 28,498 30,830 37,047 135,625 232,00 Boxer 42,501 45,979 55,252 202,268 346,00 Cayman 72,228 78,137 93,896 343,739 588,00 911 76,773 83,054 99,805 365,369 625,00 Total 220,000 238,000 286,000 1047,000 1791,00 Aggression Køreglæde Prestige Magt Total Cayenne 1,482 3,134 9,696 0,051 14,36 Boxer 0,288 0,021 2,941 0,338 3,59 Cayman 0,315 1,510 2,057 0,009 3,89 911 0,356 0,000 3,176 0,437 3,97 Total 2,441 4,665 17,870 0,834 25,81 Bidrag til teststørrelse: TABEL 133: Opgave 3. Spørgsmål 1. Hypoteser: H0: Ligelig fordeling mellem præferencerne for de 4 chokoladebarer H1: Ej H0 Konklusion: Da p-værdi (0,0000695) , testniveau (0,05) forkastes Ho. Der er dermed forskel i præferencerne for de forskellige chokoladebarer. Spørgsmål 2. Hypoteser: H0: Fordelingen af kategorier følger de andele som angivet under “Data” H1: Ej H0 Med fokus på erhvervslivet s. 238 Grundlæggende statistik Med fokus på erhvervslivet Multinomiske hypotesetest Data: TABEL 134: Twix Kit-Kat Mars Bounty Holly Obs 12 38 12 23 15 kategori andele 0,1 0,3 0,2 0,2 0,2 Forventet antal 10 30 20 20 20 0,40 2,13 3,20 0,45 1,25 Teststørrelse Konklusion: Da p-værdi (0,1146852) . testniveau (0,05) accepteres H0 og dermed antages de forventede andele at være korrekte. Opgave 4. Spørgsmål 1. Hypoteser: H0: X ~ b(m 5 12, q) H1: Ej H0 Konklusion: Da p-værdi (0,103) . testniveau (0,05) accepteres H0 Spørgsmål 2. Hypoteser: H0: X ~ b(m 5 12, p 5 0,19) H1: Ej H0 Konklusion: Da p-værdi (0,022) , testniveau (0,1) forkastes H0 Spørgsmål 3. Hypoteser: H0: X ~ Ps(l 5 3) H1: Ej H0 Konklusion: Da p-værdi (0,0311881) , testniveau (0,05) forkastes H0 Med fokus på erhvervslivet s. 239