Miljøgodkendelse til karteringsplads og

Transcription

Stephan Skovlund
APRIL
2013
GRUNDLÆGGENDE
STATISTIK
Statistik med fokus på anvendelighed i erhvervslivet
Statistik – Excel - Dataanalyse
Statlearn.com
Indholdsfortegnelse
FORORD ...................................................................................................................................... 6
KAPITEL 1: STATISTIKKENS ABC ............................................................................................... 8
KAPITEL 2: BESKRIVENDE STATISTIK ...................................................................................... 11
Punktestimater – beskrivelse af stikprøven ................................................................. 11
Valg af gennemsnit eller median ................................................................................... 12
Alternative mål for spredning ........................................................................................ 16
Kvartiler .............................................................................................................................. 17
Procentiler .......................................................................................................................... 17
Kurtosis ............................................................................................................................... 18
Punktestimater for grupperede data ............................................................................ 19
Opsummering af punktestimater .................................................................................. 21
Grafer – Illustration af data ............................................................................................ 21
Indeks tal ............................................................................................................................ 25
Appendiks – Beskrivende statistik ................................................................................. 29
Øvelser i beskrivende statistik ....................................................................................... 31
Løsninger til beskrivende statistik ................................................................................. 34
Anvendelse af Excel til beskrivende statistik .............................................................. 41
Udvalgte videolektioner (klik på links) ......................................................................... 46
KAPITEL 3: GRUNDLÆGGENDE SANDSYNLIGHEDSREGNING ............................................... 48
Forskellige typer af sandsynligheder ............................................................................ 48
Grundlæggende forudsætninger ................................................................................... 49
Grundlæggende begreber ............................................................................................... 50
Foreningsmængden (”ELLER” hændelsen) ................................................................... 54
Komplementær hændelsen ............................................................................................ 55
Betingende sandsynligheder – Afhængige hændelser .............................................. 56
Regneregler for sandsynligheder .................................................................................. 60
Øvelser ................................................................................................................................ 64
Løsninger ............................................................................................................................ 67
Videolektioner >
s. 2
Grundlæggende statistik
Med fokus på erhvervslivet

KAPITEL 4: STOKASTISK VARIABEL ........................................................................................ 73
Regneregler for en stokastisk variabel ......................................................................... 74
Øvelser med stokastisk variabel .................................................................................... 77
Løsninger til stokastisk variabel ..................................................................................... 78
KAPITEL 5: SANDSYNLIGHEDSFORDELINGER ........................................................................ 82
Relativ frekvens- og teoretiske fordelinger ................................................................. 83
Forskellige fordelinger ..................................................................................................... 84
Oversigter over fordelinger og deres kendetegn ....................................................... 90
Case ..................................................................................................................................... 91
Opsummering .................................................................................................................... 99
Fordelingsøvelser .............................................................................................................. 99
Løsninger til sandsynlighedsfordelinger .................................................................... 103
Appendiks 1: Approksimationsregler ......................................................................... 108
KAPITEL 6: KONFIDENSINTERVALLER ................................................................................... 110
Konfidensintervaller som koncept .............................................................................. 112
Den centrale grænseværdisætning ............................................................................. 113
Normalfordelingens rolle .............................................................................................. 114
Betydningen af konfidensniveauet ............................................................................. 115
Konfidensintervallets grundelementer ....................................................................... 116
Opsummering .................................................................................................................. 117
Bestemmelse af stikprøvestørrelse såfremt en specifik bredde ............................. 118
af konfidensinterval er angivet
Fremgangsmåde til beregning af konfidensintervaller ........................................... 119
Oversigt over konfidensintervaller, 1 stikprøve ........................................................ 121
Beregning af konfidensintervaller (KI), 1 stikprøve ................................................. 122
Eksempler på konfidensintervaller for en stikprøve ................................................ 123
Konfidensintervaller for to stikprøver ........................................................................ 126
Oversigt over konfidensintervaller for differensen ................................................. 127
Beregning af konfidensintervaller for differensen ................................................... 128
Eksempler på konfidensintervaller for differens ...................................................... 129
Øvelser med konfidensintervaller ............................................................................... 131
Løsninger til konfidensintervaller ................................................................................ 135
s. 3

KAPITEL 7: HYPOTESETEST .................................................................................................... 141
Hypotesetest som koncept .......................................................................................... 141
Opsummering .................................................................................................................. 148
Generel metode til løsning af hypotesetest .............................................................. 149
Hypotesetest oversigt, 1 stikprøve .............................................................................. 151
Beregning af hypotesetest, 1 stikprøve ...................................................................... 152
Beregning af styrken (type 2 fejl) ved test af andele .............................................. 152
Beregning af styrken (type 2 fejl) ved test af gennemsnit ..................................... 153
Eksempler på hypotesetest med en stikprøve .......................................................... 153
Hypotesetest med to stikprøver .................................................................................. 157
Beregning af hypotesetest, 2 stikprøver .................................................................... 158
Eksempler på hypotesetest med 2 stikprøver ........................................................... 159
Variansanalyse (ANOVA) ............................................................................................... 162
Eksempel på variansanalyse ......................................................................................... 163
Øvelser med hypotesetest ............................................................................................ 165
Løsninger til hypotesetest ............................................................................................. 172
KAPITEL 8: REGRESSIONSANALYSE ...................................................................................... 180
Korrelationsanalyse ........................................................................................................ 180
Ekstreme observationer - Outliers ............................................................................... 182
Simpel lineær regression .............................................................................................. 183
Mindste Kvadrat Metoden (MKM) .............................................................................. 184
Fremgangsmåde ved regressionsanalyse ................................................................... 187
Eksempel på anvendelse af simpel lineær regression ............................................. 191
Forudsigelsesinterval ..................................................................................................... 193
Multipel regression ........................................................................................................ 194
Faldgrupper ved multipel regression .......................................................................... 195
Valg af den optimale regressionsmodel ..................................................................... 196
Sammenligning af regressionsmodeller ..................................................................... 197
Tilføjelse af en kvalitativ variabel (dummy variabel) ............................................... 197
Øvelser med regressionsanalyse .................................................................................. 198
Løsninger til regressionsanalyse .................................................................................. 201
s. 4

Appendiks til regressionsafsnit .................................................................................... 206
KAPITEL 9: STIKPRØVETEORI ................................................................................................ 211
Introduktion til før og efterstratifikation ................................................................... 212
Førstratifikation .............................................................................................................. 212
Punktestimater af andele og middelværdi ved stratifikation ................................ 214
Eksempler på et stratificeret konfidensinterval ....................................................... 215
Øvelser med stratifikation ............................................................................................ 216
Løsninger til stratifikation ............................................................................................. 218
KAPITEL 10: MULTINOMISKE HYPOTESETEST ...................................................................... 221
Beregning af multinomiske test ................................................................................... 222
Anvendelsesområder for multinomiske test ............................................................. 224
Antalstabeller .................................................................................................................. 224
Analyse af teststørrelsen ............................................................................................... 226
Formler til beregning af multinomiske test ............................................................... 228
Eksempler på beregning af multinomiske test .......................................................... 229
Øvelser med multinomiske hypotesetest ................................................................... 234
Løsninger til multinomiske hypotesetest ................................................................... 237
s. 5
Forord
I
kølvandet på de sidste års rivende IT revolution har statistik gennemgået en drastisk udvikling.
Den stigende digitalisering af virksomheders forretningsgange og hastigheden hvormed informationer spredes, har medført et øget behov for statistik til at tøjle de markante mængder af data
der ophobes.
Denne bog er skrevet i erkendelse af, at mange studerende får brug for praktiske talfærdigheder på
deres fremtidige arbejdsplads. Her vil der være et behov for solidt kendskab til grundlæggende dataanalyse og effektiv håndtering af store datamængder. I det perspektiv vil det være i de færrestes
interesse, at få en uddybende gennemgang af teoretisk statistik og matematisk bevisførelse. Derfor
har denne bog nedtonet mængden af formler og i stedet øget mængden af forklaringer. Målet er at
gøre de statistiske koncepter intuitive og mest af alt – mulige at omsætte i praksis.
For at styrke den studerende i anvendelsen af statistiske analyser medfølger et statistikprogram,
som kan anvendes til at beregne alle de analyser der bliver gennemgået i bogen. Herudover er der
et grundlæggende kursus i Excel, som er en forudsætning for at arbejde effektivt med tal. Excel fik
i 2007 en gennemgribende opgradering og der kom mange vigtige funktioner som bliver gennemgået i Excelkurset.
Excelkurset baseres på videolektioner som du kan finde på ccved at logge dig ind med din tilsendte
adgangskode.
I skrivende stund er der omkring 500 stillingsopslag på www.jobindex.dk hvor gode Excel kundskaber er et krav - God læselyst!
Med venlig hilsen
Stephan Skovlund
Videolektioner >
s. 6
KAPITEL 1
STATISTIKKENS ABC
Statlearn.com
KAPITEL
Statistikkens ABC
1
S
Statistikkens ABC
Statistik tager sit udgangspunkt i den del af matematikken, der har til formål at indsamle,
beskrive og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt
element
der skal
skabe
og hjælpe osder
med
at til
træffe
de rigtige
tatistik
tageri de
sitprocesser
udgangspunkt
i den
deloverblik
af matematikken,
har
formål
at indsamle,
beskrive
og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt
beslutninger.
element i de processer, der skal skabe overblik og hjælpe os med at træffe de rigtige beslutninger.
Ordet statistik kommer af status som er den latinske betegnelse for tilstand. I tidernes morgen
Ordet statistik kommer af status, som er den latinske betegnelse for tilstand. I tidernes morgen
blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets
blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets ekspansion.
ekspansion.tidI den
efterfølgende
tid har
udvikling,
og er i dag
I den efterfølgende
har statistik
undergået
enstatistik
drastiskundergået
udvikling,en
ogdrastisk
er i dag blevet
en sofistikeret
blevet
der har
spredt sig tilEssensen
alle hjørner
af samfundet.
af
videnskab,
der en
harsofistikeret
spredt sig videnskab
til alle hjørner
af samfundet.
af statistik
er dogEssensen
uændret.
Behovet statistik
for at omdanne
store datamængder
viden ogstore
tydeliggøre
sammenhænge,
mindst
er dog uændret.
Behovet for attilomdanne
datamængder
til viden oger
tydeliggøre
ligeså aktuel i dag som dengang romerne skulle optælles.
sammenhænge, er mindst ligeså aktuel i dag som dengang romerne skulle optælles.
Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik.
Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik.
Ligesom ord kan beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at
beskrive Ligesom
karaktertræk
for data.
ord kan
beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at
beskrive
karaktertræk
data.
Med induktiv
statistik
forsøger for
man,
at generalisere for en hel population på baggrund af en stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og ud fra
Med induktiv statistik forsøger man, at generalisere for en hel population på baggrund af en
denne stikprøve forsøger at sige noget om hele populationen, der består af alle danskere.
stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og
ud fra denne stikprøve
forsøger at sige noget om hele populationen der består af alle danskere.
FIGUR 1:
N
n
For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten
For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten komkomme fra en population (N) eller en stikprøve (n).
me fra en population (N) eller en stikprøve (n).
Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en
population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal
Videolektioner >
Af Stephan Skovlund (Copyright)
s. 8
Side | 7
Statistikkens ABC
Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal opfattes
som den samlede mængde af mulige observationer - eksempelvis alle danskere eller alle bildæk
på et lager.
Stikprøven er et antal observationer udtaget fra den givne population. At indsamle data for en hel
population er både tids- og ressourcekrævende, derfor anvender man næsten altid stikprøvedata.
Formålet med stikprøven er, at skabe en minipopulation som derefter kan anvendes til at beskrive tendenser eller særlige karakteristika for hele populationen, hvilket kendetegner induktiv
statistik.
Op til et valg i Danmark udtager medierne jævnligt stikprøver, exit pools, for at se hvilket parti der
vil få flest stemmer. I denne sammenhæng er populationen (N) samtlige 2,3 millioner stemmeberettigende danskere. Stikprøven (n) er sammensat af tilfældigt udvalgte personer fra populationen
og udgør blot en lille del af den samlede population.
De termer vi anvender for en population og stikprøve er byggestenene i statistik, så lad os derfor
bruge et kort øjeblik på at definere begreberne. Termer som eksempelvis gennemsnit og standardafvigelse anvendes for både population og stikprøve, men angives med forskellige symboler.
De beregninger der foretages ud fra populationsdata kaldes populationsparametre og angives
hovedsagligt med græske bogstaver. De beregninger der foretages ud fra en stikprøve kaldes
punktestimater og angives med bogstaverne fra vores eget alfabet.
De mest gængse termer fremgår af den nedenstående tabel. Deres betydning diskuteres i afsnittet:
Beskrivende statistik.
Er du er en anelse forvirret over de nye fagtermer så holdt fast i, at essensen af statistik er at beskrive en hel population på baggrund af en stikprøve.
TABEL 1: Populationsparametre og punktestimater
Betegnelse
Populationsparameter
Punktestimat
Gennemsnit
m
–x
Standardafvigelsen
s
s
Varians
s2
s2
Andel
p
pˆ
Intensitet
l
ˆ
l
Formler til de enkelte beregninger findes i appendiks til afsnittet om Beskrivende statistik.
s. 9
KAPITEL 2
BESKRIVENDE STATISTIK
Statlearn.com
KAPITEL
2
Beskrivende Statistik
V
i fortolker dagligt mere eller mindre bevidst store mængder informationer. Medierne er
blevet relativt sofistikerede til at anvende grafer og nøgletal for at reducere store datamængder til letforståelige informationer. Den del af statistikken, som beskriver data med estimater
og grafer, betegnes som beskrivende statistik.
Ofte er anvendelsen af beskrivende statistik ikke en mulighed, men en nødvendighed. Når du kommer ud i en virksomhed vil du sandsynligvis skulle håndtere store datamængder i et regneark som
Excel. Om det er finansielle nøgletal eller ren og skær dataanalyse er sådan set underordnet. Formålet er at reducere data til essentiel information, og præsentere det på en letforståelig måde.
�Beskrivende statistik omfatter at reducere data til essentiel information, og præsentere det på en
letforståelig måde.”
Indledningsvis skal det nævnes, at de beregninger vi anvender i forbindelse med dette afsnit, alle
kan foretages med Statlearn programmet.
Punktestimater – beskrivelse af stikprøven
Som vi var inde på i afsnittet: “Statistikkens ABC” sondres der mellem punktestimater og populationsparametre. Ligesom ord kan beskrive karaktertræk ved et ansigt, kan punktestimater og
populationsparametre beskrive karaktertræk for en stikprøve eller en population. Dette er ikke
synderligt relevant, hvis du arbejder med få data, men hvis du sidder med 30.000 datarækker i
et regneark og mangler overblikket, kan punktestimater give dig en hurtig og værdifuld indsigt.
Lad os antage du arbejder som aktieanalytiker i Danske Bank. Du er i den forbindelse blevet bedt
om at foretage en risikoanalyse af tre aktier. Formålet med analysen er at undersøge hvordan aktiekurserne for hhv. Microsoft, Nike og Danisco har udviklet sig i perioden januar – juli 2011. Resultatet af analysen skal anvendes til at rådgive en kunde, som ønsker sig en aktie med en lav risikoprofil.
Kaster vi et hurtigt blik på kurserne i tabel 2, kan vi umiddelbart se, at alle aktierne har haft en
vis variation i perioden. Skal vi grave et spadestik dybere og udpege den aktie, der oplevede det
største kursudsving og dermed var mest risikobetonet, bliver det straks en anelse vanskeligere at
vurdere ved blot at læse tallene i tabellen.
Videolektioner >
s. 11
TABEL 2: Aktiekurser til beskrivende statistik.
2011
Microsoft
Nike
Danisco
jan
35,8
64,3
73,6
feb
31,1
61,6
66,2
mar
27,2
60,2
66,2
apr
28,8
68,6
70,4
maj
28,5
66,8
67,0
jun
28,2
68,3
65,9
jul
25,9
58,4
65,7
For at udvikle et sammenligningsgrundlag for de tre aktier, kan vi starte med at beregne gennemsnitskursen. Gennemsnittet, som også betegnes middelværdi og forventet værdi, er et mål for den
centrale værdi i datasættet, heraf betegnelsen middelværdi.
TABEL 3: Beregning af gennemsnit
Populationsparameter for gennemsnit
1
m5
N
Punktestimat af gennemsnit
N

–x 5 1 
n
xi
i51
n

xi
i51
Valg af gennemsnit eller median
Et gennemsnit skal anvendes med det forbehold, at data skal være relativt normalfordelt1 som i
nedenstående fordeling A. I afsnittet om fordelinger kommer vi nærmere ind på betydningen af normalfordelingen. Indtil videre kan vi blot hæfte os ved, at data kan være fordelt forskelligt som i figur 1.
FIGUR 2: Normal versus skæve fordelinger
P(X)
A
Normal fordeling
1
B
Højreskæv fordeling
C
Venstreskæv fordeling
ormalfordelingen refererer til data, der følger en klokkeformet symmetrisk fordeling omkring gennemsnittet, se
N
mere herom i afsnittet om fordelinger.
s. 12
Er fordelingen af data enten højre- eller venstreskæv som i henholdsvis B og C, tyder det på, at
enkelte observationer afviger meget i forhold til de øvrige, heraf skævheden. I de tilfælde er medianen et mere repræsentativt mål end et gennemsnit.
Medianen er værdien af den midterste observation i et datasæt, der er sorteret fra laveste til højeste værdi, hvilket med andre ord kaldes, at datasættet er sorteret stigende. I modsætning til gennemsnittet er medianen ikke påvirkelig for ekstremobservationer, da den repræsenterer værdien
af datasættets midterobservation. Medianen påvirkes dermed ikke af de ekstraordinære høje eller
lave værdier, som kendetegner skæve fordelinger.
TABEL 4: Beregning af median og gennemsnit i en stikprøve
Median (stikprøve)
Gennemsnit (stikprøve)
(n 1 1)
Median 5
2
–x 5 1 
n
n

xi
i51
Lad os tage et simpelt eksempel. Forestil dig en by hvor 99 % af husstandene tjener 500.000 kr.,
og den sidste 1 % af husstandene tjener 100 millioner. Vi kan ræsonnere os til, at gennemsnittet
vil blive trukket gevaldigt op af den ene procents høje indkomster. I denne situation vil vi have en
meget højreskæv fordeling af indkomsten. Gennemsnittet vil således blive alt for højt og dermed
et dårligt mål for datasættets centrale værdi. Det er derfor vigtigt at fastlægge, i hvor høj grad dine
data er normalfordelte, inden et gennemsnit tages i brug.
For at beregne om data er normalfordelte eller skæve, anvendes et mål for skævheden. Skævhed
indikerer i hvor høj grad dine data er skæve eller symmetriske. Formlen for skævheden fremgår af
appendiks til dette afsnit.
Er skævhedens værdi negativ, er fordelingen af data venstreskæv, og omvendt vil fordelingen af
data være højreskæv ved en positiv skævhedsværdi. Er data helt normalfordelte er skævheden
tilnærmelsesvis 0.
TABEL 5: Fortolkning af fordelingens “skævhed”
Venstreskæv
Normalfordelt
Højreskæv
skævhed , 0
skævhed 5 0
skævhed . 0
For en mere eksakt vurdering af hvorvidt data er normalfordelte anvendes en hypotesetest, se
mere herom i afsnittet om multinomiske hypotesetest.
Vender vi tilbage til eksemplet med kursudviklingen for de tre aktier og antager at kursudviklingen
er normalfordelt, beregnes den gennemsnitlige kurs som i følgende.
s. 13
TABEL 6: Gennemsnit for de tre aktiekurser (ud fra stikprøve)
Microsoft
Nike
Danisco
205,5
448,2
475
7
7
7
29,4
64
67,9
Sum af kurserne
Antal obs. (n)
–x (sum/n)
Nu hvor vi har identificeret gennemsnittet, er det næste skridt at se på variationen i kurserne.
Denne information er afgørende for at kunne sammenholde risikoen ved at investere i de tre aktier.
En af de hyppigste metoder til at beregne variation er standardafvigelsen.
Standardafvigelsen kan tolkes som observationernes “normale” afvigelse fra gennemsnittet, eller
mere konkret: observationernes gennemsnitlige afvigelse fra gennemsnittet.
Beregning af standardafvigelsen:
TABEL 7:
s5
1

n
Punktestimat
N

(xi 2 m)
1

(n 2 1)
s5
2
i51
n

(xi 2 –x )2
i51
EKSEMPEL: Standardafvigelsen for Microsoft’s aktiekurs:
s5
1

(7 2 1)
n

n
(35,8 2 29,4)2 1 ... 1
i51

(31,1 2 29,4)2 5 3,3
i51
NB: Observationerne kommer fra tabel 2
Standardafvigelsen for alle tre aktiekurser fremgår af nedenstående:
TABEL 8: Estimater for aktiekurser
Standardafvigelse (s)
Gennemsnit (x– )
Microsoft
Nike
Danisco
3,3
4,1
3
29,4
64
67,9
s. 14
Med standardafvigelsen har vi kvantificeret de gennemsnitlige kursudsving. Umiddelbart ser det
ud til, at Nike er den aktie som har de største kursudsving. Denne konklusion er dog kun delvist korrekt - vi mangler at sætte standard-afvigelsen i relation til størrelsen af selve gennemsnittet.
Ud fra fordeling X og Y i nedenstående kan vi ræsonnere os til, at en standardafvigelse på 4 ud fra
et gennemsnit på 10 som i fordeling X, er en højere relativ variation end en tilsvarende standardafvigelse for et gennemsnit på 100 som i fordeling Y.
FIGUR 3:
m 5 10
X
m 5 100
Y
s54
s54
m
m
For at gøre kursudsvingene på de tre aktier sammenlignelige, kan vi beregne variationskoefficienten (VK):
VK 5
Standardafvigelse
s
s
5 – (eller for populationen)
Standardafvigelse
x
m
TABEL 9: Aktiekurser og estimater
Microsoft
Nike
Danisco
Gennemsnit (x– )
3,3
4,1
3
29,4
64
67,9
VK
11 %
6%
4%
På baggrund af variationskoefficienten kan vi tydeligt se, at kursen for Microsoft har de største relative udsving, og i den sammenhæng indtager - statistisk set - pladsen som den mest risikobetonede
aktie. Da en myriade af faktorer påvirker kursen på en aktie, kan den beskrivende statistisk ikke stå
alene, men som et redskab til at kvantificere generelle tendenser, og til at gøre forskellige aktier
sammenlignelige, er det et yderst værdifuldt redskab.
s. 15
Alternative mål for spredning
Ligesom medianen anvendes frem for et gennemsnit ved skæve fordelinger, er det vigtigt at forholde sig kritisk til anvendelsen af standardafvigelsen. Standardafvigelsen bør kun anvendes på data,
der tilnærmelsesvis følger normalfordelingen. Følger data skæve fordelinger, benyttes i stedet interkvartilbredden, også betegnet IQR2, som et alternativt mål for spredningen.
Interkvartilbredden bygger på samme logik som medianen og er dermed ikke følsom overfor ekstremobservationer, som det eksempelvis er tilfældet med et gennemsnit og standardafvigelse.
Interkvartilbredden beregnes som forskellen mellem første og tredje kvartil:
TABEL 10: Interkvartilbredden (IQR: Inter Quartile Range)
Interkvartilbredden (IQR)
3 Kvartil 2 1 kvartil
1. kvartil
(n 1 1) 
IQR er et mål for spredningen
og anvendes når data følger
skæve fordelinger
3. kvartil
25
100
Den observation der ligger
25% inde i datasættet når
data sorteres stigende
(n 1 1) 
75
100
Den observation der ligger
75% inde i datasættet når
data sorteres stigende
Ved at tage afstanden mellem 1. og 3. kvartil bliver interkvartilbredden et stabilt mål. Dette skyldes at interkvartilbredden ikke påvirkes af de ekstremobservationer der enten ligger i intervallet
“minimum - 1. kvartil” (x-værdi: 26-33) eller i intervallet “3. kvartil - maksimum” (x-værdi: 37-43).
Se nedenstående Box and Whisker diagram.
FIGUR 4: Eksempel på Box and Whisker diagram (data er fiktive)
20
2
25
30
35
40
45
IQR – Inter Quartile Range
s. 16
Kvartiler
Når du arbejder med store datasæt, kan kvartiler være en hjælp til at skabe overblik over værdierne af dine observationer. Når data er sorterede stigende fra mindst til størst, anvendes kvartiler
til at inddele dine data i fire grupper.
K
Beregning af kvartiler: (n 1 1)  hvor “K” repræsenterer 1, 2 eller 3 kvartil
4
EKSEMPEL:
Med udgangspunkt i nedenstående observationer, som viser højden på 15 tilfældigt udvalgte personer, beregnes det første kvartil.
TABEL 11:
Obs.
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Højde (cm) 155 157 163 167 168 169 171 172 174 178 184 187 188 191 198
1
54
4
Værdien af den 4 observation svarer til 167 cm. Med andre ord er de 167 cm den største
værdi blandt de første 25 % af observationerne. Tilsvarende vil det andet kvartil svare til
værdien af den midterste observation hvilket er 172 cm (5medianen).
1. Kvartil beregnes: (15 1 1) 
Hvis du arbejder med et datasæt, som medfører at dine kvartilberegninger bliver ulige tal –
eksempelvis 1. kvartil 5 30,5 – bør du vælge den værdi, der ligger i midten af observation
30 og 31. Hvis observation nr. 30 5 180 cm og observation nr. 31 5 190 cm er værdien af
første kvartil således 185 cm (gennemsnittet).
Procentiler
Antag at du havde været til statistikeksamen og ønskede at se din karakter i relation til de øvrige
studerende. Hvis du befinder dig i det 70 procentil betyder det, at 70 % af de studerende har fået
en karakter, som var lavere end din - eller omvendt, at du ligger blandt de 30 %, som har fået højst
karakterer. På den måde kan en procentil hurtigt sætte en enkelt observation (en enkelt karakter)
i relation til de samlede observationer (alle karakterer). Procentiler beregnes på samme vis som
med kvartiler. I stedet for kvartiler “K” anvendes procentsatsen “P” jf. nedenstående.
Beregning af procentil: (n 1 1) 
P
hvor “P” repræsenterer procentsatsen
100
s. 17
Kurtosis
Hvor skævheden er et mål for fordelings symmetri, anvendes kurtosis til at beregne fordelingens
stejlhed. På samme måde som med skævheden kan kurtosis give os et værdifuldt indblik i fordelingens egenskaber. Dette kan især være til gavn i situationer hvor mange variable inddrages,
eksempelvis i forbindelse med aktieanalyse, hvor kursudviklingen for mange virksomheder sammenlignes.
Beregning af kurtosis:

n(n 1 1)

 (n 2 1)(n 2 2)(n 2 3)

xi 2 –x 4 

s

Kurtosis betegner om en fordeling er relativ spids eller flad sammenlignet med en normalfordeling.
En positiv kurtosis betyder at fordelingen er relativ spids (leptokurtisk fordeling) hvorimod en negativ kurtosis (platykurtisk fordeling) er tegn på en flad fordeling. En fuldkommen normalfordeling
(mesokurtisk fordeling) vil have en kurtosis på 0.
FIGUR 5:
Flad fordeling
Spids fordeling
Normal fordeling
I relation til aktieanalyse vil en spids fordeling være et tegn på at relativt mange observationer har
samme værdi som gennemsnittet, og at de resterende ligger relativt spredt fra gennemsnittet.
Omvendt vil en flad fordeling have mange observationer fordelt omkring gennemsnittet og dermed
– alt andet lige – være mindre udsat for store kursudsving.
s. 18
Punktestimater for grupperede data
Ofte når vi arbejder med store datamængder, eksempelvis i forbindelse med markedsanalyser,
inddeles observationerne i intervaller for at skabe overblik. Når vi arbejder med observationer
grupperet i intervaller, kender vi ikke den eksakte værdi af en observation, men vi ved blot, at den
kan antage en vilkårlig værdi indenfor det givne interval.
TABEL 12: Grupperet data
Interval
Obs.
0  X  10000
93
10000 , X  20000
116
20000 , X  30000
88
30000 , X  40000
110
40000 , X  50000
87
Ud fra tabellen har vi et godt overblik over, hvordan observationerne fordeler sig i de enkelte intervaller. Det fremgår eksempelvis, at de fleste observationer ligger mellem 10.000 og 20.000.
Overblikket er imidlertid sket på bekostningen af detaljerede informationer om de enkelte observationers værdi. Vi kender med andre ord ikke den eksakte værdi af hver af de 93 observationer i
intervallet 0-10.000. Det eneste vi ved om observationerne er, at de ligger i intervallet.
Af samme årsag kan vi ikke beregne gennemsnittet som tidligere anvist, da metoden kræver, at vi
kender den eksakte værdi af hver enkelt observation.
Som alternativ anvendes intervallets midtpunkt som et substitut for den reelle værdi. Denne tilgang har åbenlyse svagheder såfremt data ikke er normalfordelt. I de tilfælde vil observationerne
overvejende ligge i den ene ende af intervallet, hvilket betyder at intervallets midtpunkt (Mi) ikke
bliver repræsentativt.
1 n
Gennemsnit for grupperet datasæt (stikprøve): –x 5  i51 fi  Mi
n
hvor Mi 5
(Nedre intervalgrænsei 1Øvre intervalgrænsei)
2
s. 19
TABEL 13: Beregning af gennemsnit for grupperet data
Interval
Obs (fi)
Midtpunkt (Mi)
fi ∙ Mi
0  X  10000
93
5.000
465.000
10000 , X  20000
116
15.000
1.740.000
20000 , X  30000
88
25.000
2.200.000
30000 , X  40000
110
35.000
3.850.000
40000 , X  50000
87
45.000
3.915.000
Total
494
-
12.170.000
–x 5 1
n
n

f i  Mi 5
i51
12.170.000
5 24.635,63
494
Standardafvigelsen for et grupperet datasæt (stikprøve):
s5
1
n21
n

fi  (Mi 2 X– )2
i51
TABEL 14: Beregning af standardafvigelsen for grupperet data
Interval
Obs (fi)
Midtpunkt (Mi)
fi ∙ (Mi – x–)2
0  X  10000
93
5.000
35.856.881.772
10000 , X  20000
116
15.000
10.770.056.877
20000 , X  30000
88
25.000
11.683.522
30000 , X  40000
110
35.000
11.816.223.836
40000 , X  50000
87
45.000
36.079.566.949
Sum
494
-
94.534.412.955
1
s5
n21
n

i51
1
fi  (Mi 2 X– )2 5
 √ 94.534.412.955 5 623,66
493
s. 20
Opsummering af punktestimater
Ligesom ord kan beskrive et ansigt, kan punktestimater beskrive karaktertræk for data. Dette er ikke
synderligt relevant, hvis du arbejder med få data, men hvis du en dag sidder med 30.000 talrækker i
et regneark og mangler et overblik, kan punktestimater give dig en hurtig og værdifuld indsigt.
Mål som gennemsnit og standardafvigelse er gode til at indikere datasættets midtpunkt, samt det
interval hvori vi kanGrafer
forvente
fleste af vores
observationer vil ligge. Er vores data normalfordelt,
– de
Illustration
af data
kan vi med et gennemsnit
og en standardafvigelse
indkredse
det interval
hvori ca.til70at%beskrive
af voresstore
Som vi diskuterede
i forrige afsnit,
er punktestimater
velegnede
observationer vil ligge. På den måde får vi nogle hurtige rough-cut betragtninger om det interval,
datamængder med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samm
hvor størstedelen af vores observationer vil ligge.
formål. Tilgangen er her blot at præsentere data visuelt med vægten lagt på letforståelig
En forudsætning for at anvende gennemsnittet og standardafvigelsen er, at data er relativt normalkommunikation. Styrken ved grafer er, at de fleste kan tyde en visuel fremstilling af data,
fordelt. Det er derfor altid et godt udgangspunkt at beregne skævheden for at undersøge i hvor høj
mens færre har
kendskab
til betydningen
begreber som
standardafvigelse
og
grad vores data er symmetrisk
fordelt.
Er data
skævt fordeltafanvendes
medianen
og interkvartilinterkvartilbredde.
bredden som alternativ
til gennemsnittet og standardafvigelsen.
I det følgende gennemgår vi de mest hyppige grafer. Afsnittet rundes af med en diskussion a
Grafer – Illustration
af data
de faldgruber og områder,
hvor du skal være særlig opmærksom på visuel manipulation.
Som vi diskuterede i forrige afsnit, er punktestimater velegnede til at beskrive store datamængder
med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samme formål. Tilgangen
er her blot at præsentere data visuelt med vægten lagt på letforståelig kommunikation. Styrken ved
Cirkeldiagrammer
grafer er, at de fleste
kan tyde en visuel fremstilling af data, mens færre har kendskab til betydningen af begreber som standardafvigelse og interkvartilbredde.
Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer
I det følgende gennemgår
vi de mest hyppige
grafer. Afsnittet
rundes
af med
de
som udgangspunkt
hele datasættet,
som herefter
brydes
neden
på diskussion
forskelligeaf
kategorier
af cirk
faldgruber og områder, hvor du skal være særlig opmærksom på visuel manipulation.
Cirkeldiagrammer er yderst intuitive når få kategorier sammenlignes, men øges antallet af
kategorier mistes overblikket hurtigt. Det skyldes til dels at farvenuancerne kan være
Cirkeldiagrammer
vanskelige at adskille, og yderligere at et cirkeldiagram angiver værdierne ud fra den vinkel
Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer som
kategorier
i cirklen.
udgangspunkt heleenkelte
datasættet,
somdanner
herefter
brydes ned på forskellige kategorier af cirklen.
Cirkeldiagrammer er yderst intuitiFigur 3: Cirkeldiagrammer med markedsandele
ve når få kategorier sammenlignes, FIGUR 6: Cirkeldiagrammer med markedsandele
men øges antallet af kategorier
Markedsandele
Markedsandele
mistes overblikket hurtigt. Det
skyldes til dels at farvenuancerne
kan være vanskelige at adskille,
og yderligere at et cirkeldiagram
angiver værdierne ud fra den vinkel de enkelte kategorier danner i
A B C D E F
A B C
cirklen.
Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger end vinkler. Data
illustreret
21
med et søjlediagram er derfor mere velegnet til at synliggøre små s.forskelle
end et
cirkeldiagram, hvilket tydeligt fremgår af de to nedenstående figurer.
15
10
5
0
mer
10
5 end vinkler. Data illustreret
Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger
med et søjlediagram er derfor mere velegnet til at synliggøre små forskelle end et cirkeldiagram,
hvilket tydeligt fremgår af de to nedenstående figurer.
0
A 4: Søjlediagram
B 7: Søjlediagram
Figur
medCmarkedsandele
FIGUR
med markedsandele
A
Markedsandele
B
C
D
E
F
Markedsandele
15
10
10
5
5
mstå så grafisk som
overhovedet muligt 0er piktogrammer oplagte. Pikt
0
A
B
C
A
B
C
D
E
F
egnede til at kommunikere en tydelig tendens. Dataværdierne vil ofte v
Piktogrammer
, et eksempel
kan være en situation hvor salget af biler er steget kraftig
Piktogrammer
Skal data fremstå så grafisk som overhovedet muligt er piktogrammer oplagte. Piktogrammer
Skal data fremstå så grafisk som overhovedet muligt, er piktogrammer oplagte. Piktogrammer er
er yderst
velegnede
tilkommunikere
at kommunikere
tydelig
tendens.
Dataværdierne
ofte
være
stærktunuyderst
velegnede
til at
en en
tydelig
tendens.
Dataværdierne
vilvil
ofte
være
stærkt
unuancerede,
et eksempel
en situation
salget
af biler
er steget
kraftigt
en
ancerede,
et eksempel
kan kan
værevære
en situation
hvorhvor
salget
af biler
er steget
kraftigt
overover
en årrække
–årrække
illustreret
i nedenstående
figur. Ulempen
ved denne
er, at er,
detatkan
– illustreret
i nedenstående
figur. Ulempen
ved type
dennediagrammer
type diagrammer
detvære
kan en
anelse
diffust
at vurdere
hvor
meget en
bil, meget
som ikke
er hel
reelt
salg,tilsei f.eks.
salg ise
2007
det være
en anelse
diffust
at vurdere
hvor
en bil
somsvarer
ikke til
er ihel
svarer
reelt salg,
i den nedenstående figur.
f.eks. salg i 2007 i den nedenstående figur.
ustreret i nedenstående figur. Ulempen ved denne type diagrammer er,
anelse diffust at vurdere hvor meget en bil som ikke er hel svarer til i re
2007 i den nedenstående figur.
FIGUR 8:
2006
2007
2008
Søjlediagrammer
Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt
2006
2006
2007
2008
2007
2008
selvforklarende.
mmer
15
15
10
10
mmerne (Bar charts)
som du kan se i nedenstående
figurer er relativt
nde.
s. 22
5
5
0
0
A
B
C
D
A
B
C
D
2006
2007
2008
Søjlediagrammer
Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt
Søjlediagrammer
selvforklarende. (Bar charts) som du kan se i nedenstående figurer er relativt selvforklarende.
Søjlediagrammerne
FIGUR 9:
15
15
10
10
5
5
Der er enkelte punkter
du bør være opmærksom på. Bredden
af søjlerne og afstanden imellem
0
0
A
C
D
A
B
D
dem spiller ingen rolle,
det Ber udelukkende
højden som har betydning
forC værdien
af de
enkelte søjler.
Der
er enkelte
punkter
du bør
Af
Stephan
Skovlund
(Copyright)
være opmærksom på. Bredden af søjlerne og afstanden Side
imellem
| 21
Søjlediagrammets
y-akse
skal
som
udgangspunkt
altid
starte
med
værdien
0,
dog
kan
det
være
dem spiller ingen rolle, det er udelukkende højden som har betydning for værdien af de enkelte
en en god ide at lade søjlen starte i en højere værdi for at tydeliggøre forskellen mellem
søjler.
søjlerne. Hvis du i dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at
Søjlediagrammets y-akse skal som udgangspunkt altid starte med værdien 0, dog kan det være en
søjlediagrammet
ikkestarte
starteri en
i 0 højere
og at forskellen
de enkelte
søjler mellem
dermed søjlerne.
vil være Hvis du
god
ide, at lade søjlen
værdi for mellem
at tydeliggøre
forskellen
i forstærket.
dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at søjlediagrammet ikke
starter i 0, og at forskellen mellem de enkelte søjler dermed vil være forstærket.
Figur 5: Søjlediagram hvor y-aksen ikke starter i "0"
FIGUR 10: Søjlediagram hvor y-aksen ikke starter i “0”
15
10
5
A
B
C
D
I Excel har du mulighed for at justeres bredden og afstanden mellem søjlerne samt angive en
I startværdi
Excel har for
du y-aksen,
mulighedsefor
at justeres Graf
bredden
og afstanden mellem søjlerne samt angive en
videolektion:
og formatering.
startværdi for y-aksen, se videolektion: Graf og formatering.
Linjediagrammer
Linjediagrammer er velegnede til at vise en udvikling over en længere periode.
Linjediagrammer er udbredte i forbindelse med rapportering af virksomheders nøgletal,
eksempelvis i form af aktiekurs. En af de helt store fordele ved ved linjediagrammer er at de
s. 23
Linjediagrammer
Linjediagrammer er velegnede til at vise en udvikling over en længere periode. Linjediagrammer
er udbredte i forbindelse med rapportering af virksomheders nøgletal, eksempelvis i form af aktiekurs. En af de helt store fordele ved linjediagrammer er, at de kan komprimeres drastisk uden at
information går tabt.
Figur 6: Linjediagram
forLinjediagram
en aktiekurs for en aktiekurs
FIGUR 11: Novo Nordisk aktiekurs 2001-2008
400
300
200
100
0
2001
2003
2005
2007
Et linjediagram har den unikke egenskab, at det kan reduceres til frimærkestørrelse, uden at
Et væsentlig
linjediagram
har den unikke
egenskab, at det kan reduceres til frimærkestørrelse, uden at væinformation
går tabt.
sentlig information går tabt.
Figur 7: Formindsket linjediagram for aktiekurs (Novo Nordisk 2001-2008)
FIGUR 12: Formindsket linjediagram for aktiekurs (Novo Nordisk 2001-2008)
Nu Min. Maks.
297
81 Nu
337 Min.
297
81
Maks.
337
Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i
form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere
udviklingen for hele perioden.
Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i
form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere udviklingen
for hele perioden.
Histogram
Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår
det, at der er nogle væsentlige forskelle. I modsætning til et søjlediagram har bredden af
søjlerne betydning når vi aflæser et histogram. X-aksen bygger på en numerisk skala, som
tildeler hvert interval en specifik værdi og Y-aksen angiver antallet af observationer i hvert
s. 24
interval. Ofte tildeles y-aksen ingen titel, da et histogram som udgangspunkt altid illustrerer et
antal observationer målt som frekvens eller sandsynlighed.
Histogram
Figur 8: Histogrammer
Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår
Karakterer
(sandsynlighed)
Karakterer
(frekvens)
det, at der er nogle væsentlige forskelle.
I modsætning
til et søjlediagram har bredden
af søjlerne
betydning når vi aflæser et histogram.
X-aksen bygger på en numerisk skala, som
15
30% tildeler hvert interval en specifik værdi, og Y-aksen angiver antallet af observationer i hvert interval. Ofte tildeles
10
y-aksen ingen titel, da et histogram
som udgangspunkt altid illustrerer et antal20%
observationer målt
som frekvens eller sandsynlighed.
5
10%
Figur
8: Histogrammer
FIGUR
13: Histogrammer
0
0%
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
Karakterer (sandsynlighed)
Karakterer (frekvens)
15
10
5
0
Indeks tal
Indeks tal
30%
20%
Indekstal ser vi i mange sammenhænge,
eksempelvis i forbindelse med udviklingen af
boligmarkedet, hvor indekstal anvendes
til at beskrive den relative prisudvikling i forhol
10%
bestemt år. Fordelen ved indekstal er at, de omregner en bestemt udvikling til et tal, som
0%
med andre indeks.
1 2 3 4 sammenligneligt
5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
Lad os tage et simpelt eksempel. Virksomheder der klarer sig godt har som regel en stige
Indeks
tal omsætning, men denne omsætning er i høj grad påvirket af inflationen. Når vi analysere
Indekstal ser vi i mange sammenhænge, eksempelvis i forbindelse med udviklingen af
kan eksempelvis
det være interessant
at undersøge
om omsætningen
blot er fulgt med
Indekstal ser vi i mangeomsætningen,
sammenhænge,
i forbindelse
med udviklingen
af boligmarboligmarkedet,
hvor
indekstal
anvendes
til
at
beskrive
den
relative
prisudvikling
i
forhold
til
et år.
kedet, hvor indekstal anvendes
til at
beskrive
i forhold
til betyder
et bestemt
inflationen
eller
om derden
har relative
været enprisudvikling
reel vækst, hvilket
blot
at omsætningen
er s
bestemt ved
år. Fordelen
indekstal
er at, deenomregner
en
bestemttiludvikling
til er
et tal,
som er
Fordelen
indekstalved
er,
at
de
omregner
bestemt
udvikling
et
tal,
som
sammenligneligt
mere end inflationen. Da inflation er et makroøkonomisk nøgletal kan det ikke umiddelb
med
andre
indeks.
sammenligneligt med andre indeks.
sammenlignes med en virksomheds omsætning. Men hvis vi omregner et indeks der vis
Lad os tage et simpeltudviklingen
eksempel. Virksomheder
derog
klarer
sig godt
som regel
en
stigende
for både inflation
omsætning
harhar
vi derved
et sammenligningrundlag
Lad os tage et simpelt eksempel. Virksomheder
der klarer
sig godt har
som
regel fået
en stigende
omsætning, men denne omsætning kan være påvirket af prisstigninger. Når vi analyserer
i nedenstående
omsætning, men
omsætning
erfigur.
i at
høj grad påvirket af inflationen. Når vi analyserer
omsætningen,
kan denne
det være
interessant
omsætningen,
kan det være interessant
at undersøge
omSimpelt
omsætningen
FIGUR 14: indeksblot er fulgt med
undersøge
om omsætningen
er fulgt
Figur 9:blot
Simpelt
indeks
med
den procentvise
om vækst, hvilket blot betyder at omsætningen er steget
inflationen
eller om prisstigning,
der har væreteller
en reel
150%
Omsætning
der
harend
været
en reel Da
vækst,
hvilket
mere
inflationen.
inflation
er blot
et makroøkonomisk
nøgletal kan det ikke umiddelbart
Inflation
betyder at omsætningen er steget mere
130%
sammenlignes med en virksomheds omsætning.
Men hvis vi omregner et indeks der viser
end prisstigningerne. De procentvise pris110%
udviklingen
både
inflation og
omsætning har
vi derved fået et sammenligningrundlag, som
stigninger
kanfor
ikke
umiddelbart
sammen90%
i nedenstående
figur.
lignes
med en virksomheds
omsætning.
Men hvis vi omregner det til et indeks, der
70%
Figurudviklingen
9: Simpelt for
indeks
viser
både prisstigning og
50%
omsætning, har vi derved fået et sammen2001 2002 2003
2004 2005 2006 2007 2008
150%
Omsætning
ligningrundlag, som vist i figuren.
Inflation
130%
110%
90%
70%
50%
s. 25
Af grafen fremgår det, at væksten er fulgt med inflationen og at omsætningen kun i et enkelt år
var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt
Med
fokus på
erhvervslivet generelt stigende velstand. Herfra er der ikke langt til antagelsen
Beskrivende
hjulpet
af samfundets
omStatistik
at
sammenhængen formentligt også vil gælde, hvis inflationen falder. Det kan her diskuteres om
er reel eller
blot inflationsbåret.
Af omsætningsfremgangen
grafen fremgår det, at væksten
er fulgt
med inflationen, og at omsætningen kun i et enkelt år
var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt
Simple versus sammensatte indeks
hjulpet af samfundets generelt stigende velstand. Herfra er der ikke langt til antagelsen om at sammenhængen
ogsåvivilsondre
gælde,mellem
hvis inflationen
Det kan
her diskuteres
om omsætNår vi talerformentligt
om indeks kan
indeks derfalder.
er baseret
på hhv.
én eller flere
ningsfremgangen er reel eller blot inflationsbåret.
faktorer. Sidstnævnte indeks kaldes sammensatte indeks og anvendes eksempelvis når
prisudviklingen for en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har
Simple
versus sammensatte indeks
et væld af muligheder for at anvende deres indkomst, er det nødvendigt at nuancere indekset
Når vi taler om indeks kan vi sondre mellem indeks, der er baseret på hhv. én eller flere faktorer.
så det repræsenterer
et bredt
udsnit af varer.
Sidstnævnte
indeks kaldes
sammensatte
indeks og anvendes eksempelvis når prisudviklingen for
en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har et væld af muligheder
Lad os indledningsvis tage et eksempel med et simpelt indeks og forestille os et samfund, hvor
for at anvende deres indkomst, er det nødvendigt at nuancere indekset, så det repræsenterer et
manudsnit
kun kan
købe varen brød.
bredt
af varer.
LadSåfremt
os indledningsvis
eksempel
et kroner
simpelterindeks
og forestille
os et samfund,
man
at prisen påtage
brødetstiger
fra 12med
til 15
det ikke
helt tilstrækkeligt
at sigehvor
at brød
kun
købe
varen
brød. da det ikke fortæller os hvor stor den relative stigning har været. Hvis
erkan
steget
med
3 kroner,
brødetatstiger
frapå
100-103
kr. vil
prisstigning
3 kr.
være den samme,
Såfremt
prisen
brød stiger
fraden
12 nominelle
til 15 kroner,
er det ikkepåhelt
tilstrækkeligt
at sige,mens
at brød er
steget
med 3 kroner,
da deterikke
fortæller
hvormindre
stor den
relative
stigning
den relative
prisstigning
omkring
syv os
gange
(3/15
versus
3/103).har været. Hvis brødet
stiger fra 100-103 kr. vil den nominelle prisstigning på 3 kr. være den samme, mens den relative
prisstigning
er omkring
gange
(3/15 prisudvikling,
versus 3/103).hvilket er essensen af et indeks. Et
Der er således
behov syv
for at
målemindre
den relative
indeks
viser os
den relative
udvikling
af en variabel
i forholdhvilket
til en bestemt
periode,
f.eks.
Der
er således
behov
for at måle
den relative
prisudvikling,
er essensen
af et
indeks. Et
prisudviklingen
brød de
senesteaf5en
år variabel
eller befolkningstilvæksten
de seneste
10f.eks.
år. prisudvikindeks
viser os denfor
relative
udvikling
i forhold til en bestemt
periode,
lingen for brød de seneste 5 år eller befolkningstilvæksten de seneste 10 år.
Simpelt prisindeks 5
pn
po
 100 5
Pris i indeværende år
 100
Pris i basis år
Figur 10:
Simpelt
(brød) (brød)
FIGUR
15: prisindeks
Simpelt prisindeks
År
2001
2002
2003
2004
2005
2006
150%
100%
50%
0%
2001
2002
2003
2004
Indeks
1
1,11
1,17
0,95
1,21
1,14
2005
Side | 25
s. 26
Vær opmærksom på at indeks som regel angives i procent og at udgangspunktet, basisåret, altid er
100 %. Det betyder at indeksværdier over 100 vil repræsentere en stigning i forhold til basisåret, og
indeksværdier under 100 omvendt vil repræsentere et fald i forhold til basisåret.
Fra vores indekstal i figur 13 fremgår det, at prisstigningen fra 2001- 2002 var på 11 %. Men ser vi på
udviklingen fra 2002 til 2003, kan vi ikke overføre logikken sige at prisen steg med 6 %. Udviklingen for
indeks er altid i forhold til basisåret. Så for at beregne udviklingen fra 2002 til 2003 skal vi i stedet sætte
disse to års værdier i forhold til hinanden, ved at dividere indekset for 2003 med indekset for 2002:
1,17/1,11 5 1,054. Hermed ses en reel prisstigning på 5,4 %.
Lad os udvide eksemplet og antage, at forbrugerne i landsbyen kan købe andre varer end brød.
For at beregne et prisindeks skal vi nu tage højde for at indekset repræsenterer et bredt udsnit af
dagligvarer, og at husstande ikke fordeler deres indkomst ligeligt på alle varegrupperne. I den forbindelse kan vi tage udgangspunkt i en hel gruppe af varer kaldet varekurven. Den repræsenterer
den gennemsnitlige husstands typiske indkøb. Værdien af denne varekurv bliver vores udgangspunkt i basisåret. I de efterfølgende år ser vi så, hvordan varekurvens priser har udviklet sig. Som
du muligvis har gættet, er problemet med denne tilgang, at vi antager, at folk køber den samme
kvantitet af varer som i basisåret uanset prisudviklingen. For at beregne mere repræsentative indeks anvendes to forskellige metoder, henholdsvis Laspeyres og Paasches indeks.
Laspeyres indeks
Laspeyres indeks bygger på antagelsen om, at folk til stadighed køber den samme mængde varer
som i basissåret, den eneste ændring bliver derved prisudviklingen. I den forstand er Laspeyres
indeksets udgangspunkt, at det er prisen der alene bestemmer indeksudviklingen.
ko,a  pn,a
Laspeyres formel: k  p hvor “K� er kvantitet og “P� pris
o,a
o,a
NB: “n,a� tolkes som vare “a� i år “n� og betegnelsen “o,a� er vare “a� i basisåret “o�.
Lapeyres oversat: Kvantiteterne i basisåret til de nuværende priser
Kvantiteterne i basisåret til priserne i basis året
Paasches indeks
Ved anvendelse af Paasches indeks er udgangspunktet det modsatte, nemlig at folk købte det samme i basisåret, som de køber nu. Købes der 30 brød i indeværende år er antagelsen, at der også
blev købt 30 brød i udgangsåret.
Paasche indeks: kn,a  pn,a
hvor “K� er kvantitet og “P� pris
kn,a  po,a
s. 27
NB: “n,a� tolkes som vare “a� i år “n� og betegnelsen “o,a� er vare “a� i basisåret “o�.
Paasche oversat: De nuværende kvantiteter til de nuværende priser
De nuværende kvantiteter til de nuværende priser
Spørgsmålet er hvilket af de to indeks, der er det bedste at anvende? Da begge indeks har forsimplede antagelser om forbrug, er spørgsmålet nærmere hvilken af de to forsimplinger der betyder
mindst for dig.
Med Laspeyres indeks er antagelsen, at folk køber den samme mængde af en specifik vare som
sidste år. Beregnes Laspeyres indekset i en periode på 10 år, svarer det til at forbruget af varer er
uændret i 10 år. Denne antagelse kan være ganske sand for visse varetyper, eksempelvis tandpasta,
men for andre varer, hvor salget præges af mode og trends, vil antagelsen om et statisk forbrug
gøre indekset upræcist.
Paasche indekset tager højde for at forbruget ændrer sig, men er i modsætningen til Laspeyres
mere tidskrævende at beregne. Antag at vi skulle beregne Paasche indekset for en varegruppe
bestående af flere hundrede produkter. For hvert af disse produkter skal vi ud over prisudviklingen indsamle informationer om mængden, der bliver købt. Herudover kan basisindekset, som er
indekset for basisåret, beregnes en gang for alle med Laspeyres metoden. Med Paasche metoden
ændres indekset for basisåret hvert år, hvilket betyder, at alle indekstallene derfor vil ændre sig,
hver gang indekset opdateres med ny data.
FIGUR 16: Beregning af sammensatte indeks (Paasche og Laspeyres indeks)
2007
2008
p0
k0
pn
kn
p0 ∙ k0
p0 ∙ kn
pn ∙ k0
pn ∙ kn
Rugbrød
16
109
17
113
1.744
1.808
1.853
1.921
Pasta
9
54
12
49
486
441
648
588
Mælk
7
223
6
217
1.561
1.519
1.338
1.302
Sum
3.791
3.768
3.839
3.811
Laspeyres indeks
Paasche indeks
101,27 %
101,14 %
s. 28
Appendiks – Beskrivende statistik
Populations parametre
Betegnelse
Gennemsnit
Symbol
m
Excel
Formel
N
1
N
5middel( )

xi
i51
Standardafvigelse
s
5stdafvp( )
1
N

(xi 2 m)2
Varians
s2
5varians( )
1
N

(xi 2 m)2
Andel
p
-
xi
N
Median
M
5median( )
(N 1 1)/2
Population størrelsen
N
5antal( )
–
1
N
Skævhed
N

xi 2 m
s
3
i51
Populations parametre for grupperede data
Betegnelse
Gennemsnit
Symbol
Excel
m
Beregnes
med tabel
Formel
1
N
N

f i ∙ Mi
i51
Varians
s2
Beregnes
med tabel
1
N
N

fi (Mi 2 m)2
i51
Standardafvigelse
s
Beregnes
med tabel
1
N
N

fi (Mi 2 m)2
i51
s. 29
Punktestimater (estimater baseret på en stikprøve)
Betegnelse
Stikprøvegennemsnit
Symbol
–x
Excel
Formel
n
1
n
5middel( )

xi
i51
Varians
s2
5varians( )
1
n21

(xi 2 –x )2
Standardafvigelse
s
5stdafv( )
1
n21

(xi 2 –x )2
Andel
pˆ
-
xi
n
Median
m
5median( )
(n 1 1)/2
Stikprøvestørrelsen
n
5antal( )
–
1
n
Skævhed
n

xi 2 –x
s
3
i51
Punktestimater for grupperede data (estimater baseret på en stikprøve)
Betegnelse
Symbol
Excel
Gennemsnit
–x
Beregnes
med tabel
Formel
1
n
n

f i ∙ Mi
i51
Varians
s
2
Beregnes
med tabel
1
n21
n

fi (Mi 2 m)2
i51
Standardafvigelse
s
Beregnes
med tabel
1
n21
n

fi (Mi 2 m)2
i51
s. 30
Øvelser i beskrivende statistik
De første spørgsmål er relateret til fortolkning. Du skal her med dine egne ord forsøge at forklare betydningen af specifikke parametre og estimater. De efterfølgende opgaver vil være
beregningsøvelser.
Fortolkningsøvelser
1. Hvordan vil du fortolke forskellen på et gennemsnit og en median?
2. Hvornår er det hensigtsmæssigt at anvende median frem for et gennemsnit?
3. Hvad er forskellen på standardafvigelsen og interkvartilbredden?
4. Hvad er det grundlæggende kendetegn ved data, som er normalfordelt?
5. Hvorfor bør du beregne skævheden for en fordeling?
6. I hvilke tilfælde giver det mere mening at anvende interkvartilbredden frem for standardafvigelsen?
Beregningsøvelser
Opgave 1.
I nedenstående tabel ses den månedlige udvikling af salget for to produkter.
TABEL 15: Interkvartilbredden (IQR: Inter Quartile Range)
jan
feb
mar
apr
maj
jun
Bolsjer
93
76
69
26
92
32
Lakridser
35
151
185
110
148
33
jul
aug
sep
59
70
43
143
148
127
Spørgsmål 1. Beregn gennemsnit og standardafvigelsen for begge produkter med anvendelse af
Statlearn programmet.
Spørgsmål 2. Foretag tilsvarende beregninger med anvendelse af en pivot tabel.
s. 31
Opgave 2.
I nedenstående ses en række punktestimater, som beskriver priserne (kr.) på lejligheder i henholdsvis København og London. Hvordan vil du ud fra data vurdere prisforskellene i de to byer? Hvilke
parametre er særlig værd at bemærke?
TABEL 16:
Punktestimater
London
København
Middel
2.207.829
4.268.615
Median
2.016.956
4.886.969
Standardafvigelsen
1.283.150
1.857.796
Skævhed
1,351
-0,287
Minimum
544.123
1.144.303
Maksimum
4.332.525
6.966.632
Sum
44.156.584
85.372.292
20
20
Antal obs.
Opgave 3.
Gå ind på http://finance.yahoo.com/ og find 3 aktier hvorefter gennemsnit og standardafvigelse for
den månedlige kurs beregnes for de sidste 3 år. Hvilken af de 3 aktier er mest attraktiv at investere i,
hvis der ønskes en lav risikoprofil? (se evt. videolektion om “Import af aktiekurser” på statlearn.com)
Opgave 4.
I forbindelse med en undersøgelse af elevantallet på skoler i København blev følgende data
indsamlet.
TABEL 17:
Antal studerende
Obs (skoler)
0-199
38
200-399
32
400-599
49
600-799
46
800-1000
35
Total
200
Spørgsmål 1. Beregn gennemsnittet og standardafvigelsen af antallet af elever.
s. 32
Opgave 5.
I den nedenstående tabel ses aktiekursen for de to konkurrerende virksomheder, IBM og HP. På
hvilken måde kan man med indekstal sammenligne de to virksomheders relative kursudvikling?
Hvorfor giver det mening at anvende indekstal i denne sammenhæng?
TABEL 18:
Måned (2008)
jan
feb
mar
apr
maj
jun
jul
aug
sep
okt
nov
dec
IBM (kurs)
104
111
112
118
127
116
125
120
115
91
81
83
HP (kurs)
43
47
45
46
47
44
44
47
46
38
35
35
Opgave 6.
6.1Indsæt en pivottabel som bygger på datasættet: “Omsætning”- Datasættet ligger i Statlearn
programmet under punkt 9.a. Med udgangspunkt i pivottabellen ønskes følgende information:
a) Summen af omsætningen for hele datasættet.
b) Identifikation af den sælger, som omsætter mest.
c) Identifikation af det produkt, som sælger mest i antal stk.
6.2På baggrund af pivottabellen opstilles et søjlediagram/histogram, der viser omsætningen for
hver enkelt sælger.
6.3 Beregn den månedlige omsætning i henholdsvis 2008 og 2009.
6.4Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af
beregningerne?
6.5 Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008?
6.6 I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008?
6.7 Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning?
6.8Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt
på stk.)?
s. 33
Løsninger til beskrivende statistik
Fortolkning:
1. Både median og gennemsnit er mål for den centrale værdi i et datasæt. Et gennemsnit er
summen af observationer divideret med antallet, hvorimod medianen repræsenterer værdien af datasættets midterste observation.
2. I forbindelse med skæve fordelinger er det mere hensigtsmæssigt, at anvende en median i stedet for et gennemsnit. Et gennemsnit baseres på alle observationer og påvirkes
derfor i høj grad af ekstremobservationer (outliers). I modsætning til et gennemsnit lader en median sig ikke påvirke af ekstremobservationer, da den repræsenterer datasættets
midterste værdi.
3. Når data er relativt normalfordelt, anvendes standardafvigelsen som et mål for spredningen
fra gennemsnittet. Interkvartilbredden er også et mål for spredningen, men anvendes i forbindelse med skæve fordelinger. Standardafvigelsen hører sammen med et gennemsnit på
samme vis som medianen hører sammen med interkvartilbredden.
4. Symmetrisk klokkeformet fordeling med gennemsnittet i midten.
5. Skævheden beregnes for at se i hvor høj grad data er normalfordelte. Som mål for centralværdi og spredning anvendes gennemsnit og standardafvigelse ved data der følger normalfordelingen, ved skæve fordelinger anvendes tilsvarende median og interkvartilbredde.
6. Når data følger en skæv fordeling.
Beregning:
Opgave 1.
TABEL 19:
Punktestimater
Lakridser
Bolsjer
Sum
1080
560
Antal obs.
9
9
Maksimum værdi
185
93
Minimum værdi
33
26
Gennemsnit
120
62,22
Standardafvigelse
52,71
24,33
Median
143
69
s. 34
Opgave 2.
Den beskedne stikprøve på 20 observationer betyder, at punktestimaterne skal tages med de
forbehold omkring usikkerhed, som små stikprøver altid giver anledning til. Data indikerer,
at gennemsnitsprisen (middel) på lejligheder er højst i København. I den sammenhæng ses, at
standardafvigelsen i København også er væsentlig højere end i London. Dette er med til at skabe
usikkerhed om den reelle gennemsnitspris. Den positive skævhed indikerer, at observationerne i
London er højreskæve, og at enkelte lejligheder dermed har en markant højere pris end de øvrige i
stikprøven. Indikationen af højreskævhed styrkes af, at den relative afstand mellem gennemsnit og
maksimumsværdien er højst i London, som angivet nedenfor (Maksimum/Middel).
TABEL 20:
Punktestimater
London
København
Middel
2.207.829
4.268.615
Maksimum
4.332.525
6.966.632
Maksimum/Middel
1,962
1,632
Opgave 3.
Beregningen i nedenstående punktestimater er baseret på Microsoft, Coca-Cola og Apples aktiekurser i perioden 2006-2008. Kursdata findes på http://finance.yahoo.com/.
Kurserne er baseret på månedsniveau, således at der i alt er 36 observationer for hver enkelt
virksomhed. Punktestimaterne fremgår af nedenstående tabel.
TABEL 21:
Virksomhed
Middelkurs
Standardafvigelse
Variationskoefficient
Microsoft
26,815
3,628
14%
Coca-Cola
47,905
6,642
14%
Apple
115,743
43,048
37%
Tabellen indikerer at Apples aktiekurs har den største relative variation (varianskoefficient) og dermed, statistisk set, må antages at være mere risikobetonet end de to andre virksomheder.
s. 35
Opgave 4.
TABEL 22.ATABEL 22.B
Interval-midtpunkter
Obs
Punktestimater
100
38
Gennemsnit (x–)
300
32
Varians (s2)
500
49
700
46
900
35
508
74307,538
272,594
Opgave 5.
Indekstallene
er med5.til at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne
Opgave
bedre sammenlignes, udviklingen fremgår af nedenstående.
Indekstallene er med til, at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne
bedre
sammenlignes,
udviklingen fremgår af nedenstående.
FIGUR
17:
130%
100%
70%
jan
feb
mar
apr
maj
jun
jul
aug
sep
okt
nov
dec
IBM 100% 107% 108% 113% 122% 112% 120% 115% 111% 88% 78% 80%
HP
100% 109% 105% 107% 109% 102% 102% 109% 107% 88% 81% 81%
s. 36
Opgave 6.
6.1Indsæt en pivottabel som bygger på datasættet. Med udgangspunkt i pivottabellen ønskes
følgende information:
TABEL 23:
Bentsen
Produkt navn
Henriksen
Total
Salg (stk) Omsætning Salg (stk) Omsætning Salg (stk)
Total
Omsætning
Hekse
49.400
926.533
40.864
897.409
90.264
1.823.942
Hjul
508
8.975
2.674
42.183
3.182
51.157
Køer
6
132
6
132
Måner
83.780
1.558.666
157.528
2.893.093
Piercings
17.636
357.624
17.636
357.624
Skærme
Sole
73.748
1.334.427
2.880
52.834
2.880
52.834
30.636
506.715
30.636
506.715
Tattoos
1.260
21.319
1.802
44.213
3.062
65.532
Toppe
19.340
372.936
200.550
3.546.600
219.890
3.919.536
Hovedtotal
171.930
3.246.184
353.154
6.424.380
525.084
9.670.564
a) Summen af omsætningen for hele datasættet
Den totale sum af omsætningen er ca. 9.670.564 kr.
b) Identifikation af den sælger som omsætter mest
Henriksen omsætter for mest (6.424.380 kr. mod Bentsens 3.246.184 kr.).
c) Identifikation af det produkt som sælger mest i antal stk.
Der bliver solgt flest Toppe, nemlig 219.890 stk.
6.2På baggrund af pivotta- FIGUR 18:
bellen opstilles et søjleBentsens og Henriksens omsætning
diagram/histogram, der
7.000.000
viser omsætningen for
6.000.000
hver enkelt sælger.
Grafen viser ligesom pivottabellen, at Henriksen er den sælger, der
omsætter for mest.
5.000.000
4.000.000
3.000.000
2.000.000
1.000.000
-
Bentsen
Henriksen
s. 37
6.3Beregn den månedlige omsætning i
henholdsvis 2008 og 2009.
Vi kan se, at år 2009 er det bedste år.
Desuden er sommermånederne bedst
i begge år (juli og august især) og vintermånederne dårligst, hvilket tyder
på et sæsonpræget salg.
TABEL 24:
Måned
2008
2009
jan
186.957
220.869
feb
328.513
350.423
mar
437.658
546.107
apr
436.105
466.771
maj
439.968
458.788
jun
441.325
432.223
jul
558.113
662.077
aug
590.266
692.314
sep
373.112
433.711
okt
358.556
446.115
nov
221.986
244.421
dec
173.023
171.163
4.545.582
5.124.982
Hovedtotal
6.4Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af
beregningerne?
TABEL 25:
2008
2009
Gennemsnit
Stdafv
Gennemsnit
Stdafv
jan
2.710
3.610
3.201
4.330
feb
4.761
7.830
5.079
8.040
mar
6.252
11.313
7.802
15.610
apr
6.142
11.032
6.574
11.785
maj
6.567
10.135
6.848
10.882
jun
7.005
12.553
6.861
11.563
jul
8.089
12.851
9.595
18.645
aug
8.810
15.035
10.333
19.047
sep
5.182
8.047
6.024
10.115
okt
5.273
8.876
6.561
12.712
nov
3.127
5.432
3.443
5.857
dec
2.622
4.223
2.593
4.041
Hovedtotal
5.530
9.946
6.235
12.178
s. 38
Vi kan udlede, at der i gennemsnit sælges for 5.530 kr. pr. dag i 2008 og for 6.235 kr. pr. dag i 2009.
Af standardafvigelserne kan vi udlede, at der er en stor spredning fra gennemsnittet, dvs. at omsætningens størrelse svinger megetæa dag tiæag. Vi skal dog være kritiske over for både gennemsnit og standardafvigelse, hvis data for omsætningen følger normalfordelingen – hvis data i stedet
følger skæve fordelinger, er det mere hensigtsmæssigt at anvende median og interkvartilbredde,
da disse ikke er følsomme over for ekstremobservationer.
6.5. Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008?
TABEL 26:
Sum af Omsaetning Saelger
År
2008
Bentsen
Henriksen
33,09%
66,91%
Henriksen tegner sig for knapt 67 % af omsætningen i 2008.
6.6. I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008?
TABEL 27:
Sælger Henriksen
Dato
2008
2009
jan
21%
feb
7%
mar
28%
apr
7%
maj
3%
jun
–14%
jul
15%
aug
21%
sep
6%
okt
33%
nov
–6%
dec
–4%
Henriksen opnåede den største omsætningsfremgang i oktober måned 2009 i forhold til samme
måned året før – hans omsætning var med andre ord 33 % større i oktober ’09 end i oktober ’08.
s. 39
6.7. Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning?
TABEL 28:
Omsætning
2008
2009
Kvartal1
615.624,0
742.444,4
Kvartal2
907.145,0
Kvartal3
Kvartal4
i%
2008
2009
Kvartal1
10%
12%
897.264,7
Kvartal2
14%
14%
1.020.534,0
1.176.420,0
Kvartal3
16%
18%
498.209,0
566.738,4
Kvartal4
8%
9%
I begge år er 3. kvartal det bedste, hvad angår omsætningen.
6.8Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt
på stk.)?
TABEL 29:
Produkt navn
Omsætning
Salg (stk)
Toppe
40,5%
41,9%
Måner
29,9%
30,0%
Hekse
18,9%
17,2%
Sole
5,2%
5,8%
Piercings
3,7%
3,4%
Tattoos
0,7%
0,6%
Skærme
0,5%
0,5%
Hjul
0,5%
0,6%
Køer
0,0%
0,0%
s. 40
Anvendelse af Excel til beskrivende statistik
NårAnvendelse
vi arbejder med
data skal
vi ofte beregne
simpleBeskrivende
statistikkerStatistik
som gennemsnit, s
af Excel
til beskrivende
statistik
lignende.
denne med
type data
beregninger
er regneark
Excel
et glimrende
redskab.
Når viTil
arbejder
skal vi ofte
beregne som
simple
statistikker
som gennemsn
Funktionerne
til de
mesttype
gængse
beregninger
- se nedenstående
- kan
me
lignende. Til
denne
beregninger
er regneark
som Excel screenshot
et glimrende
redsk
Anvendelse af anvendes
Excelhvis
tildubeskrivende
statistik
blot ønsker nogle få hurtige estimater. Kræver din analyse derimo
til de
mest statistikker
gængse beregninger
- se nedenstående
screenshot - kan
Når vi arbejder med data, skal Funktionerne
vi ofte beregne
simple
som gennemsnit,
sum og ligberegninger
er
en
pivot
tabel
mere
velegnet.
Vi
vender
tilbage
til
pivot
anvendes
hvis som
du blot
ønsker
nogle få redskab.
hurtige estimater.
Kræver
dintabeller
analysesene
der
nende. Til denne type beregninger
er regneark
Excel
et glimrende
Funktionerne
til de
mest gængse beregninger - se nedenstående
screenshot
- kan
med
fordel anvendes,
hvis du blot
pivot tabel
mere
velegnet.
Vi at
vender
til pivot
tabeller
Nårberegninger
du anvendererenenfunktion,
er det
vigtigt
at sikre
du hartilbage
markeret
alle de
data s
ønsker nogle få hurtige estimater. Kræver din analyse derimod flere beregninger, er en pivot tabel
indgå
beregningen,
hvilket
er illustreret
i nedenstående
hvor cellerne
F
Når
du anvender
funktion,
er det vigtigt
at sikre atscreenshot
du har markeret
alle de da
mere velegnet. Vi vender tilbage
tili pivot
tabeller en
senere.
summeres.
indgå i beregningen, hvilket er illustreret i nedenstående screenshot hvor cellern
Når du anvender en funktion, er det vigtigt at sikre, at du har markeret alle de data, som skal indgå
summeres.
i beregningen, hvilket er illustreret
i nedenstående screenshot hvor cellerne F3:F6 summeres.
TABEL 30:
Parameter
Funktion
Måned
Salg
Sum
5 sum( )
jan
1740
Gennemsnit
5 middle( )
feb
1684
Standardafvigelse (n)
5 stdafv( )
mar
1996
Standardafvigelse (N)
5 stdafvp( )
apr
1658
Median
5 median( )
Minimums værdi
5 min( )
maksimums værdi
5 maks( )
5SUM(F3:F6)
Er du i tvivl om al data er medtaget, kan du markere cellen med formlen og efterføl
dig Er
i formellinjen.
vil du
markering
detmarkere
data som
indgår
i formlen,
du i tvivl omHer
al data
er se
medtaget,
kanafdu
cellen
med
formlen hvilket
og efte
Antal observationer
Kvartil
tæ( )
nedenstående
tilfælde er F2-F3.
dig i formellinjen.
5 kvartil( ) Her vil du se markering af det data som indgår i formlen, hvi
nedenstående tilfælde er F2-F3.
Er du i tvivl om al data er medtaget, kan du markere cellen
med formlen og efterfølgende stille dig i formellinjen. Her
vil du se markering af det data som indgår i formlen, hvilket
i nedenstående tilfælde er F2-F3.
Hvis du glemmer eller har brug for mere avancerede funktioner, kan du altid finde
overHvis
samtlige
funktioner
aktiverer
fx ikonet:
du glemmer
ellernår
hardubrug
for mere
avancerede funktioner, kan du altid fin
Hvis du glemmer eller har brug for mere avancerede funkover samtlige funktioner når du aktiverer fx ikonet:
tioner, kan du altid finde en liste over samtlige funktioner
når du aktiverer fx ikonet:
s. 41
Autoberegninger
Autoberegninger
Autoberegninger
som etetalternativ
alternativtiltil
skrive
funktionen
manuelt.
Det eneste
Autoberegningerkan
kan anvendes
anvendes som
at at
skrive
funktionen
manuelt.
Det eneste
autoberegningerne “kræver” er, at du markerer dine data. Så længe de er markerede, vil stanautoberegningerne ”kræver” er, at du markerer dine data. Så længe de er markerede vil
dardberegningerne fremgå som i nedenstående screenshot.
standardberegningerne fremgå som i nedenstående screenshot.
Ønskerdudumulighed
mulighedfor
foratatvælge
vælgeflere
flereautoberegninger,
autoberegninger, eksempelvis
eksempelvis antal
antal observationer
Ønsker
observationer,skal
skal du
du
blot
højreklikke
på
beregningerne
på
værktøjslinien.
En
af
ulemperne
ved
autoberegninger
blot højreklikke på beregningerne på værktøjslinien. En af ulemperne ved autoberegninger er, at
deer,forsvinder
så snartsådata
er markeret.
at de forsvinder
snartikke
datalængere
ikke længere
er markeret.
Pivottabeller (se video)
Pivottabeller
er et af de vigtigste redskaber i hele Microsoft Office pakken. Med pivottabeller kan
Pivottabeller
du på sekunder få et fortrinligt overblik over flere tusind datarækker. At anvende Excel uden pivottabeller,
svarerer
tiletkun
første
gear i en
formel
1 bil. Office pakken. Med pivottabeller
Pivottabeller
af at
de bruge
vigtigste
redskaber
i hele
Microsoft
kan du på sekunder
fortrinligt overblik
over flere tusind
At anvende
Excel
Pivottabeller
er ingenfånyet opfindelse,
de har eksisteret
næstendatarækker.
lige så længe
som Excel.
Alligevel
uden pivottabeller,
svarer
til kun
at bruge
første
gear til
i en
formel 1 bil.og at endnu færre anvender
skønnes
det, at kun de
færreste
Excel
brugere
kender
pivottabeller,
3
dem hensigtsmæssigt.
Pivottabeller er ingen ny opfindelse, de har eksisteret næsten ligeså længe som Excel.
Jeg har arbejdet med virksomheder og set personer blive 60-80 % mere effektive, efter de lærte at
Alligevel skønnes det, at kun de færreste Excel brugere kender til pivottabeller og at endnu
anvende pivottabeller. Af samme grund3 ønsker jeg, at du kommer til at mestre netop denne del af
færre anvender dem hensigtsmæssigt.
Excel.
AtJeg
pivotere
betyder
"atvirksomheder
dreje om et fast
og det
er hvad
pivot
tabellerne
går efter
ud på:
dreje
har arbejdet
med
og punkt",
set personer
blive
60-80
% mere
effektive
de"At
lærte
beregninger
(statistikker), Af
hvor
rækkeoverskrifter
og kolonneoverskrifter
kan skifte
plads,
mens
at anvende pivottabeller.
samme
grund ønsker jeg,
at du kommer til at mestre
netop
denne
beregningen af data forbliver uændret.
del af Excel.
Forudsætningen for at bruge Pivot tabellen er, at data er samlet i databaseformat: det betyder helt
konkret,
at hver
kolonne
skal være
med et
enpivot
overskrift,
og atgår
felternes
indhold
At pivotere
betyder
"at dreje
om etangivet
fast punkt",
ognavn,
det erdvs.
hvad
tabellerne
ud på: "At
i de
respektive
kolonner
skal værehvor
formateret
som: tekst,og
et kolonneoverskrifter
tal eller en dato. kan skifte plads,
dreje
beregninger
(statistikker),
rækkeoverskrifter
mens beregningen af data forbliver uændret.
3
3
Kilde: Bil Jelen: “Number crunching with Pivot Tables”
Kilde:
Bil Jelen:
“Number crunching with Pivot Tables”
Med fokus
på erhvervslivet
s. 42
Side | 39
TABEL 31:
Sælger
Produkt
Dato
Salg
Lund
70
17-12-2008
14.098
Nielsen
70
22-11-2008
10.707
Det er vigtigt, at formaterne ikke kombineres således, at der i kolonnen med dato ikke pludselig indgår bogstaver, og at der i kolonnen med sælgere ikke pludselig indgår tal som i nedenstående tabeller.
TABEL 32:
Sælger
Produkt
Dato
Salg
123
70
17-12-2008
14.098
Nielsen
70
22-11-2008
10.707
Rislund
70
Marts 08
10.096
Egefelt
70
01-03-2008
15.524
Hvad angår datoen, er pivottabellen meget følsom for at formatet genkendes som en Excel dato.
Nogle vælger derfor at angive dato som en kolonne med måneder og en kolonne med år. Det er i
midlertidigt ikke hensigtsmæssigt, da man fraskriver sig vigtige pivotfunktioner, eksempelvis muligheden for at konsolidere datoen fra uger til år, hvis ikke datoen formateres korrekt.
Er du i tvivl, kan du altid anvende funktionen “dato”, som indikerer hvordan data skal angives.
TABEL 33:
Optimalt
Uhensigtsmæssigt
Dato
Uge
Måned
År
17-12-2008
51
dec
2008
22-11-2008
48
nov
2008
En anden vigtig detalje er, at dine data ikke afbrydes af tomme rækker som i nedenstående. Afbrydes dit datasæt af en tom række, dvs. en række uden et eneste tegn, vil pivottabellen opfatte det
som et afbræk i datasættet, hvilket medfører at pivotabellen ikke medtager alle data. I tilfælde af
tomme rækker kan du indsætte et enkelt tegn “-” som anvist i nedenstående.
TABEL 34:
Forkert
Korrekt
Uge
Salg
Uge
Salg
19
212
19
212
27
321
27
321
s. 43
Uge
19
Salg
212
27
321
Uge
19
27
Salg
212
321
Grundlæggende
funktioner i pivottabeller
Grundlæggende funktioner i pivottabeller
I det følgende anvendes en pivottabel til at skabe et hurtigt overblik og beregne enkle estimater
I det følgende
anvendes en pivottabelØvelsen
til at skabe
et hurtigtpå
overblik
beregne
enkle
som gennemsnit
og standardafvigelsen.
baseres
fiktiveogdata,
som
duestimater
finder i Excel filen
gennemsnit
og standardafvigelsen.
Øvelsen baseres
på fiktive data som du finder i Excel
“Salgsdata”som
under
menuen
Data på hjemmesiden
www.statlearn.com
filen ”Salgsdata” under menuen Data på hjemmesiden www.statlearn.com
Når du åbner filen, er det første skridt at markere den øverste celle i venstre hjørne, celle A1. For at
Når du åbner filen
er det første
markere
øverste celle
i venstre hjørne,
celleatA1.
sikre, at pivottabellen
medtager
alleskridt
dataatnår
den den
oprettes,
er grundreglen
altid
stille sig i dataFor
at
sikre,
at
pivottabellen
medtager
alle
data
når
den
oprettes,
er
grundreglen
altid
at
stille
sættets første celle, hvilket som regel er celle A1. Når du har markeret hele dit datasæt, vælger du
i datasættets første
hvilket
er celle A1.der
Nårkommer
du har markeret
Pivottabel isig
værktøjslinjen
ogcelle,
klikker
ok isom
denregel
dialogboks
frem.hele dit
datasæt vælger du Pivottabel i værktøjslinjen og klikker ok i den dialogboks der kommer frem.
Det næste du ser, er et nyt ark med selve pivottabellen.
Det næste du ser, er et nyt ark med selve pivottabellen.
Side | 41
Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer
alle de forskellige kolonner i datasættet.
Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i
pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til
række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering).
s. 44
Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer
Arket
i et område
en tom tabel og et område med feltlister, som repræsenterer alle
alle er
de opdelt
forskellige
kolonnermed
i datasættet.
de forskellige kolonner i datasættet.
Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i
Nedenfor ses feltlisten, der indeholder fire bokse. Hver boks svarer til et bestemt område i pivotpivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til
tabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller
række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering).
kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering).
Lad
tageet
et simpelt
simpelt eksempel.
du du
ønsker
at seatdet
salg forsalg
helefor
perioden.
Lad
osostage
eksempel.Antag
Antagat at
ønsker
sesamlede
det samlede
hele perioden.
Dennesimple
simpleforespørgsel
forespørgsel svarer
svarer til
Salg
fra feltlisten
ned i boksen
med værdier,
Denne
til atatføre
førefeltet
feltet
“Salg”
fra feltlisten
ned i boksen
med værdier,
som
somi nedenstående:
i nedenstående:
Resultat ses omgående i tabel området. Ved at føre feltet ”Salg (stk.)” ned i værdiboksen har
tabellen
summeret salget
hele perioden
2007-2008.
Resultat
ses omgående
i tabelfor
området.
Ved at
føre feltet “Salg (stk.)” ned i værdiboksen har tabellen
summeret
salget
for hele perioden 2007-2008.
Af
Stephan
Skovlund
(Copyright)
Side | 42
Lad os nu antage, at vi ønsker at se fordelingen af salget på de enkelte salgskanaler. Da feltet
Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række
felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler.
s. 45
Lad Lad
os nu
at atviviønsker
fordelingenafafsalget
salget
de enkelte
salgskanaler.
Da feltet
os antage,
nu antage,
ønskerat
at se
se fordelingen
på på
de enkelte
salgskanaler.
Da feltet
felter. Føres feltet over i række boksen, ses det totale salg nu fordelt på de enkelte salgskanaler.
felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler.
Med disse få trin har vi uden beregninger fået et godt overblik over et datasæt som rummer 30.000
Af Stephan
Skovlund (Copyright)
43
rækker.
Pivottabeller
rummer et væld af funktioner, som kan være en fantastisk hjælp, nårSide
du |arbejder med dataanalyse. I nedenstående er der links til en række videolektioner som viser de grundlæggende og mere avancerede pivotfunktioner (hvis du ikke har adgangskode, kan denne bestilles
på hjemmesiden).
Udvalgte videolektioner (klik på links)
Grundlæggende færdigheder
2.1 Markering af data
2.2 Flyt data
2.3 Vend data (indsæt speciel)
2.4 Cellereferencer
2.5 Regler for anvendelse af formler
2.6 Opsætning af grafer
Redskaber til dataanalyse
3.1 Anvendelse af autofilter
3.2 Avancerede funktioner til autofilter
3.3 Pivottabeller
3.4 Feltindstillinger i pivottabeller
3.5 Manuelle beregninger med pivottabel
3.6 Kategorisering af data med pivottabel
s. 46
KAPITEL 3
GRUNDLÆGGENDE
SANDSYNLIGHEDSREGNING
Statlearn.com
KAPITEL
3
Grundlæggende
sandsynlighedsregning
S
andsynlighedsregning er paradoksalt nok både et af de mest simple og samtidig et af de mest
komplekse områder af statistik. En del af forklaringen skyldes, at sandsynlighedsregning rummer mulighed for at kombinere, udelukke og inkludere forskellige sandsynligheder, hvilket kan øge
kompleksiteten betydeligt.
Eksempelvis kan vi ræsonnere os frem til, at sandsynligheden for at slå en sekser i et enkelt terningkast nødvendigvis må være 1/6. Men udvides regnestykket til at kombinere 3 terninger, er
sandsynligheden for at slå seks med dem alle mindre gennemskuelig.
I dette afsnit starter vi med den grundlæggende sandsynlighedsregning og efterfølgende ser vi på
mulighederne for at arbejde med mere komplekse problemstillinger.
Lad os starte med en definition af sandsynlighedsbegrebet. Ordet er i sig selv er relativt selvforklarende, men hvad betyder det egentligt, når vi siger at sandsynligheden for at slå en sekser ved et
terning kast er en 1/6? Rent matematisk er 6  1/6 netop 100 %, men betyder det så, at vi efter 6
kast kan være sikre på at få en sekser?
Som du formentligt allerede ved eller har gættet, skal sandsynligheder betragtes som sandsynligheder i det lange løb, altså sandsynligheder, der vil indtræde hvis et eksperiment, som eksempelvis
et terningkast udføres et uendeligt antal gange. Hvis et eksperiment kun udføres et få antal gange
kan udfaldene fremstå som tilfældige. Der er med andre ord ingen garanti for at få en sekser ved
seks terningkast, men har du tålmodighed til at kaste terningen en milliard gange, vil antallet af
seksere tilnærmelsesvis være 1/6.
Forskellige typer af sandsynligheder
Når vi taler om sandsynlighedsregning sondres mellem 3 forskellige typer: objektive, estimerede og
subjektive sandsynligheder.
Objektive sandsynligheder kendetegnes ved, at vi kan ræsonnere os frem til den eksakte sandsynlighed for en given hændelse, hvilket eksempelvis er tilfældet med et terningkast. Forudsætningen
for elementær sandsynlighedsregning er, at alle udfald er lige sandsynlige, hvilket passer fint med
terningkast, hvor alle udfald må antages at være lige sandsynlige. Udover terninger er de fleste
kasinospil klassiske eksempler på objektive sandsynligheder.
Videolektioner >
s. 48
Grundlæggende sandsynlighedsregning
I den �virkelige” verden er det relativt sjældent, at vi arbejder ud fra eksakte sandsynligheder. Ofte
må vi estimere os frem til sandsynligheder ud fra en stikprøve. Estimerede sandsynligheder betegnes eksperimentel sandsynlighedsregning, hvilket refererer til at vi må eksperimentere os frem til
sandsynligheden.
Et eksempel kan være den amerikanske valgkamp i 2008, hvor der dagligt blev foretaget stikprøvebaserede analyser for at estimere sandsynligheden for en sejr til Obama.
Estimaterne vil ikke være eksakte som i tilfældet med terningkast, men sandsynlighederne vil blive
mere eksakte jo større stikprøven er. Med andre ord vil en stikprøve på 250 mio. amerikanere give
en mere eksakt sandsynlighed for andelen af amerikanske vælgere, der vil stemme på Obama, end
en stikprøve på kun 10. amerikanske vælgere.
Den sidste type sandsynligheder kan beskrives som subjektive, i den forstand at vi ikke har et faktuelt grundlag at beregne dem ud fra. I modsætning til terningkast - hvor vi ved, at der er seks mulige
udfald - er der hver dag en række situationer, hvor vi ikke har denne slags information til rådighed.
Hvis du eksempelvis en dag sætter alle dine spareskillinger på en ny hest som aldrig før har løbet
væddeløb, må sandsynligheden for at hesten vinder i høj grad bero på din egen subjektive vurdering af hestens kvalifikationer.
Grundlæggende forudsætninger
Sandsynlighedsregning bygger på nogle enkle og relativt intuitive forudsætninger.
Som det første skal alle sandsynligheder være mellem 0 og 1 eller i procent ligge mellem 0 og 100 %.
I daglig tale falder der ofte bemærkninger som �jeg
er 110 % sikker på at...” Daglig tale og knastør statistikteori er ikke helt forenelige størrelser.
TABEL 35: Interval for sandsynligheder
Forudsætning 1:0  P(Xi)  1
Den næste forudsætning er, at sandsynlighederne TABEL 36: Summering af sandsynligheder
for alle de mulige udfald af variablen Xi skal sumn
meret blive lig med 1 (100 %). Hvis vores variabel
Forudsætning 2: i51 P(Xi) 5 1
eksempelvis er summen af et terningkast, så skal
sandsynlighederne af de mulige udfald af terningkastet kunne summeres til 1 (100 %). Ved et terningkast er der 6 mulige udfald, hvor hvert udfald
har en sandsynlighed på 1/6, hvilket netop giver en samlet sandsynlighed på 1 (6  1/6).
Som den sidste grundlæggende forudsætning skal
sandsynligheden for en bestemt hændelse (Hi) være
summen af alle de sandsynligheder, der tilhører
denne hændelse. Ved et enkelt terningkast vil sandsynligheden for hændelsen �mindst 5” derved blive
summen af sandsynligheden for at få �5” og �6”.
TABEL 37: Sandsynlighed for en hændelse
n
Forudsætning 3: P(H) 5 XiH P(Xi)
s. 49
Grundlæggende begreber
Inden vi ser nærmere på regneregler for sandsynligheder, skal vi først have begreberne et udfald,
et udfaldsrum og en hændelse på plads.
Et udfald kan vi definere som resultatet af et eksperiment. Et eksperiment fører tankerne hen mod
hvide kitler og Frankenstein, men er i princippet blot udtryk for en bestemt handling. Denne handling kunne være at kaste en mønt eller udfaldet af Wimbledon finalen. Begge eksempler rummer
nogle klare udfald, ved møntkastet får vi enten plat eller krone, og ved Wimbledon finalen taber
eller vinder en af tennisspillerne.
Udfaldsrummet (U) kan vi definere som alle de mulige udfald i et eksperiment. Kaster vi en enkelt
terning kan udfaldsrummet defineres som U(1,2,3,4,5,6) 5 6 mulige udfald.
En hændelse (Hi) defineres som det udfald vi ønsker at beregne sandsynligheden for. Hvis du ved et
møntkast vinder, hvis resultatet bliver �krone,” defineres hændelsen: H(Krone).
Hvis du ved et terningkast vinder, hvis summen er mindst 4, så defineres hændelsen: H(4,5,6)
I nedenstående ses begreberne illustreret. Kassen repræsenterer selve eksperimentet og dermed
alle de mulige udfald (U). Cirklen repræsenterer hændelse H.
FIGUR 19:
–
H
H
H– er den komplementære mængde, hvilket er de(t) udfald, som ikke indgår i hændelsen H. Tilsammen
udgør �H� og �H–� det samlede udfaldsrum U.
Objektive sandsynligheder
Forestil dig at du var med i lodtrækningen om at vinde en million kr. Selve lodtrækningen foregår
ved, at der tilfældigt udtages en ud af 100 nummererede kugler. Hvis kuglen der trækkes har nummer �1” vinder du.
Jeg håber at du er enig i at sandsynligheden for at udtage en vinderkugle, kugle nummer 1, nødvendigvis må være 1/100 eller 1 %. Med andre ord har vi fundet sandsynligheden for at hændelsen
vinderkugle indtræffer ud af alle de mulige hændelser. Formelt set betegnes sandsynligheden for
en hændelse med: P(hændelse) - i dette eksempel P(vinderkugle).
Sandsynligheder der beregnes i vinderkugleeksemplet kaldes a priori sandsynligheder. A priori refererer til, at vi kan beregne den eksakte sandsynlighed før hændelsen indtræffer. Vi kan med andre
s. 50
ord på baggrund af den viden vi har om eksperimentet, ræsonnere os frem til, at sandsynligheden
for en vinderkugle må være 1/100.
A priori sandsynligheder bygger på en grundlæggende forudsætning om, at alle udfald skal være
lige sandsynlige. For at vores sandsynlighed med vinderkuglen skal holde stik, er det nødvendigt, at
kuglerne er udformet ens - der må eksempelvis ikke være forskel på vægt eller størrelse.
TABEL 38: A priori sandsynlighed
A priori sandsynligheder beregnes som:
Antal mulige udfald af X
P(X) 5
Antal mulige udfald i alt
EKSEMPEL: Hvis de første 4 ud af de 20 kugler var vinderkugler angives sandsynligheden:
P(Vinderkugle) 5
X(1,2,3,4)
5 4/20 5 1/5
U(1…20)
Estimerede sandsynligheder
Grundlaget for at beregne a priori sandsynligheder er, at vi kender antallet af mulige udfald, og
kan tælle antallet af de mulige hændelser vi ønsker. Vi antager at logistikchefen for Post Danmark
ønsker at kende sandsynligheden for, at sorteringsmaskinen begår fejl. Han er derfor nødt til at
observere maskinen i en given periode og efterfølgende tælle antallet af fejl.
Spørgsmålet er, i hvor lang tid han skal observere maskinen, for at få den retvisende sandsynlighed
for fejl. Du vil forhåbentligt være enig i, at 5 minutter vil være i underkanten, men hvad så med
at observere maskinen en hel dag eller uge? På den ene side vil vi, alt andet lige, nærme os en
mere præcis sandsynlighed for maskinens fejl, jo længere vi observerer den. På den anden side
forekommer det ligeså intuitivt, at vi formentligt vil få to forskellige resultater, hvis vi observerer
maskinen i to forskellige uger. Dermed vil vi opnå forskellige sandsynligheder for maskinens fejl,
hvilket kan illustreres således:
P(Fejl i uge 1) 5
152
5 0,00011
1.368.210
P(Fejl i uge 2) 5
261
5 0,000183
1.422.892
I modsætning til de objektive sandsynligheder som i eksemplet med terningkast, er der her to forhold der gør sig gældende. For det første kan vi ikke på forhånd beregne sandsynligheden for at
maskinen laver en fejl. Vi er nødt til at foretage et eksperiment, hvor maskinens fejl tælles over en
periode.
s. 51
For det andet kan vi se, at estimerede sandsynligheder ændrer sig ved hvert forsøg. Vi kan derfor
ikke tale om eksakte sandsynligheder, men derimod estimerede (tilnærmede) sandsynligheder.
TABEL 39: Estimerede sandsynligheder
Estimerede sandsynligheder beregnes som:
Antal hændelser (X)
P(X) 5
Antal eksperimenter(n)
Subjektive sandsynligheder
I gennemgangen af sandsynligheder har vi indtil videre beskæftiget os med situationer, hvor data
enten kan måles objektivt eller ud fra estimater. Subjektive sandsynligheder falder uden for begge
kategorier. Som navnet antyder, er subjektive sandsynligheder baseret på erfaring og fornemmelser - ikke tal. Vi er dagligt omgivet af subjektive sandsynligheder. Eksempelvis er din fornemmelse
af om en person taler sandt ofte en subjektiv vurdering. Hver dag er mange af vores handlinger mere eller mindre ubevidst styret af subjektive sandsynligheder. Vi kunne muligvis kalde det
instinktive handlinger.
Fællesmængden (“OG hændelsen”)
Indtil videre har vi diskuteret sandsynligheder for en enkelt hændelse, eksempelvis sandsynligheden
for at vi med en enkelt terning kan slå en sekser, eller for at en sorteringsmaskine hos Post Danmark
laver fejl. Det vi nu skal se, er hvordan vi kan kombinere sandsynligheder og dermed beregne sandsynligheder for, at to eller flere forskellige hændelser indtræffer. Helt grundlæggende kan hændelser
kombineres på to måder, enten sandsynligheden for hændelse �A og B” eller hændelsen �A eller B”.
Med fællesmængden søger vi sandsynligheden for at to hændelser indtræffer samtidigt.
Fællesmængden kan vi illustrere med nedenstående Venn diagram.
FIGUR 20: Fællesmængden illustreret i et Venn diagram
A
B
Det område som begge cirkler har til fælles betegnes fællesmængden, hvilket er det grå område i
diagrammet.
s. 52
TABEL 40: A priori sandsynlighed
Beregning af fællesmængden (forudsat uafhængighed mellem A og B):
P(A∩B) 5 P(A)  P(B)
EKSEMPEL:
Antag at vi har en hvid og en sort terning, og ønsker sandsynligheden for at få en sekser med dem
begge. Vi ved at sandsynlighed for en sekser med en enkelt terning er 1/6, så hvordan kan vi beregne sandsynligheden for, at begge terninger bliver seksere?
Definition af hændelserne:
AHvid(6)
P(AHvid) 5
1
6
BSort(6)
P(BSort) 5
1
6
P(A∩B) 5 P(A)  P(B) 5
1 1
1

5 5 2,78%
6 6
36
Det kan undre os, at sandsynligheden for at få to seksere kun er 2,78%, når vi samtidig tænker på,
at sandsynligheden for at få en enkelt sekser er ca. 17 %. Hvorfor er der denne store forskel, og
hvorfor er det seks gange mindre sandsynligt at slå to seksere frem for en sekser? Illustreres udfaldsrummet for to terninger vil du hurtigt kunne se hvorfor.
FIGUR 21: Fællesmængden ved to terningkast
1
2
3
4
5
6
Hvid terning
Sort terning
1
11
21
31
41
51
61
2
12
22
32
42
52
62
3
13
23
33
43
53
63
4
14
24
34
44
54
64
5
15
25
35
45
55
65
6
16
26
36
46
56
66
Med en enkelt terning har vi seks mulige udfald, derfor ved vi at sandsynligheden for en sekser må
være 1/6, men med to terninger er vores udfaldsrum ikke blot fordoblet, men seksdoblet til 36.
Dette forklarer at sandsynligheden for to seksere (gråt felt) må være seks gange mindre end sandsynligheden for at få en sekser med en enkelt terning.
s. 53
Fællesmængden er ikke kun begrænset til 2 hændelser, da kombinationsmulighederne i princippet
er uendelige.
Sandsynligheden for at 3 terninger alle bliver seksere vil eksempelvis være:
P(A∩B∩C) 5 P(A)  P(B)  P(C) 5
1 1 1
1


5
≅ 0,005
6 6 6
216
Foreningsmængden (”ELLER” hændelsen)
I modsætning til fællesmængden hvor hændelserne A og B skal indtræffe, er foreningsmængden
mindre krævende. Med foreningsmængden søger vi, at mindst en af hændelserne indtræffer. For
at illustrere dette, kan vi anvende et Venn diagram, hvor foreningsmængden repræsenterer det
samlede areal af begge cirkler.
FIGUR 22: Foreningsmængden illustreret i et Venn diagram
A
B
Foreningsmængden er således opfyldt, når enten A eller B eller både A og B indtræffer. Hvis vi for
simpelheden skyld genbruger eksemplet med de to terninger, vil foreningsmængden være sandsynligheden for at den hvide eller sorte terning bliver en sekser, eller at de begge gør det.
TABEL 41: Beregning af foreningsmængden
Beregning af foreningsmængden (forudsat uafhængighed mellem A og B):
P(A ∪ B) 5 P(A) 1 P(B) 2 P(A∩B)
EKSEMPEL:
Hvis vi fortsætter eksemplet med den hvide og den sorte terning, hvad er så sandsynligheden for at
få foreningsmængden, dvs. enten at slå seks med hvid, sort eller begge terninger?
AHvid(6)
BSort(6)
1
6
1
P(BSort) 5
6
P(AHvid) 5
P(A ∪ B) 5 P(A) 1 P(B) 2 P(A∩B) 5
1
1
1
1
12
1
11
1
2
5 2 5
*
6
6
6
6
36 36 36
s. 54
Årsagen til at vi fratrækker fællesmængden fra summen af A og B er, at fællesmængden både er en
del af A og B. Når vi adderer sandsynligheden for A og B betyder det, at vi kommer til at medtage
fællesmængden to gange - se det mørkegrå felt i celle �66” i nedenstående.
FIGUR 23: Fællesmængden ved to terningkast
1
2
3
4
5
6
Hvid terning
Sort terning
1
11
21
31
41
51
61
2
12
22
32
42
52
62
3
13
23
33
43
53
63
4
14
24
34
44
54
64
5
15
25
35
45
55
65
6
16
26
36
46
56
66
Komplementær hændelsen
Komplementær hændelsen kan defineres som den modsatte hændelse af den vi har defineret. Hvis
hændelsen (A) defineres som udfaldet �krone” ved et møntkast, så er den komplementære hændelse (A–) at få �plat”.
TABEL 42: Beregning af komplementærsandsynligheden
Beregning af komplementærsandsynligheden:
–
P(A) 5 1 2 P(A)
Når vi bruger komplementære sandsynligheder, så er det ofte for at beregne fælles- eller foreningsmængden på en mere simpel måde.
EKSEMPEL:
Antag at vi har et samlebånd, hvor to kontrolmekanismer skal sikre, at defekte varer kasseres. Hver
kontrolmekanisme er 99 % præcis, og der er således kun 1 % sandsynlighed for fejl.
Som produktionschef er du interesseret i at kende sandsynligheden for, at en defekt vare slipper
igennem begge kontrolmekanismer uden at blive opdaget.
Denne sandsynlighed kan løses ved anvendelse af foreningsmængden, hvor vi finder sandsynligheden for, at fejlen enten spottes af kontrol 1, kontrol 2 eller af begge kontroller:
A: Fejl opdages af kontrol 1 P(A) 5 0,99
B: Fejl opdages af kontrol 2 P(B) 5 0,99
P(A ∪ B) 5 P(A) 1 P(B) 2 P(A∩B) 5 0,99 1 0,99 2 0,99 * 0,99 5 0,9999
s. 55
I stedet for at anvende foreningsmængden kan sandsynligheden løses mere simpelt (elegant J) med
komplementærmængden. Frem for at finde sandsynligheden for at fejl opdages af en eller begge
kontroller, kan vi blot finde sandsynligheden for, at en fejl ikke opdages og efterfølgende fratrække
denne fra 1 hvilket svarer til vores totale4 sandsynlighed (100 %).
–: Fejl opdages ikke af kontrol 1 P(A
–) 5 0,01
A
–: Fejl opdages ikke af kontrol 2 (B–) 5 0,01
B
– er det modsatte af hændelsen A, hvilket markeres med en streg over
B: Bemærk at hændelsen A
N
bogstavet.
–∩B
– ) 5 1 2 0,01  0,01 5 1 2 0,0001 5 0,9999
1 2 P(A
Betingende sandsynligheder –
Afhængige hændelser
Indtil videre har vi set på hændelser som uafhængige hændelser, dvs. eksperimenter der har udfald
som ikke afhænger eller påvirkes af hinanden.
TABEL 43: Beregning af foreningsmængden
Hvis uafhængighed mellem 2 hændelser gælder: P(A) 5 P(AIB)
Hvis afhængighed gælder: P(A)  P(AIB)
Notationen med en streg der deler A og B(AIB) tolkes som A på betingelse af B, eller A når B er
indtruffet.
EKSEMPEL:
Vi har stadig en hvid og en sort terning og definerer hændelsernes �A: 1 med hvid terning” og
�B: 6 med sort terning”. Er der så tale om to uafhængige hændelser? Da udfaldet af den sorte terning på ingen måde påvirker udfaldet af den hvide terning gælder følgende:
P(A) 5
1
1
og P(AIB) 5
6
6
Med andre ord påvirkes sandsynligheden for hændelsen �A” ikke af udfaldet af hændelse �B”. Dermed bekræftes reglen for uafhængighed.
Alt har en modsætning, og som du sikkert har gættet, er der en række situationer, hvor vi ikke kan
antage uafhængighed mellem A og B. I sådanne tilfælde gælder reglen:
Afhængighed hvis P(A)  P(AIB)
4
Et eksempel på den totale sandsynlighed findes i afsnittet: Regneregler for sandsynligheder.
s. 56
Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der
er afhængighed så er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A.
EKSEMPEL:
Antag at vi har et spil lotto med 10 nummererede kugler, hvor vinderkriteriet er at få kugle nr. 1.
Vi ved at sandsynligheden for at få en given kugle i første forsøg nødvendigvis må være 1 ud af 10.
Hermed definerer vi hændelserne:
A: Kugle nr.1 → P(A)
1
5 0,1
10
B: Kugle nr.2 → P(B)
1
5 0,1
10
Men hvad med P(AIB)? Såfremt kugle nr. 1 ikke bliver trukket i første forsøg vil der nu, hvor den
næste kugle trækkes, nødvendigvis være en sandsynlighed på 1/9 for at kugle nr. 1 udtrækkes.
Sandsynligheden for kugle nr. 1 er således øget fra 1/10 til 1/9, når kugle to er udtaget. Dermed er
der en kugle mindre, hvilket bekræfter reglen for afhængighed:
P(A)  P(AIB) da
1
1

10
9
Omvendt betingede sandsynligheder (Bayes teorem)
Den omvendt betingende sandsynlighed, eller rettere Bayes teorem, gør os i stand til at finde
P(A I B) når kun P(B I A) er givet, dermed betegnelsen �omvendt betingede sandsynlighed”.
TABEL 44: Beregning af den omvendt betingede sandsynlighed
Beregning af den omvendt betingede sandsynlighed (Bayes teorem):
P(A I B) 5
P(A)  P(BIA)
P(B)
EKSEMPEL:
Antag at Bilka fra erfaring ved at 30 % af kunderne køber Coca-Cola og at 20 % køber chips. Herudover har Bilka fundet frem til, at hvis en kunde køber Coca-Cola, så er der 40 % sandsynlighed for at
vedkommende også køber chips.
Hvis en kunde køber chips, hvad er så sandsynligheden for, at kunden også køber Coca-Cola?
s. 57
LØSNING
Det vi ved indtil videre:
P(ACola) 5 0,3 P(BChips) 5 0,2 P(BChips I ACola) 5 0,4
Den omvendt betingede sandsynlighed, hvilket svarer til sandsynligheden for at købe cola, når man
har købt chips:
P(ACola IBChips) 5
P(ACola)  P(BChips IACola)
0,3 0,4
5
5 0,6
P(BChips)
0,2
Der er hermed 60 % sandsynlighed for, at en vilkårlig kunde, der køber chips også vil købe CocaCola. Det kan undre at forholdet mellem Coca-Cola og Chips ikke er 1:1 begge veje, hvorfor påvirkes
sandsynligheden af, om man først lægger chips eller cola i indkøbskurven først? Problemstillingen
kan illustreres med følgende matrix, der består af 100 celler.
FORKLARING
Vi ved, at 30% af kunderne køber Coca-Cola. Vi kan derfor anvende en matrix med 100 felter
(5100 %), hvoraf de 30 felter er de kunder der køber Coca-Cola, hvilket svarer til det grå område i
den nedenstående matrix.
FIGUR 24:
1
2
3
4
5
6
7
8
9
10
1
2 3 4 5 6
Symbolforklaring
Køber Coca-Cola
7
8
9
10
Vi ved, at der er 20% af kunderne der køber chips, men vi ved ikke hvordan disse fordeler sig i forhold til de 30% af kunderne der køber Coca Cola. Vi ved derimod, at hvis en kunde køber Coca-Cola,
s. 58
så er der 40 % chance for, at kunden også køber chips. Derfor skal 40 % af det grå område reserveres til chips, hvilket svarer til 12 felter, som markeres med 1 i nedenstående matrix.
FIGUR 25:
1
2
3
4
5
6
7
8
9
10
1 2 3 4 5 6
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Symbolforklaring
Køber Coca-Cola
1 Køber Chips
7
8
9
10
Når vi ved, at der er 20 % sandsynlighed for at der købes chips, må de resterende 8 felter således
tilhøre det segment der ikke køber Coca-Cola (hvidt område)
Såfremt en kunde køber chips - område markeret med 1 - kan vi se at der er 12 felter med chips i
Coca-Cola området, hvilket betyder at sandsynligheden for at købe chips, når der købes Coca-Cola,
er 12/20 5 60 %.
FIGUR 26:
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
2
1
1
1
1
3
1
1
1
1
4
1
1
1
1
5
1
1
1
1
6
7
8
9
10
s. 59
Regneregler for sandsynligheder
1. A priori sandsynligheder (objektive sandsynligheder)
TABEL 45:
P(X) 5
X
5
Antal mulige udfald i alt
U(5udfaldsrum)
EKSEMPEL: Hvad er sandsynligheden for at slå en 6’er i et terningkast?
X: Sum af et terningkast 5 6
P(X 5 6) 5
1
6
2. Summering af sandsynligheder
TABEL 46:
n
P(H) 5

P(Xi) hvor H(Xi51)…Xi5n)
XiH
EKSEMPEL: Hvis vi har 12 kugler hvoraf der er 5 røde, 4 blå og 3 er grønne, hvad er så sandsynligheden for at få en rød eller en blå kugle?
Definition af hændelsen (H):
H(XR1,XR2,XR3,XR4,XR5,XB1,XB2,XB3,XB4)
n
P(H) 5

P(Xi) 5
i51
1
9
95
12
12
3. Fællesmængden når A og B er uafhængige (“OG” hændelsen)
TABEL 47:
P(A ∩ B) 5 P(A)  P(B)
Fællesmængden tolkes som hændelsen �A” og �B”.
s. 60
EKSEMPEL:
Vi har to terninger, en hvid og en sort, hvad er sandsynligheden for at slå 1 med begge terninger?
AHvid 5 1 P(AHvid) 5
P(A ∩ B) 5
1
1
BSort 5 1 P(BSort) 5
6
6
1 1
1
 5
6 6
36
4. Fællesmængden ved afhængighed mellem A og B (betinget sandsynlighed)
TABEL 48:
P(A ∩ B) 5 P(A)  P(BIA)
Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der
er afhængighed er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A.
EKSEMPEL: Vi observerer et spil lotto med 10 kugler, nummereret fra 1 til 10. Blandt de 10 kugler
udtrækkes der 2 kugler. Vinderkriteriet er at udtrække kugle nr. 1 og 2 – rækkefølgen er underordnet. Hvad er sandsynligheden for at vinde?
Sandsynligheden for at få kugle nr. 1 eller 2 i første udtræk må nødvendigvis være 1 ud af 10. Hvis
vi hypotetisk antager, at vi i første udtræk udtager kugle nr. 1, så er sandsynligheden for at udtage
kugle nr. 2 ikke længere 1 ud af 10 men 1 ud af 9, da der kun er 9 kugler tilbage.
P(A ∩ B) 5 P(A)  P(BIA) → P(1 ∩ 2) 5 P(1)  P(2I1) 5
1 1
1
 5
10 9
90
5. Regneregel for uafhængighed
TABEL 49:
Hvis der er uafhængighed gælder P(A) 5 P(AIB)
EKSEMPEL: Hvis vi har to terninger og ønsker at slå 1 med den hvide terning (A) og 2 med den sorte
terning (B), er der så tale om to uafhængige hændelser?
Da udfaldet af den sorte terning ikke har indflydelse på udfaldet af den hvide terning gælder:
P(A) 5
1
1
og P(AIB) 5
6
6
Hvilket svarer til at P(A) 5 P(AIB), dermed er der uafhængighed.
I tilfælde af at reglen for uafhængighed ikke er opfyldt, er der tale om afhængige hændelser.
s. 61
6. Foreningsmængden (“ELLER” hændelsen)
TABEL 50:
P(A ∪ B) 5 P(A) 1 P(B) 2 P(A ∩ B)
Foreningsmængden tolkes hændelserne “A” eller �B” eller både �A og B”.
EKSEMPEL: Antag at vi kaster to terninger, en hvid (A) og en sort (B). Hvad er sandsynligheden for
at få mindst en 6’er?
1
AHvid 5 6 P(AHvid) 5
6
BSort 5 6 P(BSort) 5
1
6
Af regneregel følger: P(A ∪ B) 5
1
1
1 1
6
6
1
11
1 2  5
1
2
5
6
6
6 6
36
36
36
36
7. Komplementærmængden (“OG” hændelsen)
TABEL 51:
–) 5 1 2 P(A)
P(A
Komplementærmængden kan opfattes som det “modsatte” af hændelsen A.
EKSEMPEL: Hvad er den komplementære sandsynlighed til at slå en etter med en terning?
A(1) P(A) 5
1
6
–) 5 1 2 P(A) 5 1 2 1 5 5
P(A
6
6
Sandsynligheden er 5 ud af 6, hvilket er det vi forventer, da den komplementære mængde til at slå
en etter vil være at slå alt andet end en etter.
s. 62
8. Den totale sandsynlighed
TABEL 52:
–)
P(A 5 P(A ∩ B) 1 P(A ∩ B
Den totale sandsynlighed bruges til at beregne sandsynligheden for en hændelse, som er sammensat af flere sandsynligheder.
EKSEMPEL: Ud af alle studerende er der 30 % som er mænd og som har haft erhvervserfaring, men
kun 25 % af alle studerende er kvinder med tilsvarende erhvervserfaring.
Hvor mange studerende har haft erhvervserfaring?
–(Kvinder)
A(Erhvervserfaring) B(Mænd) B
–) → P(A) 5 0,3 1 0,25 5 0,55 5 55 %
P(A) 5 P(A ∩ B) 1 P(A ∩ B
9. Den omvendte betingede sandsynlighed (Bayes teorem)
TABEL 53:
P(A I B) 5
P(A)  P(BIA)
P(B)
EKSEMPEL: Fra Danske Banks statistiske afdeling oplyses det, at sandsynligheden for at en tilfældig
låner anmoder om et lån på mere end 250.000 kr. er 0,45. Yderligere oplyses det, at sandsynligheden for, at et lån på mere end 250.000 kr. er optaget af en husejer, er 0,60.
Antag at sandsynligheden for, at en vilkårlig låner er husejer, er 0,35.
Hvad er sandsynligheden for at en låner, som er husejer, optager et lån på mere end 250.000 kr.
Det vi ved:
A: Låner der anmoder om mere end 250.000 kr.
B: Husejer
P(A) 5 0,45 P(B) 5 0,35 P(BIA) 5 0,6
Den omvendt betingede sandsynlighed, dvs. sandsynligheden for at anmode om et lån på 250.000
kr. når man er husejer:
P(A I B) 5
P(A)  P(BIA)
0,45  0,6
5
5 0,771
P(B)
0,35
s. 63
Øvelser
De første spørgsmål er relateret til fortolkning, dvs. her skal du forsøge med egne ord at forklare betydningen af de forskellige sandsynlighedsbegreber. Efterfølgende er opgaverne rettet mod
beregninger.
1. Anvend et Venn diagram (to overlappende cirkler) til at illustrere fælles- og foreningsmængden for følgende to hændelser: A) at købe en Audi og B) at købe et B&O lydanlæg til en bil.
2. Hvad er forskellen på fælles, forenings og komplementærmængden?
3. Hvordan ville formlen for fællesmængden se ud, hvis der eksempelvis var tre hændelser: A,
B og C.
4. Hvad menes med a priori sandsynligheder?
5. Nævn tre eksempler på a priori sandsynligheder.
6. I hvilke tilfælde må man anvende subjektive frem for objektive sandsynligheder?
Beregningsøvelser
Opgave 1.
Antag at vi observerer et spil, hvor en enkelt terning kastes.
Spørgsmål 1. Definer udfaldsrummet.
Spørgsmål 2. Hvad er sandsynligheden for, at terningkastet viser mere end 3?
Spillet udvides nu til to terninger, en hvid og en sort. Hvad er sandsynligheden for:
Spørgsmål 3. At få en enkelt etter når de to terninger kastes?
Spørgsmål 4. At mindst en af terningerne viser 1?
Spørgsmål 5. At få 3 med den sorte og 2 med den hvide terning.
Spørgsmål 6. At summen af terningkastet er mindre end 4.
Spørgsmål 7. Hvad er sandsynligheden for at slå tre 6’ere i et enkelt kast med 3 terninger?
s. 64
Opgave 2.
Forestil dig afholdelsen af 2 VM semifinaler i fodbold, hvor alle 4 hold (A, B, C, D) har samme sandsynlighed for at vinde, tabe eller spille uafgjort. I den første semifinale mødes hold A og B, og i den
anden mødes hold C og D.
Spørgsmål 1. Hvad er sandsynligheden for at begge semifinaler ender uafgjort?
Spørgsmål 2.Hvad er sandsynligheden for at semifinale 1 vindes af hold A, og semifinale 2
tabes af hold D?
Opgave 3.
Ved et pokerbord er der allerede uddelt 10 kort, hvoraf 6 er hjerter, og ingen er billedkort.
Hvad er sandsynligheden for at det næste kort bliver en spar, klør eller ruder?
Opgave 4.
Sandsynligheden for en københavner går til fitness (A) er 0,3 og tilsvarende er sandsynligheden for,
at en tilfældig københavner ejer en Nokia mobiltelefon (B) 0,35.
Såfremt at en københavner ejer en Nokia mobiltelefon, er der en sandsynlighed på 0,45 for at vedkommende også går til fitness.
Er hændelserne A og B da uafhængige?
Opgave 5.
På Niels Brock er der 1000 studerende hvoraf 500 læser finansøkonomi, 400 læser til markedsføringsøkonom og 100 læser multimediedesign.
Hvad er sandsynligheden for, at en tilfældigt udvalgt elev læser en økonomisk uddannelse?
Opgave 6.
Antag at 10 % af alle lærebøgerne købes brugt og at 70 % af alle elever køber deres bøger fra starten af semesteret. Hvis der forudsættes uafhængighed mellem tidspunkt for bogkøb og bogens
tilstand, hvad er da sandsynligheden for, at en tilfældig elev har købt en:
Spørgsmål 1. Ny bog ved semester start?
Spørgsmål 2. Brugt bog efter semester start?
Spørgsmål 3. (Opgave 6 fortsat). Ny bog efter semester start?
s. 65
Opgave 7.
Ud af alle københavnere med videregående uddannelse er der:
• 25 % mandlige akademikere som har haft lederstillinger og
• 8 % kvindelige akademikere som har haft lederstillinger.
Hvad er sandsynligheden for at en akademiker i København har haft en lederstilling?
Opgave 8.
Antag at boligmarkedet stiger med en sandsynlighed på 50 %, og at renten falder med 40 % sandsynlighed. Hvis renten falder, er der 80 % sandsynlighed for at boligmarkedet vil stige.
Spørgsmål 1.Er der uafhængighed mellem renten og et stigende boligmarked? Hvis ja/nej
hvorfor ikke?
Spørgsmål 2. Hvad er sandsynlighed for at boligmarkedet stiger og renten falder?
Spørgsmål 3. Hvad er sandsynligheden for at renten falder, når boligmarkedet stiger?
Opgave 9.
På Carlsberg er der en række sikkerhedsforanstaltninger, der skal sikre, at tappemaskinen ikke går
i stå, selvom der sker en kortslutning i maskinens kredsløb. For at sikre optimal sikkerhed er der 2
mekanismer, som uafhængigt af hinanden overvåger om tappemaskinen er velfungerende. Sandsynligheden for at en fejl ikke opdages er 1 % for hver af de 2 mekanismer.
Spørgsmål 1.Hvad er sandsynligheden for at en fejl opdages? Overvej om der er tale om fælles
eller foreningsmængden? (Opstil evt. en matrix over mulighederne)
Spørgsmål 2. Hvad er sandsynligheden for at en fejl ikke bliver opdaget?
s. 66
Løsninger
Fortolkningsøvelser:
1. Når hændelsen �A” er at købe en Audi og �B” er at købe et B&O lydanlæg til en bil, så illustreres fællesmængden - P(A∩B) - som det skraverede område i nedenstående:
FIGUR 27:
A
B
Fællesmængden er således den hændelse hvor der købes en Audi og et B&O lydanlæg til
bilen.
2. Foreningsmængden inkluderer de hændelser, hvor der købes en Audi eller et B&O lydanlæg
til bilen eller begge dele - se nedenstående Venn diagram.
FIGUR 28:
A
B
Foreningsmængden kan siges at være mindre krævende end fællesmængden, da denne
er opfyldt når enten A eller B eller både A og B indtræffer. For fællesmængden gælder at
begge hændelser skal indtræffe. Sandsynligheden for foreningsmængden vil derfor altid
være højere end for fællesmængden.
Komplementærmængden - P(A–) - er den �modsatte” sandsynlighed af hændelsen A. Hvis
hændelsen A er solskin, så vil komplementærmængden være sandsynligheden for regnvejr.
s. 67
3. P(A∩B∩C)
4. A priori sandsynligheder er betegnelsen for sandsynligheder som på forhånd er givet.
5. Møntkast, terningkast og roulette – Alle tre aktiviteter har det til fælles at vi kender sandsynligheden for et bestemt udfald. Vi ved på forhånd at sandsynligheden for krone er 50%,
at sandsynligheden for at slå en sekser er en 1/6 osv.
6. Subjektive sandsynligheder anvendes når vi ikke har et datagrundlag eller på anden måde
kan beregne sandsynligheden for en bestemt hændelse.
Beregningsøvelser:
Opgave 1.
Spørgsmål 1.
U(1,2,3,4,5,6)
Spørgsmål 2.
U(1,2,3,4,5,6)
X(4,5,6)
P(X) 5
3
1
5 5
Antal mulige udfald i alt (U)
6
2
Spørgsmål 3.
A: Terningøjne viser 1 med sort terning
B: Terningøjne viser 1 med hvid terning
Foreningsmængden fratrukket fællesmængden:
P(A∪B) 2 P(A∩B) 5 P(A) 1 P(B) 2 P(A∩B) 2 P(A∩B) 5
1
1
2
10
1 2
5
6
6
36 36
Nb: Vi er nødt til at fratrække fællesmængden fra foreningsmængden, da sidstnævnte indeholder muligheden for, at slå en etter med begge terninger.
Spørgsmål 4.
Foreningsmængden:
P(A∪B) 5 P(A) 1 P(B) 2 P(A∩B) 5
1
1
1
11
1 2
5
6
6
36 36
s. 68
Spørgsmål 5.
Fællesmængden:
P(A∩B) 5 P(A)  P(B) 5
1 1
1
 5
6 6
36
Spørgsmål 6.
U(11,12,13…..66) 5 36
X(11,12,21) 5 3 (ved de tre kombinationer er summen mindre end 4)
P(X) 5
3
1
5
5
36 12
Spørgsmål 7.
A: Terningøjne viser 6 med terning nr. 1
B: Terningøjne viser 6 med terning nr. 2
C: Terningøjne viser 6 med terning nr. 3
P(A∩B∩C) 5
1 1 1
1
  5
6 6 6
216
Opgave 2.
Spørgsmål 1.
X: Semifinale nr. 1 ender uafgjort og
Y: Semifinale nr. 2 ender uafgjort
P(X∩Y) 5
1 1
1
 5
3 3
9
Spørgsmål 2.
X: Semifinale nr. 1 vindes af hold A og
Y: Semifinale nr. 2 tabes af hold D
P(X∩Y) 5
1 1
1
 5
3 3
9
s. 69
Opgave 3.
Ud af 52 kort er der udtaget 10, heriblandt 6 hjerter: Det betyder at der er ud af de resterende 42
kort må være 7 hjerter tilbage.
X: Klør, spar eller ruder.
P(X) 5
35
5
5
5
42
6
Opgave 4.
A: Københavner går til fitness
B: københavner der ejer en Nokia telefon
P(A) 5 0,3
P(AIB) 5 0,45
Afhængighed da P(A)  P(AIB)
Opgave 5.
X(finansøkonom, markedsføringsøkonom)
P(X) 5
(500 1 400)
5
5 0,9
1000
Opgave 6.
A: Lærebøgerne købes nye P(A) 5 0,9
–: Lærebøgerne købes brugt P(A
–) 5 0,1
A
B: Lærebøgerne købes fra starten af semesteret
P(B) 5 0,7
–
–) 5 0,3
B: Lærebøgerne købes efter semesteret er startet P(B
Spørgsmål 1.
Sandsynligheden for at en elev køber en ny bog ved starten af semesteret:
P(A∩B) 5 0,9  0,7 5 0,63
Spørgsmål 2.
Sandsynligheden for at en elev køber en brugt bog efter starten af semesteret:
–∩B
–:) 5 0,1  0,3 5 0,03
P(A
Spørgsmål 3.
Sandsynligheden for at en elev køber en ny bog efter starten af semesteret:
–) 5 0,9  0,3 5 0,27
P(A∩B
s. 70
Opgave 7.
A: Lederstillinger
B: Mænd
–: Kvinder
B
Opgave 8.
–) 5 0,25 1 0,08 5 0,33
P(A) 5 P(A ∩ B) 1 P(A ∩ B
Spørgsmål 1.
A: Boligmarkedet stiger
B: Renten falder
P(A) 5 0,5 P(B) 5 0,4 P(AIB) 5 0,80
Afhængighed da P(A)  P(AIB)
Spørgsmål 2.
Sandsynligheden for at boligmarkedet stiger og renten falder:
P(A∩B) 5 0,8  0,32 5 0,2
Spørgsmål 3.
Sandsynligheden for at renten falder, når boligmarkedet stiger (Bayes teorem):
P(BIA) 5
P(B)  P(AIB)
0,4  0,8
5
5 0,64
P(A)
0,5
Opgave 9.
A: Fejl opdages af mekanisme 1 P(A) 5 0,99
B: Fejl opdages af mekanisme 2 P(B) 5 0,99
Spørgsmål 1.
Sandsynligheden for at en fejl opdages (foreningsmængden):
P(A∪B) 5 0,99 1 0,99 2 0,99 0,99 5 0,9999
Spørgsmål 2.
Sandsynligheden for at en fejl ikke opdages (komplementærmængden til foreningsmængden):
1 2 P(A∪B) 5 1 2 0,9999 5 0,0001
s. 71
KAPITEL 4
STOKASTISK VARIABEL
Statlearn.com
KAPITEL
4
Stokastisk variabel
E
n stokastisk variabel klinger som et fremmedord, men er reelt blot betegnelsen for en variabel, der antager numeriske værdier med en tilknyttet sandsynlighed for hvert udfald. Et
terningkast er en stokastisk variabel, da summen af terningøjne angives med tal, og hvert udfald
har en bestemt sandsynlighed for at indtræffe (1/6). Enhver stokastisk variabel har tilknyttet en
sandsynlighedsfordeling, som angiver sandsynligheden for de forskellige udfald af variablen. I eksemplet med terningen er der til hver af de seks mulige udfald knyttet en sandsynlighed på 1/6.
Sandsynlighedsfordelinger, som vi kommer nærmere ind på i følgende afsnit, bygger på stokastiske
variable. Lad os derfor indledningsvis opridse de grundlæggende karakteristika for den stokastiske
variabel.
En stokastisk variabel defineres som P(X 5 x) hvor �P� referer til sandsynligheden, �X� repræsenterer variablen og �x� svarer til selve talværdien. Ved et terningkast repræsenterer �X� selve terningen og �x� værdien af terningkastet, summen af øjnene. Ved sandsynligheden for at en terning
viser 4 skrives:
X: Sum af øjne ved et terningkast
P(X 5 x)
Helt grundlæggende sondres mellem to typer stokastiske variable, diskrete og kontinuerte. Diskrete
variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod osv. Fælles for
diskrete variable er, at de kan tælles i hele enheder. Som du formentligt har gættet, er kontinuerte
variabler den direkte modsætning.
Kontinuerte variable kan ikke afgrænses i hele enheder, og kan derfor ikke tælles som et eksakt
antal. Eksempler på kontinuerte variabler er temperatur og hastighed. Da begge er målbare enheder, som kan antage et uendeligt antal decimaler, er det ikke muligt af fastlægge den helt eksakte
temperatur eller hastighed. Det er således ikke muligt at måle den præcise værdi af en kontinuert
variabel, da vi altid, rent teoretisk, kan tilføje en ekstra decimal i målingen.
Videolektioner >
s. 73
Stokastisk variabel
Regneregler for en stokastisk variabel
I nedenstående tabel ses en række generelle regneregler for middel og varians af en stokastisk
variabel. For at eksemplificere regnereglerne tages efterfølgende udgangspunkt i nogle simple eksempler. Efter gennemgangen af de enkelte regneregler, er der et mere avanceret eksempel.
TABEL 54: Regneregler for en stokastisk variabel
Middelværdi
Varians
n
E(X) 5
1.

n
xi  f(xi)
VAR(X) 5
i51

(xi 2 m)2 ∙ f(xi)
i51
 
2.
E xi 5
E(xi)
3.
E(X  Y) 5 E(X)  E(Y)
VAR(X  Y) 5 VAR(X)  VAR(Y)
4.
E(k) 5 k
VAR(k) 5 0
5.
E(k  X) 5 k  E(X)
k2  VAR(X)
VAR(Xi) 5 VAR(Xi)
Eksempler på regneregler
Til gennemgang af regneregler defineres X som summen af terningøjne ved et kast med hvid terning, og tilsvarende defineres Y som et terningkast med en sort terning. Konstanten k sættes til 2
hvilket også gælder k0 og k1.
Regneregel 1:
n
E(X) 5

xi  f(xi) ⇒ 1 
i51
1
1
1  6  5 3,5 (5 m)
6
6
n
VAR(X) 5

(xi 2 m)2  f(xi) ⇒ (1 2 3,5)2 
i51
1
1
1  (6 2 3,5)2  5 3,5
6
6
Regneregel 2:
E(xi) ⇒
(1 1 2 … 1 6)
5 3,5
6
VAR(xi) ⇒
(1 2 3,5)2  (6 2 3,5)2
5 2,917
6
s. 74
Stokastisk variabel
Regneregel 3:
E(X  Y) 5 E(X)  E(Y) 5 3,5 1 3,5 5 7 eller 3,5 2 3,5 5 0
Samme fremgangsmåde med variansen
Regneregel 4:
Da en konstant (k) ingen variation har, må middelværdien nødvendigvis være det samme som
konstanten.
Regneregel 5:
E(K  X) HVOR (K 5 2) ⇒ 2  1 
1
1
1
1 2  2  1  2  6  5 7
6
6
6
Alternativ: k  E(X) 5 2  3,5
VAR (X) 5 k2  VAR(X) 5 22  2,91
I det følgende er et praktisk eksempel på anvendelse af regneregler for middelværdi og varians for
en stokastisk variabel.
Hos Nokia i København ønsker HR-afdelingen5 at undersøge de forventede udgifter i forbindelse
med sygedage. Fra erfaring ved HR ved vi at der er:
1. 7 sygedage i middelværdi for de mandlige ansatte med en standardafvigelse på 3 dage.
2. 5 sygedage i middelværdi for kvindelig ansatte med en standardafvigelse på 2 dage.
Hvis vi antager, at en sygedag for en mandlig og en kvindelig ansat henholdsvis koster 2000 kr. og
1800 kr. Hvad kan HR så forvente at de årlige omkostninger til sygefravær bliver blandt 39 kvinder
og 64 mænd. (både middelværdi og standardafvigelse beregnes).
Data:
M: Sygedage mandlig ansat
K: Sygedage kvindelig ansat
E(M) 5 7 VAR(M) 5 32Km 5 2000 nm 5 64
E(K) 5 5
5
VAR(K) 5 22Kk 5 1800
nk 5 39
Human ressource / personaleafdelingen
s. 75
Stokastisk variabel
De totale forventede udgifter til sygedage:
Forventede mandlige sygedage:
n

64
E(Mi) 5
i51

7 5 64  7 5 448
i51
Forventede udgifter til mandlige sygedage:
E(KM  M) 5 KM  E(M) 5 2000  448 5 896.000
Forventede kvindelige sygedage:
n

39
E(Ki) 5
i51

5 5 39  5 5 195
i51
Forventede udgifter til kvindelige sygedage:
E(KK  K) 5 KK  E(K) 5 1800  195 5 351.00
De totale forventede udgifter til sygedage:
E(M 1 K) 5 E(M) 1 E(K) 5 896.000 1 351.000 5 1.247.000
Standardafvigelsen for de totale udgifter til sygedage:
Variansen for mandlige sygedage:
n

64
VAR(Mi) 5
i51

9 5 64  9 5 576
i51
Variansen for udgifterne til mandlige sygedage:
VAR(KM ? M) 5 KM2 1 VAR(M) 5 20002 ? 576 5 2.304.000.000
Variansen for de kvindelige sygedage:
n

i51
39
VAR(Ki) 5

4 5 39  4 5 156
i51
Variansen for udgifterne til kvindelige sygedage:
VAR(KK ? K) 5 KK2 1 VAR(K) 5 18002 ? 156 5 505.440.000
s. 76
Stokastisk variabel
Den totale varians for udgifterne til sygedage:
VAR(M 1 K) 5 VAR(M) 1 VAR(K) 5 2.304.000.000 1 505.440.000 5 2.809.440.000
Den totale standardafvigelse for udgifterne til sygedage:
Std.Afv. (M 1 K) 5 √ VAR(M 1 K) 5 √ 2.809.440.000 5 53004,15
Øvelser med stokastisk variabel
De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af begreber relateret til en stokastisk variabel. I de efterfølgende opgaver er fokus rettet
mod beregninger.
1. Hvordan vil du definere en stokastisk variabel?
2. Nævn eksempler på variable som er stokastiske.
3. Hvad er forskellen på en diskret og en kontinuert variabel?
4. Antag at DMI6 en given sommerdag måler temperaturen til 18 grader celsius. Sandsynligheden for at DMI har ret er lig med nul - hvorfor?
Beregningsøvelser:
Opgave 1.
For en studerende på Niels Brock forventes det, at de daglige udgifter til mad udgør 35 kr. med en
standardafvigelse på 7 kr.
Der går 1000 elever på Niels Brock, heraf er de 55 % drenge.
Spørgsmål 1. Hvad er de forventede udgifter til mad for hele Niels Brock?
Spørgsmål 2. Hvad er standardafvigelsen for de forventede udgifter?
Det antages, at de forventede udgifter til mad for en pige er 27 kr. med standardafvigelse på 5 kr.
For en dreng er de tilsvarende forventede udgifter på 39 kr. med en standardafvigelse på 11 kr.
Spørgsmål 3. Hvad er nu de forventede udgifter til mad for hele Niels Brock?
Spørgsmål 4. Hvad er nu standardafvigelsen for de forventede udgifter?
6
Dansk Meteorologisk Institut
s. 77
Stokastisk variabel
Opgave 2.
I starten af semesteret ønsker Niels Brock at estimere de samlede udgifter til bærbare computere
for studerende på 2 forskellige skoler: Nørre Voldgade og Kultorvet.
På Nørre Voldgade oprettes 15 hold og det forventes, at der er 30 elever pr. hold med en standardafvigelse på 4 elever.
Tilsvarende oprettes 12 hold på skolen ved Kultorvet, hvor det forventes, at der er 28 elever pr.
klasse med en standardafvigelse på 6 elever.
Spørgsmål 1 Hvor mange elever kan man samlet forvente kommer til at gå på begge skoler?
Studerende ved Nørre Voldgade er med i en særordning, hvor de kan købe bærbare computere til 3000 kr., mens de studerende ved Kultorvet derimod må betale 3500 kr.
Spørgsmål 2.Antag at alle nye studerende fra på begge skoler køber bærbare computere.
Hvad bliver de forventede udgifter?
Spørgsmål 3.Hvad bliver standardafvigelsen for de forventede udgifter til bærbare computere
på begge skoler?
Løsninger til stokastisk variabel
1. En stokastisk variabel er betegnelsen for en numerisk variabel med en tilknyttet sandsynlighed for alle de mulige udfald.
2. Terningspil, roulette, lotto, aldersfordeling i en population.
3. Diskrete variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod
etc. Fælles for diskrete variabler er, at de forekommer i hele enheder. Kontinuerte modsætningen til diskrete variable. Eksempelvis kan en kontinuert variabel som temperatur ikke
afgrænses til en bestemt værdi, da vi kan tilføje et uendeligt antal decimaler til en temperaturmåling.
4. Det er ikke muligt at måle en eksakt værdi af en kontinuert variabel, da der kan tilføjes et
uendeligt antal decimaler, derfor er sandsynligheden for en eksakt værdi ikke til stede.
s. 78
Stokastisk variabel
Beregningsøvelser:
Opgave 1.
Spørgsmål 1.
X 5 Udgift til mad pr.elev (kr)

1000
E(Xi) 5

35 5 1000  35 5 35000 kr.
i51
Spørgsmål 2.

1000
VAR(Xi) 5

72 5 1000  49 5 49000 kr.
i51
Standardafvigelsen 5 √ 49000 5 221,359 kr.
Spørgsmål 3.
X 5 Udgift til mad for piger Y 5 Udgift til mad for drenge


450
E(Xi) 5

27 5 450  27 5 12150 kr.
i51
550
E(Yi) 5

39 5 550  39 5 21450 kr.
i51
E(X  Y) 5 E(X)  E(Y) 5 12150 kr. 1 21450 kr. 5 33600 kr
Spørgsmål 4.


450
VAR(Xi) 5

52 5 450  25 5 11250 kr.
i51
550
VAR(Yi) 5

11 5 550  121 5 66550 kr.
i51
VAR(X  Y) 5 VAR(X)  VAR(Y) 5 11250 kr. 1 66550 kr. 5 77800 kr
Standardafvigelsen (X  Y) 5 √ VAR(X  Y) 5 √ 77800 5 278,927 kr.
s. 79
Stokastisk variabel
Opgave 2.
Spørgsmål 1. Hvor mange elever kan man samlet forvente fra begge skoler?
X 5 Elever ved Nørre Voldgade Y 5 Elever ved Kultorvet


15
E(Xi) 5

30 5 15  30 5 450 kr.
i51
12
E(Yi) 5

28 5 12  28 5 336
i51
E(X  Y) 5 E(X)  E(Y) 5 450 1 336 5 786
Spørgsmål 2.
KX 5 3000 kr.
Ky 5 3500 kr.
E(KX ? X) 5 KX ? E(X) 5 3000 ? 450 5 1.350.000 kr.
E(KX ? X) 5 KX ? E(X) 5 3500 ? 336 5 1.176.000 kr.
E(X  Y) 5 E(X)  E(Y) 5 1.350.000 1 1.176.000 5 2.526.000 kr.
Spørgsmål 3.
15
VAR(KX ? X) 5 KX ? VAR(X) 5 3000 ?
2
2

42 5 15  16 5 9.000.000  240
i51
5 2.160.000.000 kr.
12
VAR(KY ? Y) 5 KY2 ? VAR(Y) 5 35002 ?

62 5 15  12.250.000  432
i51
5 5.292.000.000 kr.
VAR(X  Y) 5 2.160.000.000 1 5.292.000.000 5 7.452.000.000 kr.
Standardafvigelsen (X  Y) 5 √ VAR(X  Y) 5 √ 7.452.000.000 5 86.324,967 kr.
s. 80
KAPITEL 5
SANDSYNLIGHEDSFORDELINGER
Statlearn.com
KAPITEL
5
Sandsynlighedsfordelinger
E
En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de
En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de
forskellige
værdier af en given kan
variabel.
n sandsynlighedsfordeling
beskrives som en illustration af sandsynlighederne for de
forskellige
værdier af en given variabel.
forskellige værdier af en given variabel.
Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af
Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af
Ladterningkastet
os antage atervores
variabel er resultatet
af et terningkast.
af de
6 mulige
lige sandsynlige,
derfor må sandsynligheden
forHvert
et enkelt
udfald
være udfald
1/6. af terterningkastet
er
lige
sandsynlige,
derfor
må
sandsynligheden
for
et
enkelt
udfald
være
1/6.
ningkastet
er lige sandsynlige,forderfor
må vil
sandsynligheden
et enkelt udfald
være
Sandsynlighedsfordelingen
variablen
derfor antage enfor
kasselignende
form som
i 1/6. SandSandsynlighedsfordelingen
for variablen
vil derfor
en kasselignende
i
synlighedsfordelingen
for variablen
vil derfor
antageantage
en kasselignende
formform
somsom
i nedenstående.
nedenstående. Fordelingen illustrerer, at alle de forskellige værdier af terningkastet er lige
Fordelingen
illustrerer,
at alle illustrerer,
de forskellige
værdier
af terningkastet
lige sandsynlige.
nedenstående.
Fordelingen
at alle
de forskellige
værdier aferterningkastet
er lige
sandsynlige.
sandsynlige.
FIGUR 29:
P(x)
20% P(x)
20%
15%
15%
10%
10%
5%
5%
0%
0%
1
1
2
2
3
3
4
4
x (sum af terningkast)
x (sum af terningkast)
5
5
6
6
Når vi arbejder med data, er det sjældent at alle udfald er lige sandsynlige som med terninger.
vi arbejder
med
data,
detsjældent
sjældentatatalle
alle udfald
udfald er lige sandsynlige
Når Når
vi arbejder
med
data,
er er
det
sandsynligesom
sommed
medterninger.
terninger. Det
Det vil oftest være værdier, der ligger omkring gennemsnittet, som har den højeste
vil oftest
værdier,
der ligger
omkring
gennemsnittet,
somsom
har har
denden
højeste
sandsynlighed for
Det vilvære
oftest
være værdier,
der ligger
omkring
gennemsnittet,
højeste
sandsynlighed
for
at
forekomme.
at forekomme.
sandsynlighed for at forekomme.
Forestil
dig dig
at vi
dedestuderende
og grupperer
gruppererobservationerne
observationerne
Forestil
at vejer
vi vejer
studerende ii din
din klasse
klasse og
i i vægtintervaller.
Forestil dig at vi vejer de studerende i din klasse og grupperer observationerne i
Sandsynlighedsfordelingen
kunne eksempelvis
se udeksempelvis
som i følgende:
vægtintervaller. Sandsynlighedsfordelingen
kunne
se ud som i følgende:
vægtintervaller. Sandsynlighedsfordelingen kunne eksempelvis se ud som i følgende:
FIGUR 30:
P(x)
40% P(x)
40%
30%
30%
20%
20%
10%
10%
0%
0% 50-55
50-55
55-60
55-60
61-66
61-66
Videolektioner >
67-72
67-72
73-78
73-78
Vægt Interval (kg)
Vægt 50-55
Interval (kg)
50-55
55-60
55-60
61-66
61-66
67-72
67-72
73-78
73-78
Total
Total
Obs.
Obs.
3
63
146
914
79
7
39
39
Relativ frekvens
Relativ8%
frekvens
8%
15%
15%
36%
36%
23%
23%
18%
18%
100%
100%
s. 82
Side | 87
Side | 87
ligger tæt på
MedGennemsnitsvægten
fokus på erhvervslivetligger tydeligvis i midten og de fleste observationer Sandsynlighedsfordelinger
gennemsnittet med enkelte studerende, der vejer henholdsvis langt mere og mindre end
gennemsnittet.
Gennemsnitsvægten ligger tydeligvis i midten, og de fleste observationer ligger tæt på gennemsnittet Når
medvienkelte
studerende,
der vejer henholdsvis
langt mere
mindre
end gennemsnittet.
arbejder
med store datamængder
giver fordelinger
et og
hurtigt
overblik
over de mest
Skulle
vi eksempelvis
en et
tilsvarende
analyseover
af de mest sandNårsandsynlige
vi arbejderværdier.
med store
datamængder
giverudarbejde
fordelinger
hurtigt overblik
synlige
værdier. Skulle
eksempelvis
udarbejde
tilsvarende
analyse hvor
af vægtfordelingen
vægtfordelingen
forvialle
5 mio. danskere,
kan en
en fordeling
illustrere,
stor en andel affor alle
5 mio. danskere, kan en fordeling illustrere, hvor stor en andel af befolkningen som befinder sig i
befolkningen som befinder sig i de forskellige vægtintervaller.
de forskellige vægtintervaller.
Relativ frekvens- og teoretiske fordelinger
Der er fordelinger baseret på det data du indsamler og der er fordelinger baseret på teoretiske
Relativ
frekvens- og teoretiske fordelinger
sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan
Der er fordelinger baseret på det data du indsamler, og der er fordelinger baseret på teoretiske
højden af alle danskere over 18 år er fordelt. Da du ikke har tid til at måle højden af alle
sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan højden af
stedet
en stikprøve
påhar
100tid
personer.
Du højden
grupperer
herefter
de
alledanskere,
danskereudtager
over 18du
åri er
fordelt.
Da du ikke
til at måle
af alle
danskere,
udtager
du observerede
i stedet en stikprøve
påhøjden
100 personer.
Du grupperer
herefter de
observerede
værdier
af højden
værdier af
i nogle intervaller
og beregner
intervallets
relative
størrelse
som
i nogle
og beregner intervallets relative størrelse som vist i nedenstående.
vist intervaller
i nedenstående.
FIGURfrekvensfordeling
31: Relativ frekvensfordeling
på 100 observationer
Figur 16: Relativ
baseret på 100baseret
observationer
P(x)
18 %
12 %
6%
0%
195-200
190-194
185-189
180-184
175-179
170-174
165-169
160-164
155-159
150-154
x (Højde i cm)
Denne måde at illustrere sandsynligheder på kaldes for en relativ frekvens fordeling. Det
Denne
måde at illustrere
på kaldes
forinterval,
en relativ
frekvens
Det
søjlediagrammet
viser, er sandsynligheder
andelen af observationer
i hvert
i forhold
til detfordeling.
totale antal
søjlediagrammet viser, er andelen af observationer i hvert interval, i forhold til det totale antal
observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de
observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de forforskellige
observationer
i stikprøven.
skellige
observationer
i stikprøven.
Højde/cm 150-154 155-159 160-164 165-169
TABEL
55: Frekvens versus relativ frekvens
F(x)
5
9
10
170-174
175-179
180-184
185-189
190-194
195-200
13
16
12
11
10
9
5
13
16
12
11
10
9
5
13%
16%
12%
11%
10%
9%
5%
Højde/cm
150-154
155-159
160-164
165-169
170-174
175-179
180-184
185-189
190-194
195-200
P(x)
5%
9%
10%
13%
16%
12%
11%
10%
9%
5%
F(x) 24: Frekvens
5 versus relativ
9
10
Tabel
frekvens
P(x)
5%
9%
10%
Side | 88
s. 83
Den teoretiske sandsynlighedsfordeling er baseret på en matematisk fremstilling af virkeligheden.
Den teoretiske sandsynlighedsfordeling kan opfattes som en model, der afspejler de teoretiske
sandsynligheder for en hel population, eksempelvis hvordan højden af alle danskere er fordelt.
Teoretiske sandsynlighedsfordelinger er universelle, de kan anvendes for alle variable, så længe
variablen opfylder bestemte kriterier. Ofte er ressourcer til at indsamle data for en hel population
relativt begrænsede. I den sammenhæng kan en teoretisk sandsynlighedsfordeling med fordel anvendes som model for, hvordan data er fordelt i hele populationen.
Forskellige fordelinger
Der findes mange forskellige fordelinger, og det som adskiller dem er en række forudsætninger,
som vi skal se nærmere på. Helt grundlæggende sondres mellem fordelinger der bygger på diskrete
og kontinuerte variable.
Som vi var inde på i afsnittet om stokastiske variable, kan en diskret variabel afgrænses til en enkelt
enhed, eksempelvis en bil eller et hus.
Kontinuerte variable er modsætningen, hvor enheden ikke kan opgøres præcist, med derimod kun
måles. Eksempler på kontinuerte variable er temperatur, vægt og hastighed. Kontinuerte variabler
er kendetegnet ved, at sandsynligheden for en bestemt værdi af variablen er nul.
Helt konkret kan vi sige, at sandsynligheden for, at det en dag i juni bliver præcist 20 grader er nul.
Vi kan ræsonnere os til at 20 grader ligeså vel kunne være 19,99999 eller 20,000001. Rent teoretisk
er 20 grader således en værdi, som kan antage et uendeligt antal decimaler og som derfor ikke kan
måles eksakt.
Som nævnt er der forskellige typer af fordelinger. Dem vi skal se på er de mest gængse og kan indtil
videre klassificeres som værende kontinuerte eller diskrete fordelinger. For at skabe et overblik
over forskellen på de enkelte fordelinger, og hvordan de anvendes, vil der i det følgende være en
kort gennemgang af egenskaberne for de enkelte fordelinger. Herefter vil der være en case, hvor
fordelingerne anvendes i en praktisk sammenhæng.
s. 84
Binomialfordeling
Model: X~b(n, p)
Parametre: Hvor �n” er stikprøvestørrelsen og �p” populationsandelen af mærkede elementer.
Forudsætninger:
a) Diskret variabel - variablen skal kunne opgøres i hele enheder.
b) “n” eksperimenter observeres. Hver observation i stikprøven opfattes som udfaldet af ét
blandt “n” antal eksperimenter.
c) Konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er uafhængige af hinanden.
d) Hvert element kan enten defineres som mærket eller ikke-mærket. Heraf betegnelsen binomial som refererer til to mulige udfald.
Formel:
n
P(X 5 x) 5 x px(1 2 p)n2x
Hvor “p” er populationsandelen og “n” er stikprøvestørrelsen og hvor
n
n!
5
x
x!(n 2 x)!
Middelværdi og varians:
E(X) 5 n ? p VAR(X) 5 n ? p ? (1 2 p)
EKSEMPEL:
En formueforvalter hos PFA ved fra erfaring, at der er 15 % sandsynlighed for, at hun vælger en
aktie, som efter et år har givet et negativt afkast. Hun har lige investeret i 10 forskellige aktier og
ønsker nu at beregne sandsynligheden for, at alle aktier vil give et positivt afkast efter et år.
Løsning:
X: Aktie der efter et år giver et negativt afkast
X ~ b(p 5 0,15, n 5 10)
Beregning med formel:
10
P(X 5 0) 5 0 0,150(1 2 0,15)1020 5 0,19687
Beregning med Statlearn programmet:
a) Vælg fordeling
b) Vælg binomial og indsæt værdier
P(X 5 0) 5 0,19687
Der er således 19,69 % sandsynlighed for, at der vil være 0 aktier, som giver et negativt afkast efter et
år. Omvendt er der omkring 80 % sandsynlighed for, at mindst 1 af aktierne vil give et negativt afkast.
s. 85
Hypergeometrisk fordeling
Model: X~h(N, m, n)
Parametre: N 5 populationens størrelse, m 5 antal mærkede elementer i populationen og
n 5 stikprøvestørrelsen.
Forudsætninger:
a) Diskret variabel (variablen skal kunne opgøres i hele størrelser).
b) “n” elementer udtages fra en endelig population “N” (N skal være kendt, eller som minimum være mulig at opgøre/tælle).
c) Der er ikke konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er afhængige af
hinanden.
d) Hvert element kan defineres som mærket (m) eller ikke mærket (m).
Formel:
m n2m
x n2x
P(X 5 x) 5
n
n
m
m!
Hvor x 5
x!(m 2 x)!
m
Såfremt p beregnes som
gælder:
N
E(X) 5 n ? p
VAR(X) 5 n ? p ? (1 2 p) ?
N2n
N21
EKSEMPEL:
I en særlig version af lotto er der 12 kugler som nummereres fra 1-12. Kuglerne 1-4 defineres som
vinderkugler.
Antag at 4 tilfældige kugler udtrækkes blandt de 12. Hvad er sandsynligheden for at alle vinderkuglerne udtrækkes?
Løsning:
X: Vinderkugle (kugle 1 2 4)
X~h(N 5 12, m 5 4, n 5 4)
s. 86
P(X 5 4) 5
4
4
1224
424
5 0,00202
12
4
a) Vælg fordeling
b) Vælg hypergeometrisk og indsæt værdier
P(X 5 4) 5 0,00202
Der er således 0,2 % (2 promille) sandsynlighed for at være så heldig, at alle 4 vinderkugler udtages.
Poissonfordeling
Model: X ~ Ps(l)
Parametre:
Intensiteten, l, fortolkes som det gennemsnitlige antal forekomster i et givent tidsrum eller indenfor et bestemt kvantum.
n 5 antal perioder som l baseres på.
Forudsætninger:
a) Diskret variabel (variablen skal kunne opgøres i hele enheder)
b) Antal af forekomster af mærkede elementer observeres over en periode eller opgøres pr.
kvantum. Eksempelvis antal ulykker pr. måned eller antal kvindelige studerende pr. klasse.
c) Elementerne indtræffer uafhængigt af hinanden i den givne periode (dvs. konstant sandsynlighed ligesom i binomialfordelingen)
Formel:
P(X 5 x) 5
lx 2l
e
x!
Hvor l repræsenterer populationsintensiteten og e er en konstant med værdien 2,718
E(X) 5 l
VAR(X) 5 l
s. 87
EKSEMPEL:
Et hospital modtager hver dag gennemsnitligt 3,4 patienter med et brækket ben. Hvad er sandsynligheden for, at hospitalet en tilfældig dag modtager 5 patienter med brækket ben?
Løsning:
X: Patient med et brækket ben.
X~Ps(l 5 3,4)
P(X 5 5) 5
lx 2l 3,45
e 5
2.718223,4 5 0,12636
5!
x!
a) Vælg fordeling
b) Vælg poisson og indsæt værdier
P(X 5 5) 5 0,12636
Fortolkning:
er er 12,6 % sandsynlighed for, at der på en given dag vil være 5 patienter, der kommer ind med
D
et brækket ben på hospitalet.
Normalfordelingen
Model: X~N(m, s2) alternativt X~N(x, s2)
Parametre:
m / x– er gennemsnit og s2/s2 er standardafvigelsen for population/stikprøve.
Forudsætninger:
a) Data er tilnærmelsesvis normalfordelt.
b) Kontinuert variabel. Hvis variabel er diskret vil denne kunne approksimeres, dvs. føres over
i normalfordelingen, såfremt approksimationsbetingelserne herfor er opfyldt. En mere detaljeret redegørelse for approksimationsbetingelserne findes i �Appendiks 1” i slutningen af
afsnittet om fordelinger.
Formel:
P(X # x) 5 P(Z # z) 5
x2m
x2m
5 f s
s
s. 88
Alle normalfordelte variable kan med ovenstående formel omdannes til z-værdier. Z-værdier fortolkes som det antal standardafvigelser vi er fra normalfordelingens midtpunkt - mere herom under
gennemgangen af normalfordelingen i afsnit Fejl! Henvisningskilde ikke fundet.
Bemærk at normalfordelingen er en kumulativ tæthedsfunktion7 (f) baseret på en kontinuert variabel. Kontinuerte variable kan, i modstæning til de diskrete, ikke afgrænses til en hel enhed. I normalfordelingen er det derfor sandsynligheden for intervaller der beregnes - ikke sandsynligheden
for eksakte værdier.
Eksempelvis beregnes sandsynligheden for, at det bliver mellem 24 og 25 grader og ikke sandsynligheden for, at det vil blive eksakt 25 grader. Af samme årsag anvender vi i normalfordelingen kun
symbolerne højst “#” og mindst “$” men ikke “5”.
EKSEMPEL:
En meteorolog ved, at det i tidsrummet 12-16 gennemsnitligt er 19,3 grader celsius i juni måned
med en standardafvigelse på 4,5 grader.
Hvad er sandsynligheden for, at det bliver mindst 22 grader?
Løsning:
X: Temperatur i dagtimerne (grader celsius) i juni måned.
X~N(m 5 19,3, s 5 4,5)
a) Vælg fordeling
b) Vælg normalfordeling og indsæt værdier
P(X $ 22) 5 0,274
Der er således 27,4 % sandsynlighed for, at det mindst vil blive 22 grader i dagtimerne i juni måned.
7
En kumulativ tæthedsfunktion beskriver “tætheden” af observationerne for en værdi af en given kontinuert variable.
s. 89
Oversigter over fordelinger og deres kendetegn
TABEL 56: Oversigt over diskrete sandsynlighedsfordelinger
Diskrete fordelinger
Hypergeometrisk
Binomial
Poisson
Model: X ~ h(N, m, n)
Model: X~b(n, p)
Model: X~Ps
Kendetegn:
- Diskret variabel
- Ikke konstant sandsynlighed
Kendetegn:
- Diskret variabel
- Konstant sandsynlighed
Kendetegn:
- Diskret variabel
- Forekomster i en periode
EKSEMPEL:
Fra en æske med 100 skruer
hvoraf 20 er rustne udtages en
stikprøve på 10 skruer. Hvad er
sandsynligheden for, at stikprøven indeholder mindst 3 rustne
skruer?
EKSEMPEL:
En tappemaskine der producerer Coca-Cola flasker fylder med
5 % sandsynlighed for meget i
flasken. Hvad er sandsynligheden for at 2 ud af 100 flasker
indeholder for meget?
EKSEMPEL:
Hvad er sandsynligheden for, at
et hospital modtager mere end
5 patienter med brækket ben,
hvis det daglige gennemsnit er
3,4 patienter?
X: Rusten skrue
X ~ h(N 5 100, m 5 20, n 5 10)
P(X $ 3) 5 0,318
X: Overfyldt flaske
X ~ b(p 5 0,05, n 5 100)
P(X 5 2) 5 0,081
Beregning med Statlearn
program: Vælg fordelinger og
derefter “Hypergeometrisk”
Beregning med Statlearn
derefter “Binomial”
X: Patient med brækket ben
X ~ Ps 5 3,4)
P(X $ 6) 5 0,129
Beregning med statlearn
“Poisson”
TABEL 57: Kontinuert sandsynlighedsfordeling (normalfordelingen)
Normalfordelingen (kontinuert fordeling)
Model: X ~ N(m ,s2)
Kendetegn:
- Kontinuert variabel
- Fordelingen er symmetrisk og klokkeformet med gennemsnittet i midten.
Med andre ord må fordelingen ikke være venstre- eller højreskæv.
EKSEMPEL:
En meteorolog ved fra erfaring, at det i juni i dagtimerne gennemsnitligt er 19,3 grader med en standardafvigelse på 6 grader.
Hvad er sandsynligheden for, at det en tilfældig juni dag i dagtimerne bliver mindst 25 grader?
X: Grader (celsius) i dagtimerne i juni.
X ~ N(m 5 19,3, s2 5 36)
P(X $ 25) 5 0,171
Beregning med Statlearn program:
Vælg fordelinger og derefter “Normalfordeling”
s. 90
Case
Virksomheden Gene Food har specialiseret sig i at sælge fødevarer tilsat planteekstrakter med kolesterolsænkende virkning. Siden lanceringen i 2003 har virksomheden oplevet en forrygende vækst,
men væksten har ikke været uden omkostninger. Et stigende antal kunder er begyndt at klage over
produkterne. Kundernes klager er især møntet på de tre største produkter:
1. Mangodrik der sælges i kasser á 30 stk.
2. Chokoladebagels som sælges i poser á 2 kg
3. Nødder der sælges i æsker á 500 gram.
Hvad angår Mangodrik er klagerne møntet på, at etiketterne ofte vender forkert. Med chokoladebagels klages over manglende chokoladeovertræk, og med nødderne klages over at æskerne vejer
væsentligt mindre end de 500 gram som står angivet.
Som du muligvis har gættet, er alle tre kvalitetsproblemer relateret til sandsynligheder.
I tilfældet med Mangodrik er det sandsynligheden for, at etikettemaskinen vender etiketten forkert. Med chokoladebagels er det sandsynligheden for, at overtræksmaskinen mangler chokolade,
og med nødderne er det sandsynligheden for, at en æske underfyldes. Som du kan se, varierer
forudsætningerne for de enkelte kvalitetsproblemer.
Hvad angår flaskerne er variablen diskret, og sandsynligheden for, at etikettemaskinen laver en fejl
kan vi med rimelighed antage at være konstant. Hvis etikettemaskinen vender en etikette forkert,
påvirker det ikke sandsynligheden for, at den efterfølgende flaske ligeledes får vendt etiketten
forkert.
Med chokoladebagels er variablen også diskret, men da størrelsen og vægten på en bagel varierer,
i modsætning til mangodrik med præcist 30 flasker i en kasse, ved vi ikke nøjagtigt hvor mange
bagels der er i en pose.
Den sidste klage går på, at æskerne med nødder ofte vejer mindre end 500 gram. Nødderne måles
således på vægten af æskerne og er derfor en kontinuert variabel.
For at få overblik over de nuværende produktionsforhold, indsamler du information fra din erfarne
produktionsleder, som oplyser følgende:
1. Sandsynligheden for en etikettefejl er 5%.
2. Der er i gennemsnit 0,4 bagels der ikke får chokoladeovertræk.
3. Der opfyldes gennemsnitligt 505 gram nødder i æskerne, standardafvigelsen er på 15 gram.
s. 91
I forbindelse med Mangodrik måler vi antallet af flasker med etikettefejl. Antal flasker opgøres i
hele enheder og er derfor en diskret variabel.
Udfordringen er nu at finde den rette diskrete fordeling. Da vi arbejder med et bestemt antal
eksperimenter og ikke et gennemsnit eller tidsinterval, kan vi udelukke poissonfordelingen.
Spørgsmålet er nu, om variablen følger en hypergeometrisk- eller en binomialfordeling. Kravet til
binomialfordelingen er konstant sandsynlighed, dvs. at udfaldet af hændelserne fejl og ikke-fejl ikke
må påvirke hinanden.
Hvis vi antager, at en flaske der får en etikettefejl ikke påvirker sandsynligheden for, at den
efterfølgende flaske også får en etikettefejl, er der tale om konstant sandsynlighed. Det passer med
binomialfordelingen.
Fra produktionslederen ved vi, at etikettefejl opstår med 5 % sandsynlighed, hvad er så sandsynligheden for, at en hel kasse med 30 flasker indeholder etikettefejl?
Fremgangsmåde med binomialfordeling:
Variabel: X: Flaske med etikettefejl
Model: X ~ b(p 5 0,05, n 5 30)
Hvor “p” er sandsynligheden for et udfald af vores variabel, etikettefejl, og “n” er stikprøvestørrelsen.
Forudsætninger
a) Diskret variabel (hele flasker).
b) “n” elementer observeres (30 flasker pr. kasse).
c) Konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter.
d) Hvert element kan defineres som mærket eller ikke-mærket.
a) Vælg fordeling
b) Vælg binomial og indsæt værdier
P(X 5 0) 5 0,215
s. 92
Der er 21,5 % sandsynlighed for at en kasse indeholder flasker uden etikettefejl. Det er således en
anelse bekymrende, at en kunde med ca. 80 % sandsynlighed vil modtage flasker med etikettefejl,
hver gang der bestilles en kasse Mangodrik.
(Eksempel fortsat)
For at sikre dine kunder ikke får varer der indeholder fejl, har du og dine medarbejdere brugt mange kræfter på at kontrollere varerne på lageret. Blandt 100 paller med Mangodrik har i frasorteret
7 paller der skal kasseres. Ved en fejl blev de 7 defekte paller ikke kasseret, men flyttet tilbage
sammen med de øvrige paller. Din største kunde har lige bestilt 15 paller Mangodrik og du ønsker
derfor hurtigt at beregne sandsynligheden for, at han har modtaget én eller flere paller med defekte varer.
Ligesom med flaskerne er en palle en diskret variabel, en variabel der kan opgøres i hele enheder.
Men i modsætning til flaskerne ved vi præcist hvor mange mærkede elementer “m” (defekte paller
5 7) der er i vores population “N” (alle paller 5 100).
Ved hvert udtag fra populationen (N) ændres sandsynligheden derfor for at udtage en defekt palle.
Ved første udtag er sandsynligheden for en defekt palle:
7
100
Afhængig af om der er blevet udtaget en normal eller en defekt palle, er sandsynligheden for en
defekt palle ved andet udtag:
6
7
eller
99
99
Som det fremgår ændres sandsynligheden for en defekt palle således efter hvert udtag.
Når vi har en diskret variabel (palle), en kendt population (100 paller) med et bestemt antal mærkede elementer (defekt palle) er variablen hypergeometrisk.
Vendes tilbage til udgangspunktet ønskes sandsynligheden for at der blandt 15 paller er en eller
flere defekte paller.
s. 93
Fremgangsmåde i den hypergeometriske fordeling:
Definition af variabel: X: Defekt palle
Model: X ~ h(N 5 100, m 5 7, n 5 15)
Hvor “N” er antal elementer i populationen, “m” antal mærkede elementer og “n” stikprøvestørrelsen.
Forudsætninger:
a) Diskret variabel (en palle)
b) “n” elementer udtages fra en endelig population “N” (en kunde køber 15 paller ud af i alt 100).
c) Ikke konstant sandsynlighed, dvs. afhængighed mellem de enkelte eksperimenter som i
foregående eksempel.
d) Hvert element kan defineres som mærket eller ikke mærket (ikke-defekt palle/defekt palle).
a) Vælg fordeling
b) Vælg hypergeometrisk og indsæt værdier
P(X $ 1) 5 0,6916
Der er således 69,2 % sandsynlighed for, at der som minimum vil være 1 defekt palle blandt de 15
som kunden har bestilt.
(Eksempel fortsat)
Hvad angår kvalitetsproblemerne med chokoladebagels klages der over, at de ofte mangler chokoladeovertræk. Produktionslederen har estimeret, at der gennemsnitligt er 0,4 bagels, som mangler
chokoladeovertræk pr. pose á 2 kg. På den baggrund ønsker du at kende sandsynligheden for, at en
given pose vil indeholde en eller flere bagels uden chokoladeovertræk.
Da vægten og størrelsen af bagels varierer, er der ikke altid det samme antal bagels i en 2 kg’s pose.
I stedet for at arbejde med et præcist antal eksperimenter, som i eksemplet med mangodrikken og
defekte paller, anvendes et gennemsnit. Herudover er en bagel på lige fod med de to førnævnte
variable diskret, hvilket leder os over i poissonfordelingen.
Hvad er sandsynligheden for, at en enkelt bagelpose indeholder bagels uden chokoladeovertræk?
s. 94
Fremgangsmåde med poisonfordeling:
Definition af variabel: X: Chokoladebagel uden chokoladeovertræk
Model: X ~ Ps(l 5 0,4)
Forudsætninger:
a) Diskret variabel (hele bagels)
b) Antal af forekomster af mærkede elementer observeres over en periode el. kvantum (pose
á 2 kg).
c) Elementerne indtræffer uafhængigt af hinanden. Da en bagel med fejl ikke ændrer på sandsynligheden for, at den næste bagel også produceres med fejl, er produktionsfejl uafhængige af hinanden.
a) Vælg fordeling
b) Vælg poisson og indsæt værdier
P(X 5 0) 5 0,6703
Fortolkning:
Der er hermed 67 % sandsynlighed for, at en pose bagels ikke indeholder fejl, dvs. bagels uden
chokoladeovertræk. Omvendt er der 33 % sandsynlighed for, at en pose indeholder fejl, hvilket ikke
kan siges at være helt tilfredsstillende for kunderne.
Fremgangsmåde ved normalfordeling:
Med nødderne klager kunderne over, at vægten på æskerne med nødder ofte er under de 500 af
gram, der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet
etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger vi
os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar størrelse.
Når vi vejer en genstand kender vi aldrig den eksakte vægt, da denne kan angives med uendeligt
antal decimaler. Af samme årsag klassificeres variablen vægt som kontinuert, hvilket leder os over
i normalfordelingen.
s. 95
(Eksempel fortsat)
klager kunderne over, at vægten på æskerne med nødder Sandsynlighedsfordelinger
ofte er under de 500
MedMed
fokusnødderne
på erhvervslivet
gram der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet
etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger
Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk. Betegnelsen
vi os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar
normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable følger en normalstørrelse.
Nåren
vi klokkeformet
vejer en genstand
kender vi aldrig den med
eksakte
vægt da denne
kan angives
fordeling.
De har
sandsynlighedsfordeling
gennemsnittet
i midten
og et ligemed uendeligt
antal på
decimaler.
Af samme årsag klassificeres variablen vægt som kontinuert
ligt antal
observationer
hver side.
hvilket leder os over i normalfordelingen.
FIGUR 32: Normalfordelingen (Standard normalfordeling)
Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk.
P(z) normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable
Betegnelsen
følger en normalfordeling. De har en klokkeformet sandsynlighedsfordeling med
gennemsnittet i midten og et ligeligt antal observationer på hver side.
Figur 17: Normalfordelingen
P(z)
.09
.08
.07
.06
.05
z
.04
.03
.02
z
.01
.00
0.001
10.001
20.001
30.001
40.001
For at forstå tanken med normalfordelingen kan vi antage, at vi udtager en stikprøve på 10 æsker
medFor
nødder
og vejer
hver
enkelt
æske. Efterfølgende
vi vi
observationerne
i kategorier
at forstå
tanken
med
normalfordelingen
kan viinddeler
antage, at
udtager en stikprøve
på 10 som
vist i nedenstående.
æsker med nødder og vejer hver enkelt æske. Efterfølgende inddeler vi observationerne i
kategorier som vist i nedenstående.
FIGUR 33: Fordeling af vægten på 10 tilfældigt udvalgte
med
Figur 18: Fordelingæsker
af vægten
pånødder
10 tilfældigt udvalgte æsker med nødder
P(x)
30%
20%
10%
505 - 509
500 - 504
495 - 499
490 - 494
485 - 489
480 - 484
475 - 479
< 475
0%
x (vægtintervaller af æsker målt i gram)
Side | 105
s. 96
Fordelingen er tydeligvis usymmetrisk uden de store fællestræk med den normalfordeling, du lige
er tydeligvis
usymmetrisktiluden
store
fællestræk
normalfordeling
duog
har Fordelingen
set. Men øger
vi stikprøvestørrelsen
barede100
æsker,
vil du med
se enden
langt
mere udglattet
symmetrisk
(normal)
fordeling.
lige har set.
Men øger
vi stikprøvestørrelsen til bare 100 æsker vil du se en langt mere
udglattet og symmetrisk (normal) fordeling.
FIGUR 34:
25%
P(x)
20%
15%
10%
5%
>519
515 - 519
510 - 514
505 - 509
500 - 504
495 - 499
490 - 494
485 - 489
480 - 484
475 - 479
< 475
0%
x (vægtintervaller af æsker målt i gram)
Årsagen til denne transformation er, at vi har fået flere observationer, der dækker et bredere
Årsagen
til denne
transformation
er, at
flereobservationerne
observationer, der
dækker
bredere
spekspektrum
af værdier.
Det betyder
at vi
vihar
kanfået
inddele
i mindre
ogetmere
snævre
trum af værdier. Det betyder at vi kan inddele observationerne i mindre og mere snævre intervaller,
intervaller, som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge
som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge stikprøvestørrelsen vil vores
stikprøvestørrelsen vil vores intervaller blive uendeligt små, hvilket vil få vores fordeling til at
intervaller blive uendeligt små, hvilket vil få vores fordeling til at ligne en glat kurve med gennemligne
en glatog
kurve
med gennemsnittet
i midten
og tilnærmelsesvis
halvdelen
af
snittet
i midten
tilnærmelsesvis
halvdelen
af observationerne
på hver
side af gennemsnittet.
En
variabel
der fordelerpå
sighver
somside
netop
beskrevet er normalfordelt.
observationerne
af gennemsnittet.
En variabel der fordeler sig som netop
normalfordelt.
Det beskrevet
der reeltermenes
med normalfordelte va- FIGUR 35:
riable er, at de har samme egenskaber som
Det der reelt menes med normalfordelte variable er, at de har samme egenskaber
som
95%
standardnormalfordelingen. Standardnormalfor68% model, der ligger
standardnormalfordelingen.
Standardnormalfordelingen
er den matematiske
delingen
er en matematisk model
hvor gennemtil grund
med nødder1-modellen
vi lige har diskuteret. Standardnormalfordelingen baseres
snittet
er 0,for
ogeksemplet
standardafvigelsen
betegnes:
X~N(m
5 0, s 5
1). Standardnormalpå såkaldte
z-værdier,
hvilket
svarer til et antal standardafvigelser fra gennemsnittet, dvs.
fordelingen baseres på såkaldte z-værdier, hvilket
midten af fordelingen. Standardnormalfordelingen kendetegnes ved at have en fast
svarer til et antal standardafvigelser fra gennemm
sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet
og selve
snittet, dvs. midten af fordelingen. Standardnorm1z
arealet af fordelingen
somved
illustreret
malfordelingen
kendetegnes
at havenedenfor.
en fast
m2z
sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet og selve
arealet af fordelingen som illustreret nedenfor.
s. 97
Side | 106
Som vi kan se, er der eksempelvis 68 % sandsynlighed for, at en vilkårlig observation vil ligge i intervallet mellem  1 standardafvigelse fra gennemsnittet, når variablen følger en normalfordeling.
Vender vi tilbage til eksemplet med nødderne, ved du at maskinen gennemsnitligt fylder 505 gram
i æskerne med en standardafvigelse på 15 gram.
Da vægt er en kontinuert variabel, antages variablen at være normalfordelt8, hvilket betyder at
1/2 68 % af vores observationer (æsker) vil ligge i intervallet 490 til 520 gram. Det bliver nu helt
tydeligt, at en væsentlig del af æskerne vil veje mindre end den vægt der er angivet på æskerne.
Hvad er i den forbindelse sandsynligheden for, at en æske højst vejer 500 gram?
Se videoforklaring af normalfordelingen>
Fremgangsmåde med en normalfordeling:
Definition af variabel: X: Vægten på en æske med nødder
Model: N(m 5 505 gram, s 5 15 gram)
Forudsætninger:
a) Indsættes data i et normalfraktildiagram skal de tilnærmelsesvis er omkring en ret linje.
b) Uafhængighed mellem de enkelte observationer.
a) Vælg fordeling
b) Vælg normalfordeling og indsæt værdier
P(X # 500) 5 0,3694
Fortolkning:
Der er således 36,9 % sandsynlighed for, at en æske højst vil veje 500 gram, når gennemsnittet er
505 gram og standardafvigelsen 15 gram. Det betyder således, at omkring en tredjedel af æskerne
vil være underfyldt.
8
Formelt set kan variablen testes for at se om den følger normalfordelingen, se afsnittet om multinomiske test.
s. 98
Opsummering
Vi har nu været inde på fire grundlæggende fordelinger, tre diskrete og en kontinuert.
Binomialfordelingen anvendes når vi har konstant sandsynlighed, dvs. uafhængighed mellem de
enkelte eksperimenter. I eksemplet med Mangodrik var der en konstant sandsynlighed for, at etikettemaskinen lavede en fejl. Der var med andre ord uafhængighed mellem hver enkelt flaske der
passerede etikettemaskinen.
I modsætning til binomialfordelingen, er sandsynligheden ikke konstant ved en hypergeometrisk fordeling. I den hypergeometriske fordeling ændres sandsynligheden for det mærkede element, ved
hvert udtag fra populationen. Dette skyldes at populationen indeholder et eksakt antal mærkede elementer. I eksemplet med lotto var der 4 vinderkugler (mærkede elementer) ud af i alt 12 kugler (population). Hver gang en kugle udtages fra populationen (alle lottokuglerne), ændres sandsynligheden
for at udtage de resterende vinderkugler, da der efter hver udtrækning er en kugle mindre tilbage.
Poissonfordelingen baseres ligesom de to foregående fordelinger på en diskret variabel. I modsætning
til binomialfordelingen, hvor vi har et fast antal eksperimenter, så mangler denne information for en
variabel der følger poissonfordelingen. I tilfældet med chokoladebagels ved vi ikke præcist hvor mange
bagels der er i en pose, og derfor tager vi udgangspunkt i et gennemsnitligt antal defekte bagels pr. pose.
Normalfordelingen anvendes når vi arbejder med kontinuerte variable. I eksemplet med nødderne
er variablen kontinuert, da vægt er en målbar enhed, der kan angives med et uendeligt antal decimaler. Som vi var inde på, er alle normalfordelte variabler baserede på standardnormalfordelingen,
som bygger på en fast sammenhæng mellem antallet af standardafvigelser fra gennemsnittet og
arealet af fordelingen. Antallet af standardafvigelser fra gennemsnittet udtrykkes i standardnormalfordelingen med z-værdier.
Fordelingsøvelser
De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af de forskellige fordelinger. Efterfølgende er opgaverne rettet mod beregninger hvor
Statlearn programmet anvendes.
1. Hvorfor anvendes sandsynlighedsfordelinger i det hele taget?
2. Hvordan vil du fortolke forskellen på en diskret og en kontinuert sandsynlighedsfordeling?
3. Hvordan vil du forklare forskellen på en binomial- og en hypergeometrisk variabel?
4. I hvilken sammenhænge anvendes poissonfordelingen?
5. I både poisson og normalfordelingen indgår et gennemsnit til at beregne sandsynligheder.
Hvordan ved du om du skal anvende en poissonfordeling i stedet for en normalfordelingen?
s. 99
Beregningsøvelser
Opgave 1.
De tre nedenstående spørgsmål er en øvelse i at finde de eksakte fordelinger. Du skal kun tage stilling til hvilken fordeling variablen følger og derfor ikke beregne sandsynligheder. Til alle tre spørgsmål er det vigtigt, at du forsøger at definere variablen (X) og opstiller den korrekte notation for de
forskellige fordelinger.
Spørgsmål 1.Til det årlige møde i FN er topembedsmænd samlet fra alle nationer. Hvad er sandsynligheden for, at en stikprøve med 10 embedsmænd indeholder tre fra Afrika.
Spørgsmål 2.På en bestemt strækning ved Lyngby motorvej, er der en given sandsynlighed for
en ulykke. Hvad er chancen for, at der sker 4 ulykker når 2000 biler er kørt forbi
strækningen?
Spørgsmål 3.En ejendomsmægler ved, at der gennemsnitligt sælges 10 sommerhuse pr. måned i sommerhalvåret – hvad er sandsynligheden for at der sælges 30 sommerhuse på 2 måneder i sommerhalvåret?
Opgave 2.
Antag at studerende på Niels Brock med 40 % sandsynlighed kommer direkte fra gymnasiet, og at
der udtages en stikprøve på 100 studerende.
Spørgsmål 1. Hvilken fordeling følger vores variabel? (Uddyb)
Spørgsmål 2.Hvad er sandsynligheden for, at stikprøven indeholder mere end 40 og højst 70
studerende, der kommer direkte fra gymnasiet?
Opgave 3.
En gruppe rejsende ankommer til Barbados i to forskellige fly, A og B. Gruppen er i alt på 100 turister, hvoraf 30 rejser med fly A. Du er som rejseleder blevet informeret, at der blandt de 100 kufferter er mistet 5, og skal nu meddele det til gruppe A som lige er landet.
Inden du taler med gruppe A ønsker du at kende sandsynligheden for, at der overhovedet er mistede kufferter blandt denne gruppe?
Spørgsmål 1. Definer fordeling og uddyb valg.
Spørgsmål 2.Hvad er sandsynligheden for at gruppe A ingen mistede kufferter har? (Husk at
definere variabel)
Spørgsmål 3.Hvad er sandsynligheden for, at kun én person har mistet en kuffert i gruppe B?
(Husk at definere variabel)
s. 100
Opgave 4.
En læge skal bestille en ny sending Epo9 til patienter med svækket iltoptagelse. Lægen ved, at der er
100 patienter der til dagligt skal have 10 ml Epo, og at lægemidlet virker i 90 % af tilfældene. For de
resterende 10 % skal patienterne have dobbeltdosis for at medikamentet virker. Ved dobbeltdosis
antages Epo at virke med 100 % sandsynlighed.
Spørgsmål 1.Hvad er sandsynligheden for, at Epo en given dag virker for mindre end 83 patienter ved en enkelt dosis?
Spørgsmål 2.Hvad er sandsynligheden for at mindst 9 og højst 12 patienter skal have dobbeltdosis en given dag?
Spørgsmål 3.Hvad er sandsynligheden for, at der er mindre end 65 patienter, der skal have
dobbeltdosis på en uge (7 dage)?
Spørgsmål 4. Hvor mange liter Epo må lægen forvente, at der bruges på en hel uge?
Opgave 5.
En børsmægler har igennem længere tid fulgt Nokias aktiekurs. Hun har observeret, at aktien i
gennemsnit stiger 5 % med en standard afvigelse på 1,3 %, når virksomheden i kvartalsregnskaberne øger indtjeningen udover det forventede.
Antag at det kommende kvartalsregnskab bliver bedre end forventet.
Hvad er da sandsynligheden for, at kursen stiger med mindst 6,5 %?
Opgave 6.
Salgsdirektøren for BMW Odense forventer, at der i sommerhalvåret gennemsnitligt sælges 30
biler pr. måned.
Spørgsmål 1.For at tilpasse lageret ønsker logistiklederen at du beregner sandsynligheden for,
at der sælges mellem 30 og 40 biler i juni måned?
Spørgsmål 2. Hvad er sandsynligheden for, at der i sommerhalvåret sælges over 200 biler?
Epo (el. Erythroprotein) er et hormon, som naturligt produceres i nyrerne for at stimulere knoglemarven til produktion af røde blodlegemer, der er nødvendige til transport af ilt til musklerne.
9
s. 101
Opgave 7.
Vi antager at de små Coca-Cola flasker på 15 ml, der serveres på fly har en gennemsnitlig fyldhøjde
på 10 cm og en standardafvigelse på 1 cm. Hvis fyldehøjden er under 8,2 cm er flasken underfyldt,
og hvis den er over 11,5 cm er den tilsvarende overfyldt.
Spørgsmål 1.Hvad er sandsynligheden for, at en flaske er overfyldt? Illustrer området med en
normalfordeling.
Spørgsmål 2.Hvad er sandsynligheden for, at en flaske enten vil være over- eller underfyldt?
Illustrer som i spørgsmål 1.
Spørgsmål 3.Hvis en kasse indeholder 30 Coca-Cola flasker, hvad er så sandsynligheden for, at
den gennemsnitlige fyldehøjde for en hel kasse er større end 8,2 cm?
Spørgsmål 4.Hvis vi har en z-værdi på 3, hvad svarer det så til i fyldehøjde for en enkelt flaske?
Hvad er fyldehøjden hvis z-værdien er – 1?
Opgave 8.
Antag antallet af klager der hver måned modtages i Nordeas kundeservice, følger en poissonfordeling med et gennemsnit på 255.
Spørgsmål 1. Hvad er sandsynligheden for at Nordea:
a) En given måned modtager mere end 300 klager?
b) I løbet af 3 måneder maksimalt modtager 750 klager?
c) I løbet af 1 dag ingen klager modtager (forudsat 23 arbejdsdage/måned)?
Spørgsmål 2.Hvad er sandsynligheden for, at Nordea i to sammenhængende måneder præcist
modtager 255 klager i hver måned? Der forudsættes uafhængighed mellem antallet af de månedlige klager.
(Tip: Fællesmængden)
s. 102
Løsninger til sandsynlighedsfordelinger
I det følgende fremgår løsninger til øvelserne for sandsynlighedsfordelinger. Det skal nævnes, at
løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses så den indeholder alle de oplysninger der fremgår
ved beregninger foretaget med Statlearn program statistikprogrammet.
1. Fordelinger anvendes for at beregne sandsynligheder på en effektiv måde. Styrken ved fordelinger ligger i akkumulation af sandsynligheder. Uden fordelinger ville det være nødvendigt
at beregne sandsynligheder manuelt for hver enkelt værdi af den stokastiske variabel.
Eksempelvis skulle sandsynligheden: P(X # 3) beregnes ved at summere sandsynlighederne
for fire separate beregninger: P(X 5 0) 1 P(X 5 1) 1 P(X 5 2) 1 P(X 5 3). Med en sandsynlighedsfordeling kan aflæses direkte i fordelingen, derved udgås tidskrævende beregninger.
2. En diskret variabel kan opgøres i hele enheder, eksempelvis et hus eller en bil. Kontinuerte
variable kan ikke på samme vis afgrænses til hele enheder. Kontinuerte variable kendetegnes ved at være størrelser, der ikke kan måles helt eksakt. Værdien af en kontinuert variabel
kan tilføjes et uendeligt antal decimaler - eksempler herpå er temperatur, hastighed og tid.
3. Binomiale variable kendetegnes ved konstant sandsynlighed for hvert udfald af et eksperiment. Kastes en terning er sandsynligheden for et bestemt udfald 1/6. Uanset hvor mange
gange terningen kastes, forbliver sandsynligheden 1/6 for et bestemt udfald – deraf konstant sandsynlighed.
Med en hypergeometrisk variabel forholder det sig omvendt. I forbindelse med Lotto (36
kugler) er der ved første udtag en sandsynlighed på 1/36 for at udtage en bestemt kugle.
Efter hvert udtag ændres sandsynligheden, da der er færre kugler tilbage.
4. Poissonfordelingen anvendes i forbindelse med diskrete variable, hvor hændelserne indtræffer uafhængigt af hinanden i et bestemt tidsinterval.
5. Poissonfordelingen baseres på en diskret variabel, hvorimod normalfordelingen baseres på
en kontinuert variabel.
s. 103
Beregningsøvelser
Opgave 1.
Spørgsmål 1.
X: Antal FN embedsmand fra Afrika.
X ~ h(N 5 alle FN embedsmænd, m 5 FN embedsmænd fra Afrika, n 5 10)
P(X 5 3)
Forudsætninger:
a) Diskret variabel
b) n elementer udtages fra en endelig population (N)
c) Ikke konstant sandsynlighed, dvs. afhængighed mellem de enkelte eksperimenter
d) Hvert element kan defineres som mærket eller ikke-mærket (Afrika, ikke-Afrika)
Spørgsmål 2.
X: Antal ulykker ved Lyngby motorvej
X ~ b(p, n)
P(X 5 4)
Forudsætninger:
a) Diskret variabel
b) n elementer observeres
c) Konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter (en bil)
d) Hvert element kan defineres som mærket eller ikke-mærket (ulykke, ikke-ulykke)
Spørgsmål 3.
X: Antal solgte sommerhuse pr. måned i sommerhalvåret.
X ~ Ps(l 5 20)
P(X 5 30)
Forudsætninger:
a) Diskret variabel
b) Antal af forekomster af mærkede elementer observeres over en periode (solgte sommerhuse)
c) Elementerne indtræffer uafhængigt af hinanden
d) Konstant sandsynlighed for forekomst af et mærket element
s. 104
Opgave 2.
Spørgsmål 1.
X: Antal Niels Brock studerende der kommer direkte fra gymnasiet
~ b(p 5 0,4 n 5 100) da der er konstant sandsynlighed for, at en elev kommer
X
direkte fra gymnasiet
Spørgsmål 2.
P(41 # X # 70) 5 0,456706
Opgave 3.
Spørgsmål 1.
X ~ h(N 5 100 m 5 5 “n” kendes endnu ikke)
en hypergeometriske fordeling vælges, da sandsynligheden for en mistet kuffert ændres
D
hver gang en turist udvælges. Der er således ikke tale om konstant sandsynlighed for en mistet
kuffert.
Spørgsmål 2.
X: Antal turister med mistet kuffert fra gruppe A
X ~ h(N 5 100 m 5 5 n 5 30)
P(X 5 0) 5 0,160757
Spørgsmål 3.
Y: Antal turister med mistet kuffert fra gruppe B
Y ~ h(N 5 100, m 5 5, n 5 70)
P(Y 5 1) 5 0,02548
Opgave 4.
Spørgsmål 1.
X: Antal patienter som kun skal have en enkelt dosis Epo
X ~ b(p 5 0,9 n 5 100) da variablen er diskret, og der er uafhængighed mellem
patienter der skal have Epo
P(X # 82) 5 0,010007
s. 105
Spørgsmål 2.
Y: Antal patienter som skal have en dobbeltdosis Epo
Y ~ b(p 5 0,1 n 5 100)
P(9 # X # 12) 5 0,4809
Spørgsmål 3.
Y: Antal patienter som skal have en dobbeltdosis Epo på en uge (7 dage)
Y ~ b(p 5 0,1 n 5 700) P(X # 64) 5 0,246935
Spørgsmål 4.
X: Enkelt dosis Epo (10 ml)
Y: Dobbeltdosis Epo (20 ml)
E(X) 5 n  p 5 700  0,9 5 630 → 10 ml  630 5 6300 ml
E(Y) 5 n  p 5 700  0,1 5 70 → 20 ml  70 5 1400 ml
E(X) 1 E(Y) 5 6300 1 1400 5 7700 ml 5 7,7 l
Opgave 5.
X: Nokias aktiekurs når virksomheden i kvartalsregnskaberne øger indtjeningen
udover det forventede
X ~ N(m 5 0,05 s 5 0,013)
Normalfordelingen vælges da aktiekursen er en kontinuert variabel
P(X $ 0,065) 5 0,124282
Opgave 6.
Spørgsmål 1.
X: Antal biler der sælges pr. måned i sommerhalvåret (6 måneder)
X ~ Ps(l 5 30)
P(30 # X # 40) 5 0,491973
Spørgsmål 2.
X: Antal biler der sælges i sommerhalvåret
X ~ Ps(l 5 180)
P(X $ 201) 5 0,065206
s. 106
Opgave 7.
Spørgsmål 1.
X: fyldehøjden på en enkelt flaske (i cm)
X ~ N(m 5 10 , s 5 1) da højde er en kontinuert variabel.
P(X $ 11,5) 5 0,0668
Spørgsmål 2.
P(X # 8,2) 1 P(X $ 11,5) 5 0,0359 1 0,0668 5 0,1027
Spørgsmål 3.
X: Gennemsnitlig fyldehøjde for en kasse med 30 flasker.
1
X ~ N(m 5 10, sx 5
5 0,183)
√ 30
P(X $ 8,2) ≈ 1 dvs. 100 %
Spørgsmål 4.
Når den gennemsnitlige fyldehøjde er 10 cm og standardafvigelsen er 1 cm, så svarer en z-værdi på 3 til en fyldehøjde på 13 cm og en z-værdi på -1 til en fyldehøjde 9 cm. Z-værdier svarer
til antallet af standardafvigelser fra centrum af fordelingen (gennemsnittet).
Opgave 8.
Spørgsmål 1.
a) P(X $ 301) 5 0,002714
b) P(X # 750) 5 0,301576
c) P(X 50) 5 0,000017 der tages udgangspunkt i et gennemsnit på 11 (255/23)
Spørgsmål 2.
P(255 klager måned 1 ∩ 255 klager måned 2) 5 0,024975  0,024975 5 0,000624
s. 107
Appendiks 1: Approksimationsregler
For at approksimere er der nogle forudsætninger, der skal være opfyldt:
Fra hypergeometrisk til normalfordelingen:
n  p̂ (1 2 p̂) 
N2n
. 9 er opfyldt → Approksimation ok
N2n
Fra binomial til normalfordelingen:
n  p̂ (1 2 p̂) ? 9 er opfyldt → Approksimation ok
Fra poisson til normalfordelingen:
ˆ . 9 er opfyldt → Approksimation ok
nl
dføres konfidensintervallet med Statlearn program udføres automatisk en kontrol af om approkU
simationsbetingelserne er opfyldt.
s. 108
KAPITEL 6
KONFIDENSINTERVALLER
Statlearn.com
KAPITEL
6
Konfidensintervaller
A
ntag at du op til det amerikanske præsidentvalg i 2008 var kampagnerådgiver for Barack
Obama og disponerede over et astronomisk kampagnebudget. For at udnytte budgettet
maksimalt er din opgave at identificere de stater, hvor der er størst potentiale for at hente stemmer.
I den forbindelse udtages en stikprøve i Texas, der viser at 63 % vil stemme på Obama. Du ved, at
stikprøver ikke er helt pålidelige, så inden du åbner champagnen, vælger du for en sikkerheds skyld
at foretage en ny stikprøveundersøgelse. Denne gang viser andelen i stikprøven, at opbakningen
kun er på 48 %!
Hvilket estimat kan du stole på? Hvordan kan du med sikkerhed vide, om det er fornuftigt at bruge
af kampagnereserverne i Texas, når det ene estimat indikerer at Obama vil vinde, og det andet indikerer det modsatte? De spørgsmål kan et konfidensinterval hjælpe med at besvare.
Et konfidensinterval er et interval som rummer et populationsparameter, eksempelvis en populationsandel med en given sandsynlighed. Resultat af et konfindensinterval kunne lyde:
“Andelen af alle amerikanere der stemmer på Obama ligger mellem 51 – 57 % med en sandsynlighed på 95 %”
I det indledende kapitel om beskrivende statistik var vi inde på forskellen mellem punktestimater
og populationsparametre. Populationsparametre anvendes når vi arbejder med populationsdata,
når alle data for vores population er til rådighed.
Som regel er det yderst tids- og ressourcekrævende at indsamle data for en hel population, og derfor anvendes der i stedet stikprøver. Formålet med stikprøver er at skabe et retvisende billede af
hele populationen ud fra et (lille) udsnit af populationen.
TABEL 58:
Betegnelse
Punktestimat
Gennemsnit
m
x
Standardafvigelsen
s
s
Varians
s2
s2
Andel
p
p̂
Intensitet (obs. i en periode)
l
ˆ
l
Videolektioner >
s. 110
Punktestimater er baseret på en stikprøve og skal opfattes som et estimat eller en tilnærmelse
af det tilsvarende populationsparameter. Da et punktestimat er baseret på en stikprøve, må vi
forvente, at det afviger en smule fra det givne populationsparameter – spørgsmålet er blot hvor
meget estimatet afviger.
Hvis vi eksempelvis ønsker at undersøge den gennemsnitlige husstandsindkomst i Danmark og i
den forbindelse udtager en stikprøve på 100 personer (n), er det intuitivt, at punktestimatet for
den gennemsnitlige indkomst (x) ikke vil være helt identisk med den sande gennemsnitlige indkomst (m), dvs. det sande gennemsnit vi havde fået, hvis hele populationen af danske husstande
(N) var blevet adspurgt.
På den baggrund kan vi ræsonnere os frem til, at et punktestimat rummer en vis usikkerhed, og at
punktestimatets nøjagtighed afhænger af stikprøvens størrelse.
“Jo større stikprøve desto mere vil stikprøven ligne populationen, og jo mere præcist vil punktestimatet derfor være.”
Lad os tage et simpelt eksempel. Antag at du kaster en mønt 5 gange og kun observerer et enkelt
udfald af krone.
Baseret på denne stikprøve er punktestimatet for andelen af krone (pˆ) kun 20 % til trods for at populationsandelen (p) er 50 %10.
Den store afvigelse mellem punktestimatet og populationsandelen kan tilskrives, at stikprøvens
størrelse er relativt lille. Øges stikprøvestørrelsen fra 5 til 1000 møntkast vil du se, at andelen af plat
og krone tilnærmelses bliver 50 % hver.
Nu hvor vi har ræsonneret at stikprøvestørrelsen har en afgørende betydning for præcisionen af
punktestimatet, dukker et nyt problem op. Selvom vi ved, at et punktestimat baseret på 1000
observationer er mere nøjagtigt end et på 10, ved vi ikke hvor meget mere nøjagtigt det vil være.
Uanset stikprøvens størrelse ved vi således ikke hvor tæt punktestimatet er på det givne populationsparameter.
Et konfidensinterval kompenserer for denne problemstilling. Med et konfidensinterval kan vi beregne et interval, der indkredser hvor det sande populationsparameter med en vis sandsynlighed
vil ligge.
Definition: “Et konfidensinterval er et intervalestimat der rummer
et populationsparameter med en given sandsynlighed”
Sandsynligheden for plat og krone betegnes en a priori sandsynlighed, dvs. en sandsynlighed hvor vi på forhånd (a
priori) kan beregne den eksakte sandsynlighed for plat og krone.
10
s. 111
Konfidensintervaller som koncept
Lad os se nærmere på konceptet for et konfidensinterval. Hvis du forestiller dig en bilfabrik der kun
har fremstillet 10 biler (N 5 10). Alle 10 biler er blevet testet for, hvor langt de kan køre på en 1 liter
benzin, og resultatet kan du se i nedenstående.
TABEL 59:
Obs (Bil)
Km/l
1
2
3
4
5
6
7
8
9
10
11
13
9
9
10
15
7
13
15
9
Parametre
11,10
2,77
10
m
s
N
Gennemsnitsforbruget er således 11,10 km/l med en standardafvigelse på 2,77. Bemærk at notationen for populationsparametrene anvendes, da data omfatter hele populationen bestående af 10 biler.
Lad os nu antage at vi udtager stikprøver på 3 biler (n 5 3). Hvis vi tog alle kombinationsmuligheder af 3 biler ud af populationen på 10, ville vi få 12011 forskellige stikprøver og et tilsvarende antal
forskellige punktestimater af gennemsnittet. For at danne os et overblik over de mange forskellige
værdier af punktestimater, kan vi illustrere dem i en frekvensfordeling.
FIGUR 36:
F(x)
NB: Bemærk at her er tale om
en fordeling af punktestimater
(x) og ikke af enkeltstående
observationer (x).
40
35
30
25
20
15
10
5
x (af n 5 3)
0
< 10
+10 - 11 +11 - 12 +12 - 13
13 <
Ud fra fordelingen af punktestimater kan vi se at en drastisk forskel på de største og mindste
Til beregning
af antal
excelfunktionen:
“5kombin(10;3)”
værdier.
Til trods
forkombinationer
at vi tidligereanvendes
beregnede
populationsgennemsnittet
11
til 11,1 km/l kan
vores punktestimater af gennemsnittet baseret på 3 observationer variere fra omkring 9 til
14,33 km/l!
En anden og meget vigtig observation er, at fordelingen af punktestimaterne ser ud til følge en
normalfordeling, dvs. en symmetrisk og klokkeformet fordeling.
s. 112
25
20
15
10
5
0
< 10
+10 - 11 +11 - 12 +12 - 13
13 <
Ud fra fordelingen af punktestimater kan vi se at en drastisk forskel på de største og mindste
Ud fra fordelingen
af punktestimater
kan viberegnede
se en drastisk
forskel på de største ogtil
mindste
værdier.
værdier. Til
trods for at vi tidligere
populationsgennemsnittet
11,1 km/l
kan
Til trods for at vi tidligere beregnede populationsgennemsnittet (m) til 11,1 km/l, kan vores punktevores punktestimater af gennemsnittet baseret på 3 observationer variere fra omkring 9 til
stimater af gennemsnittet baseret på 3 observationer variere fra omkring 10 til 14,33 km/13!
14,33 km/l!
En anden og meget vigtig observation er, at fordelingen af punktestimaterne ser ud til følge en
En anden
ogen
meget
vigtig observation
er, at fordelingen
af punktestimaterne ser ud til følge en
normalfordeling,
dvs.
symmetrisk
og klokkeformet
fordeling.
normalfordeling, dvs. en symmetrisk og klokkeformet fordeling.
FIGUR 37:
40
35
30
25
20
15
10
5
0
< 10
+10 - 11 +11 - 12 +12 - 13
13 <
En vigtig
pointe
er at punktestimater
for andele
og gennemsnit,
uagtet
variablens
oprindeligeforEn vigtig pointe
er at
punktestimater
for andele
og gennemsnit,
uagtet
variablens
oprindelige
fordeling,
følger normalfordelingen
når stikprøven
er stor,
hvilket
i den sammenhæng
deling, følger
normalfordelingen
når stikprøven
er stor, hvilket
i den
sammenhæng
betyderbetyder
mindst
30 observationer.
mindst 30 observationer.
Den centrale grænseværdisætning
Den centrale
grænseværdisætning
Udtager man en stor stikprøve (n < 30) fra en population med en vilkårlig fordeling, vil
Udtager man en stor stikprøve (n . 30) fra en population med en vilkårlig fordeling, vil fordelingen
fordelingen af punktestimaterne (for stikprøvegennemsnit og -andele) tilnærmelsesvis være
af punktestimaterne (for stikprøvegennemsnit og -andele) tilnærmelsesvis være normalfordelte. Det
normalfordelte.
Det interessante
denne
sætning
er, at lige
om fordelingenobservation
for den
interessante
ved denne sætning
er, at ligeved
meget
om
fordelingen
for meget
den enkeltstående
enkeltstående
observation
er højre- eller
venstreskæv,
så vil fordelingen
af dennes Dette har
er højre- eller
venstreskæv,
så vil fordelingen
af dennes
punktestimat
være normalfordelt.
en helt central betydning
FIGUR 38: Højre- og venstreskæve fordelinger
for anvendelsen af hypotesetest ogAfkonfidensintervalStephan Skovlund (Copyright)
Sidepr.| 123
Fordelingen af indkomsten
ler, som primært baseres på
indbygger i Hollywood
normalfordelingen.
(enkeltstående observation)
Lad os tage et eksempel
med indkomsten i Hollywood som sandsynligvis
er højreskæv, dvs. at mange har en middelmådige
indkomst og få har (meget)
høje indkomster.
x
Fordelingen af den
gennemsnitlige indkomst
(punktestimat) i Hollywood
x
s. 113
Som det fremgår af den ovenstående figur, er fordelingen af punktestimater normalfordelt, til trods
for at indkomsten pr. indbygger i Hollywood følger en højreskæv fordeling. Det forhold vil jævnfør
den centrale grænseværdisætning altid gøre sig gældende for fordelinger af punktestimater for
andele og gennemsnit, så længe de er baseret på stikprøver, som er større end 30 observationer.
Vi opsummerer kort de grundlæggende aspekter af konfidensintervaller:
a. Punktestimater beregnes på baggrund af stikprøver, som blot er et udsnit af en population.
Da et punktestimat ikke er beregnet på baggrund af alle populationens elementer, kan der
være stor forskel på værdien af et punktestimat, og værdien af det populationsparameter
der søges.
b. For at imødekomme usikkerheden ved et punktestimat, kan man beregne et konfidensinterval. Et konfidensinterval vil rumme det givne populationsparameter med en vis sandsynlighed.
c. Konfidensintervaller baseres på normalfordelingen12. Fordelingen af punktestimater for andele og gennemsnit følger jf. den centrale grænseværdisætning altid normalfordelingen når
stikprøven overstiger 30 observationer.
Normalfordelingens rolle
Nu hvor vi har opridset det grundlæggende koncept for konfidensintervaller, kan vi fortsætte med
et mindre konstrueret eksempel. Antag at du op til præsidentvalget i 2008 havde udtaget en stikprøve på 100 tilfældige amerikanere, hvoraf de 52 ville stemme på Obama (pˆ 5 0,52).
Nu ønsker du at vide, hvor præcist punktestimatet (pˆ) er i forhold til den sande andel (p), den andel
du havde fået hvis du havde adspurgt samtlige 200 millioner amerikanske vælgere.
Fra den centrale grænseværdisætning fremgik
det at punktestimater følger en normalfordeling. Som nævnt er normalfordelingen praktisk
i den forstand, at der er en fast sammenhæng
mellem antallet af standardafvigelser fra gennemsnittet og arealet af normalfordelingen.
FIGUR 39: Standardafvigelser og gennemsnit
i normalfordelingen.
95%
68%
m
m1?z
m2?z
12
Med undtagelse af konfidensintervaller for standardafvigelsen som baseres på x2- fordelingen
s. 114
Denne sammenhæng er selve hjørnestenen
i et konfidensinterval. Er vi eksempelvis 2
standardafvigelser på hver side af gennemsnittet dækkes 95 % af fordelingen, som det
fremgår af ovenstående figur.
Det må nødvendigvis betyde, at et vilkårligt punktestimat som fratrækkes og adderes med 2 standardafvigelser, resulterer i et
interval som krydser midten af fordelingen
med 95 % sandsynlighed.
FIGUR 40: Punktestimater der fratrækkes og
adderes 2 standardafvigelser.
X
m
X
X
X
Da midten af fordelingen repræsenterer populationsgennemsnittet (m) betyder det, at
vi har skabt et interval som med 95 % sandsynlighed rummer populationsgennemsnittet - således
har vi skabt et konfidensinterval.
Essensen af et konfidensinterval er at fratrække og addere et antal standardafvigelser fra punktestimatet, og dermed skabe et interval hvori populationsparameteret vil ligge med en given sandsynlighed.
Betydningen af konfidensniveauet
Konfidensniveauet kan opfattes som sandsynligheden eller sikkerheden for, at vores interval indeholder det givne populationsparameter. Jo højere konfidensniveau desto mere sikkert er det, at
intervallet indeholder populationsparameteret. Men vær opmærksom på at konfidensniveau og
bredden af selve konfidensintervallet er sammenhængende kræfter.
FIGUR 41: Standardnormalfordelingen
95%
80%
Nb: Eksemplet som bygger på z-fordelingen
forudsætter kendt populationsvarians, dvs.
at variansen er beregnet på baggrund af
data for hele populationen.
Er variansen ikke kendt anvendes i stedet
t-fordelingen, som er en tilnærmelse til
z-fordelingen.
m
m  1,28 ? Z
m  1,96 ? Z
s. 115
Som regel anvendes altid et 95 % konfidensniveau, men det står dig frit for at anvende andre
niveauer. Du skal blot være opmærksom på, at bredden af konfidensintervallet øges i takt med
konfidensniveauet. Jo højere konfidensniveau desto bredere og mere unøjagtigt bliver konfidensintervallet.
Sammenhængen mellem konfidensniveau og konfidensintervallets bredde kan illustreres med følgende eksempel. En meteorolog kan med 100 % sikkerhed estimere at temperaturen Sankt Hans
aften kommer til at ligge mellem - 100 og 100 grader. Alternativt kan meteorologen tilsvarende estimere, at temperaturen Sankt Hans aften med 80 % sandsynlighed vil ligge mellem 16 og 23 grader.
Trods det sidste interval har et lavere konfidensniveau og dermed er mindre sikkert, er det langt
mere nøjagtigt og anvendeligt.
Konfidensintervallets grundelementer
Indtil videre har vi diskuterer konceptet for konfidensintervaller. I dette afsnit redegøres for selve
opbygningen af konfidensintervallet.
Der findes forskellige typer af konfidensintervaller, men helt grundlæggende er fundamentet det
samme:
TABEL 60:
Punktestimat  konfidensniveau∙standardafvigelsen 13
Punktestimatet og dennes standardafvigelse er baseret på stikprøven og er således faste værdier.
Konfidensniveauet kan vi justere som tidligere illustreret.
Hvad angår standardafvigelsen, er det vigtigt at notere, at vi her ikke taler om standardafvigelse for
den enkeltstående observation, men om standardafvigelsen for selve punktestimatet.
EKSEMPEL
Antag at du ønskede at finde gennemsnitsalderen i din klasse. Du indhenter oplysninger om alderen for alle dine medstuderende og beregner efterfølgende gennemsnit og standardafvigelse. I
dette eksempel defineres variablen som “alderen for den enkelte elev i din klasse”.
Du ønsker nu at udvide undersøgelsen for at finde gennemsnitsalderen for hele skolen. Med flere
hundrede studerende er det for tidskrævende at indhente oplysninger fra alle eleverne. I stedet
udtager du 10 tilfældige stikprøver med 20 elever i hver og beregner herefter gennemsnitsalderen
for hver stikprøve.
13
Med standardafvigelsen forstås standardafvigelsen af punktestimatet
s. 116
I denne sammenhæng er vores observation ikke længere alderen på en enkelt studerende, men
den gennemsnitlige alder for en hel stikprøve på 20 studerende. Standardafvigelsen skal i overensstemmelse hermed beregnes for punktestimatet (de 20 elever) og ikke den enkeltstående observation (en enkelt elev).
Standardafvigelse for et punktestimat påvirkes af stikprøvestørrelsen, jo større stikprøvestørrelse
desto mindre vil standardafvigelsen for punktestimatet være.
Sammenhængen mellem stikprøvestørrelsen og standardafvigelsen kan illustreres relativt simpelt.
Kastes en terning et uendeligt antal gange vil gennemsnittet af summen af terningøjne blive 3,5 (m).
Lad os nu antage at vi i stedet kaster en terning to gange og får to 1’ere og efterfølgende får to 6’ere.
Gennemsnittet for begge forsøg er henholdsvis 1 og 6.
Øger vi stikprøvestørrelsen til eksempelvis 1000 terningkast, vil det være usandsynligt at få 1000
identiske resultater. I stedet må vi forvente en mere jævn spredning af høje og lave resultater, som
trækker gennemsnittet ind mod midten (m 5 3,5). Udføres flere eksperimente med 1000 terningkast, vil de respektive gennemsnit således afvige langt mindre end et tilsvarende eksperiment, hvor
kun to terninger kastes.
FIGUR 42:
1
X
X
1
X X X
6
Gennemsnit af 3 eksperimenter,
hvor en terning kastes 2 gange i
hvert eksperiment.
6
Gennemsnit af 3 eksperimenter,
hvor en terning kastes 1000 gange
gange i hvert eksperiment.
X
Beregning af standardafvigelsen for punktestimatet i forbindelse med konfidensintervaller forgår
automatisk, når du anvender Statlearn program. I afsnit 0 ses formlerne konfidensintervaller.
Opsummering
Punktestimater beregnes på baggrund af stikprøver og rummer dermed en vis usikkerhed. Stikprøvestørrelsen har betydning for denne usikkerhed. Jo større stikprøve desto mere nøjagtigt bliver
punktestimatet. Til trods for at punktestimater kan blive relativt nøjagtige, kan vi aldrig vide præcist
hvor tæt estimatet ligger på det estimerede populationsparameter. Det er i den forbindelse, at et
konfidensinterval bliver anvendeligt.
Et konfidensinterval er et intervalestimat, der rummer den sande værdi af et populationsparameter med en vis sandsynlighed. Med et konfidensinterval kan vi således kvantificere præcisionen af
et punktestimat.
s. 117
Et konfidensinterval beregnes på baggrund af tre elementer:
Punktestimat  konfidensniveau∙standardafvigelsen
Bredden af konfidensinterval afgøres af standardafvigelsen og konfidensniveauet.
Hvor standardafvigelsen er en værdi beregnet ud fra stikprøven, kan konfidensniveauet justeres alt
afhængig af den sandsynlighed man ønsker for, at intervallet skal rumme populationsparameteret.
Når konfidensniveauet øges, bliver konfidensintervallet bredere, og hermed øges sandsynligheden
for at intervallet rummer det givne populationsparameter. Ulempen ved at øge konfidensniveauet
er således, at intervallet bliver mere bredt og dermed unøjagtigt.
Bestemmelse af stikprøvestørrelse såfremt en
specifik bredde af konfidensinterval er angivet
I forbindelse med afsnittet om konfidensintervallets grundelementer fremgik det, at bredden af
intervallet påvirkes af henholdsvis konfidensniveau og standardafvigelsen af punktestimatet. Som
vi tidligere var inde på, påvirkes standardafvigelsen for punktestimatet af stikprøvestørrelsen (n).
Når stikprøvestørrelsen påvirker standardafvigelsen, betyder det nødvendigvis at bredden af konfidensintervallet også påvirkes. Jævnfør nedenstående kan bredden af et konfidensinterval beregnes
ud fra stikprøvestørrelsen.
TABEL 61: Beregning af interval bredde
Kriterium
Formel
n$
Populationens
størrelse er ukendt
(Z
Forudsætning
2
12a/2
? s)2
2
L0
Ved kendskab til s
2
n$
Z12a/2 ? p(1 2 p)
2
L0
Ved kendskab til p
2
n$
n$
Populationens
størrelse er kendt
n$
n$
Z12a/2 ? 0,25
2
L0
s2
(L0/Z12 a2 )2 1 s2/N
p(1 2 p)
(L0/Z12 a2 )2 1 p(1 2 p)/N
0,25
(L0/Z12 a2 )2 1 0,25/N
p kendes ikke
Ved kendskab til s
Ved kendskab til p
p kendes ikke
s. 118
Hvor Z–værdien tolkes som det antal standardafvigelser, der svarer til konfidensniveauet, og L0 er
konfidensintervallets margin.
a (alfa) er sandsynligheden for fejl. Ved et 95 % konfidensniveau er a 5 5%.
EKSEMPEL: Bestemmelse af stikprøvestørrelsen for andel.
En forsker hos Novo Nordisk ønsker at beregne et 95 % konfidensinterval for andelen af bivirkninger ved et nyt insulinpræparat. Der stilles det særlige krav, at intervallet maksimalt må have en
bredde på 0,04 (dvs. at afstanden mellem den nedre og øvre grænse af intervallet maksimalt må
være 0,04). Hvor stor skal stikprøven være, for at imødekomme kravet til intervallets bredde?
Løsning beregnet med formel uden kendskab til p:
n$
2
Z12a/2
? 0,25 1,962 ? 0,25
5
5 601 (husk at runde op)
L20
0,042
Løsning beregnet med formel ved kendskab til p (estimeres til 0,5):
n$
2
Z12a/2
? p(1 2 p)
1,962 ? 0,5 (1 2 0,5)
5
5 601 (husk at runde op)
L20
0,042
NB: Størrelsen af stikprøven kan beregnes med Statlearn programmet.
Fremgangsmåde til beregning af
konfidensintervaller
En generel fremgangsmåde til at beregne konfidensintervaller skitseres i nedenstående. Efterfølgende diskuteres de enkelte punkter hver for sig.
1. Definition af variabel
2. Angiv model
3. Opstil data i form af punktestimater og stikprøve
4. Forudsætninger, herunder evt. approksimation
5. Angiv formel for interval
6. Beregning
7. Fortolkning
NB: Konfidensintervaller som beregnes med Statlearn program følger denne fremgangsmåde.
s. 119
Ad 1: Definition af variabel
Hermed forstås en kort og præcis beskrivelse af variablen uden inddragelse af tal eller punkestimater.
Er du i tvivl om hvad variablen er i opgaven, så stil dig selv spørgsmålet: “Hvad er det som kan variere”?
EKSEMPEL: I forbindelse med Obama’s valgkampagne foretog hans medarbejdere dagligt exit polls
for at beregne andelen af Obama-stemmer.
Her defineres variablen: Antallet af vælgere der stemmer på Obama.
Ad 2: Angivelse af model
Der findes mange forskellige fordelinger som en variabel kan følge, derfor er det vigtigt at redegøre
for den eksakte fordeling. Følger en variabel binomialfordelingen, men anvendes en approksimativ
normalfordeling, er det vigtigt at angive, at modellen er binomial. Under forudsætninger kommenteres, at variablen approksimeres fra binomial til en normalfordeling. Se mere om approksimation
under punkt 4 (Ad 4). Såfremt der beregnes et interval for et gennemsnit, er det vigtigt at identificere om gennemsnittet er beregnet ud fra hele populationens data (dermed siges variansen at være
kendt), eller om beregningen er foretaget ud fra en stikrpøve (hvilket betyder at variansen er ukendt).
Ad 3: Data
Her opstilles datagrundlaget for intervallet i form af punktestimater som gennemsnit, standardafvigelse og stikprøvestørrelse.
Ad 4: Forudsætninger, herunder approksimation
Her beskrives de forudsætninger, der ligger til grund for intervallet. Er intervallet baseret på en approksimation, er det vigtigt at skrive om approksimationsbetingelserne er opfyldt. Approksimation
betyder, at man skifter den oprindelige fordeling ud med en anden fordeling, som regel normalfordelingen. Det skyldes at hovedparten af konfidensintervaller baseres på normalfordelingen. Da
variablen man arbejder med ikke altid er normalfordelt, kan det være nødvendigt at approksimere
fra en diskret fordeling (hypergeometrisk, binomial og poissonfordelingen) over til normalfordelingen. For at approksimere er der nogle forudsætninger, der skal være opfyldt, hvilket fremgår af
“Appendiks 1” i slutningen af afsnittet om fordelinger. I den forbindelse skal det bemærkes, at der
til alle konfidensintervaller, der beregnes med Statlearn programmet, udføres en automatisk kontrol af om approksimationsbetingelserne er opfyldt.
Ad 5 og 6: Formel samt beregning
Her angives formel og konfidensintervallet beregnes.
Ad 7: Fortolkning
Beregning af konfidensintervallet er i sig selv sjældent en god afslutning på en opgave. Det er vigtigt
at koble det beregnede interval til selve spørgsmålet.
Eksempelvis kan et konfidensinterval for en Obama exit poll have en nedre og øvre grænse på henholdsvis 45 % og 65 %.
Fortolkning: Andelen af Obama vælgere ligger med 95 % sandsynlighed mellem 45 og 65 %.
s. 120
Oversigt over konfidensintervaller, 1 stikprøve
FIGUR 43:
Gennemsnit (m)
Intensitet (l)
Er variansen
baseret på en
stikprøve?
Approks.
Z-KI af l
(Nej)
(Ja)
Z-KI
Er stikprøven
større end 30
(Nej)
(Ja)
T-KI
Approks.
Z-KI
Std.afvigelse (s)
Andel (p)
x2-KI af s
Er variablen
binomial (B)
eller hypergeo.
(H)
(H)
(B)
Approk.
Z-KI med
korrektions
faktor
Approks.
Z-KI
s. 121
Beregning af konfidensintervaller (KI), 1 stikprøve
TABEL 62: Oversigt over konfidensinterval, 1 stikprøve
Konfidensinterval
Formel
z-KI for m
m ∈ x  Z12a/2 
Approksimativt
z-KI for m
m ∈ x  Z12a/2 
t-KI for m
m ∈ x  tn21,12a/2 
χ2-KI for s
Approksimativt
z-KI for p
p ∈ p�  Z12a/2  Approksimativt
z-KI for l
l
�
l∈l
�  Z12a/2  n
Forudsætning
s er kendt
(standardafvigelsen for hele
populationen)
s
√ n
s
n . 30
√ n
s
√ n
s er ukendt, derfor anvendes
standard-afvigelsen for
stikprøven “s”
(n 2 1)s2
(n 2 1)s2
#s# x2n21,12a/2
x2n21,a/2
p�(1 2 p�)
n
n  p� (1 2 p�) . 9
nl
�.9l
� tolkes som x
s. 122
Eksempler på konfidensintervaller for en stikprøve
Eksempel 1: 95% KI for gennemsnit, ukendt varians X~N(m,s2)
Blandt en stikprøve på 100 studerende på Niels Brock var den gennemsnitlige indkomst 90.000 kr.
med en standardafvigelse på 25.000 kr.
Beregn et 95 % konfidensinterval for den gennemsnitlige indkomst.
Variabel: Indkomst for en studerende på Niels Brock
Model: X~N(m, s2)
Data:
n
100
x
90.000 kr.
s
25.000 kr.
Forudsætning:
X ~ normalfordelingen jf. den centrale grænseværdisætning da n . 30
Formel:
m ∈ x  tn21,12a/2 
s
√ n
Beregning:
Nedre grænse 5 85.039,458 kr.
Øvre grænse 5 94.960,542 kr.
Fortolkning:
Den gennemsnitlige indkomst for (alle) Niels Brock studerende ligger med 95 % sandsynlighed i
intervallet 85.039,458 til 94.960,542 kr.
Eksempel 2: 95% KI for gennemsnit, kendt varians X~N(m, s2)
En undersøgelse blandt 414 kvinder, der abonnerer på magasinet Eurowoman viste, at gennemsnitsalderen for kvinderne var 19,7 år. På baggrund af mange tidligere studier har man erfaring for,
at standardafvigelsen er 5 år.
Beregn et 95 % konfidensinterval for gennemsnitsalderen for kvinder der abonnerer på magasinet
Eurowoman.
Variabel: Alderen for kvinder der abonnerer på Eurowoman.
Model: X~N(m, s)
Data:
n
414
x
19,7
s
5
s. 123
Forudsætning:
Populationens varians er kendt
Observationer er normalfordelt
Formel:
m ∈ x  Z12a/2  s
√ n
Beregning:
Nedre grænse 5 19,218
Øvre grænse 5 20,182
Fortolkning:
Med 95 % sandsynlighed er den gennemsnitlige alder for kvinder der abonnerer på Eurowoman
mellem 19,2 og 20,2 år.
Eksempel 3: 95% KI af andele når X~b(p,n)
På Niels Brock har man blandt 125 studerende fundet frem til, at 22 ønsker at fortsætte studiet
med en HA. Beregn et 95 % konfidensinterval for andelen af de studerende der forventes at fortsætte med en HA.
Variabel: Antal studerende der ønsker at fortsætte med en HA.
Model: X~b(n, p)
Data:
n
125
x
22
p�
0,176
Forudsætning:
a) Diskret variabel
b) n elementer observeres
c) Konstant sandsynlighed, dvs. uafhængighed mellem eksperimenterne
d) Hvert element kan defineres som mærket eller ikke-mærket
Formel:
p ∈ p�  Z12a/2  p�(1 2 p�)
n
Beregning:
Fortolkning:
Der er 95% sandsynlighed for, at andelen af studerende på Niels Brock, der ønsker at fortsætte med
en HA, ligger mellem ca. 11 og 24%.
s. 124
Eksempel 4: 90% KI for intensiteten X~Ps(l)
På rigshospitalet blev der gennem 30 tilfældigt udvalgte dage observeret et gennemsnit på 3,8
patienter med diagnosen svær lungebetændelse. Beregn et 90 % konfidensinterval for det gennemsnitlige antal patienter der hver dag får stillet diagnosen svær lungebetændelse.
Variabel: Antal patienter med svær lungebetændelse pr. dag
Model: X~Ps(l)
Data:
n
30
�
l
3,8
Forudsætning:
a) Diskret variabel
b) Antal af forekomster af mærkede elementer observeres over en periode
c) Elementerne indtræffer uafhængigt af hinanden
d) konstant sandsynlighed for forekomst af et mærket element
Formel:
�  Z12a/2 
p∈l
l
�
n
Beregning:
Fortolkning:
Vi kan med 90 % sandsynlighed konkludere, at det gennemsnitlige antal patienter, der hver dag
kommer til rigshospitalet med svær lungebetændelse, ligger mellem 3,2 og 4,4.
Eksempel 5: 95 % KI for standardafvigelsen X~N(m,s2)
For at sikre at der ikke opstår flaskehalse ved kassen hos IRMA, er målsætningen at ventetiden i
kø maksimalt må have en standardafvigelse på 5 minutter. Ud fra en stikprøve på 50 kunder blev
standardafvigelsen for ventetiden målt til 4,3 minutter. Tyder det på at målsætningen overholdes?
Variabel: Ventetid i kø hos IRMA (ventetid opgøres i minutter)
Model: X~N(m, s)
Data:
n
50
s
4,3
Forudsætninger:
s. 125
Formel:
(n 2 1)s2
#s#
x2n21,12a/2
(n 2 1)s2
x2n21,/2
Beregning:
Fortolkning:
Der er 95 % sandsynlighed for at standardafvigelsen for ventetiden i en kø ligger mellem 3,6 og 5,4
minutter. Da intervallets øvre grænse overstiger 5 minutter kan vi ikke afvise, at ventetiden i en kø
hos IRMA overstiger 5 minutter.
Konfidensintervaller for to stikprøver
Som vi på nuværende tidspunkt ved, kan et punktestimat fra en stikprøve anvendes til at indkredse
et interval, hvori det tilsvarende populationsparameter vil ligge med en given sandsynlighed. Når vi
taler om konfidensintervaller for to stikprøver, er formålet at sammenligne to variabler. Eksempelvis
for at undersøge om der kan være forskel på to gennemsnit. I den sammenhæng er et konfidensinterval for to stikprøver en beregning af et interval for differensen mellem to populationsparametre.
EKSEMPEL
Vi ønsker at beregne om der er forskel på gennemsnitsalderen for henholdsvis mænd og kvinder
der bruger sms’er på deres mobiltelefoner. Der udtages to stikprøver med henholdsvis 100 mænd
og kvinder. I stikprøven for mænd var der 78 der anvendte sms’er, og for kvinder var antallet 84.
Kan vi på denne baggrund konkludere, at der er flere kvinder end mænd der anvender sms? Nej,
resultaterne er baserede på stikprøver, som i sig selv er genstand for en vis usikkerhed. Derfor kan
vi ikke alene på baggrund af stikprøveresultaterne komme med en endegyldig konklusion.
For at anvende en statistisk sammenligningsmetode kan vi i stedet beregne et konfidensinterval for
differensen mellem gennemsnitsforbruget af sms’er for mænd og kvinder. Lad os for simpelheden
skyld antage, at det beregnede konfidensinterval for differensen resulterer i en nedre grænse på –
2 og en øvre grænse på 6.
Konfidensintervallet for differensen kan opfattes som to konfidensintervaller, hvor de nedre og øvre
grænser fratrækkes hinanden. Den nedre grænse på minus 2 svarer i dette tilfælde til, at den nedre
grænse for kvinder er fratrukket den øvre grænse for mænd. At tallet bliver negativt betyder blot, at
den størst mulige værdi for mænd er større end den lavest mulige for kvinder. Omvendt er den øvre
grænse på 6 udtryk for den øvre grænse for kvinder fratrukket den nedre grænse for mænd.
Hvis konfidensintervallet for differensen overlapper 0, dvs. har en nedre grænse som er negativ og
en øvre grænse som er positiv betyder det, at vi ikke kan afvise, at begge variable kan have ens gennemsnit. Det betyder helt konkret, at konfidensintervallerne for hver variabel vil overlappe hinanden.
s. 126
Fortolkning af konfidensinterval for differensen:
1. Har konfidensintervallet for differensen en nedre grænse som er negativ og en øvre grænse
der er positiv betyder det, at de sammenlignede populationsparametre kan være identiske.
2. Har konfidensintervallet for differensen en nedre og øvre grænse, som begge er negative
eller begge er positive betyder det, at de sammenlignede populationsparametre sandsynligvis er forskellige.
I eksemplet med sms forbruget for kvinder og mænd var udgangspunktet et gennemsnit, men
konfidensintervaller for differensen kan lige såvel være for andele, intensiteter og varians, hvilket
senere vil fremgå af eksempelberegningerne.
Oversigt over konfidensintervaller for differensen
Ved konfidensintervaller for differensen mellem to populationsandele eller intensiteter anvendes
kun en type interval for hver, derfor undlades denne type intervaller af oversigten. Hvad angår
konfidensintervaller for differensen mellem to gennemsnit, er der hele tre muligheder som det
fremgår af nedenstående.
FIGUR 44:
Gennemsnit (m)
Er begge
stikprøver
større end 30?
(Ja)
(Nej)
Z-KI
Er populationsvariansen kendt?
(Nej)
(Ja)
F-test af varianshomogenitet
Upooled
T-KI
(Nej)
Er der varianshomogenitet?
Z-KI
(Ja)
Pooled T-KI
s. 127
Beregning af konfidensintervaller for differensen
TABEL 63: Oversigt over konfidensintervaller, 2 stikprøver
Konfidensinterval
Formel
Forudsætning
Z-KI for mx 2 my
(x 2 y)  Z12a/2 ? s2x s2y
1
nx
ny
s2x og s2y er kendte
Approksimativt
Z-KI for mx 2 my
(x 2 y)  Z12a/2 ? s2x
s2
1 y
nx
ny
nx . 30 og ny . 30
Pooled T-KI
for mx 2 my
1
1
(nx1ny22)
(x 2 y)  t 12a/2
? s2p 1
n x ny
Hvor
s2p 5
Approksimativt
T-KI for px 2 py
(nx 2 1)s2x 1 (ny 2 1)s2y
(nx 1 ny 2 2
p�x(1 2 p�x) p�y(1 2 p�y)
1
ny
nx
(p�x 2 p�y)  Z12a/2 ? 2
1
s2x 2
1
s2y
n 2 1 ? n 1 n 2 1 ? n
x
x
y
y
Approksimativ
T-KI for lx 2 ly
ny ? p�y(1 2 p�y) . 9
s2x og s2y antages
ukendte og der er ikke
varianshomogenitet,
dvs. ikke ens varians
Hvor fg (frihedsgrader) 5
s2x
s2
1 y
nx
ny
nx ? p�x(1 2 p�x) . 9
s2x
s2
1 y
nx
ny
f
g
(x 2 y)  t 12a/2
? Upooled
T-KI for mx 2 my
s2x og s2y er ukendte,
forudsat varianshomogenitet, dvs. ens
varians
�x
�x
l
l
�x 2 l
� y)  Z12a/2 ? (l
1
nx
ny
2
�x . 9
nx ? l
�y . 9
ny ? l
� x 9 og l
� y svarer
Hvor l
til henholdsvis og
s. 128
Eksempler på konfidensintervaller for differens
Eksempel 1: 95% KI for differensen mellem 2 populationsandele
I forbindelse med en markedsundersøgelse udsendte en virksomhed 150 breve med tilbud om
en ny type fladskærm samt en bærbar pc. Virksomheden modtog efterfølgende 19 ordrer på den
bærbare pc og tilsvarende 17 ordrer for fladskærmen. Giver dette anledning til at tro, at der vil blive
solgt flere bærbare pc’er end fladskærme?
Variabel: X: Antal solgte bærbare pc’er Y: Antal solgte fladskærme
Model: X og Y ~ b(p, n)
Data:
nx
150
x
19
p�x
0,127
ny
150
y
17
p�y
0,113
Forudsætning:
Normalfordelingsapproksimation: n  p�(1 2 p�) . 9 er opfyldt for både X og Y
Formel:
(p�x 2 p�y)  Z12a/2 ? p�y(1 2 p�y)
p�x(1 2 p�x)
1
ny
nx
Beregning:
Fortolkning:
Da intervallet for differensen har en negativ nedre grænse og en positiv øvre grænse, kan vi med 95
% sandsynlighed ikke udelukke at begge (populations) andele er ens.
s. 129
Eksempel 2: 95% KI for differensen mellem 2 gennemsnit,kendt varians
En undersøgelse blandt 630 mænd og 414 kvinder, der har en videregående uddannelse, viste at
gennemsnitsalderen for mænd var 28,2 år og for kvinder 25,7 år. Fra tidligere undersøgelser ved
man at standardafvigelsen for både mænd og kvinder er 5 år.
Kan man med 95 % sandsynlighed sige, at der er forskel i den gennemsnitlige alder for mænd og
kvinder på videregående uddannelser?
Variabel: X: Alder for mænd (år) Y: Alder for kvinder (år)
Model: X og Y ~ b(p, n)
Data:
nx
630
x
28,2
sx
5
ny
414
y
25,7
sy
5
Forudsætning:
Begge populationsvarianser er kendte
Observationer er normalfordelte
Formel:
2
2
(x 2 y)  Z12a/2 ? sx 1 sy
nx
ny
Beregning:
Fortolkning:
Da intervallet for differensen ikke overlapper 0, kan vi med 95 sandsynlighed konkludere, at
gennemsnitsalderen for mænd med videregående uddannelse er højere end for kvinder. Der er
således forskel på den gennemsnitlige alder.
s. 130
Øvelser med konfidensintervaller
De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af de forskellige begreber relateret til konfidensintervaller. I de efterfølgende opgaver er
fokus rettet mod beregninger.
1. Hvad er forskellen på et punktestimat og et konfidensinterval?
2. Hvad er formålet med at anvende et konfidensinterval i stedet for et punktestimat?
3. Jo større stikprøve der udtages, desto mere præcise bliver de beregnede punktestimater.
Hvis man har udtaget en stor stikprøve, er det så ikke tilstrækkeligt at beregne et punktestimat, da vi ved, at dette vil være relativt præcist?
4. Er konfidensintervaller altid et forsøg på at indkredse værdien af et populationsparameter,
eller kan man også beregne konfidensintervaller for punktestimater?
5. Hvad betyder konfidensniveau?
6. Hvilken betydning har konfidensniveauet for bredden af et konfidensinterval?
7. Hvorfor vælge et 95 % konfidensniveau, når vi kan øge sikkerheden ved at vælge et niveau
på 99 %?
8. Hvad er formålet med at beregne et konfidensinterval for differensen mellem to gennemsnit?
Beregningsøvelser:
Opgave 1.
Danske Bank har en spirende fornemmelse af, at en del kunder er stærkt utilfredse med rådgivningen omkring optagelse af boliglån. For at få et overblik udtages en stikprøve på 193 kunder der har
optaget boliglån, heriblandt var 17 stærkt utilfredse med den rådgivning de havde fået.
Beregn et 95 % konfidensinterval for andelen af stærkt utilfredse kunder.
Opgave 2.
En undersøgelse blandt 338 mænd og 254 kvinder der bruger Apples iPhone viste, at gennemsnitsalderen for mænd var 23,2 år og for kvinder kun 20,6 år. Antag at populationens standardafvigelse
for begge køn er 5 år.
Spørgsmål 1.Definer variabel og beregn et 90 % konfidensinterval for gennemsnitsalderen for
henholdsvis mænd og kvinder.
Spørgsmål 2.Vurder på baggrund af forrige spørgsmål, om der kan antages at være en forskel
på gennemsnitsalderen for mænd og kvinder, der bruger iPhone.
s. 131
Spørgsmål 3.Beregn et 95 % konfidensinterval for differensen for gennemsnitsalderen for
mænd og kvinder, der bruger iPhone.
Spørgsmål 4.Antag at der blandt brugere af iPhone er 45 % mænd. Hvis der udtages en stikprøve på 300 iPhone brugere, hvad er da sandsynligheden for at mere end halvdelen er mænd?
Opgave 3.
Novo Nordisk har lige haft problemer med kvalitetskontrollen i forbindelse med produktionen af
deres insulinsprøjter. Produktionen er derfor midlertidigt stoppet, og alle kræfter er sat ind på, at
få et overblik over hvor mange af de 12000 insulinsprøjter, der ikke overholder kvalitetskravene. I
en stikprøve på 300 insulinsprøjter fandt man 10 der skulle kasseres.
Beregn på denne baggrund et 99 % konfidensinterval for andelen af det samlede antal insulinsprøjter, der skal kasserers.
Opgave 4.
I forbindelse med forberedelsen på en stor reklamekampagne for en ny type bilforsikring har Codan udarbejdet en forundersøgelse. Blandt 200 testpersoner var der 38 der tilkendegav interesse
i den nye forsikring.
Spørgsmål 1.For at få overblik over markedspotentialet, ønskes et estimat af den øvre og nedre grænse for det forventede antal interesserede i den nye bilforsikring.
Spørgsmål 2.I forbindelse med forundersøgelsen udsendte Codan også et tilbud om en ny
type livsforsikring, som 47 af testpersonerne var interesserede i. Giver det anledning til at tro, at livsforsikringen er mere populær end bilforsikringen?
Opgave 5.
Som logistikansvarlig for Coca-Cola i Danmark er en af dine opgaver, at bestille sirup til alt det CocaCola, der skal produceres i den kommende måned. Du er derfor meget optaget af, om salgsprognoserne er retvisende. Fra erfaring ved du, at prognoserne i juni måned som regel er for høje. Du
har lige modtaget salgsprognosen for juni, som lyder på 68 tønder sirup. Baseret på de sidste 10 års
salgshistorik for juni måned har du beregnet, at der i gennemsnit bruges 57 tønder sirup.
Spørgsmål 1. Definer variabel og fordeling
Spørgsmål 2. Beregn et 95 % konfidensinterval for det forventede forbrug af sirup i juni.
Spørgsmål 3.Hvor stor er sandsynligheden for, at næste uges salg vil være mindst 550.000 liter Coca-Cola, hvis det antages, at det ugentlige gennemsnitsalg er 500.000 liter
med en standardafvigelse på 45.000 liter?
s. 132
Opgave 6.
Bilvirksomheden Porsche har iværksat en stor markedsundersøgelse, for at stille skarpt på hvilke
modeller der køres i de forskellige alderssegmenter.
TABEL 64:
Alderssegment
(år)
Porsche model
911
Boxter
Cayenne
Cayman
Total
21-25
13
9
6
4
31
26-30
87
60
26
18
190
31-35
290
199
86
59
634
Total
390
267
118
81
855
Spørgsmål 1.Opstil et 95 % konfidensinterval for andelen 26-30 årige Porschebilister der kører
modellen Boxter?
Spørgsmål 2.Beregn et 99 % konfidensinterval for hvor stor en andel Boxter modellen udgør
blandt samtlige modeller.
Spørgsmål 3.Benyt et konfidensinterval til at vurdere om andelen af dem, der kører Cayenne
er større end dem, der kører Cayman i alderssegmentet 31-35 årige.
Opgave 7.
Det verdensomspændende reklamefirma, Publicys, har udviklet en metode til at sikre, at kun de
meste effektive reklamer bliver vist. For hver kunde udvikles mindst to forskellige reklamer, som
herefter bedømmes af relevante personer i målgruppen. Publicys har længe arbejdet på en ny reklamekampagne for Nokia og har nu indsnævret feltet til to reklamer. Hver reklame bliver testet på
en 10 punkt skala og bedømt af forskellige personer - resultatet ses i nedenstående:
Reklame nr. 1: Blandt 31 personer var den gennemsnitlige karakter 7,1 med en standardafvigelse på 1,7.
Reklame nr. 2: Blandt 42 personer var den gennemsnitlige karakter 7,9 med en standardafvigelse på 2,4.
Da reklame nr. 1 er væsentlig billigere at producere end reklame nr. 2, ønskes en statistisk vurdering
af, om der er en signifikant forskel på de to reklamer.
Beregn i den forbindelse et 95 % konfidensinterval for differensen mellem de to gennemsnitskarakterer og kommenter hvilken reklame, der vil være mest hensigtsmæssig at anvende.
s. 133
Opgave 8.
Du er ansat i EDC’s markedsføringsafdeling og vil gerne vide, hvor effektiv jeres webside er med
henblik på eventuelle forbedringer. Derfor har du udtaget en stikprøve på 215 kunder, og bl.a.
spurgt dem om, hvordan deres opfattelse af layoutet på websiden er. Ud af de 215 kunder svarede
21, at de synes, layoutet er kedeligt.
Beregn et 95 % konfidensinterval for andelen af kunder, som synes layoutet er kedeligt.
Opgave 9
Hos IT producenten Acer har man foretaget en kundetilfredshedsundersøgelse, hvor man har fundet ud af, at mange kunder er utilfredse med den tid, det tager, at få sin computer repareret. En
stikprøve på 389 reparationer viste, at det i gennemsnit tager 2,9 uger med en standardafvigelse
på 1 uge, før kunden får sin computer tilbage.
Beregn et 95 % konfidensinterval for den gennemsnitlige reparationslængde (i uger).
Opgave 10
Hos Google er man ved at lave en brugervenlighedstest over Android Market (ejes af Google), som
bruges til at hente applikationer til mobiltelefoner. I den forbindelse har man spurgt 350 brugere,
hvad de mener om overskueligheden på markedet. Ud af de 350 brugere tilkendegav 214, at de
opfatter Android Market som meget overskueligt.
Beregn et 95 % konfidensinterval for andelen af brugere, der opfatter Android Market som meget
overskueligt.
Tidligere eksamensøvelser med konfidensintervaller
Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: “Ekstra
øvelser”.
Øvelser med konfindensintervaller (sideangivelse samt opgavenummer):
Side 3 /4.3
Side 4 /1.2
Side 10 /1.2
Side 14 /4.2
Side 21 /3.1 (anvendelse af rå data)
Side 27 /2.2 (anvendelse af rå data
Side 31 /2.3
Side 32 /3.1
Side 37 /2.3
s. 134
Løsninger til konfidensintervaller
I det følgende fremgår løsninger til øvelserne for konfidensintervaller. Det skal nævnes, at løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses så den indeholder alle de informationer, som
er nævnt under fremgangsmåden i dette afsnit, se afsnittet: Fremgangsmåde til beregning af
konfidensintervaller.
1. Et punktestimat kan opfattes som et simpelt estimat baseret på en stikprøve. Punktestimatet anvendes som en indikator for værdien af det givne populationsparameter, eksempelvis
gennemsnittet for populationen. Et konfidensinterval kan opfattes som et punktestimat,
hvor der tilføjes et ekstra lag information. Et konfidensintervallet er et interval, hvor i det
estimerede populationsparameter vil ligge med en given sandsynlighed.
2. Et konfidensinterval er mere informativt end et simpelt punktestimat.
3. Lige meget hvor stor en stikprøve der udtages, kan man med et punktestimat aldrig vide
hvor tæt det ligger på det estimerede populationsparameter. Man kan således ikke kvantificere præcisionen af punktestimatet, med mindre man anvender et konfidensinterval.
4. Konfidensintervaller beregnes på baggrund af punktestimater, men gælder altid for populationsparametre.
5. Konfidensniveauet er sandsynligheden for, at intervallet rummer det givne populationsparameter. Jo højere konfidensniveau desto bredere bliver konfidensintervallet.
6. Ligesom konfidensniveauet har stikprøvestørrelsen betydning for intervallets bredde. Jo
større stikprøve desto smallere bliver intervallet alt andet lige. Det skyldes, at stikprøven
indgår i beregningen af standardafvigelsen, som er et led i intervallets beregning.
7. Fordi et 99 % interval er bredere og dermed mere unøjagtigt end et tilsvarende interval
med et 95 % konfidensniveau.
8. At finde frem til om det er en forskel på værdien af de to populationsgennemsnit.
s. 135
Beregningsøvelser:
Opgave 1.
X: Antal stærkt utilfredse kunder.
X ~ b(p, n)
95% konfidensinterval for andel
Nedre grænse: 0,04809829
Øvre grænse:
0,12806752
Opgave 2.
Spørgsmål 1.
X: Alderen (år) for mænd der bruger en iPhone
X ~ N(x 5 23,2 s 5 5 )
95% konfidensinterval for gennemsnit
Øvre grænse:
23,7330399
Y: Alderen (år) for kvinder der bruger en iPhone
Y ~ N(x 5 20,6 s 5 5 )
95% konfidensinterval for gennemsnit
Øvre grænse:
21,2148954
Spørgsmål 2.
Umiddelbart fremgår det, at konfidensintervallets øverste grænse for kvinders gennemsnitsalder er lavere end konfidensintervallets nedre grænse for mænds alder. Det tyder således på,
at kvinders gennemsnitlige alder er lavere end mænds, hvad angår brugere af iPhone. Når to
gennemsnit sammenlignes, er det statistisk set mere korrekt, at anvende et konfidensinterval
for differensen mellem to gennemsnit - se næste spørgsmål (spørgsmål 3).
Spørgsmål 3.
95% konfidensinterval for differensen mellem 2 gennemsnit (mx 2 my)
X: Alderen (år) for mænd der bruger iPhone
Y: Alderen (år) for kvinder der bruger iPhone
X
Y
n
338
254
s
5
5
x
23,2
233
Øvre grænse:
3,41377387
Konfidensintervallets positive nedre- og øvre grænse indikerer, at kvinders gennemsnitlige alder er lavere end mænds blandt brugere af iPhone.
s. 136
Spørgsmål 4.
X: Antal mænd der bruger iPhone
X ~ b(p 5 0, 45 n 5 300)
P(X $ 151) 5 0,03627756
Opgave 3.
X: Antal insulinsprøjter der skal kasseres
X ~ b(p, n 5 300)
Øvre grænse:
0,06
onklusion: Samlet skal der med 99 % sandsynlighed kasserers mellem 79 og 720 insulinsprøjK
ter ud af i alt 12000 sprøjter.
Opgave 4.
Spørgsmål 1.
X: Antal interesserede i ny bilforsikring
X ~ b(p, n 5 200)
Øvre grænse:
0,24436913
Spørgsmål 2.
X: Antal interesserede i ny bilforsikring
Y: Antal interesserede i ny bilforsikring
95 % konfidensinterval for differensen mellem 2 andele (px 2 py)
Øvre grænse:
0,03505619
Konklusion: Da intervallet overlapper 0, kan det ikke udelukkes, at begge andele er lige store.
s. 137
Opgave 5.
Spørgsmål 1.
X: Antal tønder med Coca-Cola sirup som skal bruges i juni
X ~ Ps(l 5 57) da variablen er diskret og baseres på tidsinterval
Spørgsmål 2.
95% konfidensinterval for intensitet
Øvre grænse:
61,67935
Spørgsmål 3.
P(x $ 550.000) 5 0,13326
Opgave 6.
Spørgsmål 1.
X: Antal 26-30 årige bilister der kører Porsche Boxter
X ~ b(p, n 5 190) da variablen er diskret, og hændelserne er uafhængige
Øvre grænse:
0,38188392
Spørgsmål 2.
X: Antal bilister der kører Porsche Boxter
X ~ b(p, n 5 855) da variablen er diskret, og hændelserne er uafhængige
Øvre grænse:
0,35310439
Spørgsmål 3.
X: Antal bilister der kører Porsche Cayenne
Y: Antal bilister der kører Porsche Cayman
95% konfidensinterval for differensen mellem 2 andele (px 2 py)
Øvre grænse:
0,0775409
s. 138
Opgave 7.
X: Karakter for reklame nr. 1 (10 punkt skala, hvor 10 er bedst)
Y: Karakter for reklame nr. 2 (10 punkt skala, hvor 10 er bedst)
X og Y ~ N(m, s) da begge stikprøver er større end 30 jævnfør den centrale grænseværdisætning
95% konfidensinterval for differensen mellem 2 gennemsnit (mx 2 my)
Øvre grænse: 0,14071873
Opgave 8.
X: Antal der mener at layoutet er kededeligt
X ~ b(p, n 5 215) 95% konfidensinterval for andel
Øvre grænse:
0,13735709
Altså kan det med 95 % sandsynlighed konkluderes, at andelen af kunder der synes, at layoutet
er kedeligt, er mellem ca. 6 og 14 %.
Opgave 9.
X: Reparationslængden (i uger).
X ~ N(x = 2,9 s 5 1 )
95% interval for gennemsnit, ukendt populationsvarians
Øvre grænse:
2,99968507
Opgave 10.
X: Antal kunder der opfatter Android Market som meget overskueligt
X ~ b(p, n 5 350) 95% konfidensinterval for andel
Øvre grænse:
0,66249346
Altså kan det med 95 % sandsynlighed konkluderes, at andelen af kunder, der opfatter Android
Market som meget overskueligt, er mellem ca. 56 og 66 %
s. 139
KAPITEL 7
HYPOTESETEST
Statlearn.com
KAPITEL
7
Hypotesetest
U
dgangspunktet for en hypotesetest er, at verificere en given hypotese. Helt konkret kan en
hypotesetest opfattes som en kamp mellem to modstridende hypoteser, eller nærmere betegnet to modstridende påstande.
En hypotese kan tolkes som en antagelse, der ikke er faktuel, men som tager sit udgangspunkt i et
subjektivt skøn.
En hypotese kunne eksempelvis være et udsagn om, at folk i lyset af finanskrisen er mindre tilbøjelige til at købe nye biler. Det er en antagelse som umiddelbart virker plausibel, men som indtil den
er påvist med data kun er en antagelse.
Udgangspunktet for en hypotesetest er at definere to modstridende hypoteser: H0 og H1.
H0 hypotesen repræsenterer det, der må antages at være det gældende eller det ’sande’, indtil
andet er bevist. H1 hypotesen er derimod vores formodning, som opstilles på baggrund af et punktestimat fra en stikprøve. Hypotesetestens formål er, at afgøre hvorvidt H1 eller H0 er sand.
Rent konceptuelt kan en hypotesetest sammenlignes med en retssag, hvor man har indsamlet bevismateriale som tyder på, at en given person er skyldig (H1). Udgangspunktet for retssagen er
imidlertid, at den anklagede er uskyldig, indtil andet er bevist (H0). Formålet med retssagen er
ligesom med hypotesetesten, at gennemføre en proces som resulterer i en dom: skyldig (H1 accepteres) eller uskyldig (H0 accepteres).
Hypotesetest som koncept
Antag at du var en sportschef med ansvar for at udtage længdespringerne op til de Olympiske Lege.
For at deltage på holdet skal længdespringerne bevise, at de i gennemsnit springer længere end
5 meter.
Du er overbevist om at Max Johnson, som er holdets bedste længdespringer springer mere end
5 meter i gennemsnit, men da det endnu ikke er bevist, må du antage, at længden af hans gennemsnitspring maksimalt er 5 meter. Du ønsker derfor, at udføre en hypotesetest der skal bevise, at han
gennemsnitligt springer længere end 5 meter, og at han dermed er kvalificeret til OL.
Videolektioner >
s. 141
Hypotesetest
Som træner har du ikke noteret længden af hver enkelt spring Max har udført, og du kan således
ikke beregne den eksakte værdi af hans gennemsnitsspring, hvilket svarer til populationsgennemsnittet (m). I stedet laver du et forsøg, hvor du en enkelt dag måler længden af 10 spring (n 5 10)
og beregner punktestimatet til at være 6,5 meter (x 5 6,5).
Det virker lovende, men som vi var inde på i afsnittet om konfidensintervaller, kan værdien af et
punktestimat variere meget i forhold til populationsgennemsnittet, særligt ved små stikprøver.
FIGUR 45: Fordelingen af punktestimater for et gennemsnit
x–
x–
x–
x–
x–
x–
x– x–
x–
x–
x–
x–
m
Når vi ved, der kan være relativ stor spredning i fordelingen af punktestimaterne (x), kan vi ikke
udelukke, at populationsgennemsnittet (m) kan være mindre end 5 meter til trods for, at punktestimat er 6,5 meter.
FIGUR 46:
x 5 6,5m
x
m 5 5m
m 5 4m
x
Grundet variationen i værdien af punktestimater er det som illustreret muligt at få punktestimater
på 6,5 meter (x), selvom populationsgennemsnittet kun er 4 meter (m). På den anden side forekommer det intuitivt, at jo større afstanden er mellem H0 og punktestimatet, desto mere beviser det, at
H0 må være usandsynlig, og H1 hypotesen dermed rigtig.
s. 142
Hypotesetest
FIGUR 47:
x 5 10m
x
m 5 5m
(H0)
Fra fordelingen kan vi se, at et punktestimat på 10 meter kun er marginalt sandsynligt, hvis populationsgennemsnittet er 5 meter (H0). Med andre ord indikerer punktestimatet på de 10 m, at Max
højst sandsynligt har et gennemsnitsspring der overstiger 5 m (H1).
Dette rejser spørgsmålet: Hvor meget større end 5 meter skal punktestimatet (x) værre, hvis vi
skal konkludere at H1 er sand, og længdespringeren Max derved springer længere end 5 meter i
gennemsnit? Spørgsmålet bringer os til essensen af hypotesetesten: Testniveauet.
Testniveauet angiver det område af fordelingen hvor H0 forkastes, området betegnes også det
“kritiske område”.
NB: Det kritiske område repræsenterer et testniveau på 5 % og er markeret med sort.
FIGUR 48:
H 1 . H0
H0 accepteres
H0 forkastes
H1 , H0
H0 forkastes
H0 accepteres
Testniveauets størrelse afhænger af hvor sikker du vil være for at undgå en fejlagtig konklusion, eller med andre ord undgå at forkaste H0 når denne er sand.
s. 143
Hypotesetest
Vælges eksempelvis et testniveau på 5 % betyder det at der er 5 % sandsynlighed for at få observationer, punktestimater, i det kritiske område såfremt Ho virkelig er sand. Sagt på en anden måde
er der kun 95 % sandsynlighed for ikke at havne i det kritiske område, hvis Ho er sand. Får vi en
observation, der ligger i det kritiske område, er testens konklusion derfor, at Ho med 95 % sandsynlighed kan forkastes.
Lad os vende tilbage til eksemplet med længdespringeren Max. Vi ønsker at undersøge, om hans
gennemsnitsspring er længere end 5 meter. Udgangspunktet må nødvendigvis værre, at han højst
kan springe 5 meter, indtil andet er bevist:
H0 : m # 5 m og H1 : m . 5 m
På baggrund af en stikprøve på 10 spring beregnes gennemsnittet til 6,5 meter (x) og standardafvigelsen (s) til 2 meter. Spørgsmålet er nu, om de 6,5 meter ligger inden - eller udenfor det kritiske
område?
Beregnes hypotesetesten, bliver resultatet en p-værdi på 2 %. P-værdien er beregnet på baggrund
af vores stikprøvedata og kan tolkes som punkestimatet på 6,5 meter (x) omregnet til en skala, som
er sammenligneligt med testniveauet, der også angives i procent.
En p-værdi på 2 % betyder således, at punktestimatet på de 6,5 m ligger i de yderste 2 % af fordelingen – der hvor H0 forkastes.
FIGUR 49:
P-værdi 5 2%
(stikprøve observation)
Testniveau 5 5%
(kritisk område)
H0 accepteres
H0 forkastes
Da vores testniveau er 5 %, ligger p-værdien således indenfor det kritiske område, hvilket betyder
at H0 forkastes. Dermed kan vi med 95 % sandsynlighed konkludere, at det sande gennemsnitsspring (m) for Max er længere end 5 meter.
s. 144
Hypotesetest
Type 1 og 2 fejl
Konklusioner fra en hypotesetest er ikke 100 % sikre, der vil altid være en sandsynlighed for fejl
afhængig af testniveauets størrelse. Vælges et testniveau på 5 %, er der tilsvarende 5 % sandsynlighed for, at vi kommer til at forkaste en sand Ho hypotese, hvilket formelt betegnes en type 1 fejl:
Type 1 fejl 5 a 5 P(forkast H0 I H0 er sand)
Udover en type 1 fejl er der en anden og mere subtil fejltype fejl, som ikke overraskende betegnes
type 2 fejl:
Type 2 fejl 5 b 5 P(forkast H0 I H0 er sand)
Som du formentligt har bemærket, er en type 1 og 2 fejl baseret på betingede sandsynligheder,
hvilket vil sige sandsynligheder under betingelsen af, at Ho enten er sand (type 1 fejl) eller falsk
(type 2 fejl).
TABEL 65: type 1 og 2 fejl
H0 forkastes
H0 accepteres
H0 er sand
Ho er sand,
men forkastes
Type 1 fejl (a)
Ho er sand og accepteres
H0 er falsk
Ho er falsk og forkastes
Ho er falsk, men
accepteres Type 2 fejl
(b)
Som nævnt er alle hypotesetest forbundet med en sandsynlighed for type 1 og 2 fejl. Hvad angår
type 1 fejl reguleres denne udelukkende af testniveauets størrelse. Er testniveauet 5 %, er sandsynligheden for en type 1 fejl tilsvarende 5 %. Så hvorfor ikke mindske testniveauet til 0, og dermed
eliminere sandsynligheden for type 1 fejl?
Årsagen er, at type 1 og 2 fejl er modsætninger. Mindskes sandsynligheden for en type 1 fejl, øges
den tilsvarende for en type 2 fejl. Valget af hvilken fejltype du bør minimere, er afhængig af den
givne situation.
EKSEMPEL
Køkkenchefen på hotel D’Angleterre har travlt og vil gerne undgå, at blive forstyrret midt i sine gastronomiske udfoldelser. Desværre har restauranten en brandalarm, der ofte ringer falsk alarm. For
at stoppe afbrydelserne, køber du en ny alarm som ifølge garantien, kun ringer falsk alarm med en
sandsynlighed på 0,00001 %.
I dette eksempel må vi som udgangspunkt gå ud fra, at der ikke er brand, indtil andet er bevist. I
den forbindelse kan vi definere H0 som “Ikke brand” og H1 som “Brand”.
s. 145
Hypotesetest
Falsk alarm svarer således til en type 1 fejl, hvor vi forkaster H0 hypotesen til trods for, at denne er
sand. Med andre ord er den fejlagtige konklusion, at det brænder når dette ikke er tilfældet.
TABEL 66:
a 5 Type 1 fejl 5 P(forkast H0 I H0 er sand)
Opstår en type 2 fejl, er situationen straks værre. Her accepterer vi, at det ikke brænder, til trods
for at der er brand.
TABEL 67:
b 5 Type 2 fejl 5 P(forkast H0 I H0 er sand)
I dette eksempel har vi betragtet to typer fejl, den ene er irriterende, mens den anden er livsfarlig. Det
er ikke altid sådan at type 2 fejl er vigtigere end type 1 fejl, det afhænger af situationen. Du skal blot
huske på, at en minimering af den ene type fejl, fører til en øget sandsynlighed for den anden type fejl.
I modsætning til en type 1 fejl, der udelukkende afgøres af testniveauet, afhænger en type 2 fejl i
teorien af uendeligt mange værdier af H1. Derfor angives type 2 fejl med en styrkekurve, som viser
sandsynligheden for at begå type 2 fejl for varierende værdier af H1.
FIGUR 50:
Styrkekurven når H1 , H0
Styrkekurven når H1 . H0
100%
Styrken (1-b)
Styrken (1- b)
100%
0%
94
96
98
100
102
0%
98
100
102
104
106
s. 146
Hypotesetest
Eksempel på styrkefunktionen (funktionen for 1-b)
Ejeren af en stor æbleplantage har erfaring for, at æblerne i gennemsnit vejer 100 gram med en
standardafvigelse på 5 gram. I en stikprøve på 25 æbler var gennemsnittet 97. På den baggrund
opstilles følgende hypoteser:
H0 : m $ 100 gram (Gennemsnitsvægten af æblerne er højst 100 gram)
H1 : m $ 100 gram (Gennemsnitsvægten af æblerne er mindre end 100 gram)
I forbindelse med testen ønskes en beregning af styrken, hvilket vil sige sandsynligheden for at
forkaste en type 2 fejl (1 2 b). Styrkefunktionen afhænger af det populationsparameter der testes,
samt hvordan hypoteserne vender - se oversigt over styrkefunktionerne171 på side Beregning af
styrken (type 2 fejl) ved test af andele.
I dette eksempel testes populationsgennemsnittet og H1 . H0, herved anvendes følgende
styrkefunktion:
TABEL 68:
b 5 P Z ,
m0 2 m1
? √ n 1 Za gælder ved H1 , H0
s
Hvor m1 tolkes som varierende værdier af H1. For simpelhedens skyld beregnes styrkekurven i nedenstående ud fra kun tre mulige punkter af H1 (97, 98, 99). Styrken skal i den sammenhæng opfattes som sandsynligheden for at forkaste H0 for hver af de tre værdier af H1.
EKSEMPEL BEREGNING:
P Z ,
100 2 97
? √ 25 2 1,645 5 P(Z , 1,355) 5 0,912
5
TABEL 69:
Hypoteser
H1
H0
m1
α 5 P(type 1 fejl)
Styrken 5 1 2 b 5 1 2 P(type 2 fejl)
97
-
P(Z , 1,355) 5 0,912
98
-
P(Z , 0,355) 5 0,639
99
-
P(Z , 20,645) 5 0,26
100
P(Z , 21,645) 5 0,05
101
P(Z , 22,645) 5 0,004
s. 147
Hypotesetest
FIGUR 51: Styrkekurve eksempel
m0
Styrken (1-β)
100%
m1
0%
97
98
99
100
101
Styrkekurven for 1-b t taler sit tydelige sprog - jo længere værdien af H1(m1) flytter sig fra værdien
af H0 hypotesen (m0), desto større er sandsynligheden for at forkaste H0.
Fra styrkekurven kan vi eksempelvis udlede, at såfremt gennemsnitsvægten af æblerne for hele
populationen er 97 gram, vil sandsynligheden for at forkaste H0 være omkring 90%.
Eksemplet med styrketesten tog udgangspunkt i gennemsnit, lignende styrkeberegning kan foretages med test af andele.
Opsummering
Essensen af en hypotesetest er, at opstille to modsatrettede hypoteser, H0 og H1. H0 hypotesen repræsenterer erfaringen, som er det vi indtil videre må gå ud fra er sandt, og H1 hypotesen er vores
formodning baseret på en stikprøve. Hypotesetestens formål er, at afgøre om H1 er sand eller falsk.
H0 accepteres eller forkastes ud fra et valgt testniveau. Dette testniveau kan tolkes som den kritiske
grænse, som punktestimatet i form af en p-værdi skal overskride, før vi forkaster H0.
Der kan forekomme to typer fejl, når en hypotesetest anvendes. Type 1 fejl er sandsynligheden for
at forkaste H0 når denne er sand, og type 2 fejl er sandsynligheden for at acceptere H0 når denne er
falsk.
En type 1 fejl afhænger udelukkende af testniveauets størrelse. Er testniveauet 5 %, er sandsynligheden for en type 1 fejl også 5 %.
En type 2 fejl kan ikke isoleres til en bestemt værdi, så denne fejl illustreres i stedet med en styrkekurve for alle de mulige værdier af H1.
s. 148
Hypotesetest
Generel metode til løsning af hypotesetest
En generel metode til at beregne hypotesetest opridses i nedenstående. Efterfølgende diskuteres
punkterne enkeltvist.
1. Definition af variabel
2. Angiv model
3. Opstil data i form af punktestimater og stikprøve
4. Hypoteser
5. Forudsætninger valideres, herunder approksimation
6. Formel for beregning af teststørrelse
7. Vælg testniveau og beregn p-værdi
8. Konklusion
NB: Hypotesetest som beregnes med Statlearn programmet følger denne fremgangsmåde.
Ad 1: Definition af variabel
Udgangspunktet for alle statistiske test er en klar definition af variablen, der skal testes.
ermed forstås en kort og præcis beskrivelse af variablen uden inddragelse af tal eller punkestiH
mater. Er du i tvivl om, hvad variablen er så stil dig selv spørgsmålet: Hvad er det, der kan variere?
EKSEMPEL:
I forbindelse med lanceringen af en ny hybridbil ønsker Ford, at teste om kørslen gennemsnitligt
overstiger 25 km/l ved bykørsel.
Her defineres variablen som: Antal kørte km pr. liter benzin ved bykørsel.
Ad 2: Angiv af model
Der findes mange forskellige fordelinger, en variabel kan følge. Derfor er det vigtigt, at redegøre for
den eksakte fordeling. Følger en variabel binomialfordelingen, men approksimeres og testes i en
normalfordeling er det vigtigt at angive. Under punktet med forudsætninger kommenteres at variablen approksimeres fra binomial til en normalfordeling (se mere om approksimation på side 119).
Ad 3: Data
Her opstilles datagrundlaget for intervallet i form af punktestimater som gennemsnit, standardafvigelse og stikprøvestørrelse.
Ad 4: Hypoteser
Det kan godt volde en del vanskeligheder, at vende hypoteserne korrekt. Som udgangspunkt kendetegnes H0 hypotesen ved at repræsentere den formodning, der må antages at være sand, indtil
andet er bevist.
s. 149
Hypotesetest
EKSEMPEL:
Ejeren af en æbleplantage har 30 års erfaring for, at æblerne gennemsnitligt vejer mere end 100
gram (m). En stikprøve på 50 æbler resulterede i et gennemsnit på 110 gram (x) og en standardafvigelse på 40 gram (s). Tyder det på, at æblerne vejer mere end 100 gram i gennemsnit?
H0:m # 100 gram
H0:m . 100 gram
Ho repræsenterer det man har erfaring for, i den forbindelse at æblerne gennemsnitligt vejer 100
gram. En stikprøve har sået tvivl om rigtigheden af de 100 gram. Punktestimatet (x) indikerer med
sine 110 gram, at populationsgennemsnittet (m) kunne formodes at være større end 100 gram.
Hypotesetesten anvendes for at afgøre, om de 110 gram er en signifikant afvigelse fra de 100 gram
og dermed et bevis for, at populationsgennemsnittet er større end 100 gram.
Ad 5: Forudsætninger, herunder approksimation
Her beskrives de forudsætninger, der ligger til grund for testen. Er testen f.eks. baseret på en approksimation, er det vigtigt, at skrive om approksimationsbetingelserne er opfyldt. Approksimation
betyder, at man går fra den oprindelige fordeling over til en anden fordeling, oftest fra en diskret
fordeling (binomial, poisson og hypergeometrisk) til normalfordelingen. Hypotesetest er hovedsagligt baserede på normalfordelingen, men det er ikke altid, at den variabel man arbejder med
er normalfordelt. Det kan derfor være nødvendigt at approksimere til normalfordelingen. For at
approksimere er der nogle forudsætninger, der skal være opfyldt, hvilket fremgår af “Appendiks
1” i slutningen af afsnittet om fordelinger. I den forbindelse skal det bemærkes, at der til alle konfidensintervaller der beregnes med Statlearn programmet, udføres en automatisk kontrol af om
approksimationsbetingelserne er opfyldt.
Ad 6: Formel for beregning af teststørrelse
Formel for beregning af teststørrelsen opstilles. Teststørrelsen er nødvendig for at beregne p-værdien. Det er ved sammenligning af p-værdien og testniveauet, at vi konkluderer, om H1 hypotesen
er sand eller falsk.
Ad 7: Testniveau og p-værdi
Angiv testniveau. Hvis ikke testniveauet er nævnt i opgaven, vælges som regel et testniveau på 5
%. Vær opmærksom på at et testniveau er et udtryk for sandsynligheden for at begå en type 1 fejl:
Type 1 fejl:P(forkast H0 I H0)
Vælges et testniveau på 5 % er der tilsvarende 5 % sandsynlighed for at forkaste Ho når denne er
sand. Som vi tidligere var inde på, øges sandsynligheden for en type 2 fejl, hvis testniveauet mindskes, derfor kan man ikke uden omtanke sænke testniveauet for at minimere sandsynligheden for
en type 1 fejl.
s. 150
Hypotesetest
Ad 8: Konklusion
Er p-værdien mindre end testniveauet, forkastes H0. Hvis testniveau og p-værdi er relativt tæt på
hinanden, er konklusionen niveaufølsom, hvilket betyder at konklusionen kan gå begge veje, hvis
testniveauet ændres marginalt. I dette eksempel beregnes p-værdien til 4,1% hvilket betyder at H0
forkastes H – Men ændres testniveauet marginalt fra 5 til 4 % accepteres H0. Husk på at p-værdien
er et resultat af stikprøvedata og kan dermed ikke ændres, derimod kan testniveauet reguleres.
Hypotesetest oversigt, 1 stikprøve
FIGUR 52:
Gennemsnit (m)
Intensitet (l)
Andel (p)
Std.afvigelse (s)
Er variansen
baseret på en
stikprøve?
Approks.
Z-test a l
Er variablen
binomial (B)
eller hyp.
geometrisk (H)
x2-test af s
(Nej)
(Ja)
Z-test
(B)
(H)
Approks.
Z-test uden
korrektions
faktor
Approks.
Z-test med
korrektions
faktor
Er stikprøven
større end 30
(Nej)
(Ja)
T-KI
Approks.
Z-test
s. 151
Hypotesetest
Beregning af hypotesetest, 1 stikprøve
TABEL 70: Oversigt over hypotesetest, 1 stikprøve
Hypotesetest
Formel
Z-test af m
Z5
Approksimativ Z-test af m
(Med n-1 frihedsgrader)
Z5
T-test af m
t5
x2-test af s
x2 5
Z5
Approksimativ Z-test af p
s/√ n
x 2 mo
s/√ n
x 2 mo
s/√ n
s er kendt
(standardafvigelsen for
populationen)
n . 30
s er ukendt, i stedet anvendes
standardafvigelsen for stikprøven,
“s”
(n 2 1)s2
so2
p� 2 po
√ po(1 2 po)/n
Z5
Approksimativ Z-test af l
x 2 mo
Forudsætning
l� 2 lo
√ lo/n
n ? po (1 2 po) . 9
n ? lo . 9
� tolkes som x
l
Beregning af styrken (type 2 fejl) ved test
af andele
TABEL 71: Beregning af styrken ved test af andele
Hypoteser
Formel
når H1 . H0
b 5 1 2 P Z ,
når H1 , H0
b 5 P Z ,
m0 2 m1
? √ n 1 Za s
når H1  H0
1 2 P Z ,
m0 2 m1
m0 2 m1
? √ n 1 Za21 2 P Z ,
? √ n 1 Za s
s
m0 2 m1
? √ n 1 Za21 s
s. 152
Hypotesetest
Beregning af styrken (type 2 fejl) ved test
af gennemsnit
TABEL 72: Beregning af styrken ved test af gennemsnit
Hypoteser Formel
p0 2 p 1
p0(1 2 p0)
når H1 . H0 b 5 1 2 P Z , p (1 2 p ) ? √ n 1 Za ? 1
1
p1(1 2 p1)
p0 2 p 1
p0(1 2 p0)
når H1 , H0 b 5 P Z , p (1 2 p ) ? √ n 1 Za ? 1
1
p1(1 2 p1)
p0 2 p1
p0(1 2 p0)
p0 2 p1
p0(1 2 p0)
2 P Z ,
? √ n 1 Za ? når H1  H0 1 2 P Z , p (1 2 p ) ? √ n 1 Za ? p1(1 2 p1)
1
1
p1(1 2 p1)
p1(1 2 p1)
Eksempler på hypotesetest med en stikprøve
Eksempel 1: T-test af gennemsnit når varians er ukendt X ~ N(m,s2)
Ud af 50 biler var gennemsnitskørslen 26,5 km/l med en standardafvigelse på 2,9 km/l. Kan det
konkluderes, at bilerne gennemsnitligt kører længere end 25 km/l?
Variabel: Distance (km) pr. liter benzin
Model: X ~ N(m,s)
Data:
n
50
x
26,5
s
2,9
Hypoteser:
H0: m # 25
H1: m . 25
Forudsætninger:
Formel for teststørrelse:
x 2 mo
t5
s/√ n
s. 153
Hypotesetest
Testniveau og p-værdi:
Testniveau 5 0,05 og p-værdi 5 0,000311
Konklusion:
H0 forkastes da p-værdi , testniveau. Hermed konkluderes med 95 % sandsynlighed, at bilerne
kører mere end 25 km i gennemsnit pr. liter.
Eksempel 2: Z- test af gennemsnit i en normalfordeling, varians kendt X ~ N(m,s2)
I forbindelse med Nordeas årlige kundeundersøgelse baseret på 80 spørgeskemaer, blev den gennemsnitlige tilfredshed med kunderådgivning målt til 70,48. Kan Nordea på denne baggrund konkludere, at tilfredsheden for alle kunder mindst er 70? Det antages, at standardafvigelsen for denne type undersøgelser er 3.
Variabel: Tilfredshed med kunderådgivning (skala 0-100)
Model: X ~ N(m,s)
Data:
n
80
x
70,48
s
3
Hypoteser:
H0: m # 70
H1: m . 70
Forudsætninger:
Populationens varians er kendt
Observationerne er normalfordelte
x 2 mo
Z5
s/√ n
Konklusion:
H0 accepteres da p-værdi . testniveau. Hermed kan det med 95% sandsynlighed ikke afvises, at
kundetilfredsheden højst er 70.
s. 154
Hypotesetest
Eksempel 3: Chi-test af standardafvigelsen i en normalfordeling
Et vigtigt serviceparameter er, at der ikke er stor forskel på ventetiden i de forskellige køer hos
Netto. Kravet er, at standardafvigelsen højst må være 3 minutter. Ud af en stikprøve på 47 kunder
var standardafvigelsen 2,7 min.
Test på 5% niveauet om Nettos krav til ventetiden er opfyldt?
Variabel: Ventetid i kø (min.)
Model: X ~ N(m,s)
Data:
n
s
47 2,7
Hypoteser:
H0: s $ 3
H1: s , 3
Forudsætninger:
(n 2 1)s2
x2 5
so2
Konklusion:
H0 accepteres da p-værdi . testniveau. Hermed kan det med 95% sandsynlighed ikke afvises, at
standardafvigelsen på ventetiden er mere end 3 minutter. Nettos krav er dermed ikke opfyldt.
Eksempel 4: Approksimativ Z-test af populationsandelen i en binomialfordeling
En investeringsfond garanterer at 70 % af deres aktier giver et afkast på mindst 12 %. Blandt en
stikprøve på 50 af fondens aktier som blev målt over en 1-årig periode, var der 36 aktier med et
afkast på mindst 12 %. Tyder det på at garantien overholdes?
Variabel: Antal aktier med et afkast på mindst 12%
Model: X ~ b(n,p)
Data:
n
50
x
36
p�
0,72
s. 155
Hypotesetest
Hypoteser:
H0: p # 0,70
H1: p . 0,70
Forudsætninger:
Normalfordelingsapproksimation: n  p�(1 2 p�) . 9 er opfyldt → Approksimation er ok
p� 2 po
Z5
√ po(1 2 po)/n
Konklusion:
H0 accepteres da p-værdi . testniveau. Hermed kan det med 95 % sandsynlighed afvises, at andelen af aktier med et afkast på 12 % er mindst 70 %.
Eksempel 5: Approksimativ Z-test af intensiteten i en poisson fordeling
Som direktør for en ejendomsmæglerkæde der sælger luksushuse i Sydeuropa, har du erfaring for,
at der gennemsnitligt sælges mere end 15 huse pr. måned. Baseret på de sidste 2 års salgshistorik
var det månedlige gennemsnit 16,4. Er antagelsen om et gennemsnitsalg på mere end 15 huse
korrekt?
Variabel: Antal solgte sommerhuse pr. måned
Model: X ~ Ps(l)
Data:
n
24
l�
16,4
Hypoteser:
H0: l # 15
H1: l . 15
Forudsætninger:
Normalfordelingsapproksimation: n  l� . 9 er opfyldt → Approksimation er ok
l� 2 lo
Z5
√ lo/n
s. 156
Hypotesetest
Testniveau 5 0,05 p-værdi 5 0,0383
Konklusion:
H0 forkastes da p-værdi , testniveau. Hermed tyder det med 95 % sandsynlighed på, at gennemsnitsalget overstiger 15 huse pr. måned.
Hypotesetest med to stikprøver
Med hypotesetest for to stikprøver er fremgangsmåde den samme som med test baseret på en
enkelt stikprøve. Forskellen er blot, at vi sammenligner to populationsparametre, eksempelvis om
det gennemsnitlige afkast er højere for aktie A end B.
For at finde frem til den korrekte test for to populationsparametre, kan nedenstående oversigt anvendes. Bemærk at ligesom med konfidensintervaller for differens mellem to populationsparamtre
er det kun test af gennemsnit, som fører til forskellige testmuligheder. For test af andele og intensitet er der kun en type test, hvorfor disse ikke inkluderes i oversigten.
FIGUR 53:
Gennemsnit (m)
Er begge
stikprøver
større end 30?
(Ja)
(Nej)
Z-test
Er populationsvariansen kendt?
(Nej)
Upooled
t-test
(Nej)
(Ja)
Test af varianshomogenitet
Z-test
Er der varianshomogenitet?
(Ja)
Pooled
t-test
s. 157
Hypotesetest
Beregning af hypotesetest, 2 stikprøver
TABEL 73: Oversigt over hypotesetest, 2 stikprøver
Hypotesetest
Formel
Z-test for
mx 2 my
Z5
Approksimativ
Z- test for
mx 2 my
Z5
Pooled
T- test for
mx 2 my
x2y2D
s2x
s2y
1
nx
ny
x2y2D
t5
Forudsætning
s
s
1
nx
ny
2
x
2
y
1
1
s n 1n
x
y
(nx 2 1)s2x 1 (ny 2 1) s2y
s2p 5
(nx1 ny 2 2)
Upooled
T-test for
mx 2 my
t5
Approksimativ
T-test for
mx 2 my
t5
x2y2D
s2x
s2y
1
nx
ny
x2y2D
s2x
s2y
1
nx
ny
p� 2 p�y 2 D
Approksimativ
T-test for
px 2 py
1
1
p�o(1 2 p�o)/ n 1 n x
y
Approksimativ
T-test for
lx 2 ly
Z5
T-test for
sx 2 sy
Ved direkte sammenligning af x og y
sættes D til 0.
nx . 30 og ny . 30
sættes D til 0.
x2y2D
2
p
Z5
s2x og s2y er kendte.
x1y
Hvor p�o 5
n x 1 ny
l�x 2 l�y 2 D
l�x
l�y
1
nx
ny
f5
s2x
s2y
s2x og s2y er ukendte, men varianshomogenitet,
dvs. ens varians.
sættes D til 0.
s2x og s2y antages ukendte, og der er ikke
varianshomogenitet, dvs. ikke ens varians.
sættes D til 0.
s2x og s2y antages ukendte, og der er ikke
varianshomogenitet, dvs. ikke ens varians.
sættes D til 0.
nx · p�x(1 2 p�x) . 9
ny · p�y(1 2 p�y) . 9
Ved direkte sammenligning af x og y sættes D
til 0.
nx  l�x . 9
ny  l�y . 9
Ved direkte sammenligning af x og y sættes
D til 0.
Anvendes hyppigt i forbindelse med test af
varianshomogenitet
s. 158
Hypotesetest
Eksempler på hypotesetest med 2 stikprøver
Eksempel 1: Approksimativ Z-test af differensen mellem 2 pop. gennemsnit
To reklamer blev bedømt på en 5 punkt skala af 40 personer. For reklame 1 og 2 var gennemsnittet
henholdsvis 4,3 og 3,9 og standardafvigelse var tilsvarende på 1,7 og 1, 2. Kan det på den baggrund
konkluderes, at reklame 1 får en bedre gennemsnitsbedømmelse end reklame 2?
Variabel: X: Karakter for reklame 1 Y: Karakter for reklame 2
Model: X og Y ~ N(m,s)
Data:
nx
40
x
4,3
sx
1,7
ny
40
y
3,9
sy
1,2
Hypoteser:
H0: mx # my
H1: mx . my
Forudsætninger:
Normalfordelingsapproksimation: nx og ny er begge . 30 → Approksimation er ok
Formel:
x2y2D
Z5
s2x
s2y
1
nx
ny
Konklusion:
Ho accepteres da p-værdi . testniveau. Det kan med 95 % sandsynlighed ikke afvises, at gennemsnitsbedømmelsen for begge reklamer kan værre ens.
s. 159
Hypotesetest
Eksempel 2: Approksimativ Z-test af differensen mellem 2 pop. intensiteter
I en undersøgelse blandt folk der lider af migræneanfald, blev der nedsat to grupper (A og B) med
50 personer i hver. Begge grupper testede en ny pille mod migræne, men i gruppe B var alle pillerne
placebo (piller uden effekt). Det gennemsnitlige antal migræneanfald for gruppe A var 2,4 og for B
var gennemsnittet 4,1. Kan det herudfra konkluderes, at den nye pille har effekt?
Variabel: X: Antal migræneanfald i gruppe A Y: Antal migræneanfald i gruppe B
Model: X og Y ~ Ps(l)
Data:
nx
12
l�x
2,4
ny
12
l
�y
4,1
Hypoteser:
H0: lx $ ly
H1: lx , ly
Forudsætninger:
Normalfordelingsapproksimation: n ? l� . 9 er opfyldt for både X og Y
Formel:
l�x 2 l�y 2 D
Z5
l�x
l�y
1
nx
ny
Konklusion:
Ho forkastes da p-værdi , testniveau. Det betyder, at migrænemedicinen med 95 % sandsynlighed
har en effekt.
s. 160
Hypotesetest
Eksempel 3: Approksimativ Z-test for differensen mellem 2 populationsandele
For at se om der er en relation mellem kendskabsgraden til bagerkæden Emmerys og geografisk
bopæl, udtages en stikprøve på 45 århusianere (Å) og 54 københavnere (K). Blandt århusianerne
var der 15 som kendte til Emmerys og blandt københavnerne var antallet 27. Har geografi betydning for kendskabsgraden til Emmerys?
Variabel: X: Antal hyppigt besøgende (i Århus) Y: Antal hyppigt besøgende (i Kbh.)
Model: X og Y ~ b(p,n)
Data:
nx
45
x
15
p�x
0,333
ny
54
y
27
p�y
0,5
Hypoteser:
H0: px $ py
H1: px , py
Forudsætninger:
Normalfordelingsapproksimation: n  p�(1 2 p�) . 9 er opfyldt for både X og Y
Formel:
Z5
p� 2 p�y 2 D
p�o(1 2 p�o)/ 1
1
1 n x ny
Konklusion:
Ho forkastes da p-værdi , testniveau. Det betyder at andelen af hyppigt besøgende med 95 %
sandsynlighed kan siges at være større i København end i Århus.
s. 161
Hypotesetest
Variansanalyse (ANOVA)
Variansanalyse er en statistisk metode, der anvendes til at vurdere, om der er forskelle mellem gennemsnitlige værdier på tværs af forskellige grupper (populationer).
Som eksempel kan nævnes en undersøgelse af tilfredshedsgraden i forskellige banker. Her kan
ANOVA anvendes til at vurdere, om tilfredshedsgraden er ensartet, eller om der er tegn på, at der
i enkelte banker er en højere grad af tilfredshed end i de øvrige.
Alternativt til ovenstående kvantitative variabel (tilfredshedsgrad) kan ANOVA også bruges til at
analysere kvalitative variable, eksempelvis hvorvidt brugtvognspriser for et bestemt bilmærke
påvirkes af bilens farve, indtræk etc. Således kan ANOVA anses som en fleksibel metode, der ikke
nødvendigvis tager udgangspunkt i kvantitative variable, som det er tilfældet med regressionsanalyse.
I det enkleste tilfælde, hvor kun to populationer sammenlignes, svarer ANOVA til en hypotesetest
af forskellen mellem to gennemsnit. Men i modsætning til traditionelle test af to populationer er
ANOVA-metoden egnet til at teste flere gennemsnit samtidigt. Ved envejs-ANOVA vurderes effekten af en enkelt faktor på baggrund af en enkelt responsvariabel. For eksempel kan en fødevarevirksomhed være interesseret i at afgøre, om der er forskelle i præferencerne for fem nye produkter,
der endnu ikke er lancerede. I den forbindelse udvælges fem forskellige testgrupper (stikprøver). I
hver stikprøve afgiver respondenterne karakterer fra 1-10 (responsvariablen), hvorefter gennemsnittet i hver af de fem stikprøver beregnes.
I ovenstående tilfælde kan ANOVA være med til at kvantificere om den variation, der er imellem
de fem stikprøvegennemsnit, er tilstrækkelig høj (signifikant) til at konkludere, at der ikke kan være
tale om fem identiske populationsgennemsnit, og altså at de fem produkter ikke kan antages at
være lige populære. Efterfølgende vil det naturlige skridt være at analysere, hvilke produkter der
blev foretrukket. At give dette svar ligger uden for ANOVA-metodens rammer – At svare på dette
spørgsmål vil kræve yderligere analyse med Tukey testen. ANOVA giver blot svar på, om de sammenlignede gennemsnit med en vis sandsynlighed, kan betragtes som værende ens.
ANOVA bygger på Mindste Kvadrat Metoden, som også ligger til grund for regressionsanalyser og
er uddybet i afsnittet om regressionsanalyse, se afsnit MKM.
Forudsætninger for ANOVA
1. De populationer vi sammenligner, skal være normalfordelte
2. Stikprøverne skal være udvalgt ensartet tilfældigt fra de givne populationer
3. Populationerne skal have samme varians (varianshomogenitet)
s. 162
Hypotesetest
Eksempel på variansanalyse
Du er ansat hos Nybolig, og er ved at undersøge prisniveauet for fritidshuse i Sverige, da I overvejer
at udvide jeres salgsmarked. Du er interesseret i at vide, om prisniveauet er ensartet i 3 forskellige
områder af Sydsverige, og har derfor udtaget 3 stikprøver – en fra Kalmar, en fra Blekinge og en fra
Kristianstad. Resultatet ses i nedenstående skema.
Tabel 74:
Kalmar
Blekinge
Kristianstad
1.032.000
1.221.000
1.418.000
955.000
2.756.000
1.343.000
855.000
1.436.000
1.340.000
843.000
2.297.000
1.267.000
924.000
1.311.000
1.322.000
755.000
1.315.000
1.313.000
854.000
953.000
1.183.000
1.779.000
1.896.000
1.287.000
1.342.000
1.284.000
1.340.000
886.000
952.000
1.531.000
908.000
1.301.000
1.436.000
1.260.000
1.182.000
1.149.000
1.221.000
1.568.000
1.212.000
Er der forskel på det gennemsnitlige prisniveau i de 3 forskellige områder af Sydsverige (ved et
signifikansniveau på 5%)?
s. 163
Hypotesetest
Hypoteser:
H0: m1 5 m2 5 mi
H1: Ej H0
Data
Tabel 75:
Kilde
SS
fg
MS
F
Fkritisk
P-værdi
Imellem
1,33819E+12
2
6,69096E+11
5,4571
3,2594
0,0085
Iblandt
4,41396E+12
36
1,2261E+11
Total
5,75215E+12
38
Forudsætninger
Stikprøver er udvalgt simpelt tilfældigt
Obs. er fra normalfordelte populationer
Populationerne har ens varianser
Konklusion
Da p-værdi (0,0085107) , testniveau (0,05) forkastes H0
Da p-værdien er mindre end signifikansniveauet på 5 %, kan vi konkludere, at der er forskel på prisniveauet i de 3 forskellige områder af Sydsverige.
s. 164
Hypotesetest
Øvelser med hypotesetest
De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af specifikke testbegreber. Efterfølgende er opgaverne rettet mod beregninger.
1. Hvad er ideen med en hypotesetest?
2. Hvad er forskellen på en hypotesetest og et konfidensinterval?
3. Hvordan opfatter du forskellen på H0 og H1 hypotesen?
4. Hvordan vil du fortolke testniveauet?
5. Hvilken effekt har størrelsen af testniveauet for konklusionen?
6. Hvornår ved du, at der er tale om en test af to variabler?
Beregningsøvelser:
Opgave 1.
I forbindelse med at forberede markedsføringen af en ny type boliglån ønsker Jyske Bank, at danne
sig et indtryk af hvordan boliglånet vil blive modtaget af kunderne. Derfor har banken, i samarbejde
med dig, iværksat en undersøgelse, hvor folk i forskellige aldersintervaller, har vurderet om lånet
var en god ide. Resultaterne fremgår af nedenstående.
Tabel 76:
Aldersinterval (år)
Vurdering
21-40
41-60
. 60
SUM
God ide
97
110
104
311
Neutral
43
61
39
143
Dårlig ide
55
10
14
79
SUM
195
181
157
533
Spørgsmål 1.Test på 1 % niveauet om over halvdelen af kunderne vurderer, at det nye boliglån
er en god ide.
Spørgsmål 2.Test på 5 % niveauet om der er færre kunder mellem “41–60” end “.60” der
mener at lånet er en god ide. Hvad betyder resultatet for kommunikationen til de
to segmenter?
s. 165
Hypotesetest
Opgave 2.
Grønklimas hastige salgsvækst har ikke været uden problemer. Et stigende antal kunder er begyndt
at klage over produktfejl og mangler ved virksomhedens ventilationsanlæg. For at få et overblik
over fejlprocenten, blev en stikprøve på 193 ventilationsanlæg udtaget, heriblandt var 10 defekte.
Spørgsmål 1. Beregn et 95 % konfidensinterval for andelen af defekte ventilationsanlæg.
Spørgsmål 2. Test på 5 % niveauet om defektprocenten kan siges at være maksimalt 5 %.
For at imødekomme kundernes klager har Grønklima øget antallet af kvalitetskontroller i produktionen og garanteret kunderne en bedre kvalitet
En måned efter den skærpede kvalitetskontrol udtog man en stikprøve på 236
ventilationsanlæg og fandt 11 fejl.
Spørgsmål 3.Test på 5 % niveauet om den skærpede kvalitetskontrol har virket efter hensigten
og medført færre fejl.
Opgave 3.
Det er snart nytårsaften og du skal holde stor fest. I avisen ser du et godt tilbud fra den lokale fyrværkeriforhandler – men fordi fyrværkeriet er så billigt, er du nervøs for, om det gode tilbud skyldes et stort antal fusere i pakken. Nu lover forhandleren dig, at der er mindre end 10 % fusere, og
du får lov til at tage en pakke med hjem og prøve af. Ud af 35 stk. er 7 fusere.
Holder fyrværkeriforhandlerens løfte stik ved et signifikansniveau på 5 %?
Opgave 4.
Du arbejder for Acer, og I er ved at udvikle en ny notebook. For at få en fornemmelse af, hvad kunderne vil synes om den nye notebook, har I oprettet en testgruppe og spurgt deltagerne, hvordan
de opfattede den foreløbige version. Testgruppen var på 230 mennesker. Resultaterne blev følgende
130 personer synes særdeles godt om den nye notebook.
26 personer er neutrale over for den nye notebook.
74 personer synes ikke godt om den nye notebook.
Test på 5 %-niveauet om over halvdelen af kunderne synes særdeles godt om den nye notebook.
Opgave 5.
Københavns Lufthavn har på det seneste oplevet en del problemer med deres bagagebånd, som
går i stå alt for ofte. Det har betydet utilfredse passagerer, og derfor har man udskiftet båndene.
Før udskiftningen gik båndene i gennemsnit i stå 4 gange i løbet af en time, og efter udskiftningen
har man foretaget en måling over det sidste døgn, som viser, at båndende i gennemsnit gik i stå kun
1,5 gange i timen. Københavns Lufthavn antager, at båndende nu går i stå under 2 gange i timen.
Er Københavns Lufthavns antagelse korrekt? (Test på 5 %-niveauet)
s. 166
Hypotesetest
Opgave 6.
Du arbejder for Megafon og har foretaget en meningsmåling over, hvorvidt der er tilslutning til afskaffelse af efterlønnen blandt befolkningen på tværs af politiske holdninger. Resultaterne fremgår
nedenfor
Tabel 77:
Stemmer på rød blok
Stemmer på blå blok
SUM
For afskaffelse
74
93
167
Neutral
5
6
11
Imod afskaffelse
51
39
90
SUM
130
138
268
Test på 5 %-niveauet om over halvdelen af de, der stemmer rødt, er for afskaffelse af efterlønnen,
og vurder desuden konklusionens følsomhed.
Opgave 7.
Du er ansat hos et større analysebureau, og er i gang med at udarbejde en markedsanalyse for
Finanstilsynet. De vil bl.a. gerne vide, om der er sammenhæng mellem, hvor stor tillid man har til
den finansielle sektor, og hvor i landet man bor. Du udtager derfor en stikprøve på 150 århusianere
og 200 københavnere. Blandt århusianerne er der 104, der har tillid til den finansielle sektor, og
blandt københavnerne er der 132, der har tillid til den finansielle sektor.
Er tilliden til den finansielle sektor større i Århus end i København? (Test på 5 %-niveauet)
Opgave 8.
Hos Apple har man netop færdigudviklet en ny version af Ipad’s, som man nu ønsker at kende den
gennemsnitlige batterilevetid på. Der udtages derfor en stikprøve på 32 af de nye Ipads, og man
finder ud af, at den gennemsnitlige batterilevetid er 7,9 timer med en standardafvigelse på 1,8 timer. Hos ASUS har man ligeledes udviklet et konkurrerende produkt Ipaper, og her er der udtaget
en stikprøve på 35 Ipaper’s, hvor den gennemsnitlige batterilevetid er 8,1 timer med en standardafvigelse på 2,2 timer.
Har ASUS’ Ipaper længere batterilevetid end Apples Ipad?
s. 167
Hypotesetest
Opgave 9.
Du har sat dig for at undersøge gennemsnitsindkomsten for mænd og kvinder, og derfor har du
udtaget to stikprøver – resultatet af din undersøgelse ses nedenfor
Tabel 78:
Mænd
Kvinder
47
31
Gennemsnit
318.999
289.381
Standardafvigelse
38.211
42.898
Observationer
Test på 1 %-niveauet om gennemsnitsindkomsten for mænd er større end gennemsnitsindkomsten
for kvinder.
Opgave 10.
McDonald’s er i færd med at ekspandere med 2500 franchise restauranter i Kina. Som et led i deres
ekspansion ønsker McDonald’s at vurdere, om der kan være stordriftsfordele i at opkøbe kartoffelplantager til deres pommes fritter, eller om det alternativt bedre kan svare sig, at importere dem.
McDonald’s har estimeret, at hver franchiserestaurant mindst skal aftage 3 kasser á 500 kg. kartofler om ugen, for at kartoffelplantagen kan betale sig. I en periode på 10 uger blev der indhentet
ugentlige observationer fra forskellige franchiserestauranter. Det gennemsnitlige ugentlige forbrug
blev estimeret til 3,9 kasser pr. franchise.
Spørgsmål 1. Definer variabel og fordeling.
Spørgsmål 2. Giver datagrundlaget anledning til, at McDonald’s skal købe kartoffelplantagen?
Spørgsmål 3.Hvor meget skal signifikansniveauet ændre sig, for at vi ændrer vores konklusion
i spørgsmål 2?
For ikke at besværliggøre det logistiske arbejde med at transportere kartoflerne fra plantagen ud
til franchiserestauranterne må andelen af de restauranter, som har et ugentlig forbrug på højst 3
kasser, ikke overstige 15 %. På baggrund af de 85 observerede franchiserestauranterne fandt man,
at der var 16 som højst aftog 3 kasser ugen.
Spørgsmål 4. Test om andelen af butikker der højst aftager 3 kasser om ugen overstiger 15 %.
Spørgsmål 5.Hvilken forskel havde det gjort, hvis vi i spørgsmål 1 i stedet for kasser fik oplyst,
at det ugentlige forbrug skulle være på mindst 1242 kg pr. restaurant?
s. 168
Hypotesetest
Opgave 11.
Den førende producent af IT-systemer til virksomheder, SAP, har indført et nyt projektstyringssystem, der skal gøre det lettere at implementere deres systemer og dermed sikre, at projekterne
overholder tidsrammen.
Der har erfaring for, at 43 % af projekterne overskrider tidsrammen, men med det nye system blev
39 ud af 60 projekter afsluttet til tiden.
Spørgsmål 1. Definer variabel og fordeling
Spørgsmål 2. Giver dette grund til at antage, at projektstyringssystemet fungerer?
Spørgsmål 3.Hvad skal testniveauet ændres til, for at få den modsatte konklusion i spørgsmål 2?
Spørgsmål 4.Hvis den sande andel af projekter der overskrider tidsrammen er 25 %, hvor stor er
da sandsynligheden for, at højst 30 ud af 120 projekter overskrider tidsrammen?
Opgave 12.
For at teste de lydmæssige forbedringer for en ny mp3 afspiller har Apple nedsat to testgrupper.
Gruppe A skulle vurdere lydkvaliteten af virksomhedens nuværende afspiller, og gruppe B vurderede lyden af den nye afspiller. Resultaterne ses i nedenstående tabel 1. Karakter blev givet på en
10-punkt skala med 10 som topkarakter.
Tabel 79:
Gruppe A
Gruppe B
27
48
Gennemsnit
4,79
6,26
Std. Afv.
2,08
1,53
Observationer
Spørgsmål 1.Test på 5 % niveauet om gennemsnitskarakteren i gruppe B kan siges at være
større end i gruppe A.
I gruppe B var der 28 testpersoner, der mindst gav et syvtal i karakter.
Spørgsmål 2.Test på 10 % niveauet om mere end halvdelen af karaktererne for den nye afspiller vil være større end 7.
s. 169
Hypotesetest
Opgave 13.
Du er ansat hos et analysebureau, og er i færd med at udarbejde en analyse over, hvor tilfredse
danskerne er med deres liv. I den forbindelse vil du undersøge, om alder har nogen indvirkning på,
hvor tilfreds man er med tilværelsen. Du har udtaget 3 stikprøver inddelt i aldersintervaller, og bedt
de medvirkende om, på en skala fra 1 til 10, at vurdere hvor tilfredse de generelt er med tilværelsen. Resultatet fremgår nedenfor.
Er der forskel på gennemsnitstilfredshedsgraden på tværs af aldersgrupperne ved et signifikansniveau på 5 %?
Tabel 80:
Alder 18–30
Alder 31–50
Alder . 50
2
10
7
4
4
4
9
9
8
10
10
2
5
3
2
5
9
4
8
4
4
7
7
7
4
10
4
6
7
4
9
10
7
6
6
6
8
9
10
4
4
2
2
8
4
s. 170
Hypotesetest
Tidligere eksamensøvelser med hypotesetest
øvelser”.
Øvelser med hypotesetest (sideangivelse samt opgavenummer):
Side 2 /2.2
Side 4 /1.3
Side 4 /1.3
Side 5 /3.3
Side 8 /3.2
Side 8 /3.3
Side 9 /4.2
Side 9 /4.4
Side 10 /1.1
Side 10 /1.3
Side 10 /2.2 (rå data)
Side 10 /2.3 (rå data)
Side 10 /2.4 (resumé data kombineret med rå data)
Side 10 /4.2 (fokus på niveaufølsomhed)
Side 14 /4.3
Side 27 /2.3 (fokus på niveaufølsomhed)
s. 171
Hypotesetest
Løsninger til hypotesetest
I det følgende fremgår løsninger til øvelserne for hypotesetest. Det skal nævnes, at løsningerne for
simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation
er det vigtigt, at din opgave løses, så den indeholder alle de informationer, som er nævnt i afsnittet:
“Generel metode til løsning af hypotesetest”.
1. At teste om en given påstand i form af en (H1) hypotese er sand eller falsk.
2. En test fører til en konklusion, om et populationsparameter er mindre/større/forskellig fra
en bestemt værdi fremsat i H0 og H1 hypotesen. Et konfidensinterval fører ikke til samme
håndfaste konklusion, men er derimod et interval, der indeholder populationsparameteret
med en given sandsynlighed (som regel 95 %).
3. H0 hypotesen repræsenterer det vi indtil videre må gå ud fra er sandt. H0 er med andre
ord det vi - indtil andet er bevist - må gå ud fra er sandt. H1 udfordrer H0 hypotesen med
den modsatte påstand. H1 fremsættes på baggrund af et punktestimat, som indikerer, at
H0 hypotesen er forkert. For at teste hvilken af de to modsatrettede hypoteser der er sand,
anvendes en hypotesetest.
4. Testniveauet er testens toleranceværdi. Testniveauet repræsenterer sandsynligheden for
at begå en type 1 fejl, hvilket betyder at forkaste en sand H0 hypotese. Jo lavere testniveau
desto mindre bliver sandsynligheden for, at begå en type 1 fejl. På den anden side øges
sandsynligheden for en type 2 fejl, når testniveauet mindskes (en type 2 fejl er at acceptere
en falsk H0 hypotese). Testniveauet bør derfor ikke sænkes uden at skele til effekten af en
øget sandsynlighed for type 2 fejl.
5. Jo større testniveau desto større er sandsynlighed for at begå en type 1 fejl, og dermed forkaste en H0 hypotese der er sand.
6. Når punktestimaterne kommer fra to forskellige stikprøver.
s. 172
Hypotesetest
Beregningsøvelser:
Opgave 1.
Spørgsmål 1.
X: Antal kunder der vurderer, at det nye boliglån er en god ide
X ~ b(p, n 5 533) da variablen er diskret og der er uafhængighed mellem hændelserne
H0 : p 0
H1 : p 0
# 0,5
. 0,5
Konklusion:
Da p-værdi (0,000058) , testniveau (0,01) forkastes H0, hvilket vil sige, at mere end halvdelen
af kunderne vurderer, at det nye boliglån er en god ide.
Spørgsmål 2.
A: 41-60 årige der vurderer, at det nye boliglån er en god ide.
B: 160 årige der vurderer, at det nye boliglån er en god ide.
A ~ b(p, n 5 181) og B ~ b(p, n 5 157) da diskret variabel og uafhængighed
H0 :
H1 :
pA $ pB
pA , pB
Konklusion:
Da p-værdi (0,149076) . testniveau (0,05) accepteres H0. Således kan der ikke antages, at være
forskel på andelen af dem der vurderer, at boliglånet er en god ide i de to forskellige aldersgrupper.
Opgave 2.
Spørgsmål 1.
X: Antallet af defekte ventilationsanlæg
X ~ b(p, n 5 193) da variablen er diskret, og der er uafhængighed mellem hændelserne
95% interval for andel
Spørgsmål 2.
X: Antallet af defekte ventilationsanlæg
X ~ b(n, p) da variablen er diskret, og der er uafhængighed mellem hændelserne
H0 : p 0
H1 : p 0
# 0,05
. 0,05
s. 173
Hypotesetest
Konklusion:
Da p-værdi (0,454) . testniveau (0,01) accepteres H0, hvilket vil sige, at andelen af defekte
ventilationsanlæg med 95% sandsynlighed kan siges at være højst 5%.
Spørgsmål 3.
A: Antallet af defekte ventilationsanlæg før forbedringstiltag
B: Antallet af defekte ventilationsanlæg efter forbedringstiltag
A og B ~ b(n, p) da variablen er diskret og der er uafhængighed mellem hændelserne
Tabel 81:
H0 :
H1 :
pA # pB
pA . pB
n
x
p�
A
193
10
0,0518
B
236
11
0,0466
Konklusion:
Da p-værdi (0,4018) . testniveau (0,05) accepteres H0. Dermed kan vi ikke sige, at der er forskel
på andelen af defekte ventilationsanlæg før- og efter forbedringstiltag.
Opgave 3.
X: Antal fusere
X ~ b(p, n 5 35 da variablen er diskret, og der er uafhængighed mellem hændelserne
H0 : p 0
H1 : p 0
# 0,05
. 0,05
Fyrværkeriforhandlerens løfte holder altså ikke stik.
Opgave 4.
X: Antal brugere der synes særdeles godt om den nye notebook
H0 : p 0
H1 : p 0
# 0,05
. 0,05
Vi må altså antage, at mere end halvdelen af brugerne synes særdeles godt om den nye notebook.
s. 174
Hypotesetest
Opgave 5.
X: Antal gange bagagebåndene går i stå pr. time
X ~ Ps(λ 5 1,5)
H0 : λ0
H1 : λ0
#$2
0,05
.,2
0,05
Københavns Lufthavns antagelse er således korrekt. Dog er konklusionen niveaufølsom, da
p-værdien er tæt på testniveauet.
Opgave 6.
X: Antallet af røde stemmer der ønsker efterlønnen afskaffet.
H0 : p 0
H1: p0
#0,5
#
0,5
.0,5
.0,5
Du arbejder for Megafon, og har foretaget en meningsmåling over, hvorvidt der er tilslutning
til afskaffelse af efterlønnen blandt befolkningen på tværs af politiske holdninger. Resultaterne
fremgår nedenfor
Da p-værdi (0,0572019) . testniveau (0,05) accepteres H0
Vi kan altså ikke afvise, at under halvdelen af de, der stemmer rødt, er for afskaffelse af efterlønnen. Dog er konklusionen niveaufølsom, hvilket vil sige, at vi ikke skal ændre testniveauet ret
meget, før konklusionen ville være den modsatte.
Opgave 7.
A: Århusianere der har tillid til den finansielle sektor
B: Københavnerne der har tillid til den finansielle sektor
H0 : H1 :
pa # pb pa . pb
Approksimativ z-test af forskellen mellem 2 andele
Tilliden til den finansielle sektor er altså ikke større i Århus end i København.
s. 175
Hypotesetest
Opgave 8.
A: Batterilevetid for Ipad (målt i timer)
B: Batterilevetid for Ipaper (målt i timer)
H0 : H1 :
ma $ mb ma , mb
Z-test af forskellen mellem 2 gennemsnit
Altså kan det ikke siges, at ASUS’ Ipaper har længere batterilevetid end Apples Ipad.
Opgave 9.
A: Indkomst for mænd
B: Indkomst for kvinder
H0 : H1 :
ma # mb ma . mb
Z-test af forskellen mellem 2 gennemsnit
Altså kan vi konkludere, at gennemsnitsindkomsten for mænd er større end gennemsnitsindkomsten for kvinder.
Opgave 10.
Spørgsmål 1.
X: Antal kasser der forbruges pr. uge pr. franchise
X ~ Ps(λ 5 3,9)
Spørgsmål 2.
(n 5 10)
H0 : l0 H1 : l0
# 3 . 3
Konklusion: Da p-værdi (0,05017) . testniveau (0,05) accepteres H0. Vi kan hermed ikke afvise,
at franchiserestauranterne højst aftager 3 kasser kartofler om ugen.
Spørgsmål 3.
Ændres p-værdien nogle få promille fra 0,05017 til 0,04999, bliver konklusionen den modsatte.
Da p-værdien er så tæt på testniveauet, er konklusionen således niveaufølsom, hvilket betyder,
at konklusionen ved et testniveau på 5 % reelt kan gå begge veje. Da H0 hypotesen ikke afvises
signifikant ved et testniveau på 5 %, kunne man med rimelighed argumentere for, at McDonald’s alligevel skulle investere i kartoffelplantagen.
s. 176
Hypotesetest
Spørgsmål 4.
H0 : p0 H1 : p0
# 0,15 . 0,15
Konklusion:
Da p-værdi (0,162) . testniveau (0,01) accepteres H0.
Spørgsmål 5.
I så fald havde vores variabel været kontinuert og i stedet for at teste på andele, skulle der testes for et gennemsnit.
Opgave 11.
Spørgsmål 1.
X: Antal projekter der overskrider tidsrammen.
X ~ b(p, n 5 60) da variablen er diskret og det antages, at der er uafhængighed mellem de
forskellige projekter. I så fald er der konstant sandsynlighed for, at et projekt overskrider
tidsrammen.
Spørgsmål 2.
H0 : p0 H1 : p0
$ 0,43 , 0,43
Konklusion: Da p-værdi (0,105343) . testniveau (0,05) accepteres H0. Det betyder at vi kan
afkræfte påstanden om, at projektstyringssystemet fungerer.
Spørgsmål 3.
Fra 0,05 til 0,11 (dvs. fra 5 til 11 %)
Spørgsmål 4.
X ~ b(p 5 0,25, n 5 120)
P(x # 30) 5 0,548853
Opgave 12.
Spørgsmål 1.
F-test af 2 standardafvigelser (homogenitetstest):
H0 H1
sa 5 sb ej H0
Konklusion: Da p-værdi (0,066) . testniveau (0,05) accepteres H0. Dermed antages varianshomogenitet, hvilket betyder, at de to populationsvarianser antages at være ens.
s. 177
Hypotesetest
Pooled t-test af forskellen mellem 2 gennemsnit (varianshomogenitet):
H0: H1:
ma $ mb ma , mb
Konklusion: Da p-værdi (0,0003984294) , testniveau (0,05) forkastes H0. Det betyder, at
gennemsnitskarakteren med 95% sandsynlighed kan siges, at være større i gruppe B end i
gruppe A.
Spørgsmål 2.
H0 : p0 H1 : p0
# 0,5 . 0,5
Konklusion: Da p-værdi (0,124) . testniveau (0,1) accepteres H0. Det betyder, at maksimalt
halvdelen af karaktererne for den nye afspiller vil være større end 7.
Opgave 13.
Hypoteser:
H0: m1 5 m2 5 mi
H1: Ej H0
Data
Tabel 82:
Kilde
SS
fg
MS
F
Fkritisk
P-værdi
Imellem
41,3778
2
20,689
3,3386
3,2199
0,0451
Iblandt
260,267
42
6,1968
Total
301,644
44
Forudsætninger
Stikprøver er udvalgt simpelt tilfældigt
Obs. er fra normalfordelte populationer
Populationerne har ens varianser
Konklusion
Konklusion: Modeller hinanden. Det betyder, at der er forskel på gennemsnitstilfredshedsgraden på tværs af aldersgrupperne ved et signifikansniveau på 5 %.
s. 178
KAPITEL 8
REGRESSIONSANALYSE
Statlearn.com
KAPITEL
8
Regressionsanalyse
R
egressionsanalyse er en metode til at etablere en lineær sammenhæng mellem to eller flere
variable. Udgangspunktet for regressionsanalyse er, at man opstiller en model, der forudsiger
udviklingen i en variabel ud fra udviklingen i den anden variabel.
Når vi arbejder med at skabe sammenhænge i data, kan vi skelne mellem tre forskellige metoder,
korrelationsanalyse, simpel lineær- og multipel lineær regression. Korrelationsanalyse kan opfattes
som forstadiet til regression. Med korrelation måler vi udelukkende, om sammenhængen mellem
to variabler er stærk eller svag. Det kunne eksempelvis være sammenhængen mellem udendørstemperatur og salg af is.
Simpel lineær regression er en takt mere avanceret. Her
opstilles en lineær funktion, der anvendes til at estimere
værdien af den afhængige variabel (Y) ud fra en given
værdi af den uafhængige variabel (X), eksempelvis hvor
mange is der sælges (Y), når det er 25 grader (X).
FIGUR 54:
Y
b (hældning)
Funktion for ret linje (lineær funktion): Y 5 a 1 b ? X
Med multipel lineær regression anvendes mere end en
uafhængig variabel, eksempelvis hvor mange is der sælges ud fra temperatur og prisen.
a (skæring)
X
Korrelationsanalyse
For at illustrere korrelationsanalyse ud fra en praktisk vinkel tages i det følgende udgangspunkt i en
dansk IT virksomhed, der har specialiseret sig i at lade forbrugere sammensætte deres computer
over Internettet. Lad os antage, at virksomheden ønsker, at ekspandere deres forretningsområde
med løsninger til erhvervslivet. I den forbindelse ønsker ledelsen at kortlægge de faktorer, som
bidrager mest til virksomhedens telesalg. Fra erfaring har ledelsen en formodning om, at telesalget
særligt påvirkes af to forhold: Antallet af daglige salgsopkald (opkaldsfrekvensen) og sælgerens
erfaring (angivet i måneder).
Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud fra en
graf? Lad os forsøge.
Videolektioner >
s. 180
har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige
har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige
salgsopkald (opkaldsfrekvensen)
og sælgerens erfaring (angivet i måneder).
Grundlæggende
statistik
salgsopkald
(opkaldsfrekvensen) og sælgerens erfaring (angivet i måneder).
Med
fokus på erhvervslivet
Regressionsanalyse
Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud
Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud
fra en graf? Lad os forsøge.
55:Lad os forsøge.
fraFIGUR
en graf?
100
100
30 Erfaring
30 Erfaring
Antal
Antal
opkald
opkald
i md.
i md.
50
50
15
15
Salg
Salg
0
00
0
30
30
Salg
Salg
0
00
0
60
60
30
30
60
60
Fra grafen der viser sammenhængen mellem opkald og salg ses umiddelbart en positiv og
Fragrafen
grafender
der viser
viser sammenhængen
sammenhængen mellem
positiv
ogog stærk
Fra
mellemopkald
opkaldog
ogsalg
salgses
sesumiddelbart
umiddelbartenen
positiv
stærk sammenhæng. Jo flere opkald desto mere salg. Tilsvarende ser vi en tydelig
sammenhæng.
Jo flereJoopkald
desto mere
ser vi en
sammenhæng mellem
stærk sammenhæng.
flere opkald
desto salg.
mereTilsvarende
salg. Tilsvarende
sertydelig
vi en tydelig
sammenhæng
mellem
sælgerens
erfaring
og
salget.
Kan
vi
ud
fra
graferne
bedømme,
hvilken
sælgerens
erfaring
og salget.
Kan erfaring
vi ud fraog
graferne
hvilken
af disse
to faktorer
der har
sammenhæng
mellem
sælgerens
salget. bedømme,
Kan vi ud fra
graferne
bedømme,
hvilken
af
disse
to
faktorer
der
har
størst
indflydelse
på
salget?
størst indflydelse på salget?
af disse to faktorer der har størst indflydelse på salget?
Spørgsmålet
ikke helt
eftersomder
deranvendes
anvendesforskellige
forskelligeskalaer:
skalaer:Telefonopkald
Telefonopkald målt i
Spørgsmålet er
er ikke
helt åbenlyst,
åbenlyst eftersom
Spørgsmålet
er
ikke
helt
åbenlyst
eftersom
der
anvendes
forskellige
skalaer:
Telefonopkald
antal og salgserfaring målt i år/tid.
målt i antal og salgserfaring målt i år/tid.
målt i antal og salgserfaring målt i år/tid.
For at gøre de to variable sammenlignelige, skal vi have en ensartet skala, og det er netop her, at
For at gøre de to variable
skal vi
en relation
ensartet er
skala
og det
netop her
at
korrelationsanalyse
bliversammenlignelige,
anvendelig. Afhængig
af have
om en
positiv
elleernegativ,
varierer
For at gøre de to variable sammenlignelige, skal vi have en ensartet skala og det er netop her at
korrelationskoefficienten
for population
og r� for
fra 2er1 positiv
til 1 1. elle negativ
korrelationsanalyse bliver(ranvendelig.
Afhængig
afstikprøve)
om en relation
korrelationsanalyse bliver anvendelig. Afhængig af om en relation er positiv elle negativ
– 1 til + 1.
Ivarierer
nedenstående
er begge relationer(( lineære men henholdsvis positive ogfra
negative.
varierer
fra
– 1 til + 1.
I nedenstående er begge relationer lineære, men henholdsvis positive og negative.
FIGUR 56: er begge relationer lineære, men henholdsvis positive og negative.
I nedenstående
80
80
80
80
Pris i kr.
Pris i kr.
40
40
0
00
0
karakkarakter
ter
40
40
Antal æbler
Antal æbler
30
30
0
00
0
60
60
Antal fejl
Antal fejl
15
15
30
30
Korrelationskoefficienten beregnes:
rxy 5
SAPxy
√ SAKx ? SAKy
Side | 197
Side | 197
s. 181
Grundlæggende
statistik
Formler
til beregning
af hjælpestørrelserne
,
og
fremgår under punkt 3 på
Regressionsanalyse
side 203.
Vender
til eksemplet
med IT virksomheden,
vi ser på sammenhængen mellem
Formlervitiltilbage
beregning
af hjælpestørrelserne
SAPxy, SAKhvor
x og SAKy fremgår under punkt 3 på side 203.
salg/opkald og salg/erfaring beregnes korrelationskoefficienterne med Statlearn programmet
Vender vi tilbage til eksemplet med IT virksomheden, hvor vi ser på sammenhængen mellem salg/
til
henholdsvis
og
.
opkald
og salg/erfaring, beregnes
korrelationskoefficienterne
med Statlearn programmet til henholdsvis r�opkald 5 0,831 og r�erfaring 5 0,774.
(Data for eksempelberegning findes i regressionsappendiks 1, side 226.)
(Data for eksempelberegning findes i regressionsappendiks 1, side 223.)
Begge
telefonopkald
ogog
erfaring
Beggekorrelationskoefficienter
korrelationskoefficienterer
erpositive,
positive,hvilket
hvilket tyder
tyderpå
på,atatbåde
både
telefonopkald
erfaring har
har
positiv
indvirkning
på salget.
Men,
er endnu
muligt
at konkludere
at
en en
positiv
indvirkning
på salget.
Men,
det det
er endnu
ikkeikke
helthelt
muligt
at konkludere,
at antallet
af opkald harafstørst
indflydelse,
at korrelationskoefficienten
blot er et punktestimat.
antallet
opkald
har størst eftersom
indflydelse,
eftersom at korrelationskoefficienten
blot er et I afsnittet
om hypotesetest
var vi inde
på, at værdien
skalaftestes,
før man kan
punktestimat.
I afsnittet
om hypotesetest
var af
vipunktestimater
inde på at værdien
punktestimater
skalgeneralisere
testes
for populationen. Det samme gør sig gældende for punktestimater af korrelationskoefficienter. Se
før man kan generalisere for populationen. Det samme gør sig gældende for punktestimater af
test af modellens hældningskoefficienter under afsnittet Fremgangsmåde som starter på side 202.
korrelationskoefficienter. Se test af modellens hældningskoefficienter under afsnittet
Fremgangsmåde som starter på side 204.
Ekstreme observationer - Outliers
Ekstreme
observationer
- Outliers
Det kan være
en god ide at
supplere din korrelationsanalyse med en graf. Grundlæggende er der to
årsager
til at vise
resultaterne
grafisk.
du anvender en graf,
det Grundlæggende
muligt at spotte markante
Det
kan være
en god
ide at supplere
dinNår
korrelationsanalyse
medbliver
en graf.
er
afvigelser
også
betegnet
“outliers”.
der to årsager til at vise resultaterne grafisk. Når du anvender en graf bliver det muligt at
Som det
fremgår
af grafenogså
i nedenstående,
kan outliers tolkes som observationer der afviger radispotte
markante
afvigelser
betegnet ”outliers”.
kalt fra den normale sammenhæng. Uden en graf kan der være outliers skjult i dine data og dermed
Som
fremgår af grafen
i nedenstående,
kan
tolkes som observationer der afviger
få endet
manipulerede
indvirkning
på værdien
af outliers
korrelationskoefficienten.
radikalt fra den normale sammenhæng. Uden en graf kan det være outliers være skjult i dine
FIGUR 57: indvirkning på værdien af korrelationskoefficienten.
data og dermed få en manipulerede
80
Antal
opkald
40
Salg
0
0
15
30
Udover at manipulere korrelationskoefficienten kan outliers indeholde værdifuld information.
Eksempelvis kan en outlier være en person, som har meget lidt salgserfaring, men som alligevel
Side | 198
formår at sælge mere end en person med mange års erfaring. Vedkommende har muligvis ekstraordinært salgstalent eller en metode, der kan være interessant at se nærmere på.
s. 182
Simpel lineær regression
Grundlæggende statistik I forrige afsnit kom vi frem til at opkaldsfrekvensen (antal salgsopkald pr. dag) er den v
Regressionsanalyse
der påvirker salget mest. I den forbindelse kunne det være interessant, hvis vi kunne be
hvor mange opkald der skal foretages for at nå et specifikt salgsmål. Det er her at simpe
Simpel lineær
regression
lineær
regression bliver anvendelig. Med simpel lineær regression søger vi at oprette en
I forrige afsnit kom vi frem
til at for
opkaldsfreFIGUR
58: to variable, eksempelvis som i nedenstående.
funktion
sammenhængen
mellem
kvensen (antal salgsopkald pr. dag) er den
variabel, der påvirker salget mest. I den for80 Salg i
1000 stk.
bindelse kunne det være interessant, hvis vi
kunne beregne, hvor mange opkald der skal
foretages for at nå et specifikt salgsmål. Det
40
er her, at simpel lineær regression bliver
anvendelig. Med simpel lineær regression
Reklamebudget (kr.)
søger vi at oprette en lineær funktion for
0
0
1,500,000
3,000,000
sammenhængen mellem to variable, eksempelvis som i nedenstående.
Notationen for den simple
lineære for
regressionsmodel
afhænger
af, om du arbejder
med
data
Notationen
den simple lineære
regressionsmodel
afhænger
af om
dufor
arbejder med d
hele populationen eller blot
stikprøve. At
indhente
for en At
helindhente
population
ressourcekræheleen
populationen
eller
blot endata
stikprøve.
dataerfor
en hel population er
vende, derfor vil det næsten altid være den stikprøvebaserede regressionsmodel der anvendes.
ressourcekrævende, derfor vil det næsten altid være den stikprøvebaserede regressionsm
Den lineære regressionsmodel
for henholdsvis population og stikprøve angives:
der anvendes.
Regressionslinjen for populationen: Y 5 b0 1 b1 ? X1 1 
Den lineære regressionsmodel for henholdsvis population og stikprøve angives:
Regressionslinjen for stikprøven: y� 5 b0 1 b1 ? X1
Regressionslinjen for populationen:
Betegnelsen “” repræsenterer FIGUR 59:
residualet, som er afvigelsen
melRegressionslinjen
for stikprøven:
lem regressionsmodellens estimat
Y
(Y�) og den faktiske observation
(Yi).
Betegnelsen
repræsenterer residualet, som er afvigelsen mellem regressionsmodelle
Det er værd at bemærke, at der
estimat
og den
Det er værd at bemærke, at der sjældent ta
Yi faktiske observation
sjældent tales om observationer i
observationer i forbindelse med regressionsanalyse. Det erbi stedet residualerne, der ref
forbindelse med regressionsana1

til
når
der
tales
om
regressionsmodellens
præcision
eller
mangel
på samme.
lyse. Det er i stedet residualerne,
Yreg
der refereres til, når der tales om
regressionsmodellens præcision
b0
eller mangel på samme.
På samme måde som et punktestimat er stikprøve regressionsmodellen et estimat af regressionsmodellen for hele populationen:
Xi
X
y� 5 b0 1 b1 ∙ X1 → Y� 5 b0 1 b1 ? X 1 1 .
s. 183
Mindste
Metoden (MKM)
Med
fokus Kvadrat
på erhvervslivet
Regressionsanalyse
SomMindste
vi indledningsvis
var inde på,
er simpel lineær regression et forsøg på, at skabe en lineær
Kvadrat Metoden
(MKM)
sammenhæng
mellem den afhængige
uafhængige
variabel (X).
Men hvorfor
er deren lineær
Som vi indledningsvis
var inde på,(Y)
er og
simpel
lineær regression
et forsøg
på, at skabe
Mindste
Kvadrat
Metoden
(MKM)
egentligt
behov for
simpel den
lineær
regression?
Er det
ikke relativt
simpelt,
gennemskue
sammenhæng
mellem
afhængige
(Y) og
uafhængige
variabel
(X).atMen
hvorfor er der
Som vi indledningsvis var inde på, er simpel lineær regression et forsøg på, at skabe en lineær samhvorvidt
der er
sammenhæng
fra etregression?
dataplot ogEr
efterfølgende
tegnesimpelt,
en stregatsom
følger
egentligt
behov
for simpelud
lineær
det ikke relativt
gennemskue
menhæng mellem den afhængige (Y) og uafhængige variabel (X). Men hvorfor er der egentligt behov
observationerne?
os gøre et forsøg.
hvorvidt
der regression?
erLad
sammenhæng
frarelativt
et dataplot
og at
efterfølgende
en streg
følger
for simpel
lineær
Er detud
ikke
simpelt,
gennemskuetegne
hvorvidt
der ersom
sammenhæng
observationerne?
Lad os gøre tegne
et forsøg.
ud fra
et dataplot og efterfølgende
en streg som følger observationerne? Lad os gøre et forsøg.
I nedenstående ses to grafer der bygger på samme datagrundlag. I hver graf er der gjort et
Iforsøg
nedenstående
sesden
to grafer,
derder
bygger
på på
samme
datagrundlag.
I hver
graf
er
derder
gjort
på at tegne
linje,
som
bedst
repræsenterer
sammenhængen
reklame
og et
salg.
I nedenstående
ses
to grafer
bygger
samme
datagrundlag.
I mellem
hver
graf
er
gjort
etforsøg
på at tegne den linje, som bedst repræsenterer sammenhængen mellem reklame og salg.
forsøg på at tegne den linje, som bedst repræsenterer sammenhængen mellem reklame og salg.
FIGUR 60:
80
Salg
(mio.
80 Salg
kr.)
(mio.
40
kr.)
Graf A
Graf B
80
Salg
(mio.
80 Salg
kr.)
(mio.
40
kr.)
Graf A
40
40
Reklame (mio. kr.)
0
0
Graf B
15
0
0
Reklame (mio. kr.)
0
0
30
Reklame (mio. kr.)
15
15
0
0
30
30
Reklame (mio. kr.)
15
30
Til trods for at begge linjer har forskellige skæring og hældninger, forekommer de relativt
Til trods for at begge linjer har forskellige skæring og hældninger, forekommer de relativt gode til
godeTil
tiltrods
at illustrere
udviklingen
af salg
i forhold
til reklameudgifter.
skulle
gerne
for at begge
linjer har
forskellige
skæring
og hældninger,Eksemplet
forekommer
de relativt
at illustrere udviklingen af salg i forhold til reklameudgifter. Eksemplet skulle gerne illustrere, at
illustrere,
at at
det ikke er helt
enkelt ataf
vælge
den linje,til
derreklameudgifter.
bedst beskriver Eksemplet
udviklingenskulle
mellem
godeertil
salg
gerne
det ikke
heltillustrere
enkelt atudviklingen
vælge den linje,
deri forhold
bedst beskriver
udviklingen mellem salg
og reklame.
salgillustrere,
og betydning
reklame.
Hvilken
betydning
kanatdenne
manglende
præcision
have? udviklingen mellem
at det
ikke
er
helt
enkelt
vælge
den have?
linje, der
bedst beskriver
Hvilken
kan
denne
manglende
præcision
salg
og reklame. Hvilken
betydning
kansalget
denneved
manglende
præcision
For
kan
vi
reklameudgifter
påhave?
25 mio.
mio. For
For linje
linje A
Forat
at besvare
besvare spørgsmålet
spørgsmålet kan
vi estimere
estimere salget
ved reklameudgifter
på
25
A er estimatet
55 mio.,
og for
B er B
det tilsvarende
70 mio.mio.
AltsåAltså
en afvigelse
på 15påmio.
En afvigelse
er estimatet
55 mio.
oglinje
for linje
tilsvarende
en afvigelse
15 mio.
En A i
For at besvare
spørgsmålet
kanervidet
estimere
salget70ved
reklameudgifter
på 25 mio.
For linje
denne størrelsesorden kan være forskellen på succes og fiasko, derfor er det vigtigt, at beregne den
afvigelse
i denne55størrelsesorden
kanBvære
på succes
og fiasko, derfor er det vigtigt
estimatet
mio.angiver
og for sammenhængen
linje
er detforskellen
tilsvarende
mio.
linjeer
som
mest præcist
mellem 70
X og
Y. Altså en afvigelse på 15 mio. En
at beregne
deni denne
linje som
mest præcistkan
angiver
mellem
X og Y.derfor er det vigtigt
afvigelse
størrelsesorden
væresammenhængen
forskellen på succes
og fiasko,
FIGUR
at beregne den linje
som61:
mest præcist angiver sammenhængen mellem X og Y.
80
60
Salg
(mio. kr.)
80 Salg
(mio. kr.)
40
60
20
40
0
20
0
0
Linje A
LinjeLinje
B A
Linje B
5
0
10
15
20
5Reklame
10 (mio.
15kr.)
25
20
Reklame (mio. kr.)
30
25
30
Side | 201
s. 184
Side | 201
Med
påvierhvervslivet
Regressionsanalyse
Nu
hvor
vi
placeringen
regressionslinjen
afgørende
betydning
for
værdien
Nufokus
hvor
harhar
set,set,
at at
placeringen
af af
regressionslinjen
harhar
afgørende
betydning
for
værdien
af af
regressionsestimatet
rejses
spørgsmålet:
Hvordan
beregnes
den
regressionslinje,
der
mest af
regressionsestimatet
rejses
spørgsmålet:
Hvordan
beregnes
den
regressionslinje,
derfor
mest
Nu hvor vi har set,
at
placeringen
af regressionslinjen
har
afgørende
betydning
værdien
nøjagtigt
beskriver
sammenhængen
mellem
X
beskriver
mellem
X
ogog
Y.Y.
Nunøjagtigt
hvor
vi har
set, at sammenhængen
placeringen
af regressionslinjen
har
afgørende
betydning for værdien
af reregressionsestimatet
rejses spørgsmålet:
Hvordan
beregnes
den regressionslinje,
der mest
gressionsestimatet,
rejsessammenhængen
spørgsmålet: Hvordan
beregnes
den regressionslinje, der mest nøjagtigt
nøjagtigt
beskriver
mellem
X ogatY.vælge
Rent
konceptuelt
kunne
et
logisk
bud
kunne
være,
den
linje,
minimerer
afstanden
Rent
konceptuelt
kunne
et
logisk
bud
kunne
være,
at
vælge
den
linje,
derder
minimerer
afstanden
beskriver sammenhængen mellem X og Y.
alle
observationerne.
Lad
os
tage
udgangspunkt
i at
denne
tilgang
som
illustreres
graferne
til til
alle
observationerne.
Lad
tage
udgangspunkt
i denne
tilgang
som
illustreres
af af
graferne
i i
Rent
konceptuelt
etoslogisk
bud
kunne
være,
der
minimerer
Rent konceptuelt
kunnekunne
et logisk
bud være,
at vælge
denvælge
linje, den
der linje,
minimerer
afstandenafstanden
til alle
nedenstående.
I denne
situation
den
bedste
linje,
den
der
skær
igennem
begge
punkter.
Dettei
nedenstående.
I Lad
denne
er
den
bedste
linje,
den
skær
igennem
punkter.
Dette
til alle observationerne.
oser
tage
udgangspunkt
i der
denne
tilgang
sombegge
illustreres
af graferne
observationerne.
os situation
tage Lad
udgangspunkt
i denne
tilgang,
som
illustreres
af graferne
i neden-
nødvendigvis
altid
gælde,
når
der
kun
er
to
observationer.
måmå
nødvendigvis
altid
gælde,
nårbedste
der
kun
er
toden
observationer.
stående.
I denne situation
er
den
linje,
der skærer
begge begge
punkter.
Dette Dette
må
nedenstående.
I denne
situation
er
den
bedste
linje,
den derigennem
skær igennem
punkter.
nødvendigvis
altid gælde,
nårgælde,
der kun
to kun
observationer.
må nødvendigvis
altid
nårerder
er to observationer.
Y
Y FIGUR
62:
Y
X X
X
Tilføjes
yderligere
observationer,
kan
rykke
linjen
den
minimerer
afstanden
alle
Tilføjes
yderligere
to to
observationer,
kan
vi vi
rykke
linjen
så så
den
nunu
minimerer
afstanden
til til
alle
Tilføjes yderligere to observationer, kan vi rykke linjen, så den nu minimerer afstanden til alle fire obserobservationer.
Indtil
videre
virker
tilgangen
med
at
minimere
afstanden
allegansketil
firefire
observationer.
Indtil
videre
virker
med
at
minimere
afstanden
til til
alle
Tilføjes
yderligere
totilgangen
observationer,
vi rykke
linjen
såtilden
nuobservationerne
minimerer
afstanden
alle
vationer.
Indtil videre
virker
medtilgangen
atkan
minimere
afstanden
alle
fint.
observationerne
ganske
fint.
observationerne
ganske
fint.
fire observationer.
Indtil
videre
virker
FIGUR
63: tilgangen med at minimere afstanden til alle
observationerne ganske fint. Y
Y
Y
X X
X
nyt
sæt
observationer
løber
vi
pludselig
i vanskeligheder,
hvis
samme
tilgang
vi vi
på
et
nyt
sæt
observationer
løber
pludselig
indind
i vanskeligheder,
hvis
samme
tilgang
SerSer
viSer
på
etpå
nytet
sæt
observationer,
løber
vivipludselig
ind
i vanskeligheder,
hvis
samme
tilgang
med
med
at
minimere
afstanden
til
alle
observationer
anvendes.
at minimere
alle observationer
anvendes.
at med
minimere
afstanden
til observationer
alle til
observationer
Ser
vi på
et nytafstanden
sæt
løberanvendes.
vi pludselig
ind i vanskeligheder, hvis samme tilgang
med
at minimere
afstanden til alle observationer anvendes.
FIGUR
64:
AA
Y Y
2020
20
1515
A
Y
2020
B
Y
20
1515
15
1010
10
BB
Y Y
15
1010
2 2
4 4
2
4
Stephan
Skovlund
(Copyright)
AfAf
Stephan
Skovlund
(Copyright)
X X
8 8
6 6
6
8
10
X
2 2
4 4
2
X X
8 8
6 6
4
6
X
8
Side
| 202
Side
| 202
s. 185
Side | 202
Med fokus
erhvervslivet
Regressionsanalyse
Til på
trods
for at regressionslinje A har minimeret afstanden til observationerne
ved at skære
igennem to punkter og ”ignorere” det sidste, så forekommer linje B at være den linje der bedst
beskriver
sammenhængen
mellem
X og Y.
Dette betyder
at en metode,ved
der at
søger
at iminimere
Til trods
for at regressionslinje
A har
minimeret
afstanden
til observationerne
skære
gennem
to punkter
og “ignorere”
det sidste, såparadoksalt
forekommer
B at være
den linje,
der bedst
beskriverer
afstanden
til alle observationer,
kanlinje
resultere
i en linje,
som ikke
nødvendigvis
sammenhængen
mellem X og Y. Dette betyder, at en metode der søger at minimere afstanden til
den mest retvisende.
alle observationer, paradoksalt kan resultere i en linje, som ikke nødvendigvis er den der er bedst
til at forklare
sammenhængen
mellem
X ogbaseres
Y.
For at imødekomme
denne
situation,
regressionsanalyse på Mindste Kvadrat Metoden
MKM denne
går ud på
at beregne
hvorpå
summen
af Kvadrat
de kvadrerede
For at (MKM).
imødekomme
situation,
baseres
regressionsanalyse
Mindste
Metoden
(MKM).
MKM gårmellem
ud på at
hvor summenerafmindst.
de kvadrerede
afvigelser
afvigelser
deberegne
enkelte observationer
og regressionslinjen
Anvendes
MKM
mellempåde
enkelte
observationer
og
regressionslinjen
er
mindst.
Anvendes
MKM
på
linje
A
ogvalg
B,
linje A og B ser vi at linjen B minimerer summen af afvigelserne og derfor er et bedre
ser vi at linjen B minimerer summen af afvigelserne og derfor er et bedre valg end A.
end A.
FIGUR 65:
20
A
Y
x
15
10
2
4
8
6
y
y�(y 2 y�)2
2
10
10
0
4
20
13
49
6
15
15
0
Sum
49
X
B
Y
x
20
15
10
X
2
4
6
y
y�(y 2 y�)2
2
10
12
4
4
20
15
25
6
15
18
9
Sum
38
8
MKM metoden er fundamentet i de beregninger, der indgår i en regressionsmodel. Alle formler der
MKM metoden er fundamentet i de beregninger, der indgår i en regressionsmodel. Alle
ligger til grund for beregninger af regressionsmodellen findes i følgende afsnit under punkt 3. Til
formler der ligger til grund for beregninger af regressionsmodellen findes i følgende afsnit
beregning af regressionsmodeller anvendes i praksis Excel og Statlearn programmet.
under punkt 3. Til beregning af regressionsmodeller anvendes i praksis Excel og Statlearn
I det følgende
redegøres for den formelle fremgangsmåde, der anvendes til regressionsanalyse.
programmet.
I det følgende redegøres for den formelle fremgangsmåde, der anvendes til regressionsanalyse.
Stephan
MedAf
fokus
på erhvervslivet
s.Side
186 | 203
Regressionsanalyse
Fremgangsmåde ved regressionsanalyse
I dette afsnit diskuteres fremgangsmåden, der anvendes i forbindelse med simpel lineær regressionsanalyse. I korte træk kan fremgangsmåden opridses i nedenstående punkter:
1. Formuler regressionsmodel (simpel eller multipel).
2. Opstil modellens forudsætninger.
3. Beregn regressionskoefficienter (skæring og hældning).
4. Fortolkning af determinationskoefficient.
5. Test af modellens koefficienter.
6. Validering af om modellens forudsætninger er opfyldt (residualanalyse).
I det følgende uddybes de enkelte punkter i fremgangsmåden.
1. Formuler regressionsmodel
Simpel lineær regressionsmodel for henholdsvis stikprøve og population:
Tabel 83:
Stikprøvemodel
Populationsmodel
y� 5 b0 1 b1 ? X1
Y 5 b0 1 b1 ? X1 1 
Hvor y� og Y er regressionsestimater, b0 og b0 er skæringen med y-aksen, b1 og b1 er hældningen,
og b0 og  er residualet. Et residual er som tidligere nævnt et udtryk for afvigelsen mellem regressionsestimatet og den observerede værdi.
2. Opstil modellens forudsætninger
a) Sammenhængen mellem X og Y skal være lineær
b) Residualerne skal være normalfordelte med en middelværdi på nul
c) Residualerne skal have konstant varians
d) Residualerne skal være uafhængige af hinanden
Forudsætningerne angives formelt som:  ~ N(m,s)
Ad a) Sammenhængen mellem X og Y skal være lineær.
Illustreres data med en graf, skal der være en relativ lineær sammenhæng mellem X og Y. Det er
vigtigt, at observationerne ikke følger en parabel, hyperbel eller anden kurvelignende funktion.
Ad b) Residualerne skal være normalfordelte med en middelværdi på nul.
s. 187
Regressionsanalyse
Ad b) Residualerne
skalnormalfordelte
være normalfordelte
en middelværdi
nul.B ses at den overvejende
Residualerne
skal være
med enmed
middelværdi
på nul.på
I graf
Residualerne skal være normalfordelte med en middelværdi på nul. I graf B ses at den
andel
af residualerne
liggernormalfordelte
under 0, hvilketmed
betyder
at fordelingen
ikke er
normal
skæv. Dette
Residualerne
skal være
en middelværdi
på nul.
I graf
B sesmen
at den
overvejende skal
andelvære
af residualerne
ligger
under
0, hvilket betyder
at Ifordelingen
ikke
er normal
Residualerne
normalfordelte
med
en
middelværdi
på
nul.
graf
B
ses
at
den
resulterer
i et negativt
overvejende
andel afresidualgennemsnit.
residualerne ligger under 0, hvilket betyder at fordelingen ikke er normal
men skæv. Dette
i et negativt
residualgennemsnit.
overvejende
andel resulterer
af residualerne
ligger under
0, hvilket betyder at fordelingen ikke er normal
Residualdiagram:
Vurdering
af inormalfordeling
men skæv. Dette
resulterer
et negativt residualgennemsnit.
men skæv. Dette resulterer i et negativt residualgennemsnit.
Residualdiagram: Vurdering af normalfordeling
FIGUR 66: Vurdering af normalfordeling
Residualdiagram:
Residualdiagram: Vurdering af normalfordeling
200
200
200
0
020
0
20
-20020
-200
-200
Graf A: Middelværdi =0
70
70
70
Graf B: Negativ middelværdi
200
200
200
0
020
0
20
-20020
-200
-200
70
70
70
Residualerne
skal
have
konstant
variation,
ikke
udvikles
en stigende
variation
AdAd
c) c)
Residualerne
skal
have
en en
konstant
variation,
derder
måmå
ikke
udvikles
en stigende
variation,
som
Ad c) Residualerne skal have en konstant variation, der må ikke udvikles en stigende variation
modvirker
konsistente
regressionsestimater.
som
konsistente
Ad
c) modvirker
Residualerne
skal
haveregressionsestimater.
en konstant variation, der må ikke udvikles en stigende variation
som modvirker konsistente regressionsestimater.
som modvirker konsistente
Residualdiagram:
Vurdering regressionsestimater.
af variation
Residualdiagram: Vurdering af variation
Residualdiagram: Vurdering af variation
Residualdiagram:
FIGUR 67:Vurdering af variation
Graf A: Konstant varians
200
200
200
0
020
70
0
20
70
70
-20020
-200
-200
Graf B: Stigende varians
200
200
200
0
020
70
0
20
70
70
-20020
-200
-200
Ad d) Residualerne skal være uafhængige af hinanden. Hvis det modsatte gør sig gældende,
Ad
d) Residualerne
skal være
uafhængige
af
hinanden.Hvis
Hvis
modsattegør
gørsig
siggældende,
gældende,
Ad
d)d)der
Residualerne
skal
uafhængige
afbryder
hinanden.
detdet
modsatte
kan
opstå mønstre
datasættet,
hvilketaf
forudsætningen
om lineære
sammenhænge.
Ad
Residualerne
skalivære
være
uafhængige
hinanden.
Hvis det
modsatte
gør sig
gældende, kan
dermønstre
opstå mønstre
i datasættet,
hvilket
forudsætningen
om lineære
sammenhænge.
derkan
opstå
i datasættet,
hvilket
bryderbryder
forudsætningen
om lineære
sammenhænge.
Rent
Rent
vil afhængigheden
nøjagtigheden
af regressionsestimaterne.
kan
derpraktisk
opstå mønstre
i datasættet,reducere
hvilket bryder
forudsætningen
om lineære sammenhænge.
praktisk
afhængigheden
reducerereducere
nøjagtigheden
Rent vil
praktisk
vil afhængigheden
nøjagtigheden
Rent praktisk vil afhængigheden reducere nøjagtigheden af regressionsestimaterne.
Residualdiagram:
Vurdering
afhængighed
Residualdiagram:
Vurdering
af af
afhængighed
Residualdiagram: Vurdering af afhængighed
Residualdiagram: Vurdering af afhængighed
FIGUR 68: Graf A: Uafhængighed
Graf B: Afhængighed
Graf A: Uafhængighed
200
Graf A: Uafhængighed
200
200
0
020
70
0
20
70
70
-20020
-200
-200
200
200
200
0
020
70
0
20
70
70
-20020
-200
-200
s. 188
Side | 205
Side | 205
Side | 205
Regressionsanalyse
3. Beregn regressionskoefficienter (skæring og hældning)
Til beregning af regressionskoefficienterne anvendes Statlearn programmet. Formlerne for de
enkelte koefficienter fremgår af nedenstående tabel.
Tabel 84:
Estimat
Beregning
b0
y 2 b1 ? x
b1
SAPxy
SAKx
n

SAPxy
(xi 2 x)(yi 2 y)
i51
n

SAKx
(xi 2 x)2
i51
n

SAKy
(yi 2 y)2
i51
Bemærk at SAKy anvendes til beregning af determinationskoefficienten, se punkt 4.
4. Fortolkning af determinationskoefficient
Den første indikation af regressionsmodellens overordnede anvendelighed læser vi ud fra determinationskoefficienten (R2).
R2 5
SAP2xy
SAKx
Formler til beregning af hjælpestørrelserne SAPxy, SAKx og SAKy fremgår under punkt 3.
Determinationskoefficienten er et overordnet mål for hvor meget af den totale variation mellem
X og Y, der forklares af regressionsmodellen. Værdien af determinationskoefficienten spænder fra
0-1, jo nærmere 1 desto mere præcist vil regressionsmodellen gengive sammenhængen mellem X
og Y.
Det er vigtigt ikke at forveksle determinationskoefficienten med præcisionen af regressionsestimatet. En determinationskoefficient på 90 % betyder ikke, at regressionsmodellens estimater vil
være 90 % nøjagtige. De 90 % er udelukkende et mål for modellens overordnede evne til at forklare
sammenhængen mellem X og Y.
s. 189
Med fokus på
erhvervslivet
Regressionsanalyse
estimater vil være 90 % nøjagtige. De 90 % er udelukkende
et mål for
modellens overordnede evne til at forklare sammenhængen mellem X og Y.
I nedenstående ses hvordan determinationskoefficienten afspejler sammenhængen mellem X og Y.
I nedenstående ses hvordan determinationskoefficienten afspejler sammenhængen mellem X
og Y.
FIGUR 69:
R2 = 0,90
100
100
50
50
Y
0
0
X100
50
0
R2 = 0
Y
0
50
X
100
5. Test af modellens koefficienter:
2
Som nævnt er en høj R en væsentlig indikation af regressionsmodellens anvendelighed.
Som nævnt er en høj R2 en væsentlig indikation af regressionsmodellens anvendelighed. Foruden
Foruden
en høj
R2betydning,
har det også
betydning at hældningskoefficienten
er signifikant,
en høj R2 har
det også
stor
at stor
hældningskoefficienten
(b1) er signifikant, hvilket
vil sige
at hældningen
er vil
forskellig
0. Husk på
ofte beregnes ud fra
hvilket
sige at fra
hældningen
er at
forskellig
fra 0. Husk på, hældning
at en regressionsmodellens
en stikprøve,
og er derfor
ikke nogen
garanti
for, at derogereren
reel hældning.
omen reel
hældning
ofte beregnes
ud fra
en stikprøve,
derfor
ikke nogenDerfor
garantitestes
for ataltid
der er
hældningen er signifikant, hvilket i den sammenhæng betyder, at hældningen er forskellig fra 0. Er
hældning. Derfor testes altid om hældningen signifikant, hvilket i den sammenhæng betyder at
hældningen ikke signifikant, udelukker vi en sammenhæng mellem X og Y, hvilket fører til at regreshældningen
er forskellig fra 0. Er hældningen ikke signifikant udelukker vi en sammenhæng
sionsmodellen
forkastes.
mellem X og Y hvilket fører til at regressionsmodellen forkastes.
Generelt antages hældningskoefficienten at være signifikant, hvis p-værdien er mindre end 5 %.
I nedenstående
eksempel
regressionsoutput fraatExcel
p-værdien
forp-værdien
hældningen
tydeligvis
Generelt
antages på
hældningskoefficienten
væreer
signifikant
hvis
er mindre
end 5 %.
signifikant, hvilket indikerer en stærk sammenhæng mellem de givne X og Y variable.
I nedenstående eksempel på regressionsoutput fra Excel er p-værdien for hældningen
tydeligvis signifikant, hvilket indikerer en stærk sammenhæng mellem de givne X og Y
Tabel 85:
variable.
Koefficienter p-værdi
Skæring
Koefficienter
10,543
0,4903 p-værdi
Skæring
10,543
0,4903
5,322
0,0004
Hældning
5,322
0,0004
Hældning
Af på
Stephan
Med fokus
erhvervslivet
s. 190Side | 207
Regressionsanalyse
Eksempel på anvendelse af simpel lineær regression
I det følgende foretages en regressionsanalyse på baggrund af 20 tilfældigt udvalgte sælgere der
sælger konsulentydelser til finanssektoren. Modellen ser på sammenhængen mellem. Analysen
følger den fremgangsmåde, der blev skitseret i forrige afsnit. De data der ligger til grund for beregningerne findes i regressionsappendiks 2. Alle beregninger er udført med Statlearn programmet.
Fremgangsmåde:
1. Regressionsmodel
Stikprøvemodel:
Populationsmodel:
⇒
y� 5 b0 1 b1 ? X1
Y 5 b0 1 b1 ? X1 1 
2. Forudsætninger
a) Sammenhængen mellem X og Y skal være retlinjet (lineær).
b) Residualerne skal være normalfordelte med en middelværdi på nul
c) Residualerne skal have konstant varians
d) Residualerne skal være uafhængige af hinanden
Forudsætningerne betegnes
3. Beregning regressionskoefficienterne (Beregninger ses i regressionsappendiks 3)
Skæring
758.151,647
Hældning
279.558,058
Estimeret regressionslinje: y� 5 758.151,647 1 279.558,058 ? X1
Hvor b0 5 y 2 b1 ∙ x og b1 5
n
SAPxy
SAKx
n
SAPxy 5 i51 (x1 ∙ x )(y1 ∙ y ) og SAKx 5 i51 (x1 ∙ x )
4. Fortolkning af determinationskoefficient (Beregninger ses i regressionsappendiks 3)
Determinationskoefficienten (R2) er på 83 %, hvilket betyder, at regressionsmodellen forklarer 83
% af den samlede variation mellem anciennitet og salg. Den høje forklaringsgrad er det første tegn
på, at modellen er god til at forklare den sammenhæng der analyseres.
s. 191
Regressionsanalyse
5. Test af modellens koefficienter (Beregninger ses i regressionsappendiks 3
Ved test af modellens koefficienter afgøres om koefficienterne er signifikante, hvilket vil sige forskellige fra 0. Som vi var inde på, bør p-værdien være under 5 %, for at hældningen kan siges at
være signifikant. I dette eksempel er p-værdien for hældningen tilnærmelsesvis nul, hvilket er en
stærk indikation af sammenhæng mellem anciennitet og salg. Rent teoretisk betyder det, at hypotesen som angiver at hældningen er 0 forkastes.
Tabel 86:
Koefficienter
t-stat
P-værdi
Skæring
758.151,647
3,207
0,0049
Hældning
279.558,058
9,387
~0
6. Validering af modellens forudsætninger
Regressionsanalysen afsluttes med en residualanalyse. En ofte anvendt metode er, at betragte et
residualdiagram
og vurdere omestimater
residualerne
tilnærmelsesvis
er normalfordelte
og har konstant
vil være
90 % nøjagtige.
De 90 % er udelukkende
et mål for
varians. I nedenstående
diagram forekommer
spredningen
af residualer
relativt
ensartede
og normodellens overordnede
evne til at forklare
sammenhængen
mellem
X og
Y.
malfordelte. Der er dog enkelte observationer ved 7 og 11 år, som ligger langt under regressionsmodellensI estimat,
hvilketses
fører
til de determinationskoefficienten
store residualafvigelser.
nedenstående
hvordan
afspejler sammenhængen mellem X
og Y.
FIGUR 70:
R2 = 0,90
100
100
50
50
Y
0
0
50
X100
0
R2 = 0
Y
0
50
X
100
Som nævnt er en høj R2 en væsentlig indikation af regressionsmodellens anvendelighed.
Foruden en høj R2 har det også stor betydning at hældningskoefficienten
er signifikant,
hvilket vil sige at hældningen er forskellig fra 0. Husk på, at en regressionsmodellens
hældning ofte beregnes ud fra en stikprøve, og er derfor ikke nogen garanti for at der er en reel
hældning. Derfor testes altid om hældningen signifikant, hvilket i den sammenhæng betyder at
hældningen er forskellig fra 0. Er hældningen ikke signifikant udelukker vi en sammenhæng
mellem
X og Y hvilket
Med fokus på
erhvervslivet
fører til at regressionsmodellen forkastes.
s. 192
Generelt antages hældningskoefficienten at være signifikant hvis p-værdien er mindre end 5 %.
I nedenstående eksempel på regressionsoutput fra Excel er p-værdien for hældningen
Regressionsanalyse
Forudsigelsesinterval
Et regressionsestimat svarer til et simpelt punktestimat. Begge estimater har det til fælles, at de er
baserede på stikprøver og derfor rummer en vis usikkerhed. For at kvantificere denne usikkerhed
og bestemme nøjagtigheden af et regressionsestimat, kan et forudsigelsesinterval anvendes. Tanken med forudsigelsesintervallet er, at beregne et interval for værdien af den afhængige variabel
(Y), når den uafhængige variabel (X) antager en vilkårlig værdi.
Fortsættes eksemplet fra foregående afsnit, hvor vi så på sammenhængen mellem salg af konsulentydelser og salgsanciennitet, kan vi ud fra regressionsmodellen14 beregne, at en sælger med 10
års anciennitet vil få et estimeret salg på 3.553.732 kr.
y� 5 758.151,647 1 279.558,058 ? 10 5 3.553.732
De 3.553.732 kr. er et simpelt estimat på lige fod med et punktestimat beregnet ud fra en stikprøve.
Præcisionen af regressionsestimatet kendes ikke. Det er i den forbindelse at et forudsigelsesinterval bliver relevant. Med et forudsigelsesinterval kan vi knytte en øvre og nedre grænse til regressionsestimatet og dermed sandsynliggøre, hvor konsulentens omsætning kommer til at ligge.
Beregnes et 95 % forudsigelsesinterval af salget for en konsulent med 10 års salgsanciennitet, bliver
resultatet et interval mellem 2.316.220 og 4.791.244 kr. I den sammenhæng kan det konkluderes,
at en konsulent med 10 års erfaring kommer til at omsætte konsulentydelser for mellem 2.316.220
og 4.791.244 kr. med 95 % sandsynlighed.
Tabel 87:
95 % Forudsigelsesinterval
Estimat
N. grænse
Ø. grænse
For Y når 5 10
3.553.732
2.316.220
4.791.244
For E(Y) 5 10
3.553.732
3.216.795
3.890.669
Formler for forudsigelsesintervallerne samt eksempelberegningerne i ovenstående fremgår af regressionsappendiks 4 og 5.
Forudsigelsesinterval for Y betyder, at en enkelt konsulent med 10 års anciennitet med 95 % sandsynlighed vil omsætte for mellem 2.316.220 og 4.791.244 kr.
Forudsigelsesinterval for E(Y) betyder derimod, at alle konsulenter med 10 års erfaring gennemsnitligt vil sælge mellem 3.216.795 og 3.890.669 kr. Intervallet for den forventede værdi E(Y) vil
altid være mere snævert end intervallet for den enkeltstående observation (Y). Dette forhold kan
tilskrives at variansen for et punktestimat altid er mindre end variansen for den enkeltstående observation – Dette er beskrevet mere uddybende i afsnittet om konfidensintervaller.
14
Under punkt 3 i foregående afsnit blev regressionsmodellen estimeret til y� 5 758.151,647 1 279.558,058 ? X
s. 193
Regressionsanalyse
Multipel regression
Forskellen på multipel og simpel lineær regression er ligetil. Ved multipel regression anvendes
mere end én uafhængig variabel til at forklare udviklingen i afhængige variabel. Derved tilføjes et
ekstra led i notationen:
Simpel lineær regression: Y 5 b0 1 b1 ? X1 1 
Multipel lineær regression: Y 5 b0 1 b1 ? X1 1 b2 ? X2 ... 1 bn ? Xn 1 
Formålet med multipel regression er at øge modellens forklaringsevne (R2) ved at inddrage flere
variable (xi, ... Xn) til at forklare udviklingen i Y.
I forrige afsnit var regressionsmodellen baseret på to variable: Salgsanciennitet (X1) udtrykt i antal
år og salg i kr. (Y)
For at illustrere multipel regression kan vi udbygge eksemplet ved at inddrage en ny variabel (X2) i
form af “Antal månedlige kundebesøg”. → Y 5 b0 1 b1 ? X1 1 b2 ? X2 1 
Hensigten med at inddrage en ekstra forklarende variabel er som nævnt, at skabe en mere nøjagtig
model og dermed få bedre regressionsestimater af salget.
EKSEMPEL
I nedenstående fremgår beregningen af den multiple regressionsmodel. Det data der ligger til grund
for beregningerne findes i regressionsappendiks 6. Statlearn programmet er anvendt til beregningen.
Koefficienterne til den multiple regressionsmodel:
Tabel 88:
Koefficient
Koefficientværdi
Standardfejl
t-stat
p-værdi
Skæring
642.847,351
484.265,186
1,327
0,203
X1: Anciennitet (år)
268.453,477
36.183,670
7,419
0,000
X2: Kundebesøg/måned
37.840,294
46.661,016
0,811
0,429
Således opstilles modellen: y� 5 642.847,351 1 268.453,477 ? X1 1 37.840,294 ? X2
Med den multiple regressionsmodel kan vi estimere salget ud fra ændringer i henholdsvis salgsancienitet og antallet af månedlige kundebesøg. Hvis vi eksempelvis antager, at en sælger har 5
års salgserfaring og aflægger 15 månedlige kundebesøg, så estimeres sælgerens salg til at være
omkring 2,5 millioner kr. :
y� 5 642.847,351 1 268.453,477 ? 5 1 37.840,294 ? 15 5 2.552.719 kr.
s. 194
Regressionsanalyse
På lige fod med simple regressionsmodeller anvendes forudsigelsesintervaller også i forbindelse
med multiple regressionsmodeller. Som nævnt i afsnittet om forudsigelsesintervaller er formålet
at beregne et interval, hvori værdien af den afhængige variabel (Y) vil ligge med en given sandsynlighed. Denne relativt formeltunge beregning udføres med ToolBoox programmet og er dokumenteret i regressionsappendiks 5.
Faldgrupper ved multipel regression
Når du anvender multipel regression er forudsætningerne de samme som under simpel lineær regression, men der er et ekstra forhold, du skal være opmærksom på: Multikollinearitet.
Multikollinearitet betyder, at en eller flere af de forklarende variable (Xi…Xn) er afhængige af hinanden. Tilstedeværelsen af multikollinearitet manipulerer regressionsmodellens koefficienter og dermed anvendelighed. Ideelt set bør de forklarende variable være 100 % uafhængige af hinanden,
og hver især bidrage med unik information til at forklare sammenhængen med den afhængige
variabel (Y).
EKSEMPEL
Chefen for telesalg hos Telia ønsker, at beregne en regressionsmodel der forklarer salget af erhvervsabonnementer ud fra antallet af daglige salgsopkald og sælgerens erfaring målt i måneder.
Både antallet af salgsopkald og salgserfaring er variable, vi med rimelighed må antage kan påvirke
salget. Dog er valget af de to variable problematisk, eftersom antallet af salgsopkald og erfaring
formentligt også afhænger af hinanden. En sælger med lang erfaring vil formentligt kunne foretage
flere opkald end en person uden tilsvarende erfaring. Der vil således være tale om multikollinearitet, da begge forklarende variable (X1 og X2) påvirker hinanden.
I dette eksempel har vi kunne ræsonnere os frem til en situation med multikollinearitet. I praksis
identificeres tilstedeværelsen af multikollinearitet ved at anvende korrelationsanalyse. Som nævnt
i afsnittet om korrelationsanalyse, udtrykkes styrken af en sammenhæng mellem to variable af
korrelationskoefficienten (r). Afhængig af om relationen er positiv eller negativ, varierer korrelationskoefficientenfra – 1 til 1 1.
Ideelt set bør korrelationskoefficienten for de uafhængige variable (Xi…Xn) i en multipel regressionsmodel altid være nul. Dette vil betyde, at der et fravær af multikollinearitet, og at de uafhængige variable ikke påvirker hinanden. I praksis vil der som regel kunne spores en vis grad af afhængighed. Der findes ingen håndfast definition af, hvor meget de forklarende variable må korrelere,
inden der tales om multikollinearitet. I det lys vil jeg anbefale, at du vælger at kommentere, hvis
enkelte variable i din multiple regressionsmodel er væsentligt mere korrelerede end de øvrige. Vær
særlig opmærksom på store forandringer i determinationskoefficienten (R2 justeret) når du tilføjer
en ny variabel til din multiple regressionsmodel. Dette vil ofte skyldes multikollinearitet.
s. 195
Regressionsanalyse
EKSEMPEL
I nedenstående korrelationsmatrix ses en tydelig afhængighed mellem antal kundebesøg (x1) og
anciennitet (x2), hvilket er tegn på multikollinearitet. På den baggrund bør modellen reduceres således, at det kun er en enkelt variabel der anvendes til at forklare udviklingen af salget.
Tabel 89:
Variabel
Salg i kr. (Y)
Salg i Kr.
Anciennitet (år)
Kundebesøg/måned
1
Anciennitet i år (X1)
0,911
1
Kundebesøg/måned (X2)
0,602
0,618
1
I vores tilfælde er der tydelig korrelation mellem kundebesøg og anciennitet (x1 og x2), hvilket er
tegn på multikollinearitet. Dog vil der ofte være en mindre grad af korrelation, uden at det behøver
at have den store betydning. Der findes ikke håndfaste regler for hvor meget de forklarende variable må korrelere, men hvis du kan se, at der er store ændringer i determinationskoefficienten (R2),
når du tilføjer en ny variabel i din model, kan det anbefales at du laver en korrelationsanalyse og
kommenterer i hvor høj grad variablerne er relaterede, se afsnit om korrelationsanalyse.
Valg af den optimale regressionsmodel
Et af de centrale omdrejningspunkter i forbindelse med regressionsanalyse er, at finde den model der er mest velegnet til at beskrive en lineær sammenhæng. Som vi var inde på med multipel
regressionsanalyse, er det muligt at inddrage utallige variable (Xi) til at forklare udviklingen af Y.
Kunsten er, at sammensætte regressionsmodellen med lige netop de variable, der bedst forklarer
udviklingen af Y. Til det formål anvendes determinationskoefficienten (R2). Med determinationskoefficienten har vi et kvantitativt mål for regressionsmodellens evne til at beskrive en sammenhæng.
Som vi var inde på, er determinationskoefficienten en ratio for hvor meget af den totale variation mellem Xi og Y der forklares af regressionsmodellen. Værdien af determinationskoefficienten
spænder fra 0 til 1 – jo tættere på 1 desto bedre er modellen til at forklare en mulig sammenhæng.
Er værdien af determinationskoefficienten 1, betyder det en fuldstændig perfekt lineær sammenhæng, og tilsvarende vil en determinationskoefficient på 0 betyde, at der ingen sammenhæng er
mellem Xi og Y.
s. 196
Regressionsanalyse
Sammenligning af regressionsmodeller
Antag at du har beregnet to regressionsmodeller til at forklare omsætningen i en virksomhed. Model 1 inddrager udelukkende antallet af sælgere til at forklare salget. Model 2 forklarer salget ud
fra reklameudgifter til henholdsvis radio og internet. Modellernes determinationskoefficienter (R2)
ses i nedenstående:
Model 1: Simpel regression: R2 5 0,837
Model 2: Multipel regression: justeret R2 5 0,630
Ud fra determinationskoefficienterne er det tydeligt, at model 1 er mest velegnet til at forklare
salget. Mere konkret forklarer antallet af sælgere omkring 84 % af udviklingen i salget.
Inddragelsen af en ekstra variabel i model 2 har således en skadelig effekt på modellens evne til at
forklare salget. Pointen er, at modellens forklaringsevne (R2) ikke nødvendigvis øges ved at tilføje
en ny variabel i modellen.
Tilføjelse af en kvalitativ variabel (dummy variabel)
I de foregående afsnit har regressionsmodellerne været baseret på kvantitative (tal) variable, eksempelvis kundebesøg målt i antal og salgserfaring målt i år. Som du sikkert har gættet, kan der sagtens være variable der ikke er kvantitative, men som alligevel har stor indflydelse på den variabel
vi søger at forklare (Y). Hvis du ønsker at udbygge din regressionsmodel med en kvalitativ variabel
som eksempelvis køn, kan du tilføje en såkaldt dummy variabel. En dummy variabel er kendetegnet
ved at antage to værdier: 0 eller 1.
EKSEMPEL
I nedenstående ses en regressionsmodel der viser sammenhængen mellem pensionsopsparing (Y),
alder (X1) og køn (X2). Regressionsmodel:
y� 5 b0 1 b1 ? X1 1 b2 ? X2
Hvor y� er den estimerede pensionsopsparing, X1 er alder målt i år og X2 er køn, hvor 0 står for en
mand og 1 for en kvinde.
Statlearn programmet er anvendt til beregning af modellen. De data der ligger til grund for beregningerne findes i regressionsappendiks 7.
y� 5 212.925,343 1 20.451,627 ? X1 2 10.958,436 ? X2
Den negative skæring på omkring 13.000 kr. er ikke ensbetydende med, at et nyfødt barn (0 år)
kommer til verden med en gæld på 13.00 kr. Den negative skæring skyldes udelukkende regnetek-
s. 197
Regressionsanalyse
niske årsager, eftersom modellen skal gå igennem y-aksen i det punkt hvor X antager værdien nul.
I den sammenhæng skal du være særlig opmærksom på, at regressionsmodeller kun må anvendes
indenfor det datainterval, som modellen bygger på. I vores tilfælde ligger aldersobservationerne i
intervallet fra 18 år til 88 år, hvilket betyder at regressionsestimaterne kun bør beregnes indenfor
pågældende interval.
Den negative hældning for dummy variablen (X2) på knap 11.000 kr. betyder, at det kvindelige køn
har en negativ effekt på pensionsopsparing. Mere konkret estimeres at kvinder vil have 11.000
mindre på deres pensionsopsparing end mænd. (NB: Data er fiktive…)
Øvelser med regressionsanalyse
De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af specifikke regressionsbegreber. Efterfølgende er opgaverne rettet mod beregninger.
1. Hvad er formålet med regressionsanalyse?
2. Hvad er forskellen på korrelations og regressionsanalyse?
3. Hvad er forskellen på de to nedenstående regressionsmodeller:
y� 5 b0 1 b1 ? X1 og Y 5 b0 1 b1 ? X1 ? 
4. I nedenstående ses en regressionsmodel for sammenhængen mellem salg af is og udendørstemperatur:
y� 5 10 1 5 ? X hvor X er grader i celsius og y� salget af is i antal.
a) Hvordan vil du fortolke regressionslinjens hældning og skæring?
b) Er der tale om simpel eller multipel regression?
5. Kan en regressionslinje have flere afhængige variable (Yi)?
6. Hvordan vil du beskrive betydningen af determinationskoefficienten (R2)?
7. Kan determinationskoefficienten alene bestemme om en regressionslinje er anvendelig?
8. Hvilke forudsætninger ligger til grund for regressionsanalyse?
9. I hvilken sammenhæng optræder begrebet multikollinearitet?
10. Hvorfor er det vigtigt, at p-værdien for hældningen er mindre end 5 %?
s. 198
Regressionsanalyse
Beregningsøvelser
Opgave 1.
For at budgettere rigtigt ønsker et biludlejningsfirma, at undersøge sammenhængen mellem vedligeholdelsesudgifter og antallet af kørte kilometer for biler i udlejningsklasse A. I nedenstående
tabel ses data for 15 tilfældigt udvalgte biler i klasse A.
Tabel 90:
Kørte km (i 10.000)
6
7
6
9
10 10 11 13 14 15 15 17 18 20 20
Vedligeholdelse udgifter (i tusind) 13 16 15 20 19 21 26 24 30 32 30 35 34 40 39
Spørgsmål 1. Identificer den afhængige og uafhængige variabel.
Spørgsmål 2.Opstil uden beregninger en model, der kan beskrive sammenhængen mellem
vedligeholdelsesudgifter og antallet af kørte kilometer.
Spørgsmål 3. Estimer regressionsmodellens koefficienter (hældning og skæring).
Spørgsmål 4.Hvordan vil du vurdere regressionslinjens evne, til at forklare variationen mellem vedligeholdelsesudgifter og antallet af kørte kilometer?
Spørgsmål 5. Vurder om regressionsmodellen er anvendelig
Spørgsmål 6.Beregn et estimat af vedligeholdelsesudgifterne, når en tilfældigt udvalgt bil
har kørt 100.000 km.
Spørgsmål 7.Fortolk estimatet fra spørgsmål 6 og kommenter hvilket usikkerhedsmoment,
der er forbundet hermed.
Spørgsmål 8. Bestem et 80 % konfidensinterval for regressionslinjens skæring og hældning.
Spørgsmål 9.Hvorfor det kan være en god ide, at beregne et forudsigelsesinterval for regressionsestimatet.
Spørgsmål 10.Beregn et 95 % forudsigelsesinterval for vedligeholdelsesudgifterne, når en
tilfældigt udvalgt bil har kørt 150.000 km
Opgave 2.
Ledelsen af Hilton hotellerne er ved at evaluere, om en ny grund på Bahamas er egnet til hoteldrift.
For at vurdere om hotellet ligger tæt nok på stranden, ønsker ledelsen at beregne en model, der
beskriver sammenhængen mellem Hilton hotellernes belægningsprocent og afstanden til stranden. Herudover ønsker ledelsen også, at se effekten af at have mange swimmingpools.
s. 199
Regressionsanalyse
Stikprøve med data for belægningsprocent, afstand til stranden og antal swimmingpools
Tabel 91:
Belægningsprocent
92
95
96
90
89
86
90
83
85
80
78
76
72
75
Afstand til stranden (m) 100 110 200 320 400 410 500 600 720 700 810 800 900 930
Antal pools
1
2
3
3
4
5
4
4
5
5
5
5
6
6
Spørgsmål 1. Identificer den afhængige og de uafhængige variable.
Spørgsmål 2.Estimer modellens parametre og giv en fortolkning af modellens overordnede
evne til at estimere belægningsprocenten.
Spørgsmål 3.Hvis der er 2 swimmingpools og 250 meter til stranden, hvad er så estimatet for
belægningsprocenten?
Spørgsmål 4. Er der nogen af modellens parametre vi kunne udlade (modelreduktion)?
Spørgsmål 5.Hvad kan skyldes at antallet at afstanden til stranden har en negativ effekt på
belægningsprocenten?
Spørgsmål 6.Hvilken betydning har den geografiske beliggenhed for belægningsprocenten?
Anvend dummy variabel og fortolk hældningen. (Data fremgår af følgende side)
Tabel 92:
Belægningsprocent
Afstand til
stranden (m)
Antal
swimmingpools
Dummy: USA (1)
Europa (0)
92
100
2
1
95
110
2
1
96
200
3
0
90
320
3
0
89
400
4
1
86
410
5
1
90
500
4
1
83
600
4
0
85
720
5
0
80
700
5
1
78
810
5
1
76
800
5
0
72
900
6
1
75
930
5
1
s. 200
Regressionsanalyse
Tidligere eksamensøvelser med regressionsanalyse
øvelser”.
Øvelser med regressionsanalyse (sideangivelse samt opgavenummer):
Side 12/1.1 – 1.5
Side 17/3.1 – 3.4
Side 28/4.3
Side 32/4.1
Side 36/1.1-1.3
Side 42/4.1
Løsninger til regressionsanalyse
1. At beregne en model for den lineære sammenhæng mellem to eller flere variable.
2. Med korrelationsanalyse beregnes udelukkende om styrken af sammenhængen mellem
to variable er svag eller stærk. Ved anvendelse af regressionsanalyse beregnes en model,
der anvendes til at estimere udviklingen af Y (den afhængig variabel) ved ændringer i X
(den uafhængige/forklarende variabel).
3. Regressionsmodellen for stikprøven betegnes y� 5 b0 1 b1 ? X1 og for populationen gælder
Y 5 b0 1 b1 ? X1 ? .
4. Ved en temperatur på nul grader estimeres salget til 10 is. Når temperaturen stiger med 1
grad, estimeres salget at stige med 5 is. Der er tale om simpel lineær regression, da modellen kun har en enkelt uafhængig variabel (multipel regression har mindst 2)
5. En regressionsmodel har kun en afhængig variabel og en eller flere uafhængige variable.
6. Determinationskoefficienten (R2) fortolkes som regressionsmodellens evne til at forklare
den givne sammenhæng. R2 er en ratio der spænder fra 0 til 1. Jo tættere på 1 desto større
er sammenhængen mellem modellens variable. En R2 på 1 (100 %) betyder, at der er fuldstændig lineær sammenhæng mellem de valgte variable – Tilsvarende betyder en R2 på 0,
at der ingen sammenhæng er.
7. For at anvende regressionsmodellen, er det vigtigt at p-værdien for modellens hældning(er)
ikke overstiger 5 %. En p-værdi der overstiger 5 % betyder, at H0 hypotesen om at hældningen er nul accepteres. Accepteres H0 hypotesen betyder det således, at X variablen ingen
sammenhæng har med Y variablen.
s. 201
Regressionsanalyse
8. Der skal først og fremmest være en lineær sammenhæng mellem X og Y. Herudover skal residualerne (forskellen på regressionsestimat og observation) være normalfordelte omkring
regressionslinjen med en konstant varians. Som det sidste må der ikke være afhængighed
mellem residualerne. Afhængigheden må kun være mellem X og Y.
9. Multikollinearitet opstår i forbindelse med multipel regressionsanalyse. Multikollinearitet
betyder, at der er indbyrdes afhængighed mellem de uafhængige variable (Xi).
10. Er p-værdien for hældningen over 5 % er hovedreglen, at regressionsmodellen forkastes.
Er der tale om multipel regression, er det ofte tilfældet at enkelte p-værdier overstiger
5 %. I det tilfælde kan de/den variabel som overstiger 5 % fjernes fra modellen. Efterfølgende beregnes en ny regressionsmodel med de resterende variable.
Beregningsøvelser
Opgave 1.
Spørgsmål 1. Vedligeholdelsesudgifterne afhænger af antal kørte kilometer.
Spørgsmål 2.y� 5 b0 1 b1 ? X1 (stikprøve regressionsmodel) ⇒
Y 5 b0 1 b1 ? X1 1  (regressionsmodel for population)"
Hvor b0 og b0 er modellens skæring og b1 samt b1 er modellens hældning. Symbolet “” repræsenterer residualet, som er afvigelsen mellem regressionsestimatet og den faktiske observation af Y.
Spørgsmål 3.
Tabel 93:
Koefficient
Koefficient værdi
b0: Skæring
3,187
b1: Kørte km (i 10.000)
1,813
Spørgsmål 4.
Modellen forklarer 97 % af variationen (R2) mellem kørsel og vedligeholdelsesudgifter, hvilket
er tæt på en fuldkommen lineær sammenhæng (5 god model).
s. 202
Regressionsanalyse
Spørgsmål 5.
Modellen er særdeles anvendelig. Som nævnt er R2 høj og p-værdien for hældningen er
tilnærmelsesvis nul, hvilket er betydeligt mindre end de 5 %, der er toleranceværdien
(5 testniveauet).
Tabel 94:
Koefficient
Koefficient værdi
p-værdi
Skæring
3,1875
0,0208
Kørte km (i 10.000)
1,8125
~0
Spørgsmål 6.
y� 5 3,1875 1 1,8125 ? 10 5 21,3125 tusind kr. (nb: udgifter er angivet i 1000 og antal kørte km
i 10.000)
Spørgsmål 7.
Da udgifter måles i tusind betyder det, at de estimerede vedligeholdelsesudgifter er omkring
21.000 kr., når en bil har kørt 100.000 kilometer. Da regressionsestimatet for de forventede
vedligeholdelsesudgifter er baseret på en stikprøve, vides ikke hvor tæt estimatet ligger på den
reelle forventede udgift, hvilket vil sige den udgift, man havde beregnet med regressionsmodellen for en hel population.
Spørgsmål 8.
Tabel 95:
Nedre 80 %
Øvre 80 %
Skæring
1,5516
4,8234
Hældning
1,6917
1,9333
Spørgsmål 9.
Med et forudsigelsesinterval beregnes et interval, hvor i den forventede værdi af den afhængige variabel (Y) vil ligge med en given sandsynlighed.
Spørgsmål 10.
Forudsigelsesinterval for Y: 26,783 til 33,967
Forudsigelsesinterval for E(Y): 29,382 til 31,368
s. 203
Regressionsanalyse
Opgave 2.
Spørgsmål 1.
Belægningsprocenten afhænger af de to øvrige variable.
Spørgsmål 2.
Tabel 96:
Koefficient
Koefficient værdi
Skæring
97,056
Afstand til stranden (m)
20,029
Antal pools
0,765
Justeret R2
0,870
Den høje determinationskoefficient (justeret R2) vidner om, at modellen er god til at forklare
udviklingen af belægningsprocenten ud fra antallet af swimmingpools og afstanden til stranden.
Spørgsmål 3.
y� 5 97,056 2 0,029 ? 250 1 0,765 ? 2 5 91,38082 %
Spørgsmål 4.
Tabel 97:
Koefficienter
p-værdi
Skæring
97,056
~0
20,029
0,001
0,765
0,577
Antal swimmingpools
Som det fremgår, har hældningen for antallet af swimmingpools en p-værdi som overstiger 5
%. Denne variabel bør derfor fjernes, således at det kun er afstanden til stranden der forklarer
belægningsprocenten.
Spørgsmål 5.
Jo længere væk fra stranden desto mindre atraktivt.
s. 204
Regressionsanalyse
Spørgsmål 6.
Beliggenhed i USA påvirker belægningsprocenten negativt med 1,6 %.
Tabel 98:
Koefficient
Skæring
99,143
20,025
Antal pools
Dummy: USA (1) Europa (0)
Koefficient værdi
0,078
21,600
s. 205
Regressionsanalyse
Appendiks til regressionsafsnit
Appendiks 1
Opkald
45
39
39
34
34
34
30
28
24
22
21
19
13
12
8
7
salg
Erfaring
27
17
22
16
9
22
18
14
11
8
17
7
4
7,2
4,8
8
1
3
6
6
6
7
7
10
11
11
13
17
21
27
28
30
salg
4
3
12
6
19
37
11
26
27
33
22
22
43
25
33
55
Appendiks 2
Salg i Kr.
Sælgers anciennitet (i år)
702.362
1
909.543
1
1.418.850
2
1.493.862
2
1.910.424
2
1.333.883
3
2.170.936
4
2.324.911
5
2.757.051
5
2.426.205
6
2.870.272
6
2.045.922
7
1.477.618
7
3.403.812
9
4.063.190
11
2.426.205
11
4.514.421
12
4.531.156
13
4.861.948
13
4.981.243
14
s. 206
Regressionsanalyse
Appendiks 3 – Beregning er udført med Statlearn programmet
REGRESSIONSSTATISTIK
R-kvadreret
Justeret R-kvadreret
0,830
0,821
Standardafvigelse
566779,576
Observationer20
ANAVA
Regression
Residual
Total
Fg
SS
MS
1
18
19
28,306,909,975,516
5,782,303,573,491
34,089,213,549,006
28,306,909,975,516
321.239.087.416
KOEFFICIENTTEST OG INTERVALLER
Parametre
Koefficienter Standard Afv. t-Stat
Skæring
Anciennitet (i år)
758151,737
279558,054
236379,736
29781,047
3,207
9,387
FobsFkritisk
88,118
4,414
p-værdi
0,000
p-vaerdi
Nedre 95%
Øvre 95%
0.005
0.000
261536
216990
1254767
342126
Appendiks 4
Forudsigelsesinterval for den forventede y-værdi E(y0) givet x0
E(y0)  tn22
12a/2 ? s2 ?
1 (x0 2 x)2
1
n
SAKx
n
Hvor SAKx 5  i51(xi 2 x)2
Appendiks 5
Forudsigelsesinterval for enkeltstående y-værdi givet x 5 x0
y0  tn22
12a/2 ? Med fokus på erhvervslivet
11
1
1 (x0 2 x)2
1
1
n
n
SAKx
s. 207
Regressionsanalyse
Appendiks 6
Salg i Kr.
Anciennitet (år)
Kundebesøg/måned
702.362
1
6
909.543
1
9
1.418.850
2
13
1.493.862
2
9
1.910.424
2
11
1.333.883
3
11
2.170.936
4
12
2.324.911
5
9
2.757.051
5
13
2.426.205
6
14
2.870.272
6
14
2.045.922
7
11
1.477.618
7
16
3.403.812
9
13
4.063.190
11
17
2.426.205
11
11
4.514.421
12
9
4.531.156
13
19
4.861.948
13
13
4.981.243
14
19
s. 208
Regressionsanalyse
Appendiks 7
Pensionsopsparing (i kr)
Alder (år)
Køn (0 5 M, 1 5 K)
16.570.168
69
1
16.499.187
67
0
15.655.861
65
0
13.188.269
65
1
13.071.263
59
1
12.407.332
58
1
12.271.377
54
1
12.220.612
53
0
11.155.120
52
0
10.335.252
51
1
9.810.592
50
0
9.585.830
50
1
9.388.378
50
1
9.290.130
49
1
9.058.870
49
1
8.735.314
49
1
7.405.064
46
1
7.328.645
44
0
7.160.132
39
0
6.708.485
34
0
5.498.814
32
1
5.211.408
31
1
4.267.652
31
0
2.575.819
28
0
2.254.112
28
0
1.871.687
26
1
1.712.921
25
0
1.658.447
23
1
661.006
22
0
s. 209
KAPITEL 9
STIKPRØVETEORI
Statlearn.com
KAPITEL
9
Stikprøveteori
I
de foreløbige afsnit har vi forudsat, at stikprøver var baseret på simpel tilfældig udvælgelse.
Denne udvælgelsesform er udbredt, men ikke altid det mest hensigtsmæssige valg. Styrken ved
simpel tilfældig udvælgelse ligger i simpliciteten. Svagheden er, at stikprøverne sjældent bliver
tilstrækkeligt repræsentative, hvilket især gør sig gældende ved små stikprøvestørrelser.
Forestil dig et lille øsamfund med kun 1000 indbyggere fordelt på to byer, New Port og Mount
Caine. New Port har 800 indbyggere og Mount Caine de resterende 200.
Hvis vi udtager en lille stikprøve på 10 indbyggere ved anvendelse af simpel tilfældig udvælgelse,
er der en potentiel risiko for at alle observationerne vil stamme fra den mindste by. Sandsynligheden for at udtage en stikprøve der kun består af indbyggere fra Mount Caine er naturligvis lav,
men eksemplet illustrerer, at simpel tilfældig udvælgelse ikke nødvendigvis fører til repræsentative
stikprøver. Der er i den sammenhæng behov for alternative udvælgelsesmetoder til at sikre repræsentative stikprøver.
Stratificeret stikprøveudvælgelse er en metode, som på sin vis tvinger stikprøven til at blive repræsentativ. Med repræsentativ forstås, at stikprøven afspejler populationens sammensætning,
således at punktestimater fra stikprøven bliver så nøjagtige som muligt. Med stratificeret stikprøveudvælgelse tages udgangspunkt i populationens sammensætning, inden stikprøven udvælges.
I forbindelse med øsamfundet kan indbyggerne inddeles i to strata (populationssegmenter), New
Port og Mount Caine. Tanken med stratificeret udvælgelse er, at lade andelene for populationen
afspejle sig i stikprøven. Det betyder, at en stratificeret stikprøveudvælgelse15 på 10 indbyggere vil
indeholde 8 indbyggere fra New Port og de resterende 2 fra Mount Caine.
Som udgangspunkt bør man anvende en stratificeret stikprøveudvælgelse. Det resulterer i mere
repræsentative stikprøver end ved simpel tilfældig udvælgelse. Dette gælder særligt ved små
stikprøvestørrelser, og når populationens forskellige strata (New Port og Mount Caine) er mere
ensartede end populationen som helhed.
15
Ved anvendelse af proportionel stratifikation
Videolektioner >
s. 211
Stikprøveteori
Introduktion til før og efterstratifikation
Stratifikation kan inddeles i før og efterstratifikation. Ved førstratifikation fastlægges hvor mange
elementer, der skal udtage fra hvert stratum inden stikprøven udvælges. I forbindelse med efterstratifikation er stikprøven allerede udvalgt. Formålet med efterstratifikation er således, at korrigere den udvalgte stikprøve og gøre den mere repræsentativ.
Både før og efterstratifikation kan beregnes med Statlearn programmet.
Førstratifikation
Som nævnt er formålet med førstratifikation, at beregne hvor mange observationer der ideelt set
skal udvælges fra de enkelte strata. Der sondres mellem to forskellige metoder: Proportional og
optimal stratifikation.
Proportional førstratifikation
Ved proportional stratifikation lader man populationsandelene for hvert enkelt stratum styre, hvor
mange observationer der udtages.
Tager vi udgangspunkt i øsamfundet, ved vi at 80 % af indbyggerne bor i New Port og de resterende
20 % i Mount Caine. Lad os antage, at du var interesseret i at estimere øens gennemsnitsindkomst
og til det formål vil udtage en stikprøve på 75 personer. Hvis proportional stratifikation anvendes,
hvordan skal stikprøven så sammensættes med indbyggere fra New Port og Mount Caine?
I nedenstående ses beregningerne for stikprøvens sammensætning af indbyggere fra de to byer.
Det fremgår at populationsandelen for de to strata (New Port 80 % og Mount Caine 20 %) afspejles
i stikprøven – heraf betegnelsen proportional stratifikation.
Tabel 99:
Nj
Nj/N
(Nj/N) ? n
New Port
800
0,8
60
Mount Caine
200
0,2
15
Total (N)
1000
1
75
Hvor nj stikprøvestørrelsen i stratum “j”, Nj er populationsstørrelsen i stratum “j”, N er størrelsen af
hele populationen og n er selve stikprøvestørrelsen.
s. 212
Stikprøveteori
Optimal førstratifikation
Ved optimal stratifikation tages variansen med i betragtning, når stikprøvestørrelsen skal beregnes
for de enkelte strata. En høj varians er tegn på store afvigelser fra gennemsnittet, hvilket alt andet
lige øger stikprøveusikkerheden. Optimal stratifikation korrigerer for denne situation ved, at tildele
strata med høj varians ekstra observationer. Optimal stratifikation kompenserer således for den
større usikkerhed ved, at øge stikprøvestørrelsen for strata med høj varians og tilsvarende mindske
stikprøven for strata med lavere varians.
Med udgangspunkt i samme eksempel som under proportional førstratifikation er spørgsmålet nu,
hvor mange indbyggere der skal udvælges fra hvert stratum, såfremt den optimale metode anvendes? I den forbindelse antages det, at standardafvigelsen for indkomsten er kendt i både New Port
og Mount Caine.
Som det fremgår i nedenstående tabel, skal der ved optimal førstratifikation udtages 55 personer
fra New Port og de øvrige 20 fra Mount Caine. Bemærk at variansen for Mount Caine er større end
for New Port, hvilket betyder, at der med denne metode skal udtages flere fra Mount Caine end ved
proportional stratifikation, se forrige tabel.
Tabel 100:
Nj
sj
Nj ? sj
Nj ? sj
?n
Nj ? sj
New Port
800
6000
4800000
55
Mount Caine
200
9000
1800000
20
Total (N)
1000
15000
6600000
75
Hvor sj er populationens standardafvigelse i stratum “j”, Nj er populationsstørrelsen i stratum “j”
og n er selve stikprøvestørrelsen.
s. 213
Stikprøveteori
Punktestimater af andele og middelværdi ved
stratifikation
I forrige afsnit var vi inde på stratificeret stikprøveudvælgelse. I nedenstående fremgår det, hvordan de grundlæggende punktestimater af gennemsnit og standardafvigelse beregnes for denne
type stikprøveudvælgelse:
Bemærk at Statlearn programmet kan anvendes til alle nedenstående beregninger
Tabel 101:
Stratificeret gennemsnit og varians
–x 5
s
–x 2 5
s


Stratificeret andel og varians
Nj –
∙x
N j
p�s 5
(x 2 –x j)2
(nj 2 1)
VAR(p�s) 5


Nj
∙p
N �j
Nj p�j(1 2 p�j)
∙
N
nj
Tabel 102:
Konfidensinterval (KI)
Stratificeret andel og varians
Stratificeret Z-KI for m
m ∈ xs  Z12a/2 Stratificeret Z-KI for p
p ∈ p�s  Z12a/2 

Nj
N
Nj
N
2
∙
2
s2j Nj 2 nj
∙ ∙
nj
Nj
p�(1 2 p�) Nj 2 nj
∙
Nj
nj
Se afsnit om konfidensintervaller for nærmere gennemgang. I det følgende er et eksempel på et
stratificeret konfidensinterval for gennemsnit og andele.
s. 214
Stikprøveteori
Eksempler på et stratificeret konfidensinterval
Eks. 1: Stratificeret konfidensinterval for gennemsnit (m)
Fra kundedatabasen kender Danske Bank den gennemsnitlige indtjening for tre forskellige geografiske kundegrupper. Banken ønsker nu et estimat for den samlede gennemsnitlige indtjening pr.
kunde. Beregn et 95 % konfidensinterval for den gennemsnitlige indtjening pr. kunde.
Variabel: Indtjening pr. kunde i Danske Bank (kr.)
Data:
Tabel 103:
Nj
Nj
N
nj
xj
Sj
Sjælland
72.478
39 %
100
14.732
2.163
Fyn
47.064
26 %
100
8.126
1.025
Jylland
64.219
35 %
100
9.041
3.877
Sum
183.761
100 %
300
-
-
Formel:
m ∈ xs  Z12a/2 
Nj 2 s2j Nj 2 nj
∙ ∙
N
nj
Nj
Forudsætning:
Approksimation til normalfordeling ok da nj . 30
Interval:
Nedre intervalgrænse
Øvre intervalgrænse
Punktestimat
10.733,508
11.369,027
11.051,267
Fortolkning:
Den gennemsnitlige indtjening pr. kunde ligger med 95 % sandsynlighed
mellem 10.734 og 11.369 kr.
Eks. 2: Stratificeret konfidensinterval for andel (p)
I forbindelse med en tilfredshedsundersøgelse ønsker PFA Pension, at estimere andelen af utilfredse
kunder. I to stikprøver på henholdsvis 100 mænd og kvinder var andelen af utilfredse kunder som angivet under data. Beregn på den baggrund et 95 % konfidensinterval for andelen af utilfredse kunder.
Variabel: Antallet af utilfredse kunder hos PFA Pension
s. 215
Stikprøveteori
Data:
Tabel 104:
Nj
Nj
N
nj
xj
Mænd
449.105
54 %
100
14
Kvinder
376.278
46 %
100
21
Sum
825.383
100 %
200
-
Formel:
p ∈ p�s  Z12a/2 
Nj 2 p�(1 2 p�) Nj 2 nj
∙
∙
N
nj
Nj
Forudsætning:
Approksimation til normalfordeling ok da nj . 30
Interval:
Nedre intervalgrænse
Øvre intervalgrænse
Punktestimat
12 %
22,38 %
17,19 %
Fortolkning:
Andelen af utilfredse kunder ligger med 95% sandsynlighed mellem 12 og 22%.
Øvelser med stratifikation
De første spørgsmål er relateret til fortolkning. Du skal her med dine egne ord forsøge, at forklare betydningen af specifikke stratifikationsbegreber. De efterfølgende opgaver vil være beregningsøvelser.
1. Hvornår er stratifikation især en fordel i forhold til simpel tilfældig udvælgelse?
2. Hvad er ideen med stratifikation i forhold til simpel tilfældig udvælgelse?
3. Hvis en stratificeret stikprøve altid er at foretrække frem for en simpel tilfældigt udvalgt
stikprøve, hvorfor anvendes stratifikation så ikke altid?
4. Hvad er betydningen af før og efterstratifikation?
5. Hvad menes med proportional stratifikation?
s. 216
Stikprøveteori
Opgave 1.
I forbindelse med et forestående valg ønsker Berlingske Tidende, at estimere andelen af bornholmske vælgere der stemmer på SF. På baggrund af to stikprøver var der 30 ud af 200 mænd, der ville
stemme SF. Tilsvarende var der 19 af 165 kvinder, der ønskede at stemme SF. Antag at der henholdsvis er 12.000 og 15.000 mænd og kvinder, der stemmer på Bornholm.
På baggrund af de to stikprøver ønskes et 95 % konfidensinterval for andelen af Bornholmere, der
stemmer SF.
Opgave 2.
I en markedsundersøgelse for Kohberg er der indsamlet information omkring, hvor mange kilo brød
der årligt forbruges pr. husstand i Danmark. Resultaterne fra 983 husstande ses i nedenstående:
Tabel 105:
Antal husstande (n)
xj
sj
Jylland
237
24
13
Fyn
255
34
7
Sjælland
266
17
11
Bornholm
225
37
8
Antag at det fra Danmarks statistik oplyses, at der er 1.035.841 husstande i Jylland, 205.233 på Fyn,
1.054.390 på Sjælland og 19.779 på Bornholm.
Spørgsmål 1.
Beregn et 95 % konfidensinterval for det gennemsnitlige årlige forbrug af boller og brød pr.
husstand.
Spørgsmål 2.
Kan du med udgangspunkt i det indsamlede data, kommentere hvorfor det i dette tilfælde er en
særlig god ide at anvende stratifikation?
Opgave 3.
Computerproducenten Dell har iværksat en markedsundersøgelse, som skal belyse, i hvor høj grad
kunderne er tilfredse med serviceniveauet. Baseret på tre forskellige kundesegmenter har Dell adspurgt kunderne om tilfredshedsgraden med serviceniveauet på en skala fra 1-10 (hvor 10 svarer
til “yderst tilfreds”). Fra tidligere undersøgelser kendes standardafvigelsen på tilfredshedsgraden i
de forskellige segmenter.
s. 217
Stikprøveteori
Spørgsmål 1.Hvis Dell ønsker at udtage en stikprøve på 350 kunder, hvor mange skal der så
udtages i hvert stratum?
Tabel 106:
Kundesegment
Nj
Sj
Privat
40.000
2,78
Offentlig
1.350
4,82
Erhverv
12.500
1,29
Sum
53.850
-
Spørgsmål 2.På baggrund af stikprøvedata som vist i nedenstående beregnes et 95 % konfidensinterval for den gennemsnitlige tilfredshed med Dells serviceniveau.
Tabel 107:
Kundesegment
Nj
nj
xj
Sj
Privat
40.000
134
6,29
2,78
Offentlig
1.350
148
7,88
4,82
Erhverv
12.500
68
5,21
1,29
Sum
53.850
350
-
-
Løsninger til stratifikation
Fortolkning:
1. Som udgangspunkt er det altid en fordel at anvende stratificeret stikprøveudvælgelse, da
stikprøven bliver mere repræsentativ end ved simpel tilfældig udvælgelse. Dette gælder
især ved små stikprøvestørrelser, og når populationens strata er mere ensartede end populationen som helhed.
2. Tanken med stratifikation er, at lade andelene for populationen afspejle sig i stikprøven.
Hvis der eksempelvis er 52 % kvinder i en population, så vil en stratificeret stikprøve på 100
personer indeholde 52 kvinder (ved anvendelse af proportional stratifikation).
3. For at anvende stratifikation, skal man have adgang til data for hele populationen. Dette er
ikke altid en mulighed.
4. Med førstratifikation beregnes den optimale stikprøvestørrelse i hvert stratum inden
stikprøven udtages. Ved efterstratifikation udtages data simpelt tilfældigt, hvorefter det
fordeles på de enkelte strata.
5. Ved anvendelse af proportional stratifikation, lader man andelene for populationens enkelte strata afspejle sig i stikprøvens sammensætning (som beskrevet i spørgsmål 2).
s. 218
Stikprøveteori
Beregninger:
Opgave 1.
95% stratificeret konfidensinterval for en andel
Opgave 2.
Spørgsmål 1.
95% stratificeret konfidensinterval for et gennemsnit
Spørgsmål 2.
De forskellige strata forekommer relativt heterogene, både hvad angår gennemsnit og standardafvigelse. Ved små stikprøver der udvælges simpel tilfældigt, er der således risiko for at
resultatet ikke bliver repræsentativt.
Opgave 3.
Spørgsmål 1.
Tabel 108:
Segment
Proportional
Optimal
259,981
290,812
Offentlig
8,774
17,017
Erhverv
81,244
42,170
350
350
Privat
Sum
Spørgsmål 2.
95% stratificeret konfidensinterval for et gennemsnit
s. 219
KAPITEL 10
MULTINOMISKE HYPOTESETEST
Statlearn.com
KAPITEL
10
Multinomiske
hypotesetest
I
tidligere afsnit har vi set hvordan en hypotesetest kan udføres for et enkelt populationsparameter. I forlængelse heraf var vi også inde på hypotesetest af to populationsparametre, eksempelvis
i forbindelse med test af forskellen på to populationsgennemsnit.
I dette afsnit ser vi på multinomiske test som kendetegnes ved, at der er mere end to kategorier,
der testes – heraf betegnelsen multinomisk.
Antag at du som produktchef for Toms Chokolade ønsker, at undersøge forbrugernes præferencer
for konkurrerende chokoladebarer. For at indhente markedsinformation, har du udtaget en stikprøve blandt 100 forbrugere og adspurgt dem om deres foretrukne chokoladebar, se resultater i
nedenstående:
Tabel 109:
Produkt
Obs (oi)
Guldbar (Toms)
25
Kit-Kat
28
Yankee
20
Twix
27
Sum
100
Af stikprøven fremgår det, at variablen Produkt har fire kategorier, og at Kit-Kat umiddelbart ser ud
til at være det foretrukne valg. Da stikprøver som bekendt altid rummer en vis usikkerhed, er spørgsmålet om observationernes variation er et tilstrækkeligt bevis for, at det der er forskel i forbrugernes
præferencer. Rent statistisk besvares spørgsmålet ved anvendelse af en multinomisk test.
Multinomiske test anvendes til at sammenligne data som er inddelt i tre eller flere kategorier. Rent
konceptuelt baseres denne type test på en beregning af forskellen på det der observeres og det der
forventes i hver kategori.
Som udgangspunkt antager H0 hypotesen, at der er ligelig fordeling blandt kategorierne. Oversat
til eksemplet med chokoladebarer vil dette betyde af forbrugernes præferencer for de fire chokoladebarer er ens.
Videolektioner >
s. 221
Multinomiske hypotesetest
Såfremt H0 er sand, må vi forvente, at der er nogenlunde lige mange observationer i hver kategori
som i nedenstående tabel:
Tabel 110:
Produkt
Obs (oi)
Forventet (ei) ved H0
Guldbar (Toms)
25
25
Kit-Kat
28
25
Yankee
20
25
Twix
27
25
Sum
100
100
Er det modsatte tilfældet, hvilket betyder at forbrugerne ikke har ens præferencer for de forskellige
chokoladebarer, vil afvigelserne mellem de forventede og observerede værdier være langt større,
som det fremgår af nedenstående tabel:
Tabel 111:
Produkt
Obs (oi)
Forventet (ei) ved H0
Guldbar (Toms)
58
25
Kit-Kat
14
25
Yankee
21
25
Twix
7
25
Sum
100
100
Beregning af multinomiske test
Som nævnt bygger multinomiske test på en beregning af forskellen mellem den observerede og
forventede værdi for hver kategori (Guldbar, Kit-Kat osv.). Mere specifikt er denne beregning baseret på x2 - fordelingen (udtales khi – fordelingen) og beregnes som i nedenstående:
2
xobs
5

(oi 2 ei)2
(5 teststørrelse)
ei
2
Resultatet af beregningen for xobs
er en værdi der kan aflæses i x2-fordelingen.
FIGUR 71:
s. 222
Fremgangsmåden med at beregne en teststørrelse som omdannes til en p-værdi og efterfølgende
aflæses i en fordeling, har vi tidligere været inde på i afsnittet om hypotesetest.
Fremgangsmåden med at beregne en teststørrelse som omdannes til en p-værdi og
2
Beregningen af teststørrelsen (xobs
) for eksemplet med chokoladebarer ses i nedenstående:
efterfølgende aflæses i en fordeling har vi tidligere været inde på i afsnittet om hypotesetest.
TABEL 112:
Kategoritabel
Beregningen
af teststørrelsen
Produkt
oi
Produkt
Guldbar (Toms)
25
Guldbar (Toms)
28
Kit-Kat
Yankee Yankee
20
Twix
27
Twix
Sum
Sum
100
Kit-Kat
Tabel 36: Kategoritabel
for eksemplet med chokoladebarer ses i nedenstående:
ei
x2obs 5 (oi 2 ei)2/ei
25
25 25
28
20 25
27 25
100100
0
25
25
25
25
100
0,36
1
0,16
1,52
0
0,36
1
0,16
1,52
Ud fra tabellen fremgår det, at teststørrelsen på 1,52 er den summerede variation mellem det
Ud fra tabellen fremgår det, at teststørrelsen på 1,52 er den summerede variation mellem det
og det observerede
antal observationer
i hver kategori.
større variation,
desto
forventede forventede
og det observerede
antal observationer
i hver kategori.
Jo større Jo
variation
desto mere
mere
tyder det på atpræferencer
forbrugerneserpræferencer
Enpå
teststørrelse
svarer til
tyder det på,
at forbrugernes
forskellige.erEnforskellige.
teststørrelse
1,52 svarerpåtil1,52
en pværdi16 på 68
hvilket16betyder,
vi ligger
langt inde
det område,
hvor iHdet
Dermed
er
en%,
p-værdi
på 68 %,athvilket
betyder
at viiligger
langt inden
område hvor
accepteres.
0 accepteres.
konklusionen,
at H0 er
accepteres.
Det betyder
at vi medDet
95 betyder
% sandsynlighed
konkludere,
at der
Dermed
konklusionen
at
accepteres.
at vi med kan
95 %
sandsynlighed
kan
er ens præferencer for de fire chokoladebarer.
konkludere at der er ens præferencer for de fire chokoladebarer.
FIGUR 72:
p-værdi 5 68 %
testniveau 5 5 %
F(x2)
H0 5 Ens kategoriandele
16
H1 5 ej H0
Beregning af p-værdien ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet
16
Beregning af p-værdien ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet
s. 223
Side | 242
Anvendelsesområder for multinomiske test
Multinomiske test anvendes i en række sammenhænge. I det følgende er et oprids af de forskellige
områder, som testen indgår i.
1. Test af kategoriandele (se foregående eksempel)
2. Test af fordelinger (følger variablen en binomial, poisson eller en normalfordeling)
3. Test af antalstabeller (test af sammenhæng/homogenitet mellem to forskellige variable)
Test af kategoriandele samt test af fordelinger foregår efter samme fremgangsmåde som anvist i
foregående eksempel med chokoladebarer. For at undgå gentagelse er der i nedenstående et sæt
videolektioner med eksempler på test af forskellige fordelinger med Statlearn programmet.
1. Test af binomialfordelingen
2. Test af poissonfordelingen
3. Test af normalfordelingen
Antalstabeller
Hvad angår test af antalstabeller adskiller denne type test sig ved at være baseret på en krydstabel,
som er baseres på to variable. Formålet med denne type test er, at påvise en sammenhæng eller
et afhængighedsforhold mellem de givne variable. I nedenstående ses en antalstabel for køn og
overvægt:
TABEL 113: Eksempel på en antalstabel
Køn
ja Overvægt
Mand
Kvinde
Total
ja
22
13
35
Nej
11
28
39
Total
33
41
74
Antalstabeller kendetegnes som nævnt ved at have to variable, derfor modificeres beregningen af
teststørrelsen til følgende:
2
xobs
5

(oij 2 eij)2
eij
s. 224
Bemærk at fodtegn angives med både i og j. Fodtegnet “i” tolkes som rækkenummer og “j” som
kolonnenummer. Med andre ord svarer “o11” til krydsfeltet mellem kolonne 1 og række 1, se grå
celle i nedenstående.
TABEL 114:
Køn
Overvægt
Mand
Kvinde
Total
ja
22
13
35
Nej
11
28
39
Total
33
41
74
Den forventede værdi for række/kolonne kategorien beregnes:
Rækkesumi ? Kolonnesumj
n
ei,j 5
EKSEMPEL:
eJa,Mand 5
35 ? 33
5 15,608
74
TABEL 115: De forventede værdier for alle cellerne i tabellen
Køn
Overvægt
Mand
Kvinde
Total
ja
15,608
19,392
35
Nej
17,392
21,608
39
Total
33
41
74
Ud fra forskellen mellem de forventede og observerede værdier beregnes teststørrelsen:
2
obs
x
5

(oij 2 eij)2
eij
TABEL 116: Teststørrelsen for alle cellerne i tabellen
Køn
Overvægt
Mand
Kvinde
Sum af x2obs
ja
2,618
2,107
4,725
Nej
2,349
1,891
4,24
Sum af x2obs
4,967
3,998
8,964
s. 225
En teststørrelse på 8,964 omregnes ved anvendelse af Statlearn programmet til en p-værdi på
0,275 %, hvilket ligger langt under testniveauet på 5 %. Hermed forkastes H0 hypotesen som betyder, at sammenhængen mellem overvægt og køn er stærk. Beregning af p-værdien17 ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet.
FIGUR 73:
testniveau 5 5 %
p-værdi 5 0,275 %
F(x )
2
H0 5 Ens kategoriandele
H1 5 ej H0
Analyse af teststørrelsen
Som tidligere nævnt er teststørrelsen et udtryk for forskellen mellem de observerede og forventede værdier. Teoretisk set vil en teststørrelse på nul betyde, at der ingen forskel er på det der
observeres og forventes, hvilket fører til at H0 hypotesen accepteres (H0 5 ingen sammenhæng). I
praksis vil der altid være en vis forskel I variation mellem det observerede og forventede. Variationen afspejles af teststørrelsen. I foregående eksempel med køn og vægt er værdierne af teststørrelsen omtrent ligelig fordelt på de fire celler. En ligelig fordeling af teststørrelsen er tegn på, at de
forskellige kategorier i antalstabellen hver især bidrager lige meget til variationen.
TABEL 117: Eksempel på ligelig fordeling af teststørrelsen.
Køn
Overvægt
17
Mand
Kvinde
Sum af x2obs
ja
2,618
2,107
4,725
Nej
2,349
1,891
4,240
Sum af x2obs
4,967
3,998
8,964
Uden Statlearn programmet beregnes p-værdien ud fra et tabelopslag i en fordelingsoversigt, eventuelt “Erlang S.”
s. 226
Dog vil der ofte være enkelte celler, som står for langt størstedelen af bidraget til teststørrelsen.
Det betyder, at enkelte celler har et antal observationer, der afviger dramatisk fra det der forventes. Denne viden kan være yderst værdifuld, når en given sammenhæng skal forklares. Hvis data
eksempelvis havde taget sig ud som i nedenstående kommenteres, at det særligt er overvægtige
mænd, der bidrager til den samlede variation.
TABEL 118:
Køn
Overvægt
Mand
Kvinde
Sum af x2obs
ja
4,509
2,107
4,725
Nej
2,349
0
4,240
Sum af x2obs
4,967
3,998
8,964
En stor del af sammenhængen mellem køn og overvægt kan således tilskrives denne ene kombination. Spørgsmålet er nu, hvorfor denne variation er opstået. Skyldes det at langt flere mænd end
forventet er overvægtige – eller er det modsatte tilfældet? I store studier kan denne viden bruges
til at målrette fokus på de faktorer, som bidrager mest til en given sammenhæng.
s. 227
Formler til beregning af multinomiske test
TABEL 119:
Multinomiske test
Test af kategoriandele
H0: p1 5 p2 5 p3
H1: ej H0
Formel
K
x2 5

Forudsætning
(oi 2 ei)
ei
2
K 5 antal kategorier
fi 5 frekvens for kategori nr.i
ei 5 n ? pi0
i51
Test af populationsintensitet
H0: X~Ps(l)
H1: ej H0
K
x2 5

Stikprøven på n antal elementer er fordelt
på en tabel med en række eller kolonne
(oi 2 ei)2
ei
i51
Stikprøverne fordelt på “n” antal perioder
(kategorier), hvor fi tolkes som frekvensen
for kategori nr. i
ei 5 n ? pi0
ki 5 værdi for kategori “i”
pi0 5 P(X ∈ Ki|X~Ps(l0)
“n” antal stikprøver som alle har stikprøvestørrelsen “m”.
Test af binomialfordeling
H0: X~b(n,p)
H1: ej H0
Test af afhængighed
(homogenitet)
H0: Uafhængighed mellem
det første og andet
indelingskriterium
H1: ej H0
K
x2 5

(oi 2 ei)
ei
2
i51
Kij
2
x 5

(oij 2 eij)2
eij
Stikprøverne er fordelt på K kategorier hvor
tolkes som frekvensen for kategori nr. i
pi0 5 P(X ∈ Ki|X~b(n,p0)
ei 5 n ? pi0
ki 5 værdi for kategori “i”
Stikprøven på n elementer fordeles på en
tabel med mindst 2 rækker og kolonner.
fij 5 frekvens for kategori nr.i
i51
s. 228
Eksempler på beregning af multinomiske test
Eksempel 1: Test af kategoriandele, ligelig fordeling
Nordea ønsker at fastlægge om andelen af kunder, der anvender Mastercard er ligeligt fordelt
blandt forskellige indkomstgrupper. Kan det ud fra en stikprøve på 150 kunder påvises, at der er
tale om en ligelig fordeling?
Variabel: Antal kunder i forskellige indkomstgrupper der bruger Mastercard
Model: χ2-fordelingen
Hypoteser:
H0: p1 5 0,33 p2 5 0,33 p3 5 0,33
H1: ej H1
Data:
TABEL 120:
Indkomst
(i tusind)
Obs.(O)
Forventede
andele (p)
Forventede
antal (np)
Test-størrelse
,200
49
0,333
50
0,020
200-400
45
0,333
50
0,500
.400
56
0,333
50
0,720
Sum
150
1
150
1,240
Forudsætning:
Test er acceptabel da alle forventede værdier . 3
Teststørrelse:
K
x2 5

i51
(oi 2 ei)2
ei
Konklusion:
Da p-værdi 5 0,538 . testniveau (0,05) accepteres Ho. På den baggrund konkluderes at andelen
af dem der anvender Mastercard er lige stor på tværs af de forskellige
indkomstgrupper.
s. 229
Eksempel 2: Test af kategoriandele, specifik fordeling
Som produktchef for billån i Nordea har du en forventning om, at 50 % af bilisterne fortrækker
jeres produkt, 30 % foretrækker billån fra Danske Bank og de resterende 20 % er spredt ud på andre banker. Ud fra en stikprøve på 86 forbrugere ønsker du at få denne antagelse bekræftet – er
det muligt?
Variabel: Antal billån fra forskellige banker
Model: χ2 fordelingen
Hypoteser:
H0: p1 5 0,5 p2 5 0,3 p3 5 0,2
H1: ej H1
Data:
TABEL 121:
Billån fra
Obs. (O)
Forventede andele (p)
Forventede antal (np)
Test-størrelse
Nordea
37
0,5
43
0,837
Danske Bank
32
0,3
25,8
1,490
Andre banker
17
0,2
17,2
0,002
Sum
86
1
86
2,329
Forudsætning:
Teststørrelse:
K
2
x 5

i51
(oi 2 ei)2
ei
Konklusion:
Da p-værdi 5 0,312 . testniveau (0,05) accepteres Ho. På den baggrund konkluderes med 95 %
sandsynlighed, at andelen af bilister der optager billån fra forskellige banker, er som hidtil antaget.
s. 230
Eksempel 3: Test af binomialfordeling
Som aktieanalytiker indenfor farmaceutiske virksomheder ønsker du, at vide om bivirkningerne af
Novo Nordisk nye insulin følger en binomialfordeling. Novo har tilsendt data fra 50 stikprøver med
hver 20 testpersoner (i alt 1000 personer).
Variabel: Antal bivirkninger
Hypoteser:
H0: X ~ b(p, n)
H1: ej H1
Data: (populationsandelen estimeres fra stikprøven til 0,0556)
TABEL 122:
Kategori
Obs.
Forventede sandsynligheder
forudsat Ho
Forventede antal
forudsat Ho
Test-størrelse
højst 0
320
32%
319
0,007
-1
388
38%
375
0,448
-2
183
21%
210
3,413
-3
78
7%
74
0,206
Mindst 4
31
2%
23
3,111
Sum
1000
100%
1000
7,18487
Forudsætning:
Teststørrelse:
K
x2 5

i51
(oi 2 ei)2
ei
Konklusion:
Da p-værdi 5 0,066233 . testniveau (0,05) accepteres Ho. Hermed konkluderes med 95 % sandsynlighed, at antallet af bivirkninger følger en binomialfordeling.
s. 231
Eksempel 4: Test af poissonfordeling
En bookmaker ønsker at vide, om målscoren for FCK følger en poissonfordeling. Blandt 50 kampe
var fordelingen af mål som angivet under Data i nedenstående.
Variabel: Antal mål scoret af FCK
Hypoteser:
H0: X ~ Ps(l)
H1: ej H1
Data: (populationsintensiteten estimeres fra stikprøven til 1,5)
TABEL 123:
Kategori
Obs.
Forventede sandsynligheder
forudsat Ho
Forventede antal
forudsat Ho
Test-størrelse
højst 0
12
0,223
14,727
0,505
-1
19
0,335
22,090
0,432
-2
26
0,251
16,567
5,370
-3
8
0,126
8,284
0,010
Mindst 4
1
0,066
4,332
2,563
Sum
66
1
66
8,880
Forudsætning:
Teststørrelse:
K
x2 5

i51
(oi 2 ei)2
ei
Konklusion:
Da p-værdi 5 0,030924 , testniveau (0,05) forkastes Ho. Hermed konkluderes med 95 % sandsynlighed, at antallet af FCK mål ikke følger en poissonfordeling.
s. 232
Eksempel 5: Test i antalstabel
I forbindelse med en undersøgelse hvor sammenhængen mellem øjenfarve og køn belyses, er der
udtaget en stikprøve på 74 tilfældigt udvalgte personer. Kan man på den baggrund konkludere, at
øjenfarve er kønsbestemt?
Hypoteser:
H0: Uafhængighed mellem køn og øjenfarve
H1: ej H1
Data:
TABEL 124:
Obs.
Forventet.
Teststørrelse
Mand Kvinde Sum
Mand Kvinde Sum
Mand Kvinde Sum
Brune
22
13
35
15,6
19,4
35,0
2,6
2,1
4,7
Blå
11
28
39
17,4
21,6
39,0
2,3
1,9
4,2
Sum
33
41
74
33,0
41,0
74,0
5,0
4,0
9,0
Forudsætning:
Teststørrelse:
K
x2 5

i51
(oij 2 eij)2
eij
Konklusion:
Da p-værdi 5 0,002753 , testniveau (0,05) forkastes Ho. Således kan vi med 95 % sandsynlighed
konkludere, at der er en sammenhæng mellem køn og øjenfarve.
s. 233
Øvelser med multinomiske hypotesetest
Opgave 1.
Når paperback bøger lanceres i USA, produceres forsiden i flere forskellige farvede udgaver. Traditionen tro skulle der være forskellige præferencer for forsidens farve i forskellige geografiske områder. Da det er betydeligt dyrere at producere flere forskellige forsider i stedet for én enkelt, ønsker
forlaget Mcgraw Hill, at undersøge sammenhængen mellem salg af paperbacks og forsidens farve
i de forskellige stater.
Ud af en stikprøve på 300 kunder i Barnes & Nobles bogkæden fordelt på tre byer blev der observeret nedenstående.
TABEL 125:
Rød
Blå
Grøn
Total
New York
34
46
20
100
Washington
22
41
37
100
Boston
29
31
40
100
Total
85
118
97
300
Er der grund til at fortsætte med at trykke forsiderne i forskellige farver (test om sammenhæng
mellem geografi og farve)?
Opgave 2.
For at identificere sit kernemarked igangsatte Porsche en markedsundersøgelse blandt eksisterende
kunder. I forbindelse med testen blev der først spurgt til hvilken model, der var den foretrukne blandt:
A: Porsche 911 B: Porsche Boxer C: Porsche Cayenne D: Porsche Cayman
Efterfølgende blev kunden bedt om at vælge de værdier der bedst beskrev bilen ud fra:
A: Aggression B: Køreglæde C: Prestige D: Magt
TABEL 126:
Aggression
Køreglæde
Prestige
Magt
Total
Cayenne
22
21
56
133
232
Boxer
39
45
68
194
346
Cayman
77
89
80
342
588
911
82
83
82
378
625
Total
220
238
286
1047
1791
s. 234
Spørgsmål 1. Kan det konkluderes, at Porschemodellerne signalerer forskellige værdier?
Spørgsmål 2.Hvordan vil du beskrive betydningen af prestige blandt de kunder, der foretrækker Cayenne?
Opgave 3.
Som produktchef for Nestlé ønsker du at undersøge positioneringen af jeres megabrand: Kit-Kat.
Blandt 100 tilfældigt udvalgt forbrugere der købte Kit-Kat og konkurrerende produkter, var resultatet som i nedenstående:
TABEL 127:
Produkt
Twix
Kit-Kat
Mars
Bounty
Holly
Total
Observeret
12
38
12
23
15
100
Spørgsmål 1.Kan der på baggrund af observationerne siges at være forskel i præferencerne for
de forskellige produkter?
Spørgsmål 2. Kan de forventede markedsandele jf. nedenstående antages at være sande?
TABEL 128:
Produkt
Twix
Kit-Kat
Mars
Bounty
Holly
Total
Observeret
12
38
12
23
15
100
Forventede andele
0,1
0,3
0,2
0,2
0,2
1
Opgave 4.
På rigshospitalet er man i færd med et projekt, som skal sikre en bedre behandling af personer, der
kommer ind med svær lungebetændelse i vinterhalvåret. Denne type patienter kræver skærpet
opmærksomhed og dermed ekstra bemanding. I den forbindelse ønsker man at undersøge, om
antallet af nævnte patienter følger en binomialfordeling.
Spørgsmål 1.Med udgangspunkt i nedenstående data som er baseret på 38 stikprøver med 12
patienter i hver, testes på 5 % niveauet om antallet af patienter med svær lungebetændelse følger en binomialfordeling?
TABEL 129:
Patienter med lungebetændelse
0
1
2
3
4
Observeret
7
10
9
11
1
s. 235
Spørgsmål 2.Kan man med et testniveau på 10 % konkludere, at patienter som kommer ind
med svær lungebetændelse følger en binomialfordeling med p 5 0,19 (binomial
sandsynlighed 5 19 %)?
Spørgsmål 3.Overlægen på rigshospitalet har de sidste tre år observeret antallet af patienter,
som hver måned kommer ind med malaria. Lægen mener, at der hver måned
gennemsnitligt ankommer 3 personer med malaria, men er nu kommet i tvivl –
Kan du ud fra nedenstående data bekræfte at gennemsnittet er 3?
TABEL 130:
Malaria obs.
1
2
3
4
5
6
Måneder
3
4
13
11
2
3
Tidligere eksamensøvelser med multinomiske hypotesetest
øvelser”.
Øvelser med multinomiske hypotesetest (sideangivelse samt opgavenummer):
Side 4 /2.1
Side 8 /3.1
Side 4 /2.2
Side 11 /4.1
Side 15 /1.3
Side 15 /1.3
Side 15 /1.4
Side 19/1.3
Side 19/1.3
Side 26/1.1
Side 27/4.2
s. 236
Løsninger til multinomiske hypotesetest
Opgave 1.
Hypoteser:
H0: Uafhængighed mellem paperback forsidens farve og salget i de forskellige byer i USA
H1: Ej H0
Konklusion:
Da p-værdi (0,0126914) , testniveau (0,05) forkastes Ho. Forsidens farve har således betydning for
salget af paperback.
Opgave 2.
Spørgsmål 1.
Hypoteser:
H0: Uafhængighed mellem valg af Porschemodel og de værdier som bilen repræsenterer
H1: Ej H0
Konklusion:
Da p-værdi (0,002194) , testniveau (0,05) forkastes Ho. Det kan hermed antages, at der er sammenhæng mellem valg af Porschemodel og de værdier som bilen repræsenterer.
Spørgsmål 2.
I følgende tabel fremgår det, at bidraget til teststørrelsen er særlige høj i cellen der repræsenterer
Porsche Cayenne og prestige (celle er markeret med grå). Den høje variation skyldes, at der var
56 observationer, hvorimod der kun blev forventet 37 observationer såfremt, at der havde været
uafhængighed. Der er således flere, der har tillagt prestige betydning end man havde forventet i
kategorien for Porsche Cayenne. Prestige spiller således en ekstra stor rolle for ejerne af Porsche
Cayenne.
TABEL 131:
Aggression
Køreglæde
Prestige
Magt
Total
Cayenne
22
21
56
133
232
Boxer
39
45
68
194
346
Cayman
77
89
80
342
588
911
82
83
82
378
625
Total
220
238
286
1047
1791
s. 237
Forventet:
TABEL 132:
Aggression
Køreglæde
Prestige
Magt
Total
Cayenne
28,498
30,830
37,047
135,625
232,00
Boxer
42,501
45,979
55,252
202,268
346,00
Cayman
72,228
78,137
93,896
343,739
588,00
911
76,773
83,054
99,805
365,369
625,00
Total
220,000
238,000
286,000
1047,000
1791,00
Aggression
Køreglæde
Prestige
Magt
Total
Cayenne
1,482
3,134
9,696
0,051
14,36
Boxer
0,288
0,021
2,941
0,338
3,59
Cayman
0,315
1,510
2,057
0,009
3,89
911
0,356
0,000
3,176
0,437
3,97
Total
2,441
4,665
17,870
0,834
25,81
Bidrag til teststørrelse:
TABEL 133:
Opgave 3.
Spørgsmål 1.
Hypoteser:
H0: Ligelig fordeling mellem præferencerne for de 4 chokoladebarer
H1: Ej H0
Konklusion:
Da p-værdi (0,0000695) , testniveau (0,05) forkastes Ho. Der er dermed forskel i præferencerne
for de forskellige chokoladebarer.
Spørgsmål 2.
Hypoteser:
H0: Fordelingen af kategorier følger de andele som angivet under “Data”
H1: Ej H0
s. 238
Data:
TABEL 134:
Twix
Kit-Kat
Mars
Bounty
Holly
Obs
12
38
12
23
15
kategori andele
0,1
0,3
0,2
0,2
0,2
Forventet antal
10
30
20
20
20
0,40
2,13
3,20
0,45
1,25
Teststørrelse
Konklusion:
Da p-værdi (0,1146852) . testniveau (0,05) accepteres H0 og dermed antages de forventede
andele at være korrekte.
Opgave 4.
Spørgsmål 1.
Hypoteser:
H0: X ~ b(m 5 12, q)
H1: Ej H0
Konklusion:
Spørgsmål 2.
Hypoteser:
H0: X ~ b(m 5 12, p 5 0,19)
H1: Ej H0
Konklusion:
Spørgsmål 3.
Hypoteser:
H0: X ~ Ps(l 5 3)
H1: Ej H0
Konklusion:
s. 239