Sandsynlighedsregning - Vestergaards Matematik Sider

Transcription

Sandsynlighedsregning - Vestergaards Matematik Sider
Sandsynlighedsregning
Bayes' formel og Bayesianske netværk
© Erik Vestergaard
2
© Erik Vestergaard – www.matematiksider.dk
© Erik Vestergaard, 2015.
Opdateret 22. november 2015.
Billeder:
Forside:
Side 6:
Side 13:
Side 20:
Side 23:
Side 33:
Side 35:
Side 39:
Side 53:
Side 67:
Side 69:
Side 73:
Side 74:
Side 76:
jakobkramer.dk/Jakob Kramer
©iStock.com/solitude72
©iStock.com/Elenathewise
©iStock.com/ginevre
jakobkramer.dk/Jakob Kramer
©iStock.com/carlballou
jakobkramer.dk/Jakob Kramer
jakobkramer.dk/Jakob Kramer
© Pavel Losevsky | Dreamstime.com
©iStock.com/LiuNian
©iStock.com/jaroon
©iStock.com/caraman
©iStock.com/Big_Ryan
© Tossi66 | Dreamstime.com
Desuden egne fotos og illustrationer.
© Erik Vestergaard – www.matematiksider.dk
3
Indholdsfortegnelse
1. Indledning ................................................................................................................. 5
2. Endeligt sandsynlighedsfelt ...................................................................................... 5
3. Betingede sandsynligheder og uafhængighed ........................................................ 11
4. Bayes' formel .......................................................................................................... 16
5. Bayes' formel på odds form .................................................................................... 26
6. Bayes' formel i retsvidenskab ................................................................................. 28
7. Kædereglen og betinget uafhængighed .................................................................. 41
8. Kort om grafer ........................................................................................................ 48
9. Bayesianske netværk .............................................................................................. 49
10. Beregninger i et konkret bayesiansk netværk ....................................................... 49
11. Computerprogrammet AgenaRisk ........................................................................ 57
12. Bayesianske netværk historisk set ........................................................................ 61
A. Betingede sandsynligheder er også sandsynligheder ............................................. 64
Opgaver ...................................................................................................................... 66
Litteratur ..................................................................................................................... 85
Links ........................................................................................................................... 86
4
© Erik Vestergaard – www.matematiksider.dk
© Erik Vestergaard – www.matematiksider.dk
5
1. Indledning
Det overordnede formål med denne note er at præsentere den berømte Bayes formel fra
sandsynlighedsregningen og vise, hvordan denne formel giver anledning til indførelsen
af de såkaldte bayesianske netværk. Vi skal se, hvordan disse netværk kan bruges til at
løse problemer fra virkeligheden. Et af dem vil handle om, hvordan netværkene kan benyttes til at give et overblik over sandsynligheder i forbindelse kriminalsager. Idéen er,
at disse matematiske analyser skal kunne give et mere sikkert grundlag for vurderingen
af skyld/uskyld i retssager – ikke mindst i situationer, hvor menneskets "sunde fornuft"
fejler.
Først er det imidlertid nødvendigt med lidt indledende sandsynlighedsteori, så vi får fast
grund under fødderne. Noten er blandt andet henvendt til gymnasieelever, som måtte
skrive opgave i emnet. Jeg har forsøgt at sikre, at det er muligt for eleven at vise selvstændighed her, for eksempel ved at udpensle beviser, uddybe forklaringer og/eller løse
opgaver. Derfor er der også en del eksempler, som ligger tæt op af opgaverne.
2. Endeligt sandsynlighedsfelt
Sandsynlighedsregningen er måske det område i matematikken, hvor der historisk er
blevet begået flest fejltagelser. Selv berømte matematikere har troet, at de har regnet
rigtigt, for senere at blive korrigeret. Heldigvis har sandsynlighedsregningen i dag fået
et solidt axiomatisk grundlag, ikke mindst hjulpet på vej af russeren Andrey N. Kolmogorov (1903-1987). Begreber og betingelser er i dag blevet gjort mere tydelige. I dette
afsnit skal vi præsentere begrebet et endeligt sandsynlighedsfelt. Man kan sagtens definere sandsynlighedsfelter, som har et udfaldsrum med uendeligt mange elementer (se fx
[3] eller [4]), men vi vil holde os fra det her.
Definition 1 (Endeligt sandsynlighedsfelt)
Et endeligt sandsynlighedsfelt består af en ikke-tom mængde U, som har endeligt
mange elementer, samt en funktion P. Funktionen P skal både virke på elementer
u ∈U og på delmængder A ⊆ U , og det på en måde så følgende gælder:
a)
b)
0 ≤ P (u ) ≤ 1 for alle u ∈U .
∑ P (u ) = 1
u∈U
c)
P( A) = ∑ P(u ) for alle A ⊆ U .
u∈A
d)
P(∅) = 0 for den tomme mængde ∅ .
6
© Erik Vestergaard – www.matematiksider.dk
I definition 1 kaldes mængden U for udfaldsrummet, mens elementerne u i U benævnes
udfald. P kaldes for sandsynlighedsfunktionen og P(u) er sandsynligheden for udfaldet
u. En delmængde A ⊆ U kaldes for en hændelse og P ( A) er sandsynligheden for hændelsen A.
Øvelse 2
Benyt egenskab b) og c) i definition 1 til at vise at sandsynligheden for den hændelse,
som svarer til hele udfaldsrummet, er lig med 1, altså at P(U ) = 1 .
Eksempel 3
u
p1
P(u) 0,001
r1
r2
p2
Nitte
0,005
0,010
0,134
0,85
I et lotteri er der fire gevinster: En stor pengepræmie på 100.000 kr (p1), gavekort til restaurant 1 (r1), gavekort til restaurant 2 (r2)
og endelig en mindre pengepræmie på 200 kr.
(p2). Derudover er der naturligvis også nitter.
Sandsynlighederne for de forskellige gevinster fremgår af tabellen ovenfor.
Udfaldene er p1, p2, r1, r2 og Nitte. Udfaldsrummet er U = { p1, p 2, r1, r 2, Nitte} . Endvidere ser vi, at alle sandsynlighederne ligger mellem 0 og 1, så punkt a) i definition 1
er opfyldt. Endvidere er summen af sandsynlighederne lig med 1:
P( p1) + P( r1) + P( r 2) + P( p 2) + P( Nitte) = 0,001 + 0,005 + 0,010 + 0,134 + 0,85 = 1
Dermed er punkt b) i definitionen også opfyldt. Alle delmængder af U er hændelser. Vi
kunne for eksempel være interesseret i hændelsen A = { p1, p 2} ⊂ U . Ifølge c) i definition 1 fås sandsynligheden for A ved at addere sandsynlighederne for de enkelte udfald i
delmængden, som udgør hændelsen:
P( A) =
∑ P (u )
= P( p1) + P( p 2) = 0,001 + 0,134 = 0,135
u∈A
Man kunne eventuelt kalde hændelsen for det mere mundrette pengepræmie og skrive:
P( pengepræmie) = 0,135 . Ifølge punkt d) i definition 1 skal sandsynligheden for den
tomme mængde ∅ , altså den delmængde, der ikke indeholder elementer, være 0.
□
Øvelse 4
Hvad er sandsynligheden for hændelsen gevinst i eksempel 3?
7
© Erik Vestergaard – www.matematiksider.dk
Eksempel 5
Vi skal kigge på et lidt mere avanceret og spændende eksempel. Lad os sige, at vi slår
med to terninger, en grøn og en rød. Antal øjne betragtes. Et udfald kan da passende
beskrives ved et talpar, hvor det første tal angiver antal øjne for den grønne terning og
det andet tal angiver antal øjne for den røde terning. Vi har altså følgende udfaldsrum:
U = {(1,1), (1, 2), … , (1,6), (2,1), (2, 2), … , (2, 6), … , (6,6)}
I alt er der 36 kombinationer, og de er hver lige sandsynlige. Hver kombination må
derfor have en sandsynlighed på 361 ifølge definition 1b).
Rød
terning
6
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
5
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
4
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
3
(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
2
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
1
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
1
2
3
4
5
6
Grøn
terning
Vi kunne dernæst være interesseret i følgende hændelse H: Summen af terningerne er 5.
For at få bedre overblik over situationen er det her smart at afbilde udfaldene i udfaldsrummet i et slags "koordinatsystem", hvor 1. aksen repræsenterer det antal øjne, den
grønne terning viser, mens 2. aksen repræsenterer antal øjne på den røde terning. Vi ser
straks, at de udfald, hvor summen af øjnene giver 5, ligger i en "lille diagonal", som vist
på figuren ovenfor. Hændelsen er altså følgende delmængde:
H = {(1, 4), (2,3), (3, 2), (4,1)}
Vi kan anvende Definition 1c) til at bestemme sandsynligheden:
P( H ) =
1
36
+ 361 + 361 + 361 =
4
36
=
1
9
Sandsynligheden for hændelsen H er altså 1/9.
□
Øvelse 6
Vi betragter igen eksperimentet i eksempel 5. Givet følgende hændelser:
H1 : Summen af terningernes øjne er 8.
H 2 : Den røde terning viser mindst 5 øjne.
a) Opskriv hændelserne som delmængder af U.
b) Bestem P ( H1 ) og P( H 2 ) .
8
© Erik Vestergaard – www.matematiksider.dk
Definition 7 (Stokastisk variabel)
Givet et endeligt sandsynlighedsfelt (U , P ) . En stokastisk variabel X er en reel funktion på udfaldsrummet U.
Eksempel 8
Lad os igen kigge på eksperimentet med de to terninger fra eksempel 5. Man kunne her
vælge at definere en stokastisk variabel X på følgende måde:
X : Summen af øjnene af den grønne og den røde terning.
Det er klart en funktion på U. På elementet u = (2, 4) giver den stokastiske variabel for
eksempel værdien 6: X ((2, 4)) = 2 + 4 = 6 . Man kunne overveje, hvilke mulige værdier,
den stokastiske variabel man antage. Svaret er alle hele tal fra 2 til 12, svarende til de
mulige værdier for summen af øjnene på to terninger. Sandsynlighedsfordelingen for
den stokastiske variabel kan beskrives i en tabel: Øverst har man de mulige værdier xi
for den stokastiske variabel og nederst deres tilhørende sandsynligheder. I eksempel 5
har vi allerede udregnet sandsynligheden for at X giver 5. Vi fandt, at det svarede til
summen af sandsynlighederne for udfaldene (1,4), (2,3), (3,2) og (4,1), hvilket gav 49 .
Vi har dermed, at P( X = 5) = 364 . Her er hele tabellen:
xi
2
3
4
5
6
7
8
9
10
11
12
P( X = xi )
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
For at indse dette, kan man også vælge at
lave et koordinatsystem lidt i stil med det
i eksempel 5, men her med summen af
øjnene anbragt i felterne. Begrebet stokastisk variabel er et kraftigt værktøj at
have til rådighed. Det er meget mere generelt, end man først skulle tro. Man
kunne også definere en stokastisk variabel Y, som angiver differensen mellem
antal øjne på den grønne og den røde terning. Men det går langt videre:
Rød
terning
6
7
8
9
10
11
12
5
6
7
8
9
10
11
4
5
6
7
8
9
10
3
4
5
6
7
8
9
2
3
4
5
6
7
8
1
2
3
4
5
6
7
1
2
3
4
5
6
Grøn
terning
Man kunne for eksempel lave et spil, hvor en spiller slår med to terninger og definere
gevinster for de enkelte udfald. Så kunne den stokastiske variabel Z være gevinsten
(med fortegn) ved ét spil! Man kan endda analysere om spillet er til fordel eller ulempe
for spilleren i det lange løb. Vi vil ikke komme nærmere ind på det i hovedteksten, da
det ikke er nødvendigt for vores hovedformål, som er at studere bayesianske netværk.
Du kan dog selv studere det i opgave 2.2.
9
© Erik Vestergaard – www.matematiksider.dk
Vi skal kigge på forskellige operationer, man kan foretage på mængder. Først definerer
vi operationerne og derefter illustreres med Venn diagrammer.
A ∩ B består af de elementer, som er i både A og B.
A ∪ B består af de elementer, som er i A og/eller i B.
A og B kaldes disjunkte, hvis A og B ikke har nogen elementer til fælles, dvs. hvis A ∩ B = ∅ .
Komplementærmængde: Ac består af alle de elementer, som er i U, men ikke i A.
Delmængde:
A ⊆ B hvis ethvert element fra A også er i B. Det kan alternativt udtrykkes ved at u ∈ A ⇒ u ∈ B .
Klassedeling:
Mængderne A1 , A2 , … , An kaldes en klassedeling af A, hvis
mængderne to og to er indbyrdes disjunkte og foreningsmængden af dem alle er lig med B. Det kan også udtrykkes
ved: Ai ∩ Aj = ∅ for alle i ≠ j og A1 ∪ A2 ∪ … ∪ An = A .
Fællesmængde:
Foreningsmængde:
Disjunkte mængder:
U
A
U
A
B
B
AÇB
AÈB
Foreningsmængde
Fællesmængde
U
A
U
A
B
c
A
Disjunkte mængder
A
B
Komplementærmængde
U
U
A
A3
Delmængde
A2
A1
A4
A5
Klassedeling
Disse mængdeoperationer fører naturligt til spørgsmålet om, hvordan man udregner
sandsynligheder for mængder af ovenstående type. Vi skal formulere en sætning, som
skal komme os til nytte senere.
10
© Erik Vestergaard – www.matematiksider.dk
Sætning 9
For hændelser i samme sandsynlighedsfelt gælder:
a)
P( A ∪ B ) = P( A) + P( B ) − P( A ∩ B )
b) For disjunkte hændelser A og B gælder: P( A ∪ B ) = P( A) + P( B )
c)
P( Ac ) = 1 − P( A)
d) For en klassedeling A1 , A2 , … , An af A gælder:
n
∑ P( Ai )
= P( A1 ) + P( A2 ) + … + P( An ) = P( A)
i =1
Bevis: a) Vi ved at sandsynligheden for en hændelse fås ved at addere sandsynlighederne af de enkelte udfald i hændelsen. Når man beregner summen P( A) + P( B ) bliver
sandsynlighederne for udfaldene i A ∩ B talt med to gange. Derfor skal man trække
sandsynligheden af A ∩ B fra, for at få sandsynligheden for A ∪ B . Det overlades til
læseren at bevise de øvrige punkter.
□
Rød
terning
H
6
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)
5
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
4
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
3
(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
2
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
1
(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
1
2
3
4
5
G
Grøn
terning
6
Eksempel 10
Vi arbejder videre på eksempel 5 fra tidligere i dette afsnit. Foruden hændelsen H, vil vi
indføre en ny hændelse G : Den røde terning viser højest 2. Udfaldene i denne hændelse
er markeret på figuren ovenfor. Fællesmængden H ∩ G = {(3, 2), (4,1)} er en hændelse,
som kan udtales: Summen af terningerne er 5 og den røde terning viser 2 eller derunder.
Ved at udregne summen af sandsynlighederne af udfaldene i hændelserne, får vi:
P(G ) = 12 ⋅ 361 =
12
36
=
1
3
, P( H ∩ G ) = 2 ⋅ 361 =
2
36
=
1
18
Hændelsen H ∪ G kan udtales: Summen af terningerne er 5 eller den røde terning viser
2 eller derunder. Hændelsens sandsynlighed kan beregnes ved brug af sætning 9a):
P ( H ∪ G ) = P ( H ) + P (G ) − P ( H ∩ G ) =
4
36
+
12
36
−
2
36
=
14
36
=
7
18
som også stemmer fint med, hvad man ville få ved at udregne den direkte.
□
11
© Erik Vestergaard – www.matematiksider.dk
Punkt c) i sætning 9 er ofte brugbar. Der er opgaver, hvor man ønsker at udregne sandsynligheden for en hændelse A, men hvor den er besværlig at udregne direkte, hvorimod
sandsynligheden for den komplementære hændelse Ac er meget nemmere at udregne.
Eksempel 11
Bestem sandsynligheden for at få plat mindst én gang ved fire kast med en mønt. Udfaldene i eksperimentet kan, i stil med terningeforsøgene, passende opskrives som et 4tuppel. Udfaldet ( p, p, k , p ) betyder således, at de første to kast gav plat, det tredje kast
gav krone, og det sidste gav plat. Det er oplagt, at der er 16 udfald i udfaldsrummet. Da
de i dette tilfælde er lige sandsynlige, har hvert udfald altså sandsynligheden 161 . Man
kunne begynde at undersøge, hvilke af udfaldene, som ligger i hændelsen A: Der er
mindst én plat, og derefter addere deres sandsynligheder. Det er imidlertid meget nemmere at betragte den komplementære hændelse Ac : Alle kast viste krone. I denne hændelse er der kun udfaldet (k , k , k , k ) . Sætning 9c) giver nu:
P ( A) = 1 − P ( Ac ) = 1 − 161 =
15
16
□
3. Betingede sandsynligheder og uafhængighed
Vi skal i dette afsnit studere begrebet betinget sandsynlighed, som skal vise sig at blive
centralt i forbindelse med Bayes' formel samt Bayesianske netværk. Først en definition.
Definition 12 (Betinget sandsynlighed)
Lad A og B være to hændelser i et endeligt sandsynlighedsfelt, hvor P( B ) ≠ 0 . Den
betingede sandsynlighed for A givet B betegnes P ( A B ) og er defineret således:
P( A B ) =
P( A ∩ B )
P( B )
Bemærkning 13
Man plejer at udvide definition 12 ved at vedtage, at P ( A B ) = 0 , når P( B ) = 0 .
□
Definition 12 kan umiddelbart virke lidt
underlig, men ved nærmere eftertanke forekommer den fornuftig: Med den nye viden
givet ved hændelsen B, er vores "nye verden" blevet mængden B. Derfor er vi kun
interesseret i den del af mængden A, som
ligger indenfor mængden B, altså A ∩ B .
Sandsynligheden for denne mængde sættes
i forhold til sandsynligheden for B.
U
A
B
AÇ B
12
© Erik Vestergaard – www.matematiksider.dk
Sætning 14 (Sandsynlighedsregningens multiplikationssætning)
Lad A og B være to hændelser i et endeligt sandsynlighedsfelt. Da gælder:
P( A ∩ B ) = P( A B) ⋅ P( B)
(1)
Bevis: Følger umiddelbart af definition 12 sammen med bemærkning 13.
□
Definition 15 (Uafhængighed)
To hændelser A og B i et endeligt sandsynlighedsfelt siges at være uafhængige, hvis
P( A ∩ B ) = P( A) ⋅ P( B )
(2)
Bemærkning 16
Hvis vi udnytter definitionen 15 i definitionen 11 for betinget sandsynlighed, får vi:
P( A ∩ B )
P( A) ⋅ P( B )
=
= P( A)
P( B )
P( B )
som passer meget fint med vores intuition: At hændelserne A og B er uafhængige vil
sige, at det ikke ændrer på sandsynligheden for hændelsen A, at man får at vide, om
hændelsen B er indtruffet eller ej!
(3)
P( A B ) =
Eksempel 17
Det er på tide med et eksempel. Vi arbejder trofast videre på eksemplet med kast med to
terninger. Vi antager givet de to hændelser H og G fra eksempel 10. Vi vil først udregne
sandsynligheden for hændelsen H givet G.
P( H G ) =
P( H ∩ G )
=
P (G )
2
36
12
36
=
1
6
Sandsynligheden for at summen af øjnene på de to terninger er 5 givet at man ved, at
den røde terning højest viste 2, er altså 1/6. Lad os undersøge, om de to hændelser er
uafhængige. Hertil udregner vi produktet af de to sandsynligheder:
P (G ) ⋅ P ( H ) =
Da P( H ∩ G ) = 181 er forskellig fra
1
27
4
36
⋅ 12
36 =
1
9
⋅ 13 =
1
27
, er de to hændelser altså ikke uafhængige.
□
Øvelse 18
Regn videre på eksempel 17: Hvad er sandsynligheden for G givet H, altså P ( H G ) ?
13
© Erik Vestergaard – www.matematiksider.dk
Eksempel 19
Marie og Kaja er kontorassistenter i et byggefirma. De har fået til opgave at læse korrektur på
et dokument fra firmaets reklameafdeling. Marie
opdager normalt ca. 80% af kommafejlene, mens
Kaja normalt kun opdager ca. 60% af kommafejlene. De to damer sættes uafhængigt af hinanden
til at læse korrektur på materialet. Hvad er sandsynligheden for, at en given kommafejl slipper
uopdaget forbi begge kontorassistenter?
Løsning: Vi indfører følgende hændelser:
A: Marie opdager kommafejlen
B: Kaja opdager kommafejlen
Hændelsen A ∪ B kan formuleres: Mindst én af
damerne opdager fejlen. Vi skal have fat i komplementærhændelsen ( A ∪ B )c : Hverken Marie eller Kaja opdager fejlen. Lad os først
udregne sandsynligheden for førstnævnte hændelse ved brug af sætning 9a):
P( A ∪ B ) = P( A) + P( B ) − P( A ∩ B )
= P( A) + P( B ) − P( A) ⋅ P( B )
= 0,80 + 0,60 − 0,80 ⋅ 0,60
= 0,92
hvor vi i 2. lighedstegn har brugt, at hændelserne A og B er uafhængige, hvilket er rimeligt. Der er altså 92% sandsynlighed for, at mindst én opdager fejlen. For at bestemme
sandsynligheden for den modsatte (komplementære) hændelse, bruger vi sætning 9c):
P(( A ∪ B )c ) = 1 − P( A ∪ B ) = 1 − 0,92 = 0,08
Der er altså kun 8% sandsynlighed for, at fejlen slipper under radaren hos begge.
□
Sætning 20
Antag at A og B er uafhængige hændelser i et endeligt sandsynlighedsfelt. Så er følgende hændelser også uafhængige to og to: A og B c , Ac og B samt Ac og B c .
Bevis: Vi nøjes med at vise første påstand. Den næste
fås da af symmetrigrunde. Uafhængigheden mellem
komplementærmængderne er overladt til læseren i
opgave 3.4. Mængderne A ∩ B og A ∩ B c udgør en
klassedeling af A, eftersom mængderne er indbyrdes
disjunkte og fordi deres foreningsmængde er lig med
hele A, dvs. ( A ∩ B ) ∪ ( A ∩ B c ) = A . Vi kan da udregne sandsynligheden ved at udnytte sætning 9d):
U
A
A Ç Bc
B
AÇ B
14
© Erik Vestergaard – www.matematiksider.dk
P( A ∩ B ) + P( A ∩ B c ) = P( A)
Trækkes første led fra på begge sider og udnyttes det, at A og B er uafhængige, fås:
P( A ∩ B c ) = P ( A) − P( A) ⋅ P( B ) = P( A) ⋅ (1 − P( B)) = P( A) ⋅ P( B c )
hvormed det ønskede er vist.
□
Øvelse 21
Argumenter for, at den hændelse, vi ønskede sandsynligheden bestemt for i eksempel
19, alternativt kan udtrykkes Ac ∩ B c . Benyt nu sætning 20 til at bestemme sandsynligheden fra eksempel 19 på en ny måde, nemlig som P( Ac ) ⋅ P( B c ) .
Bemærkning 22
Begrebet betinget sandsynlighed kan måske bringe forvirring hos nogle: Hvordan kan
man spørge om sandsynligheden for en hændelse A givet en anden hændelse B? Nogle
vil måske hævde, at når eksperimentet er udført, så må sandsynligheden enten være 1
eller 0 alt efter om A indtraf eller ej. Det skal imidlertid ikke betragtes på denne måde.
Det handler derimod om, hvad den enkelte person ved. Når personen erhverver ny viden
om det eksperiment, som er udført (eller tænkes udført), så vil sandsynligheden for at
hændelsen af A er sket – set fra personens synspunkt – skulle opdateres!
□
Hvordan definerer man uafhængighed, når der er mere end to hændelser? Dette er faktisk ikke helt oplagt. Antag givet n hændelser A1 , A2 , … , An . Man kunne vælge at sige,
at hændelserne to og to skal være uafhængige, det som kaldes parvis uafhængighed.
Denne definition sikrer imidlertid ikke, at man har multiplikationsreglen til rådighed:
(4)
P( A1 ∩ A2 ∩ … ∩ An ) = P( A1 ) ⋅ P( A2 )⋯ P( An )
Da denne regel er yderst vigtig i beregninger, vælger man at forøge kravene: Man vil
forlange, at hvis man tager et vilkårligt udvalg af de n hændelser, så skal sandsynligheden for deres fællesmængde være lig med produktet af deres sandsynligheder:
Definition 23
Hændelserne A1 , A2 , … , An siges at være uafhængige (eller indbyrdes uafhængige),
såfremt der for ethvert udvalg af indices i1 , i2 , … , ik mellem 1 og n gælder:
P ( Ai1 ∩ Ai2 ∩ … ∩ Aik ) = P ( Ai1 ) ⋅ P ( Ai2 ) ⋯ P ( Aik )
Ved regninger analoge til dem i beviset for sætning 20 kan man ret nemt vise, at hvis
A1 , A2 , … , An er uafhængige og man udskifter et vilkårligt udvalg af disse hændelser
med deres komplementære hændelser, så vil disse også være uafhængige.
15
© Erik Vestergaard – www.matematiksider.dk
En typisk situation, hvor uafhængighed mellem flere end to hændelser finder anvendelse, er tilfældet, hvor et basiseksperiment udføres adskillige gange. Lad os kigge på et
eksempel.
Eksempel 24
Hvad er sandsynligheden for ved fire kast med en terning at få mindst én toer.
Løsning: Eksperimentet er, at der kastes fire gange med en terning. Lad A1 være hændelsen, at der i første kast kommer en to'er, A2 være hændelsen, at der i andet kast viser
sig en to'er, etc. Det er oplagt at disse hændelser er indbyrdes uafhængige. Vi indser også at den komplementære hændelse til "mindst én to'er i fire kast" er hændelsen "ingen
to'ere i fire kast". Ifølge sætning 9c) haves derfor:
P(mindst en to'er i fire kast) = 1 − P (ingen to'ere i fire kast)
= 1 − P( A1c ∩ A2c ∩ A3c ∩ A4c )
= 1 − P( A1c ) ⋅ P( A2c ) ⋅ P( A3c ) ⋅ P( A4c )
= 1 −
( 65 )
4
= 0,518
Her er Aic hændelsen, at der ikke kommer en to'er i i'te kast. Sandsynligheden herfor fås
igen af sætning 9c): P ( Aic ) = 1 − P ( Ai ) = 1 − 16 = 65 . Vi konkluderer af ovenstående at
sandsynligheden for at få mindst én to'er ved fire kast med en terning er 51,8%.
□
Eksempel 25
I mange tilfælde kan man ikke udregne en
U
A
sandsynlighed i ét hug, som var tilfældet i ekc
c
c
c
sempel 24, men må dele problemet op. Lad os
A1Ç A2Ç A3Ç A4 A1Ç A2Ç A3Ç A4
betragte hændelsen A: "Der fås netop 2 femmec
c
c
c
re ved fire kast med en terning". Lad Ai være
A1Ç A2Ç A3Ç A4 A1Ç A2Ç A3Ç A4
hændelsen "det i'te kast gav en femmer". Man
c
c
c
c
kan da dele hændelsen A op i seks delhændelA1Ç A2Ç A3Ç A4 A1Ç A2Ç A3Ç A4
ser som vist på figuren til højre. Her betyder
A1 ∩ A2 ∩ A3c ∩ A4c hændelsen, at de første to
kast gav femmere, mens de sidste to gav "ikkefemmere". Tilsvarende med de øvrige. Det er oplagt, at de seks delhændelser har A som
foreningsmængde og at de er indbyrdes disjunkte. Der er altså tale om en klassedeling!
Det betyder, at vi kan bruge sætning 9d) til at konkludere at sandsynligheden for A er
summen af sandsynlighederne for hver af de seks delhændelser. Sandsynligheden for
2
2
den første er: P ( A1 ∩ A2 ∩ A3c ∩ A4c ) = 16 ⋅ 16 ⋅ 65 ⋅ 65 = ( 16 ) ⋅ ( 65 ) . De fem andre delhændel2
2
ser har faktisk samme sandsynlighed, hvilket betyder at P ( A) = 6 ⋅ ( 16 ) ⋅ ( 65 ) . Til den
interesserede læser kan det i øvrigt nævnes, at vi i dette eksempel har bevæget os ind på
området med den såkaldte Binomialfordeling. Ikke mere om dette her!
16
© Erik Vestergaard – www.matematiksider.dk
4. Bayes' formel
Vi skal i dette afsnit præsentere den vigtige Bayes' formel, som er meget brugbar, fordi
den i en vis forstand sætter os i stand til at "vende tingene på hovedet". Normalt har man
givet nogle udgangssandsynligheder (a priori sandsynligheder), og på baggrund af dem
kan man udregne sandsynligheden for forskellige hændelser. Bayes' formel giver mulighed for at vurdere udgangssandsynlighederne givet en viden (evidence) om udfaldet af
eksperimentet (a posteriori). På engelsk taler man om Prior Probability, henholdsvis
Posterior Probability. Bayes' formel kan angives i en simpel version og en fuld version.
Vi starter med at bevise og formulere nogle sætninger. Hvis de forekommer lidt abstrakte, kan du starte med eksemplerne og vende tilbage til sætningerne senere.
Sætning 26 (Bayes' formel – simpel version)
Lad A og B være hændelser i et endeligt sandsynlighedsfelt, med P( B ) ≠ 0 . Da gælder følgende formel for den betingede sandsynlighed for A givet B :
(5)
P( A B) =
P( B A) ⋅ P( A)
P( B )
Bevis: Formlen følger faktisk direkte fra definition 12 eller den umiddelbart afledte
sætning 14. Vi kan udtrykke sandsynligheden for fællesmængden på to måder:
(6)
P( A ∩ B ) = P( A B) ⋅ P( B)
(7)
P ( A ∩ B ) = P ( B A) ⋅ P ( A)
Sættes de to udtryk lig med hinanden, fås (5) umiddelbart.
□
Sætning 27 (Den totale sandsynlighed)
Lad A1 , A2 , … , An være en klassedeling af udfaldsrummet U i et endeligt sandsynlighedsfelt. For en vilkårlig hændelse B i sandsynlighedsfeltet gælder:
(8)
P( B ) =
n
∑ P( B Ai ) ⋅ P( Ai )
i =1
Bevis: For hver af mængderne Ai i klassedelingen tager vi fællesmængden med B. Da
vil følgen A1 ∩ B, A2 ∩ B, … , An ∩ B udgøre en klassedeling af mængden B, som det er
illustreret på figuren. Af sætning 9d) følger det da, at
n
(9)
∑ P( Ai ∩ B)
= P( B )
i =1
Det ønskede følger da af sætning 14.
□
17
© Erik Vestergaard – www.matematiksider.dk
U
A1
A2
B
A4
A2 Ç B
A4 Ç B
A7 Ç B
A5 Ç B
A5
A7
A6 Ç B
A3
A6
A8
Sætning 28 (Bayes' formel)
Lad A1 , A2 , … , An være en klassedeling af udfaldsrummet U i et endeligt sandsynlighedsfelt. Da gælder for enhver hændelse B med P( B ) ≠ 0 :
(10)
P( Ak B ) =
P( B Ak ) ⋅ P( Ak )
n
∑ P( B Ai ) ⋅ P( Ai )
i =1
Bevis: Følger straks af sætning 26 og 27.
□
Ikke sjældent har man brug for at bruge Bayes' formel i en situation, hvor klassedelingen af udfaldsrummet U kun består at to mængder, nemlig en mængde A og dens komplementærmængde Ac . I det tilfælde bliver Bayes' formel (10) til følgende:
(11)
P( A B ) =
P( B A) ⋅ P( A)
c
P( B A) ⋅ P( A) + P( B A ) ⋅ P( Ac )
Inden vi går til eksempler på brug af Bayes' formel, skal vi formulere en anden vigtig
sætning, der siger noget om betingede sandsynligheder.
Sætning 29
Lad A1 , A2 , … , An være en klassedeling af udfaldsrummet U i et endeligt sandsynlighedsfelt. Da gælder for enhver hændelse B med P( B ) ≠ 0 :
n
(12)
∑ P( Ai B)
i =1
= 1
18
© Erik Vestergaard – www.matematiksider.dk
Bevis: Ved brug af blandt andet definition 12, sætning 14 og sætning 27 om den totale
sandsynlighed har vi:
 P( A ∩ B ) 
∑ P( Ai B) = ∑  Pi( B)  =

i =1
i =1 
n
n
=
 P ( B Ai ) ⋅ P ( Ai ) 

P( B )
i =1 

n
∑
n
1
1
⋅ ∑ P ( B Ai ) ⋅ P ( Ai ) =
⋅ P( B) = 1
P ( B ) i =1
P( B )
□
I ovennævnte specielle tilfælde, hvor klassedelingen af U kun består af to mængder,
dvs. en mængde A og dens komplementære mængde Ac , reducerer (12) til:
P( A B ) + P( Ac B ) = 1
(13)
Denne er ganske nyttig i praksis.
Vi skal først se et eksempel på brug af den vigtige sætning 27 om den totale sandsynlighed. Idéen er at foretage en fornuftig klassedeling af udfaldsrummet.
Eksempel 30
Claus er ansat hos Røde Kors og har fået som opgave at ringe til
tilfældigt udvalgte personer i Københavnsområdet for at bede om
pengedonationer. En computer foretager den tilfældige udvælgelse i blandt telefonnumre i Frederiksberg, Ballerup og LyngbyTaarbæk kommune. En tidligere stikprøve har vist, at ca. 41% af
beboerne på Frederiksberg giver et bidrag, mens tallene for Ballerup og Lyngby-Taarbæk er henholdsvis 22% og 34%. Befolkningsfordelingen i de tre kommuner er henholdsvis 50%, 24% og 26%. Hvad er sandsynligheden for, at et tilfældigt opkald fører
til en donation?
Løsning: Eksperimentet består i, at en tilfældig person udtrækkes. Udfaldsrummet er
mængden af alle personer fra de tre områder. Vi antager at alle har telefon og vil svare,
hvis de bliver ringet op. Vi kan nu definere følgende hændelser:
F:
B:
L:
D:
Personen er fra Frederiksberg kommune
Personen er fra Ballerup kommune
Personen er fra Lyngby-Taarbæk kommune
Personen donerer et beløb
Det er oplagt, at vi skal bestemme P( D ) , altså sandsynligheden for donation uden betingelser! Vi kender imidlertid kun nogle betingede sandsynligheder for donation, for
eksempel at sandsynligheden for at personen donerer, givet at denne bor på Frederiksberg, lig med 41%, altså P ( D F ) = 0,41 . På tilsvarende vis har vi, at P ( D B ) = 0,22
samt at P ( D L) = 0,34 . Endeligt har vi P( F ) = 0,50 , P( B ) = 0,24 og P( L) = 0,26 .
19
© Erik Vestergaard – www.matematiksider.dk
U
D
F
FÇ D
L ÇD
L
BÇ D
B
Ifølge sætning 27 er den totale sandsynlighed for D følgende:
P( D ) = P( D F ) ⋅ P( F ) + P( D B ) ⋅ P( B ) + P( D B ) ⋅ P( B )
(14)
= 0,41 ⋅ 0,50 + 0,22 ⋅ 0,24 + 0,34 ⋅ 0,26
= 0,346
Sandsynligheden for at den tilfældigt udtrukne person vil yde en donation er altså
34,6%. Lad os analysere lidt på situationen, før vi afslutter opgaven. For det første ser
vi, at udtrykket ovenfor ikke er andet end et simpelt vejet gennemsnit: Vi tager sandsynlighederne for donationer fra de forskellige områder og vægter med den tilhørende sandsynlighed for at trække en person fra det pågældende område! Vi kan gå et skridt videre
i analysen. Ifølge beviset for sætning 27 eller alternativt fra sætning 14 har vi nemlig, at
vi kan skrive (10) på følgende alternative måde:
(15)
P( D ) = P( F ∩ D ) + P( B ∩ D ) + P( L ∩ D )
Og det giver i høj grad mening: Hændelserne F, B og L udgør en klassedeling af U.
Derfor vil F ∩ D , B ∩ D og L ∩ D være disjunkte og have foreningsmængde lig med
D. Udtrykket (15) er derfor i fin overensstemmelse med sætning 9d)! I øvrigt står hændelsen F ∩ D for: den udvalgte person er fra Frederiksberg og yder en donation. Tilsvarende med B ∩ D og L ∩ D . Denne opdeling af problemet er altså kernen i sætning
27 om den totale sandsynlighed.
□
Eksempel 31
Lad os arbejde lidt videre på eksempel 30 ved at stille et ekstra spørgsmål: Det oplyses
nu, at den udtrukne person rent faktisk foretog en donation. Hvad er sandsynligheden
for, at personen bor i Frederiksberg kommune?
Løsning: Vi skal udregne P ( F D ) , som ifølge definition 12 er P ( F ∩ D ) P ( D ) . Som
omtalt i forrige eksempel er P ( F ∩ D ) = P ( D F ) ⋅ P ( F ) , og i (14) er der et udtryk for
den totale sandsynlighed P( D ) . Vi har altså:
P( F D ) =
P( D F ) ⋅ P( F )
P( D F ) ⋅ P( F ) + P( D B ) ⋅ P( B ) + P( D B ) ⋅ P( B )
20
© Erik Vestergaard – www.matematiksider.dk
som faktisk er nøjagtigt det samme udtryk, som man får ved at sætte ind i Bayes' formel
i sætning 27. Vi har altså fået vendt problemet "på hovedet": Vi udregner P ( F D ) ud
fra P ( D F ) med mere. Når vi sætter tal ind, får vi:
P( F D) =
0,41 ⋅ 0,50
0, 2050
=
= 0,592
0,41 ⋅ 0,50 + 0,22 ⋅ 0,24 + 0,34 ⋅ 0,26
0,3462
Der er altså 59,2% sandsynlighed for, at den donerende person er fra Frederiksberg.
□
Eksempel 32 (Test for sygdom)
Vi skal nu kigge på et eksempel, som på bedste
vis illustrerer rækkevidden af Bayes' formel. Det
er samtidig en situation af ret generel karakter.
En person får foretaget en test for en sygdom, og
testen falder ud positiv. Det vides, at 1 ud af 1000
indbyggere i befolkningen har sygdommen. Som
det er tilfældet for alle mulige andre testmetoder,
er den pågældende ikke perfekt: I 2% af testene
fås en falsk-positiv og i 5% af tilfældene en falsknegativ test. Hvad er sandsynligheden for at personen rent faktisk har sygdommen?
Løsning: Der er to ting i spil her: Om personen
har sygdommen eller ej samt om testen viser positiv eller negativ. Meget i stil med eksperimentet
med to terninger, forestiller vi os et overordnet
multieksperiment, der består af to deleksperimenter. Det ene er at undersøge om personen har sygdommen. Det andet består i at foretage testen. Der er fire udfald i udfaldsrummet: (har sygdom, positiv test), (har ikke sygdom, positiv test), (har sygdom, negativ test) og (har ikke sygdom, negativ test). Vi indfører de to hændelser:
T : "Testen viser positiv"
S : "Personen har sygdommen"
Hændelsen S er mængden {(har sygdom, positiv), (har sygdom, negativ)} , mens T er
mængden {(har sygdom, positiv test), (har ikke sygdom, positiv test)} . Det overlades til
læseren at finde ud af, hvilke udfald, der ligger i hver af de komplementære hændelser
c
S c og T c . Af oplysningen om falsk-positiv uddrager vi følgende: P(T S ) = 0,02 .
c
c
Heraf får vi automatisk at P(T c S ) = 1 − P(T S ) = 1 − 0,02 = 0,98 (se eventuelt (13)
side 18). De øvrige sandsynligheder overlades til læseren. Sætning 9c) skal her igen
bringes i spil. Vores opgave er at bestemme sandsynligheden for at personen har sygdommen, men med viden om at testen er positiv. Vi skal med andre ord beregne den
betingede sandsynlighed P ( S T ) . Det er oplagt at benytte Bayes' formel.
21
© Erik Vestergaard – www.matematiksider.dk
P( S T ) =
P(T S ) ⋅ P( S )
c
P(T S ) ⋅ P( S ) + P(T S ) ⋅ P( S )
c
=
0,95 ⋅ 0,001
= 0,045
0,95 ⋅ 0,001 + 0,02 ⋅ 0,999
hvor vi har anvendt klasseinddelingen U = S ∪ S c . Da klasseinddelingen kun indeholder to mængder, har vi kunnet bruge specialtilfældet (11) af Bayes' formel fra side 17.
For at få et større overblik over situationen, kan vi vælge at tegne en figur:
T
c
T
har sygdom
nega!v test
har ikke sygdom
nega!v test
0,05 × 0,001
0,98 × 0,999
har sygdom
posi!v test
har ikke sygdom
posi!v test
0,95 × 0,001
0,02 × 0,999
S
Sc
I udtrykket for P ( S T ) øverst på siden er tælleren lig med P( S ∩ T ) og nævneren er
den totale sandsynlighed P (T ) . Dette fremgår direkte af de første udledninger i dette
afsnit. Hændelsen S ∩ T indeholder det ene udfald (har sygdom, positiv test) og er
indrammet med en orange kasse. Hændelsen T, som indeholder de to udfald (har sygdom, positiv test) og (har ikke sygdom, positiv test), er indrammet med en lilla kasse.
Det er ikke underligt, at vi dividerer sandsynlighederne for de to hændelser med
hinanden, for med den nye viden T om at testen er positiv, skal vi lade alle de udfald
ude af betragtning, hvor T ikke er positiv. Vi sætter sandsynligheden for de udfald, hvor
testen er positiv og hvor personen har sygdommen op mod sandsynligheden for alle de
udfald, hvor testen viser positiv.
Tilbage til talresultatet ovenfor. Det er nok overraskende for de fleste. Her har personen
fået at vide, at testen er positiv og at kun 1 ud af hver 1000 personer har sygdommen.
Alligevel er sandsynligheden for at have sygdommen, med den nye viden om at testen
er positiv, mindre end 5%! Det er godt nyt. Der vil skulle nye undersøgelser til for at
afklare, om personen ret faktisk har sygdommen.
Man kan få et indblik i, hvad der er årsagen til den lave sandsynlighed ved at tegne et
hændelsestræ. Det er gjort på næste side. Lad os sige, at vi ønsker at udregne, hvad der
sker for en by på 100000 indbyggere, hvor alt foregår gennemsnitligt efter sandsynlighederne. Vi starter med at dele ud i to grene alt efter om personen har sygdommen eller
ej. Der vil være 0.001 ⋅ 100000 = 100 , der har sygdommen, og 0.999 ⋅ 100000 = 99900 ,
som ikke har sygdommen. Vi videreinddeler nu i grene alt efter om personen har en positiv eller negativ test. Her anvendes de betingede sandsynligheder. For eksempel vil der
være 0.95 ⋅ 100 = 95 , som både har sygdommen og tester positiv.
22
© Erik Vestergaard – www.matematiksider.dk
95
0.95
S,T
100
S
0.001
0.05
5
S,T c
100000
1998
0.02
0.999
S c,T
99900
Sc
0.98
97902
S c,T c
Vi bemærker, at der er ganske mange personer, som tester positivt, men ikke har sygdommen. En lille procent af et stort tal, her 2% af 99900, giver i dette tilfælde et pænt
stort tal. Det er årsagen til den overraskende lille chance for at have sygdommen, selv
om man tester positiv. Der er altså 95 ud af de 95 + 1998 = 2093 , der tester positive,
som har sygdommen, i alt en andel på 95 (95 + 1998) = 0,045 = 4,5% .
□
Eksempel 33 (Monty Hall problemet)
I et TV show skal en spiller åbne én ud af tre døre og får som præmie det, der står bag
døren. Bag en af dørene står hovedpræmien, som er en splinterny Cadillac, mens der
bag de andre to døre befinder sig en ged. I første omgang bliver spilleren bedt om at
vælge en dør uden at åbne den. Studieværten ved bag hvilken dør hovedpræmien befinder sig og vælger blandt de to ikke-valgte døre at åbne en, som skjuler en ged. Derefter
får spilleren valget mellem at åbne den dør, denne valgte i første omgang, eller at skifte
til den anden uåbnede dør og åbne den. Hvad bør spilleren vælge at gøre?
Lad os præcisere:
1) Studieværten åbner altid en dør, som skjuler en ged.
2) Studieværten åbner aldrig den dør, spilleren har valgt.
3) Hvis studieværten kan åbne mere end én dør uden at overtræde de to første regler,
så vælger studieværten sin dør tilfældigt.
Ifølge artiklen [9] går dette berømte problem mindst tilbage til 1959, hvor Martin Gardner havde en version af opgaven i sin klumme i Scientific American. Siden er opgaven
dukket op diverse steder. Versionen, som florerer i dag, er navngivet efter en vært fra et
gammelt amerikansk TV show. Han brugte kunstnernavnet Monty Hall.
© Erik Vestergaard – www.matematiksider.dk
23
24
© Erik Vestergaard – www.matematiksider.dk
Det hævdes at problemet tiltrak langt flere breve og kommentarer end noget andet problem. Da Marilyn vos Savant gav sin i øvrigt rigtige løsning i hendes klumme i magasinet Parade, afstedkom det korrespondance med vrede læsere, som mente hendes løsning var forkert. Skænderiet endte endda med at blive omtalt på forsiden af New York
Times. Som en ekspert i kognitionsvidenskab udtrykte (oversat): Intet andet statistisk
problem kommer bare tæt på at narre alle folk hele tiden, som dette problem gør. Problemet er specielt interessant på grund af dets specifikke art, dets reproducerbarhed og
dets immunitet overfor højere uddannelse.
Skulle du være blandt dem, som ikke køber forklaringerne nedenfor, så skal du vide, at
du altid kan afgøre sagen med en Monte Carlo simulation. Det er en empirisk metode,
hvor man gentager forsøget et meget stort antal gange, fx på computer, registrerer udfaldene og bruger fordelingen af udfaldene til at begrunde et udsagn om sandsynligheden for en hændelse. Her skal afgøres om sandsynligheden for at vinde, når spilleren
skifter dør, er større end sandsynligheden for at vinde, hvis spilleren holder fast i sit
første valg. Monte Carlo metoden bygger naturligvis på Store tals lov, som meget løst
skrevet udtrykker, at held og uheld udligner sig med tiden, forstået på den måde, at frekvenserne vil nærme sig til de søgte sandsynligheder, hvis man udfører eksperiment et
tilstrækkelig stort antal gange.
Lad os analyse problemet. Ikke overraskende involverer det betinget sandsynlighed. For
det første kan vi uden indskrænkning antage, at spilleren vælger dør nr. 1. Dør nummeret er nemlig ikke vigtigt; det er derimod placeringen af Cadillacen i forhold til den
valgte dør og også hvilken dør værten vælger at åbne i forhold hertil. Lad os definere
følgende hændelser:
C1 : Cadillac'en er bag dør nr. 1
V1 : Værten vælger at åbne dør nr. 1
C2 : Cadillac'en er bag dør nr. 2
V2 : Værten vælger at åbne dør nr. 2
C3 : Cadillac'en er bag dør nr. 3
V3 : Værten vælger at åbne dør nr. 3
1
2
3
Vært åbner
Spiller ski!er
Lad os sige, at værten vælger at åbne dør nr. 3. Vi ønsker at bestemme sandsynligheden
for at spilleren vinder Cadillac'en, hvis denne skifter dør. Det svarer til at bestemme den
betingede sandsynlighed P (C2 V3 ) . Vi kan ikke direkte udregne denne betingede sandsynlighed, men Bayes kommer os til hjælp, da vi kender de omvendte betingede sand-
25
© Erik Vestergaard – www.matematiksider.dk
synligheder. Når vi ikke har fået nogen viden, så er det lige sandsynligt bag hvilken dør
Cadillac'en befinder sig, dvs. P(C1 ) = P(C2 ) = P(C3 ) = 13 . Hvis Cadillac'en befinder sig
bag dør nr. 1, så kan værten vælge at åbne dør nr. 2 eller dør nr. 3, hvilket betyder at
P (V3 C1 ) = 12 . Hvis Cadillac'en befinder sig bag dør nr. 2, så er værten nødsaget til at
åbne dør nr. 3, hvilket betyder at P (V3 C2 ) = 1 . Hvis Cadillac'en er bag dør nr. 3, så er
værten nødt til at åbne dør nr. 2, hvorfor P (V3 C3 ) = 0 . Bayes' formel i sætning 28 giver
os nu følgende:
P (C2 V3 ) =
(16)
=
P (V3 C2 ) ⋅ P (C2 )
P (V3 C1 ) ⋅ P (C1 ) + P (V3 C2 ) ⋅ P (C2 ) + P(V3 C3 ) ⋅ P(C3 )
1
2
⋅ 13
1 ⋅ 13
+ 1 ⋅ 13 + 0 ⋅ 13
=
1
3
1
6
+
1
3
=
2
3
Åbner værten derimod dør nr. 2 i stedet for dør nr. 3, vil det give samme sandsynlighed,
da situationen er symmetrisk, altså P (C3 V2 ) = 23 . Der er altså en sandsynlighed på 2/3
for at vinde Cadillac'en, hvis man skifter dør, og dermed nødvendigvis en sandsynlighed
på 1/3 for at vinde Cadillac'en, hvis man fastholder sit første valg af dør. Spilleren bør
altså altid skifte dør! Situationen kan også beskrives i et hændelsestræ:
1
2
Værten åbner dør nr. 2
1×1 =1
3 2 6
1
2
Værten åbner dør nr. 3
1×1 =1
3 2 6
Cadillac'en
er bag dør 2
1
Værten åbner dør nr. 3
1 ×1 = 1
3
3
Cadillac'en
er bag dør 3
1
Værten åbner dør nr. 2
1 ×1 = 1
3
3
Cadillac'en
er bag dør 1
1
3
1
3
1
3
En alternativ måde at gennemføre udregningen af P (C2 V3 ) på, er ved at farve de kasser
gule, der svarer til at værten åbner dør nr. 3. De har en samlet sandsynlighed på 16 + 13 .
Af de stier, som fører til de gule kasser, er det den nederste, som svarer til at Cadillac'en
er bag dør nr. 2. Det har en sandsynlighed på 13 . Vi har dermed følgende:
26
(17)
© Erik Vestergaard – www.matematiksider.dk
P(C2 V3 ) =
P(C2 ∩ V3 )
=
P(V3 )
1
3
1
6
+ 13
=
2
3
jf. definition 12 på betinget sandsynlighed. Vi får altså præcist det samme som i udregningen (16) … naturligvis!
Det har vist sig, at langt de fleste opgaveløsere mener, at sandsynligheden for at vinde
Cadillac'en er lige stor, hvad enten spilleren bliver ved sit førstevalg eller skifter dør. De
pågældende mener ikke, at værtens handling ændrer på noget. Men det er forkert! Ved
sin handling giver han faktisk spilleren noget information. Værten kunne jo ikke åbne
dør 1, som spilleren startede med at vælge, heller ikke selv om der var en ged bag den.
Med dør nr. 2 ved man derimod ikke, om værten fravalgte at åbne den, fordi Cadillac'en
var bag den eller hun blot valgte dør nr. 3, fordi hun valgte tilfældigt mellem dør 2 og
dør 3. Situationerne er altså ikke symmetriske. Informationen gør det mere sandsynligt,
at Cadillac'en befinder sig bag dør nr. 2.
En helt anden ting er, at de personer, som har deltaget i spillet, i stor udstrækning har
valgt ikke at skifte dør. Årsagen er psykologisk. Det føles simpelthen mere ærgerligt at
skifte standpunkt og se, at man skulle være blevet ved sit førstevalg, end at blive ved sit
førstevalg og se, at man skulle have skiftet. Denne psykologiske mekanisme har endda
vist sig at fungere på tværs af kulturer.
I [9] gives flere varianter af Monty Hall problemet, nogle endda med flere spillere eller
flere døre. I opgavesektionen kan du finde en variant.
□
5. Bayes' formel på odds form
I England betyder fx odds 3:1 eller 3/1, at man vinder 3 ved en indsats på 1. Denne tankegang kan benyttes i en reformulering af Bayes' formel på odds form, forstået på den
måde, at man ønsker et udtryk for sandsynligheden for en hypotese H (hændelse) i
forhold til sandsynligheden for den komplementære hændelse, både med og uden viden
eller evidence givet ved hændelsen E.
Sætning 34 (Bayes' formel på odds form)
Lad H og E være to hændelser i et endeligt sandsynlighedsfelt. Da gælder:
(18)
P( H E )
P( E H )
P( H )
=
⋅
c
c
P( H E )
P( H c )
P ( E H ) a posteriori odds
Bayes' faktor
a priori odds
Bevis: Benyt (5) i sætning 26 til at finde udtryk for henholdsvis P ( H E ) og P( H c E ) .
Divider derefter og reducer. Detaljerne overlades til læseren. □
© Erik Vestergaard – www.matematiksider.dk
27
Brøken på venstre side i (18) kan tolkes som odds til gunst for hypotensen H, givet informationen E. Den kaldes derfor også passende for a posteriori odds, fordi det er opdaterede odds efter viden er opnået. Den sidste brøk på højre side af lighedstegnet kan
derimod tolkes som odds til gunst for hypotensen H før viden er opnået, hvorfor den
også kaldes a priori odds. Endelig er der den første brøk på højre side af lighedstegnet.
Den kaldes Likelihood Ratio eller Bayes' faktor. Det er denne faktor, som skal ganges på
a priori odds for at få a posteriori odds. Den fortæller noget om, hvor kraftigt odds ændrer sig, når der kommer ny viden til! Er faktoren større end 1, vil odds for hypotesen H
højnes efter den nye viden er erhvervet. På samme måde vil odds for hypotesen mindskes med den nye viden, hvis Bayes' faktor er mindre end 1.
Bemærkning 35
Det bør nævnes, at når man sammenligner med det engelske begreb odds, så er det ikke
gevinsten ved et spil, for de er jo i en vis forstand omvendt proportionale med sandsynlighederne: Jo mindre sandsynlighed, jo større odds på gevinsten. Så længere holder
analogien altså ikke. Hos os er det odds på sandsynligheder!
Man kan generalisere sætning 34 til følgende:
Sætning 36 (Bayes' formel på relative odds form)
Lad H1 og H 2 være to hypoteser (hændelser) og E være viden (en hændelse) i et
endeligt sandsynlighedsfelt. Da gælder følgende:
P ( H1 E )
P ( E H1 ) P ( H1 )
=
⋅
P( H 2 E )
P( E H 2 ) P( H 2 )
(19)
Bevis: Analogt til sætning 34. Overlades til læseren.
□
Eksempel 37
Lad os kigge på eksempel 32 med test for sygdom igen. Vi har der:
P( S T )
P(T S )
P( S )
0,95 0,001
=
⋅
=
⋅
= 47,5 ⋅ 0,001 = 0,0475
c
c
c
0,02 0,999
P( S T )
P(T S ) P( S )
Bayes faktor er her 47,5. Helt uden at udregne a priori odds kan vi altså sige, at viden
om den positive test forøger sandsynligheden for at personen er syg med en faktor 47,5.
Da a priori odds imidlertid er meget små, er sandsynligheden for, at personen har sygdommen selv efter kendskab til testresultatet, stadig pænt lille.
□
28
© Erik Vestergaard – www.matematiksider.dk
6. Bayes' formel i retsvidenskab
Retsvidenskab er et andet eksempel
på et område, hvor Bayes' formel og
andre sider af sandsynlighedsregningen kommer i spil. Derfor fortjener
emnet sit eget afsnit. I vores retssystem kan en dom afsiges på grundlag af et bevis og/eller en række indicier. Politiet og anklagemyndigheden skal bevise uden for enhver rimelig tvivl, at den tiltalte er skyldig i
tiltalen. Men hvad ligger der i denne
formulering? En lidt mere matematisk måde at sige det på vil være at forlange, at sandsynligheden for at den tiltalte er
skyldig givet beviserne skal være tilstrækkelig stor, før man fælder dom. Præcis hvor
høj er mere diffust. Vores retssystem er også sådan indrettet, at man så vidt muligt sætter en dyd i, at inddrage menigmand og ikke bare professionelle dommere i bedømmelsen. Det sker gennem anvendelsen af nævninge i udvalgte sager. Derved sikres en højere grad af legitimitet i befolkningen. Udover indhentningen af ekspertvurderinger er
det også meningen, at nævningene skal anvende deres "sunde fornuft" i afgørelsen, dog
støttet af dommerens vejledning og anvisning. Systemet fungerer udmærket i mange
sager, men undertiden bliver problemstillingerne så komplekse, at mennesker ikke kan
overskue dem, eller den sunde fornuft fejler afgørende. Det sidste foregår også i helt
simple problemstillinger: Fremførte argumenter kan synes meget overbevisende, men
kan være logisk inkonsistente. At disse argumenter slipper igennem "filteret" kan være
fatalt for den tiltalte. Vi skal i dette afsnit analysere argumenterne matematisk og kigge
på konkrete retssager, hvor der blev begået alvorlige fejl.
Anklagerens fejlslutning
Vi antager at der er sket en forbrydelse, hvor der er fundet blod på gerningsstedet udover blodet fra offeret. En mistænkt, hvis blodtype matcher blodet fra gerningsstedet, er
anholdt. Kun 1% af befolkningen har den pågældende blodtype. Da ser man undertiden
anklageren anvende nedenstående fejlagtige følgeslutning:
Der er 1% chance for at tiltalte ville have samme blodtype, hvis han var uskyldig.
⇓
Der er 1% chance for at tiltalte er uskyldig.
⇓
Der er 99% sandsynlighed for at tiltalte er skyldig.
29
© Erik Vestergaard – www.matematiksider.dk
Analyse: Hypotesen H og viden E er følgende hændelser:
E : Anklagedes blodtype matcher blodet fra gerningsstedet
H : Anklagede var ikke på gerningsstedet
Faktisk er sidstnævnte følgeslutning i rammen korrekt, men da førstnævnte er forkert,
bryder argumentationen sammen. Anklageren tror fejlagtigt, at P ( H E ) = 0,01 . Havde
det været rigtigt, ville der rigtignok gælde: P( H c E ) = 1 − P( H E ) = 1 − 0,01 = 0,99 (se
evt. sætning 29), altså en sandsynlighed på 0,99 for at anklagede var på gerningsstedet,
givet viden om at blodtyperne matcher. Vi antager her, at det at have været på gerningsstedet er ækvivalent med at være skyldig! Men anklageren tager altså fejl: der gælder
P ( E H ) = 0,01 ! På engelsk går forvekslingen under betegnelsen the fallacy of the
transposed conditional eller i denne sammenhæng: The Prosecutors Fallacy. Anklageren får altså vendt rundt på hændelserne i den betingede sandsynlighed. Vi kan dog
godt forsøge at vurdere den "omvendte betingede sandsynlighed", nemlig ved at anvende Bayes' formel. Hertil får vi brug for a priori sandsynligheden P ( H ) . I fraværet af
anden viden, antager vi, at alle 5000 mandlige indbyggere i den lille by er mistænkte, og
at de er lige sandsynlige gerningsmænd. Sidstnævnte kan naturligvis diskuteres; man
kan eventuelt indskrænke til et bestemt aldersinterval. Foreløbig gør vi det dog simpelt.
Sandsynligheden for at tiltalte var på gerningsstedet er dermed 1/5000, og sandsynlighe1
den for at han ikke var der, fås ved at trække første sandsynlighed fra 1: P ( H c ) = 5000
4999
og P( H ) = 5000
. Vi får af Bayes' formel (se (11)):
P( H E ) =
(20)
=
P( E H ) ⋅ P( H )
c
P( E H ) ⋅ P( H ) + P( E H ) ⋅ P( H c )
4999
0,01 ⋅ 5000
4999
1
0,01 ⋅ 5000
+ 1 ⋅ 5000
= 0,980
og dermed P( H c E ) = 1 − P( H E ) = 1 − 0,980 = 0,020 . Altså en sandsynlighed på blot
2,0% for at anklagede er den skyldige, ikke 99%!
□
Anklagerens fejlslutning (Prosecutors Fallacy) er et betydeligt problem i retssale, ikke
mindst når der er tale om alvorlig kriminalitet og retssager, hvor et af hovedargumenterne er af statistisk art. Blot en lille sproglig drejning giver et helt andet og forkert indhold. Den begås ikke blot af anklageren, men også undertiden ubevidst af forsvareren.
Den begås af dommere, journalister og selv kriminaltekniske videnskabsfolk, der er indkaldt som vidner, kan også i et uskarpt øjeblik blive fanget i at bruge den. Det er derfor
ikke underligt, at jurymedlemmer ofte begår fejlen, enten fordi de selv foretager fejlslutningen i hovedet eller får overbragt den i retssalen. En del ansøgninger om en appelsag
bliver imødekommet netop fordi man har opdaget at anklagerens fejlslutning er blevet
anvendt undervejs i den oprindelige retssag. I [14] kan man fra side 244 og frem finde
diverse eksempler, hvor fejlslutningen har været i spil.
30
© Erik Vestergaard – www.matematiksider.dk
Forsvarerens fejlslutning
Forsvarerens fejlslutning (Engelsk: Defendant's Fallacy) er et slags modstykke til anklagerens fejlslutning. Den har overvejende en tendens til at nedtone sandsynligheden for
tiltaltes skyld. Typisk bagatelliseres et spor i sagen, hvorefter det foreslås at sporet kan
ignoreres eller tages ud af sagen. Lad os se på et eksempel fra [16]:
En kvinde er blevet dræbt og hendes ægtemand er anklaget for at
være gerningsmanden. Under sagen kommer det frem, at manden
har været voldelig over for sin kone igennem længere tid.
Forsvarsadvokaten fremfører, at hans klients misbrug bør udelukkes fra sagen, fordi kun 1 ud af 10000 mænd, som misbruger deres
kone, efterfølgende dræber dem.
Analyse: Vi har en hypotese H om skyld samt to beviser E1 og E2 :
E1 : Konen er myrdet
E2 : Ægtemanden har været voldelig overfor sin kone igennem længere tid
H : Ægtemanden har myrdet sin kone
1 , men den er ikke relevant,
Den størrelse forsvarsadvokaten nævner er P ( H E2 ) = 10000
da den ikke tager hensyn til det andet bevis i sagen, nemlig at konen er myrdet! Det er
altså P ( H E1 ∩ E2 ) , ofte skrevet P ( H E1, E2 ) , som vi ønsker. Vi ser på situationen i
opgave 6.4. Med de ekstra oplysninger angivet i opgaven, vil man komme frem til, at
ægtemandens skyld vokser fra P ( H E1 ) = 0,20 til P ( H E1, E2 ) = 0,56 , altså fra 20% til
knap 56%, når oplysningen om vold i hjemmet tilføjes. Dette tal er ikke uvæsenligt.
□
Eksempel 38 (Lucia de Berk sagen)
I et autentisk eksempel fra 2003 blev den hollandske sygeplejerske Lucia de Berk idømt
fængsel på livstid for at have dræbt 4 patienter og forsøgt drab på 3 andre. Man havde
fundet frem til, at Lucia havde været fysisk tilstede, mens mange af dødsfaldene på
hospitalet fandt sted. Sagen byggede altovervejende på statistiske argumenter. En statistiker havde udregnet odds for at det kunne være sket ved en ren tilfældighed – dvs. hvis
hun var uskyldig – og var kommet frem til odds 1 til 342 millioner. Herefter gjorde
domstolen og stort set alle andre, der var involveret i sagen, sig skyldig i anklagerens
fejlslutning. I denne situation vil den lyde således: Sandsynligheden for at kvinden er
uskyldig er 1/342000000. Heldigvis var der en videnskabsteoretiker Ton Derksen, der
sammen med sin søster Metta de Noo-Derksen undrede sig over sagen. De udgav omkring 2006 en bog om det de mente var en fejlbehæftet rettergang. Senere kom matematikeren Richard Gill fra Leiden ind i billedet. Gill fandt frem til, at førstnævnte statisti-
31
© Erik Vestergaard – www.matematiksider.dk
kers vurdering var kraftigt overvurderet og anklagerens fejlslutning blev fremhævet.
Den 14. april 2010 blev Lucia de Berk frikendt ved domstolen.
Betydningen af beviser - Bayes' faktoren
Hvis man vil fremhæve betydningen af viden eller spor/beviser, som måske vil være en
mere passende betegnelse under emnet retssager, kan man med stor fordel benytte
Bayes' formel på odds form fra sætning 34. Vi lader igen hypotesen H være hændelsen
at anklagede ikke var på gerningsstedet (altså er uskyldig), mens sporet er hændelsen E.
(21)
A posteriori odds for uskyld = Bayes-faktor × A priori odds for uskyld
A priori odds for uskyld, altså brøken P( H ) P( H c ) , fortolker vi som forholdet mellem
sandsynligheden for uskyld og sandsynligheden for skyld før inddragelse af spor. A
posteriori odds P( H E ) P( H c E ) er det samme forhold, blot med sporet taget i bec
tragtning. Bayes-faktoren er brøken P( E H ) P( E H ) , som involverer de omvendte
betingede sandsynligheder. Tælleren omtales undertiden som træfsandsynligheden (på
engelsk: hit rate): det er sandsynligheden for at se det pågældende bevis, givet at tiltalte
er uskyldig. Nævneren betegnes sandsynligheden for falsk alarm (på engelsk: false
alarm rate). Det er sandsynligheden for at se det pågældende bevis, givet at tiltalte ikke
er uskyldig, altså skyldig. Man kan også kalde den for en falsk positiv. Det gode ved
(21) er, at formlen gennem Bayes-faktoren giver et udtryk for betydningen af beviset
uden at inddrage a priori sandsynligheden for uskyld: P ( H ) . En stor del af modstanden
hos dommere og advokater mod at bruge Bayes' formel i retssale ligger nemlig i, at de
ikke bryder sig om at skulle vurdere a priori sandsynligheden for uskyld. I eksemplet
under anklagerens fejlslutning får vi:
Bayes-faktor =
P( E H )
c
P( E H )
=
0,01
= 0,01
1
Odds for uskyld bliver altså 100 gange så lille, når man får at vide, at anklagedes blodtype matcher blodet fra gerningsstedet. Sagt på en anden måde: Med de nye spor øges
forholdet mellem sandsynlighederne for skyld og uskyld altså med en faktor 100.
Det skal nævnes, at der naturligvis er situationer, hvor man er nødsaget til at inddrage a
priori sandsynlighederne. Det er for eksempel tilfældet, hvis man har vigtig viden om
den underliggende population.
Eksempel 39 (Sagen om Birmingham six)
Et autentisk eksempel, hvor Bayes-faktoren blev bragt i spil var sagen, der går under
navnet "Birmingham six case". Den 21. november 1974 blev der begået bombeattentater
i to pubber i Birmingham i England. I alt 21 mennesker døde og 182 blev såret. Hand-
32
© Erik Vestergaard – www.matematiksider.dk
lingen blev tilskrevet den irske republikanske hær (IRA), og seks personer blev i 1975
idømt fængsel på livstid. Hovedanklagen mod de seks bestod i, at de havde spor af
nitroglycerin på hænderne. Det var i hvert fald hvad en såkaldt Griess test viste. En kriminaltekniker udtalte i retten, at han var 99% sikker på, at de anklagede havde spor efter
sprængstoffer på deres hænder. Lad os betragte følgende to hændelser:
H : De anklagede har håndteret sprængstoffer
E : En prøve fra de anklagedes hænder giver en positiv Griess test
Der er imidlertid mange andre stoffer end nitroglycerin, som kan give anledning til et
positivt testresultat. Det er for eksempel tilfældet for maling, lak, spillekort, jord, benzin, cigaretter og sæbe. Kriminalteknikeren forveksler P ( E H ) med P ( H E ) og begår
dermed anklagerens fejltagelse. Det kan meget muligt være sandt, at sandsynligheden
for at få en positiv Griess test, hvis man har håndteret sprængstoffer, er i nærheden af
99%. Det betyder dog ikke nødvendigvis, at sandsynligheden for, at de anklagede har
håndteret sprængstoffer, givet at de har fået et positivt testresultat, også er 99%! Det
skal siges, at vi her antager, at H er synonym med skyldig.
I 1991 blev en appelansøgning accepteret efter aviser, dokumentarudsendelser og bøger
havde rejst tvivl om dommen. Den 14. marts 1991, efter at have siddet ca. 16 år i fængsel, blev de fængslede frikendt efter en retshandling, hvor den tidligere dom blev erklæc
ret usikker og utilfredsstillende. Forsvaret havde succes med at overveje P( E H ) ,
altså at få en positiv Griess test, givet at de ikke havde håndteret sprængstoffer, altså var
uskyldige. Eftersom nogle af de seks personer røg, samt at de havde spillet kort på et
c
tog kort før anholdelsen, blev det godtgjort, at den betingede sandsynlighed P( E H )
c
for "falske alarm" var ret stor. Dette bevirker, at Bayes-faktoren P( E H ) P( E H )
ikke er særlig stor, hvorfor betydningen af bevismaterialet ikke bidrager meget til sagens opklaring. I erkendelsen af dette samt af det faktum, at der ikke var andre væsentlige spor i sagen, blev dommen omstødt. De dømte modtog alle store erstatninger.
□
Vi har ovenfor set, at Bayes-faktoren for skyld knytter sig til et bestemt bevis E i sagen.
Bayes-faktoren for uskyld er blot den reciprokke brøk. Det er hensigtsmæssigt at fremhæve nogle egenskaber for Bayes-faktoren for skyld:
Sætning 40
Lad H være hypotesen (hændelsen) at tiltalte er skyldig og lad E være et bevis i
sagen. Da kan Bayes-faktoren B for skyld bruges til at konkludere følgende:
B > 1 : Beviset er til fordel for anklageren
B < 1 : Beviset er til fordel for forsvareren
B = 1 : Der er tale om et neutralt bevis, dvs. det taler hverken til fordel for anklageren eller forsvareren.
33
© Erik Vestergaard – www.matematiksider.dk
c
Bevis: Vi husker at B = P( E H ) P( E H ) . Sætning 34 giver umiddelbart det ønskede,
idet forholdet mellem sandsynligheden for skyld og sandsynligheden for uskyld ændres
med Bayes-faktoren, når det nye bevis inddrages. Detaljerne overlades til læseren.
□
Eksempel 41 (Adams sagen)
I 1991 blev en ung kvinde, Miss Marley, udsat for en voldtægt, da hun gik
hjem i de tidlige morgentimer i en by
lidt nord for London. I kvinden fandt
man sæd, som man lod DNA-undersøge. Politiet holdt resultatet op mod
DNA-profilerne i deres database. I
begyndelsen af 90'erne var politiets
database med DNA profiler ikke stor,
og det resulterede da heller ikke i
noget match. Sagen blev henlagt. To år senere blev Denis John Adams anholdt i forbindelse med en anden seksuel krænkelse. Det viste sig, at hans DNA matchede DNA for
den sæd, man havde fundet to år tidligere. Manden blev anholdt. Al anden evidens,
udover DNA-sporet, talte for Adams uskyld. Offeret havde for eksempel ikke været i
stand til at udpege den anholdte i et line-up. Desuden havde Adams et alibi derved, at
hans kæreste havde bekræftet, at de to havde været sammen hele dagen, mens forbrydelsen havde fundet sted.
Under retssagen, som fandt sted i januar 1995, fremlagde anklageren DNA-beviset som
et stærkt kort. Det blev estimeret, at sandsynligheden for at en uskyldig ville have samme DNA-profil som den fra gerningsstedet, ville være som 1:200.000.000. Det var rettens idé at DNA-beviset skulle håndteres som "videnskab" (science), mens de resterende
beviser skulle håndteres som "sund fornuft" (common sense) af juryen. På den måde
blev Adams-sagen en slags testsag, hvor et stærkt videnskabeligt bevis blev holdt op
mod en række vidnesbyrd af typen "sund fornuft". Forsvareren Mr. Thwaites angreb den
måde man var kommet frem til sandsynligheden på de 1 til 200 mio. på. Derudover argumenterede forsvareren for, at udregningen af sandsynligheden i det kvantitative
DNA-bevis beroede på en række skøn indenfor feltet retsmedicin og således principielt
ikke var væsentligt forskellig fra de "kvalitative sund fornuft" skøn, som indgik i forsvarets beviser. Derfor foreslog forsvaret at kvantitative metoder også skulle benyttes til
at vurdere betydningen af forsvarets beviser. Statistik-eksperten professor P. Donnelly
blev inddraget som vidne, og han redegjorde for, at den eneste logiske og konsistente
måde, hvorpå juryen kunne bedømme både DNA-beviset og de øvrige beviser, var ved
at anvende Bayes' formel. Mr. Donnelly anviste desuden et muligt spørgeskema, man
kunne give jury-medlemmerne. Metoden blev accepteret af anklageren. Retten bekendtgjorde, at hvert enkelt jurymedlem kunne afgøre med sig selv, om de ville bruge det.
Spørgeskemaet indeholdt syv spørgsmål. Hvert enkelt spørgsmål bestod i, at jurymedlemmet skulle estimere en sandsynlighed i forbindelse med fire beviser:
34
© Erik Vestergaard – www.matematiksider.dk
1) Antag at man ikke ved noget yderligere om sagen: hvad er så sandsynligheden for
at voldtagsforbryderen kommer fra det lokale område?
2a) Hvad er sandsynligheden for at tiltalte ikke vil passe på offerets beskrivelse, hvis
han er uskyldig?
2b) Hvad er sandsynligheden for at tiltalte ikke vil passe på offerets beskrivelse, hvis
han er skyldig?
3a) Hvad er sandsynligheden for at Adams under afhøringen afgav det vidne, som han
gjorde, hvis han er uskyldig?
3b) Hvad er sandsynligheden for at Adams under afhøringen afgav det vidne, som han
gjorde, hvis han er skyldig?
4a) Hvad er sandsynligheden for at tiltalte vil kunne få det alibi han har, hvis han er
uskyldig?
4b) Hvad er sandsynligheden for at tiltalte vil kunne få det alibi han har, hvis han er
skyldig?
Professor Donnelly fortalte ikke hvilke sandsynligheder, jurymedlemmerne skulle sætte
på hvert spørgsmål, men han gav nogle illustrative eksempler, mens han demonstrerede
proceduren. Lad os se på Mr. Donnellys illustrative eksempel:
1. Der er ca. 150000 personer mellem 18 og 60 år i lokalområdet, så hvis man for eksempel har svaret 75% til det første spørgsmål, så må det betyde, at den skyldige
skal søges i en population på 150000 0,75 = 200000 personer. Det giver en a priori
1
sandsynlighed for skyld, som er P( H ) = 200000
og en a priori sandsynlighed for
c
skyld, P( H ) , som får ved at trække førstnævnte sandsynlighed fra 1. Alt i alt
giver det følgende a priori odds for skyld:
P( H )
=
P( H c )
1
200000
199999
200000
=
1
199999
hvor det er underforstået at H står for hændelsen skyldig.
2. Offeret kunne ikke udpege tiltalte i et line-up, ligesom tiltalte heller ikke matchede
den beskrivelse offeret oprindeligt havde givet. Antag, at man for eksempel satte
sandsynlighederne i 2a) og 2b) til henholdsvis 90% og 10%. Så ville Bayes-faktoren for skyld for dette enkeltstående bevis være følgende:
B1 =
P( E1 H )
c
P( E1 H )
=
0,10
1
=
0,90
9
hvor det er underforstået at H igen står for hændelsen skyldig og E1 står for hændelsen at offeret ikke matchede beskrivelsen af tiltalte.
3. I sin illustrative beregning estimerede professor Donnelly her, at der var en fifty-fifty chance for at tiltalte ville afgive det vidne, som han gjorde, i forhold til om denne
er skyldig eller uskyldig. Det giver en Bayes-faktor for skyld på 1 i dette tilfælde,
hvilket betyder at beviset er neutralt:
35
© Erik Vestergaard – www.matematiksider.dk
B2 =
P ( E2 H )
c
=
P ( E2 H )
0,50
= 1
0,50
hvor H stadig står for hændelsen skyldig og E2 står for hændelsen, at tiltalte gav
det vidne i afhøringen, som han gjorde.
4. Tiltalte fortalte at han var sammen med kæresten mens voldtægten foregik, og kæresten bekræftede hans alibi. Hvis svarene i 4a) og 4b) er henholdsvis 50% og 25%,
så vil Bayes-faktoren for skyld for dette stykke bevis være:
B3 =
P ( E3 H )
c
=
P( E3 H )
0,25
1
=
0,50
2
hvor E3 står for hændelsen at tiltalte havde det alibi, han havde.
Hvad angår DNA-beviset, så er det egentligt af samme type, som de andre beviser. Det
giver anledning til følgende Bayes-faktor for DNA-beviset:
BDNA =
P( E DNA H )
c
P( EDNA H )
=
1
1
200000000
= 200000000
hvor EDNA står for hændelsen at tiltaltes DNA matcher DNA'et fra gerningsstedet.
Med bestemmelsen af Bayes-faktorerne for de fire beviser E1 , E2 , E3 og E DNA ovenfor
er vi nu i stand til at bestemme a posteriori odds for skyld givet samtlige beviser ved at
multiplicere Bayes-faktorerne for de enkelte beviser sammen og gange med a priori
odds for skyld. Forudsætningen for at det bliver så simpelt er, at de enkelte beviser er
betinget uafhængige af hinanden. Den interesserede læser kan studere emnet betinget
uafhængighed i afsnit 9 og løse opgave 9.1 i tilknytning hertil. Vi får:
36
© Erik Vestergaard – www.matematiksider.dk
P ( H E1 , E2 , E3 , E DNA )
P ( E DNA H ) P ( E3 H ) P ( E2 H ) P ( E1 H ) P ( H )
=
⋅
⋅
⋅
⋅
c
c
c
c
c
c
P ( H E1 , E2 , E3 , E DNA )
P ( E DNA H ) P ( E3 H ) P ( E2 H ) P ( E1 H ) P ( H )
1
1
1
= 200000000 ⋅ ⋅ 1 ⋅ ⋅
= 55,55583333
2
9 199999
A posteriori odds for skyld, givet alle beviser, er altså p = 55,55583333 . Det er altså
lidt over 55 gange så sandsynligt, at tiltalte er skyldig, som at han er uskyldig, når alle
beviser tages i betragtning. Vil man have a posteriori sandsynligheden for skyld, altså
tælleren x = P ( H E1 , E2 , E3 , E DNA ) , så kan den findes ved at udnytte, at nævneren er
sandsynligheden for den komplementære hændelse. Det betyder, at nævneren er lig med
1 − x . Vi skal altså løse følgende ligning: x (1 − x ) = p . Løsningen er x = p (1 + p ) (se
opgave 5.0 i opgavesektionen). Vi har dermed endeligt:
P( H E1, E2 , E3 , E DNA ) =
55,55583333
= 0,9823183580
1 + 55,55583333
Vi ser at med alle beviserne taget i betragtning, er sandsynligheden for skyld altså nede
på 98,2%. Om end en høj sandsynlighed, så dog ikke nær så tæt på 100%, som hvis man
havde begået anklagerens fejlslutning på DNA-beviset alene. Det ville nemlig have
1
givet 1 − 200000000
= 99,9999995% . Det skal tilføjes at forsvarerensadvokaten også udfordrede DNA-sandsynlighederne, idet han argumenterede for, at de skulle være 1 ud af
enten 20 mio. eller 1 ud af 2 mio.
Juryen endte med at finde tiltalte skyldig. Dommen indikerede, at juryen mente at
DNA-beviset var tilstrækkeligt til at bevise Adams skyld udover enhver rimelig tvivl. Et
år senere appellerede Adams dommen. Forsvarernes begrundelse for appellen var, at
DNA-beviset ikke alene var tilstrækkeligt til at fastslå skyld. For det andet mente forsvarerne, at dommeren heller ikke i tilstrækkelig grad havde instrueret eller forberedt
nævningene i anvendelse af Bayes' sætning. Appeldomstolen accepterede, at retten ikke
havde instrueret juryen ordentligt og henviste sagen til genoptagelse. Appeldomstolen
afviste dog den anden begrundelse, idet den fastslog, at det er op til juryen at afgøre om
DNA-beviser er tilstrækkeligt, trods fraværet af andre bekræftende beviser. Under appelsagen rejste retten omstridte spørgsmål om hvordan ekspertvidnet Mr. Donnelly kunne dominere juryens afgørelse. Retten kommenterede også det rimelige i at anvende
Bayes' formel til at opsummere ikke-DNA såvel som DNA beviser:
… we have very grave doubt as to whether that evidence [under anvendelse af
Bayes' formel, red.] was properly admissible, because trespassing on an area peculiarly and exclusively within the province of the jury, namely the way in which they
evaluate the relationship between one piece of evidence and another.
Retten var altså kritisk med hensyn til at håndtere "videnskabelige beviser" og "sund
fornuft beviser" under ét under anvendelse af Bayes' formel. Igen blev Adams dømt
skyldig. Adams appellerede igen i 1997, men anmodningen om at genoptage sagen blev
afvist. Den interesserede læser kan finde flere detaljer om sagen i [13].
37
© Erik Vestergaard – www.matematiksider.dk
Sandsynligheden for et andet match
Amerikaneren Jonathan J. Koehler, der har en grad i "adfærdsvidenskab" (Behavorial
Science), skrev i 1993 den prisbelønnede artikel Error and Exaggeration in the Presentation of DNA Evidence at Trial (se [15]). På side 33 beskriver han endnu en type fejlslutning begået i en konkret retssag fra Virginia. Fejlslutningen kan formuleres således:
Oplyst: Sandsynligheden for at en given uskyldig person har et DNA, som matcher det aktuelle DNA fundet
på gerningsstedet, er 1 ud af 705 mio.
⇓
Sandsynligheden for, at der er en anden person, der har
samme DNA-profil som det DNA, som er fundet på
gerningsstedet, er 1 ud af 705 mio.
Analyse: Fejlen her består i, at man slutter fra én konkret person til alle andre. Lad os
indføre følgende to hændelser:
Ek : DNA-profilen for person k matcher DNA på gerningsstedet
E:
Mindst én af personerne i populationerne har en DNA-profil, som matcher DNA
på gerningsstedet.
Deres komplementære hændelser kan formuleres således:
Ekc : DNA-profilen for person k matcher ikke DNA på gerningsstedet
E c : Ingen af personerne i populationerne har en DNA-profil, som matcher DNA på
gerningsstedet.
Lad N betegne populationens størrelse og lad os vedtage, at den er på 1 mio. I sidste
udsagn i rammen ovenfor ligger det implicit, at der menes mindst en anden person med
samme DNA. Vi skal altså have udregnet P( E ) . Det er imidlertid noget nemmere at
udregne sandsynligheden for E c , for vi har nemlig E c = E1c ∩ E2c ∩ … ∩ E Nc .
P( E ) = 1 − P( E c )
= 1 − P( E1c ∩ E2c ∩ … ∩ E Nc )
(22)
= 1 − P( E1c ) ⋅ P( E2c ) ⋅ … ⋅ P( E Nc )
= 1 − (1 − P( E1 )) ⋅ (1 − P( E2 )) ⋅… ⋅ (1 − P( E N ))
1
)1000000
= 1 − (1 − 705000000
= 0,0014
Hvor vi i linje 3 har udnyttet, at hændelserne E1 , E2 , … , E N er uafhængige. I linje 4 er
sætning 9c) benyttet. Det bemærkes i øvrigt, at ovenstående teknik er helt analog til
hvad vi foretog tidligere i eksempel 24. Vi konkluderer, at sandsynligheden for et match
i populationen er 1,4 promille, men altså ingenlunde så lille som påstået i rammen!
38
© Erik Vestergaard – www.matematiksider.dk
Ovenstående fører direkte videre til en analyse af situationen med en database fyldt med
1
som ovenDNA-profiler. Antag RMP (Random Match Probability) er lig med 705000000
for. Nedenstående graf viser da sandsynligheden for at finde mindst ét DNA-match som
funktion af antal DNA-profiler i databasen.
Sandsynlighed for mindst ét DNA-match
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
mio. DNA-profiler
0
0
500
1000
1500
2000
2500
3000
Man kan få en approksimation til sandsynligheden for at finde mindst ét DNA-match i
databasen ved at gange RMP med antallet N af DNA-profiler i databasen. Sidstnævnte
størrelse kaldes DMP (Database Match Probability). Den interesserede læser kan studere dette nærmere i opgave 6.5.
Sammenfatning
Vi har i dette afsnit set, hvordan Bayes-faktoren i Bayes' formel på odds form kan benyttes til at vurdere betydningen af et givet bevis i en sag. Hvis Bayes-faktoren for
skyld er større end 1, så styrker beviset anklagerens sag, hvorimod det svækker anklagerens sag, hvis faktoren er mindre end 1. Hvis faktoren er lig med 1, er beviset neutralt.
En vigtig erkendelse er, at det ikke er nok at se på P( E , H ) , altså sandsynligheden for
at se det pågældende bevis, givet at tiltalte er skyldig. Man skal også kigge på sandsync
ligheden for at se beviset, givet at tiltalte ikke er skyldig, dvs. P( E H ) . De falske alarmer er vigtige at inddrage. Det var for eksempel forsvarets fokus på sidstnævnte, der
førte til frifindelsen af de fængslede i Birmingham six sagen. Man godtgjorde, at sandsynligheden for at se det det pågældende bevis – her en positiv Griess test i jagten på at
finde spor af nitroglycerin på de tiltalte – ikke var ubetydelig lille, selv om de tiltalte
måtte være uskyldige. Griess testen kan nemlig slå positivt ud for andre stoffer end
nitroglycerin, og de pågældende stoffer kunne de tiltalte nemt have været i forbindelse
c
med i den aktuelle situation. Bayes-faktoren for skyld, P( E H ) P( E H ) , indeholder
begge sandsynligheder omtalt ovenfor. Tror man at sandsynligheden P( E , H ) alene kan
gøre det, begår man anklagerens fejlslutning (Prosecutors Fallacy). En anden god ting
ved Bayes' formel på odds form er, at man får adskilt bevisets betydning fra a priori
sandsynlighederne.
© Erik Vestergaard – www.matematiksider.dk
39
Vi har i dette afsnit også set en række rent logiske fejlslutninger, som florerer i retssale.
Men det er ikke de eneste. Ofte ganges sandsynligheder for hændelser sammen, hvor
hændelser ikke er uafhængige. Undertiden begås base rate neglect, som består i at argumentere med sandsynligheder alene, uden hensyntagen til populationens størrelse.
Brugen af statistik og sandsynlighed i retssale er på flere områder kontroversiel. Undertiden har det ført til arrige kommentarer fra dommeren, som tilfældet var i Adams-sagen
omtalt i eksempel 41. Særligt har der været modstand mod at anvende Bayes' formel til
inddragelse af subjektive vurderinger af sandsynligheder for konkrete delhændelser i
retssagerne. Selv om forsvareren i Adams-sagen fik lov til at udlevere spørgeskemaer til
jurymedlemmerne, så påpegede dommeren, at det var frivilligt for jurymedlemmerne,
om de ville anvende spørgeskemaet. Det var dommerens ønske at opdele beviserne i
"videnskabelige beviser" (Scientific Evidence) og øvrige beviser, som skulle behandles
med sund fornuft (Common Sense Evidence). Man overlader således tilsyneladende
trygt vurderingen af betydningen af det videnskabelige bevis til retsgenetikere og teknikere. I tilfældet med et DNA bevis vil teknikerne således i tilfældet med et DNA-match
angive den såkaldte RMP (Random Match Probability). De resterende beviser, såsom at
gerningsmanden ikke blev genkendt i et line-up samt at han havde et alibi, skal derimod
behandles som "sund fornuft-beviser".
Denne sondring kan matematisk set virke kunstig, da der i begge tilfælde er usikkerhed
ved vurderingerne af dem. Bestemmelsen af en værdi for RMP beror også på nogle skøn
hos den aktuelle retstekniker. Værdien i Adams-sagen blev da også udfordret af forsvareren. Det må dog medgives, at de andre "subjektive beviser" nok har en større usikkerhed. Faren ved at adskille den måde beviserne behandles på er desuden, at det nemt
ender med at jurymedlemmerne kommer til at begå anklagerens fejlslutning: Den lille
40
© Erik Vestergaard – www.matematiksider.dk
sandsynlighed (RMP) for at en vilkårlig valgt anden person har samme DNA, som det
DNA-materiale, som er fundet på gerningsstedet, bliver nemt til at være det samme som
sandsynligheden for at tiltalte er uskyldig. Desuden får tallet en særlig ophøjet status
ved at blive betegnet som et "videnskabeligt bevis". Til sammen kan det nemt ende med
at DNA-beviset "vinder over" andre "sund fornuft-beviser", der måtte tale til fordel for
tiltalte. I det hele taget er det betænkeligt at dømme folk i sager, hvor der udelukkende
er et DNA-bevis, særligt hvis den tiltalte findes via et Cold Hit i en database. Der skal
helst være en anden faktor, som også linker tiltalte til forbrydelsen. For det første er
DNA – byggende på identifikationen af et bestemt antal alleller – ikke unikt. For det
andet kan DNA'et i princippet være afsat af tiltalte før forbrydelsen, beviser kan være
kontaminerede eller DNA-materialet kan direkte være plantet. To en-æggede tvillinger
vil desuden have minimal forskel i DNA. Når dette er sagt skal det dog tilføjes, at fremkomsten af DNA-teknikken i 1980'erne har revolutioneret retsvidenskaben, og at det er
et formidabelt middel til at opnå en større sikkerhed i domsafsigelsen, hvad enten det
betyder, at sagen munder ud i en domfældelse eller en frikendelse.
Det er bekymrende med den lange række af fejldomme eller tvivlsomme domme, som
er forekommet i retssale verden over. Se for eksempel linket til siden Legal cases about
Bayes bag i denne note. Mange af dem skyldes de føromtalte logiske fejlslutninger. Der
er nok ikke tvivl om, at vi vil se mere sandsynlighedsregning og statistik anvendt i retssale i fremtiden på trods af modstanden fra visse dommere. Internettet og den lettere adgang til information har betydet et større og større fokus på domme, som er afsagt på et
løst eller tvivlsomt grundlag. Man kan derimod godt forstå dommernes bekymring for at
det, der foregår i retssalen, kan ende med at blive for "elitært". På den anden side er det
et stort problem at den højt besungne "sunde fornuft" fejler gang på gang. Sandsynlighedsregningen og statistikken indeholder så mange paradokser og giver så mange muligheder for fejlbedømmelser, at det er en stor fare, hvis man i retssager, hvor beviserne
overvejende er af statistisk art, udelukkende benytter sund fornuft. Eksperten i de såkaldte Bayesianske netværk Norman Fenton taler i [1] for, at man burde tillade anvendelsen af Bayesianske netværk i retssale. Han sammenligner det med at benytte en lommeregner, som jo er almindelig accepteret i dag. Det er så meningen, at jury-medlemmerne skal fodre netværket med værdier ud fra sund fornuft, lidt ligesom det blev beskrevet i Adams-sagen i eksempel 41. Herefter må man tro på de computerberegninger
af betingede sandsynligheder, som netværket leverer. Et Bayesiansk netværk er løst sagt
et netværk med knudepunkter og forbindelseslinjer, der repræsenterer sammenhænge i
den konkrete retssag. Det generaliserer Bayes' formel og kan således tage højde for
mere komplekse problemstillinger. Brugen af Bayesianske netværk vil nok kræve, at
man kan blive enige om udseendet af netværket og at man analyserer svarenes følsom
overfor små ændringer i de af jurymedlemmerne leverede værdier. Vi kigger nærmere
på Bayesianske netværk i de næste afsnit.
41
© Erik Vestergaard – www.matematiksider.dk
7. Kædereglen og betinget uafhængighed
Formålet med den sidste del af denne note er at studere de såkaldte bayesianske netværk. Til det formål har vi brug for at et ekstra begreb, nemlig betinget uafhængighed
samt en meget vigtig formel kaldet kædereglen. Sidstnævnte skal sætte os i stand til at
kunne reducere komplicerede regninger med betingede sandsynligheder.
Bemærkning 42
Fremover vil vi få brug for at udregne betingede sandsynligheder, hvor der er flere betingelser involveret. Det svarer til at udregne en betinget sandsynlighed givet fællesmængden af de pågældende betingelser. Således er P ( A E1 ∩ E2 ) den betingede sandsynlighed for hændelsen A givet betingelserne E1 og E2 . Begge skal altså være opfyldt.
Af notationsmæssige årsager vil vi undertiden skrive dette som P ( A E1 , E2 ) . Vi vil gøre
noget tilsvarende, hvis A er en fællesmængde: P ( A1 ∩ A2 ∩ … ∩ An E1 ∩ E2 ∩ … ∩ Em )
vil vi således ofte skrive som P ( A1 , A2 ,… , An E1 , E2 ,… , Em ) . □
Definition 43 (Betinget uafhængighed)
Lad A og B være to hændelser i et endeligt sandsynlighedsfelt. Antag at E er en tredje hændelse, hvor der gælder P( E ) ≠ 0 . Hændelserne A og B kaldes betinget uafhængige givet E, hvis
P( A ∩ B E ) = P ( A E ) ⋅ P( B E )
(23)
Ifølge definition 12 i afsnit 3 er kravet for at to hændelser A og B kan siges at være uafhængige, at der gælder P( A ∩ B ) = P( A) ⋅ P( B ) . I bemærkning 16 så vi, at det er ensbetydende med at P ( A B ) = P( A) skal være opfyldt. Man kunne få den tanke, at der er en
lignende alternativ måde at karakterisere betinget uafhængighed på. Svaret er bekræftende. Vi har nemlig følgende sætning:
Sætning 44 (Betinget uafhængighed)
Givet tre hændelser A, B og E i et endeligt sandsynlighedsfelt, hvor P( E ) ≠ 0 . Da
gælder:
(24)
A og B er betinget uafhængige givet E
⇔
P ( A B, E ) = P ( A E )
Bevis: Lad os omskrive venstresiden i (23) ved brug af definition 12 og sætning 14:
(25)
P ( A B, E ) ⋅ P ( B ∩ E )
P (( A ∩ B ) ∩ E )
P( A ∩ ( B ∩ E ))
=
=
P( E )
P( E )
P( E )
P( B ∩ E )
= P ( A B, E ) ⋅
= P ( A B, E ) ⋅ P ( B E )
P( E )
P( A ∩ B E ) =
Sammenlignes det sidste med højresiden i (24), fås det ønskede. □
42
© Erik Vestergaard – www.matematiksider.dk
Man kunne måske få den formodning, at der er en sammenhæng mellem uafhængighed
og betinget uafhængighed, men det er ikke tilfældet. Hvis man tænker lidt nærmere over
det, er det egentligt heller ikke så underligt, for i en betinget sandsynlighed ses der så at
sige bort fra de udfald, som ligger udenfor den delmængde, der betinges til, og sidstnævnte kan jo se ud på mange måder. Lad os kigge på nogle eksempler.
Eksempel 45
Der udtrækkes et kort fra et spil kort
med 52 kort plus 3 jokere. Betragt de
tre hændelser:
A : Kortet er et es
B : Kortet er en hjerter
E : Kortet er ikke en joker
Da alle kort har samme sandsynlighed for at blive udtrukket, og der er
fire esser, har vi P( A) = 554 . Når vi
skal udregne den betingede sandsynlighed for A givet E, skal vi derimod
kun kigge på de 52 kort, som ikke er
jokere. Der er 4 esser ud af de 52 kort, så P ( A E ) = 524 = 131 . Tilsvarende fås P( B ) = 13
55
1 . Hændelsen A ∩ B indeholder kun hjerter es, så P ( A ∩ B ) = 1 og
og P ( B E ) = 13
=
52
4
55
P ( A ∩ B E ) = 521 .
P( A) ⋅ P( B ) =
4 13
55 ⋅ 55
P( A E ) ⋅ P( B E ) =
=
52
3025
1 1
13 ⋅ 4
=
hvormed P( A ∩ B ) ≠ P( A) ⋅ P( B )
1
52
hvormed P( A ∩ B E ) = P( A E ) ⋅ P( B E )
Hændelserne A og B er altså ikke uafhængige, hvorimod de er betinget uafhængige givet
E. Det samme kunne være indset ved at benytte henholdsvis bemærkning 16 og sætning
44. Blandt hjerterne er der kun ét es, hvoraf vi får:
P( A B ) =
1
13
P ( A B, E ) =
hvormed P( A B ) ≠ P( A)
1
13
hvormed P( A B, E ) = P ( A E )
Dermed har vi givet et modbevis til hypotesen om at betinget uafhængighed generelt
skulle medføre afhængighed.
Eksempel 46
Ved et idrætsstævne med flere discipliner var der i alt 900 tilskuere. Inddelt efter køn,
alder (over eller under 30 år) og om de pågældende overværede en fodboldkamp eller
ej, fordeler tilskuerne sig som det fremgår af tabellen på næste side. På hver stævnebillet står et nummer. Ved afslutningsceremonien foretages en udtrækning blandt billetnumrene og vinderen modtager et gavekort til byens gourmetrestaurant.
43
© Erik Vestergaard – www.matematiksider.dk
Køn
Alder
Overværede fodboldkamp
Antal
Mand
≤ 30 år
> 30 år
Ja
Nej
Ja
Nej
100
200
40
200
Kvinde
≤ 30 år
> 30 år
Ja
Nej
Ja
Nej
20
180
40
120
Betragt følgende hændelser:
M : Vinderen er en mand/dreng
A : Vinderen er under 30 år
F : Vinderen overværede en fodboldkamp
Lad os undersøge om M og A er uafhængige hændelser.
P( M ) =
100 + 200 + 40 + 200
540
=
= 0,60
900
900
P( M A) =
100 + 200
300
=
= 0,60
100 + 200 + 20 + 180
500
Eftersom P ( M A) = P ( M ) , er hændelserne M og A uafhængige, ifølge bemærkning 16.
Oplysningen om at vinderen er under 30 år gammel ændrede altså ikke på sandsynligheden for at vinderen er en mand! Lad os undersøge, om M og A er betinget uafhængige
givet hændelsen F:
P( M F ) =
P( M A, F ) =
100 + 40
140
=
= 0,70
100 + 40 + 20 + 40
200
100
100
=
= 0,8333
100 + 20
120
Da P ( M A, F ) ≠ P ( M F ) , er hændelserne M og A altså ikke betinget uafhængige givet
F, ifølge sætning 44. Når man ved, at vinderen har overværet fodbold, øger den ekstra
oplysning om at vinderen desuden er under 30 år gammel, sandsynligheden for at vinderen er en mand/dreng, fra 70% til over 83%. Altså ingen betinget uafhængighed her.
Vi har dermed også aflivet hypotesen om at uafhængighed generelt skulle medføre betinget uafhængighed!
□
Nu til den meget vigtige kæderegel for betingede sandsynligheder:
Sætning 47 (Kædereglen)
Lad A1, A2 ,…, An være hændelser i et endeligt sandsynlighedsfelt. Antag desuden at
P( A2 , A3 ,… , An ) ≠ 0 . Da gælder:
(26)
P( A1 , A2 ,…, An ) =
n
∏ P( Ak
k =1
Ak +1,…, An )
44
© Erik Vestergaard – www.matematiksider.dk
Det store pi-tegn er et såkaldt produkttegn og betyder, at man skal gange størrelserne til
højre for tegnet sammen fra k = 1 til k = n . Lad os opskrive udtrykkene for nogle af de
første værdier af n, og derefter bevise sætningen i et specialtilfælde. Sidstnævnte bevis
kan umiddelbart udvides til det generelle tilfælde.
n = 2:
P( A1 , A2 ) = P( A1 A2 ) ⋅ P( A2 )
n = 3:
P( A1 , A2 , A3 ) = P( A1 A2 , A3 ) ⋅ P( A2 A3 ) ⋅ P( A3 )
n = 4:
P( A1 , A2 , A3 , A4 ) = P( A1 A2 , A3 , A4 ) ⋅ P( A2 A3 , A4 ) ⋅ P( A3 A4 ) ⋅ P( A4 )
Bevis for sætning 46 for tilfældet n = 4 :
P ( A1 , A2 , A3 , A4 ) = P( A1 ∩ A2 ∩ A3 ∩ A4 )
= P ( A1 ∩ ( A2 ∩ A3 ∩ A4 ))
(26)
= P ( A1 A2 ∩ A3 ∩ A4 ) ⋅ P( A2 ∩ A3 ∩ A4 )
= P ( A1 A2 , A3 , A4 ) ⋅ P( A2 , A3 , A4 )
= P ( A1 A2 , A3 , A4 ) ⋅ P( A2 A3 , A4 ) ⋅ P( A3 , A4 )
= P ( A1 A2 , A3 , A4 ) ⋅ P( A2 A3 , A4 ) ⋅ P( A3 A4 ) ⋅ P( A4 )
hvor vi i tredje lighedstegn har brugt (1) i sætning 14. I fjerde lighedstegn oversætter vi
blot til den nye notation fra bemærkning 42. Det andet led i linje 4 er P( A2 , A3 , A4 ) .
Hvad vi lige har gjort med P( A1 , A2 , A3 , A4 ) gentager vi nu med P( A2 , A3 , A4 ) . Det er
helt analogt. Dermed fås linje 5 og derefter linje 6.
□
Bemærkning 48
Det er en vigtig iagttagelse, at der ikke sker noget med udtrykket på venstre side i (26),
hvis man bytter rundt på A'erne. Derfor er udtrykket på højre side af lighedstegnet også
uafhængig af ombytning af A'erne. Der er altså stor valgfrihed. I konkrete problemstillinger skal man vælge rækkefølgen med omhu.
Eksempel 49
En dåse indeholder 30 blå kugler og 6 røde. Der trækkes nu i
blinde tre kugler fra dåsen, én efter én. Hvad er sandsynligheden
for i første trækning at få en blå, i næste en rød og i den sidste en
blå kugle? Et udfald kan man passende skrive som et tre-tuppel.
Vi skal finde sandsynligheden for (b, r, b) . Rækkefølgen er her
vigtig. Vi indfører følgende hændelser:
Rk : Udtrækning nr. k gav en rød kugle
Bk : Udtrækning nr. k gav en blå kugle
Formelt set er hændelsen R2 for eksempel den delmængde, der består af alle de tretupler, som har et r i den anden indgang.
45
© Erik Vestergaard – www.matematiksider.dk
Vi skal bestemme P( B3 ∩ R2 ∩ B1 ) eller P( B3 , R2 , B1 ) , som er det samme. Alle tre hændelser B1, R2 og B3 skal indtræffe, derfor en fællesmængde! Rækkefølgen vi skriver
hændelserne i er ligegyldig, men af pædagogiske årsager skriver vi dem som vi gør. Vi
kan nu bruge kædereglen:
P ( B3 , R2 , B1 ) = P ( B3 R2 , B1 ) ⋅ P ( R2 B1 ) ⋅ P ( B1 ) =
29
34
⋅ 356 ⋅ 30
36 =
29
238
Måske ville det være mere logisk, hvis produktet blev skrevet i omvendt rækkefølge, for
de 30
36 svarer til sandsynligheden for at få en blå kugle i første trækning, da der er 30 blå
kugler og 36 kugler i alt. I næste trækning er der stadig 6 røde kugler tilbage, mens der
kun er 29 blå kugler. Derfor er sandsynligheden for at få en rød kugle i anden udtrækning lig med 356 – det er en betinget sandsynlighed, givet udfaldet af første trækning. I
sidste trækning er der 29 blå kugler tilbage og 5 røde kugler. Det giver en sandsynlighed
29
på 34
for at få en blå kugle i sidste trækning – det er en betinget sandsynlighed givet
udfaldene af de første to trækninger.
□
Eksempel 50
Der er festuge i byen. Ægteparret Anders og Lise overvejer at deltage om fredagen, hvor
der er et særligt arrangement. Det kræver imidlertid, at Anders kan få fri fra arbejde.
Anders vurderer, at der er fifty-fifty chance for at få fri. Lise vil helt sikkert deltage,
hvis Anders kan. Derimod vurderer hun, at der kun er 25% chance for, at hun vil deltage, hvis Anders ikke kan deltage. Ulla er arbejdskollega med Lise, og hun overvejer
også at tage med. Lise lover at ringe til Ulla for at fortælle, om hun deltager. Hvis det
bliver et ja fra Lise, så vil Ulla spørge chefen om lov til at få fri. Hun vurderer, at der er
90% chance for i givet fald at få fri. Hvad er sandsynligheden for, at de alle tre kommer
til byfest om fredagen?
Løsning: Vi indfører følgende hændelser: A: Anders kommer til byfest. L: Lise kommer
til byfest og U: Ulla kommer til byfest. Vi bruger kædereglen:
P(U , L, A) = P(U L, A) ⋅ P( L A) ⋅ P( A)
= P(U L) ⋅ P( L A) ⋅ P( A)
= 0,90 ⋅ 1,00 ⋅ 0,50
= 0,45
Der er altså 45% chance for at de alle tre kommer til byfest om fredagen. Bemærk, at vi
i anden linje har foretaget en reduktion. Vi ved nemlig, at Ullas beslutning om at deltage
ikke afhænger af Anders' deltagelse. Sagt med hændelser, så er U betinget uafhængig af
A givet L, altså P (U L, A) = P (U L) .
□
Måske kunne du godt have klaret opgaven i eksempel 49 og 50 uden at kende til kædereglen på formelt plan. Når tingene bliver mere komplicerede i de såkaldte bayesianske
netværk vil vi dog se, at kædereglen er helt essentiel, da den skal bruges til at "ned-
46
© Erik Vestergaard – www.matematiksider.dk
bryde" beregningen af komplicerede sandsynligheder til et produkt af sandsynligheder,
der er nemmere at have med at gøre …
Eksempel 51 (Simpsons paradoks)
I en fiktiv historie forestiller vi os to læger, Klausen og Jensen, som begge foretager
hjerteoperationer og lægger forbindinger på patienter. Figuren nedenfor illustrerer, hvor
mange behandlinger hver læge har gennemført af hver type, og de sorte ikoner indikerer
de personer, som modtog en vellykket behandling. Hvis vi tæller sammen, opdager vi,
at den totale succesrate for Klausen er 63 84 = 0,75 = 75% , mens den for Jensen er
72 90 = 0,80 = 80% . Studerer man derimod kategorierne hver for sig, tegner der sig et
andet billede: Klausen har en succesrate på 49 70 = 0,70 = 70% på hjerteoperationer og
en succesrate på 14 14 = 1 = 100% på at lægge forbindinger. De tilsvarende tal for Jensen er henholdsvis 6 15 = 0,30 = 30% og 66 75 = 0,88 = 88% . Jensen har altså samlet
set den største succesrate, mens Klausen på hver kategori har den bedste succesrate.
Dette fænomen kan umiddelbart virke meget mærkeligt og går under betegnelsen Simpsons paradoks.
Hjerteopera!on
Forbinding
Klausen
Jensen
Nu kan man naturligvis ikke vide, hvordan Klausen ville have klaret sig i Jensens behandlinger og omvendt, men gør vi den antagelse, at ovenstående vil være det typiske
billede for de to læger på alle typer af patienter, så må vi konkludere, at Klausen sandsynligvis er den bedste læge af de to, og at han sandsynligvis netop som følge heraf har
fået tildelt de mere risikable hjerteoperationer. Læren må være, at man skal være forsigtig med at foretage sammenlægninger af kategorier indenfor statistik. Man kan også
sige, at behandlingstypen her er en skjult variabel. Det rigtige her vil være at se på hver
kategori for sig!
Til den avancerede læser: I en sandsynlighedsteoretisk kontekst vil Simpson's paradoks
lyde som følger, hvor vi har følgende hændelser:
47
© Erik Vestergaard – www.matematiksider.dk
S : Patienten får en succesfuld behandling
J : Patienten behandles af læge Jensen
H : Patienten får en hjerteoperation.
Udfaldsrummet er mængden af alle patienter i databanken ovenfor. Heraf ses, at de
komplementære hændelser til J og H er:
J c : Patienten behandles af læge Klausen
H c : Patienten får lagt en forbinding
Fra data har vi umiddelbart:
c
(27a)
P( S J , H ) < P( S J , H )
(27b)
P( S J , H c ) < P( S J , H c )
(27c)
P( S J ) > P( S J )
c
c
Vi kan udtrykke venstresiden og højresiden i ulighed (27c) ved hjælp af venstre og højresiderne i (27a) og (27b):
c
(28)
P( S J ) = P( S H , J ) ⋅ P( H J ) + P ( S H , J ) ⋅ P( H c J )
c
c
c
c
P( S J ) = P( S H , J c ) ⋅ P( H J ) + P( S H , J c ) ⋅ P ( H c J )
hvor vi har benyttet, at S ∩ H , S ∩ H c er en klassedeling af S, (25) samt appendiks A.
Detaljerne overlades til den avancerede læser. De med rødt fremhævede faktorer i (28)
kan betragtes som en slags "vægte". Med passende værdier af disse kan ulighedstegnet
altså skifte, som det sker i (27c).
□
Bemærkning 52
I appendiks A er en meget nyttig erkendelse beskrevet: Hvis man har en formel, som
gælder for alle sandsynlighedsfunktioner, så gælder den også med betingelser indsat.
Eftersom S ∩ H , S ∩ H c indlysende er en klassedeling af S, gælder der ifølge sætning
9d): P( S ) = P( S ∩ H ) + P( S ∩ H c ) . Derfor gælder formlen også med betingelsen J indsat: P( S J ) = P( S ∩ H J ) + P( S ∩ H c J ) . Det kan naturligvis også vises direkte uden
brug af appendiks A, men dette redskab er nyttig at have til rådighed!
48
© Erik Vestergaard – www.matematiksider.dk
8. Kort om grafer
En graf består af en mængde af knuder og en mængde af kanter. En kant er en forbindelseslinje mellem to knuder. Man taler om ikke-orienterede og orienterede grafer. I
førstnævnte har kanterne ikke nogen retning, mens hver kant i sidstnævnte type har en
retning. I orienterede grafer kan der forekomme cykler, som vist i delfigur (B) nedenfor.
Hvis man starter i en knude i en cykel og følger kanterne rundt i kanternes retning, så
kommer man tilbage til udgangspunktet. En acyklisk graf, som illustreret i delfigur (C),
har ingen cykler. Vi fik i øvrigt gjort den cykliske graf i delfigur (B) acyklisk ved at
vende retningen af kanten, der forbinder knuderne 3 og 5. To knuder kaldes naboknuder, såfremt de er forbundne med en kant. Hvis A og B er naboknuder i en orienteret
graf, og retningen af kanten går fra A til B, så vil vi kalde A for en forældreknude til B
og B for en barneknude til A. På delfigur (C) nedenfor er knuderne 1 og 5 således forældreknuderne til knude 3, mens knude 3 og 4 begge er børn af knude 5.
2
2
1
1
6
6
3
4
3
5
5
4
(A) ikke-orienteret graf
(B) Orienteret graf med cykel
2
1
6
3
4
5
(C) Orienteret acyklisk graf
Teorien om grafer udgør et helt selvstændigt område i matematikken: Grafteori eller på
engelsk Graph Theory. Typisk ændres en graf ikke ved at man "vrider" lidt i den, så
længe kanterne ikke brydes. Et berømt problem, som kan formuleres og analyseres i en
grafmæssig sammenhæng, er det såkaldte travelling salesman problem. Det består i at
en sælger skal fra en by A til en by B. Sælgeren kan vælge forskellige veje. Hvilken en
er den korteste? Her udgør byerne A og B samt mellemliggende byer/trafikknudepunkter knuderne i grafen og vejene er kanterne. I dette tilfælde er grafen vægtet, idet hver
kant har tilknyttet et tal, nemlig vejafstanden. Den interesserede læser kan studere dette
emne på egen hånd. I denne note skal vi dog kun bruge graf-begrebet som et koncept.
© Erik Vestergaard – www.matematiksider.dk
49
9. Bayesianske netværk
Vi er nu rede til at give en præcis definition på et bayesiansk netværk. Hvis du finder
det lovligt abstrakt på dette sted, kan du vælge at læse let hen over det og vende tilbage,
når du inden længe ser konkrete eksempler på bayesianske netværk.
Definition 53 (Bayesiansk netværk)
Et Bayesiansk netværk (BN) er en tripel (V , A, P ) derved at:
V = { X 1 , X 2 , … , X n } er en mængde af stokastiske variable. De stokastiske
variable kan visuelt tænkes anbragt i hver deres knude i en graf.
b) A er en mængde af forbindelseslinjer, kaldet kanter, mellem knuderne omtalt i
a). Tilsammen skal (V , A ) udgøre en orienteret acyklisk graf.
c) P er en mængde af betingede sandsynligheder: Til hver knude hører en tabel
med de betingede sandsynligheder for den tilhørende stokastiske variabel, givet
værdierne for de stokastiske variable i grafens forældre-knuder. Denne knudepunktstabel betegnes ofte NPT (Node Probability Table).
a)
Bemærkning 54
På engelsk betegnes et bayesiansk netværk et Bayesian network eller et Belief network.
Det sidste kommer af, at man, som vi senere skal se, kan tildele nogle mere eller mindre
subjektive værdier til knuderne i netværket og udregne, hvilken indflydelse det har på
sandsynlighederne for værdierne af de stokastiske variable i de øvrige knuder. Et bayesiansk netværk omtales ofte med forkortelsen BN.
Bemærkning 55
Man kan vise, at hvis man har at gøre med en ikke-orienteret graf, kan man ofte ikke repræsentere al information om sandsynlighedernes afhængighed i netværket. Ved at kræve at kanterne har en retning, bliver dette heldigvis muligt. Udover at kræve at grafen er
orienteret, er der også krav om, at grafen ikke må indeholde cykler. Det skyldes at der
ellers kan opstå inkonsistens i knudepunktstabellerne. Med kravet om en acyklisk graf
får man i øvrigt en eller flere knuder, som ikke har forældre-knuder. Disse knuder vil
dermed indeholde ubetingede sandsynligheder. Mængden af de betingede sandsynligheder kan lidt abstrakt skrives: P = {P( X i ) parents( X i ), X i ∈ V } , hvor parents ( X i ) betyder de stokastiske variable hørende til forældreknuderne til den i'te knude.
10. Beregninger i et konkret bayesiansk netværk
For at det hele ikke skal drukne i matematisk formalisme, vil vi i dette afsnit tage fat i et
eksempel på et bayesiansk netværk for konkret at illustrere begreber som simultane
sandsynligheder og marginale sandsynligheder. Situationen er skitseret på næste side.
50
© Erik Vestergaard – www.matematiksider.dk
Eksempel på Bayesiansk netværk: For sent på arbejde
Niels og Anna arbejder på samme arbejdsplads og begge tager normalt Metroen !l arbejde.
Niels er i modsætning !l Anna et B-menneske, som har svært ved at komme op om
morgenen, så det sker, at han sover over sig. Hvis metroen står s!lle på grund af repara!oner,
så er de nødt !l (individuelt) at vælge et andet transportmiddel for at komme !l arbejde. Det
er Niels' job at åbne forrretningsafdelingen. Hvis han ikke gør det !l !den modtager han en
reprimande fra chefen. Anna har dog været så venlig at !lbyde at gøre det for ham i de
!lfælde, hvor han kommer for sent, undtagen i de !lfælde, hvor hun er kaldt ud !l kunder.
Niels sover over sig
(O)
Metroen er defekt
(M)
Niels kommer for
sent på arbejde
(N)
Anna kommer for
sent på arbejde
(A)
Chefen giver Niels
en reprimande (C)
Niels sover over sig
0.85
False
True
0.15
Metroen er defekt
0.95
False
True
0.05
Niels kommer for sent på arbejde
Niels sover over sig
Metroen er defekt
False
True
False
True
False
0.90
0.30
0.10
0.70
True
True
False
0.50
0.10
0.50
0.90
Anna kommer for sent på arbejde
True
Metroen er defekt False
0.95
0.15
False
True
0.05
0.85
Chefen giver Niels en reprimande
Anna møder for sent
Niels møder for sent
False
True
False
True
False
1.00
0.90
0.00
0.10
True
True
False
1.00
0.00
0.00
1.00
51
© Erik Vestergaard – www.matematiksider.dk
Det aktuelle netværk udmærker sig ikke ved at være særligt nyttigt, men er valgt for at
skabe intuition hos læseren. Netværket har i alt fem knuder eller knudepunkter. De kan
hver især antage nogle værdier. I dette simple eksempel er disse værdier False og True,
svarende til falsk eller sandt. På figuren er desuden anført en knudepunktstabel for hver
knude, forkortet NPT for det engelske udtryk Node Probability Table. Vi vil referere til
hver knude ved hjælp af en stokastisk variabel. Bogstaverne for de stokastiske variable
er angivet i parentes i hver knude i det bayesianske netværk (se figur). Den stokastiske
variabel for knuden "Niels kommer for sent på arbejde" har for eksempel fået tildelt
bogstavet N. Knudepunktstabellen for den pågældende knude indeholder sandsynlighederne for at knuden antager værdierne False henholdsvis True, givet de mulige værdier
af forældreknuderne.
Niels kommer for sent på arbejde
Niels sover over sig
False
True
Metroen er defekt
False
0.90
0.30
False
0.10
0.70
True
True
True
False
0.50
0.10
0.50
0.90
Det matematiske indhold af det med rødt fremhævede tal i knudepunktstabellen ovenfor
kan udtrykkes således:
P ( N = False O = True ∩ M = False) = 0,30
(29)
Udtrykket N = False repræsenterer hændelsen at Niels ikke møder for sent, mens fællesmængden O = True ∩ M = False repræsenterer hændelsen at Niels sover over sig og
Metroen ikke er defekt. Skal vi udtrykke det hele sprogligt, kan det gøres således:
Sandsynligheden for at Niels ikke møder for sent, givet at han sover over sig og Metroen ikke er defekt, er 30%.
eller måske endnu bedre:
Hvis Niels sover over sig og Metroen kører, er der 30% sandsynlighed for at Niels
kommer til tiden.
Vi har altså ifølge definition 12 at gøre med en betinget sandsynlighed her. Af notationsmæssige årsager vælger man ofte at skrive (29) på følgende alternative måde, hvor
fællesmængdetegnet er udskiftet med et komma:
(30)
P ( N = False O = True, M = False ) = 0,30
Den simultane sandsynlighedsfordeling
Men det er jo sjældent de betingede sandsynligheder, man er interesseret i. Det er normalt mere interessant at vide, hvad sandsynligheden er for, at Niels møder til tiden, altså
at kende P( N = False) . Før vi kan angribe dette problem, skal vi først se på den såkaldte simultane sandsynlighedsfordeling (på engelsk Joint Probability Distribution). Denne
indbefatter alle de stokastiske variable i det bayesianske netværk, hvilket her er C, A, N,
52
© Erik Vestergaard – www.matematiksider.dk
M og O. Man er interesseret i sandsynligheden for en given kombination af udfald for
hver af de fem stokastiske variable. Da hver stokastisk variabel i dette tilfælde kan
antage værdierne False eller True er der altså 25 = 32 mulige kombinationer af værdier
af de fem variable. C = True ∩ A = False ∩ N = True ∩ M = True ∩ O = False er bare
et eksempel blandt de 32 mulige hændelser. Men kan vi overhovedet udregne sandsynligheden P(C = True ∩ A = False ∩ N = True ∩ M = True ∩ O = False) ? Vi har umiddelbart kun knudepunktstabellerne til rådighed. Svaret er heldigvis ja. Ved hjælp af kædereglen kan vi nemlig nedbryde sandsynligheden i mindre dele:
P(C = True, A = False, N = True, M = True, O = False) =
P(C = True A = False, N = True, M = True, O = False)
(31)
⋅ P( A = False N = True, M = True, O = False)
⋅ P( N = False M = True, O = False)
⋅ P( M = True O = False)
⋅ P(O = False)
Angående den første faktor i produktet efter lighedstegnet, bemærkes det, at C er betinget uafhængig af både M og O givet værdierne af A og N. Dette indses ved at betragte
kanterne i netværket: M og O er ikke efterkommere til C, hvorfor deres værdier ikke kan
ændre sandsynligheden for C, når man kender værdierne af C 's forældreknuder A og N!
Generelt defineres en knude B i et BN at være en efterkommer af en anden knude A i
netværket, hvis B kan nås fra A ved at følge eksisterende kanter i pilenes retning. På
grund af den betingede afhængighed kan vi stryge M og O fra betingelsen:
(32)
P(C = True A = False, N = True, M = True, O = False)
= P(C = True A = False, N = True)
Sådanne typer ræsonnementer er vigtige, når man skal foretage beregninger i Bayesianske netværk. På samme måde kan vi reducere de øvrige faktorer i (31) og får:
P(C = True, A = False, N = True, M = True, O = False) =
P(C = True A = False, N = True)
(33)
⋅ P( A = False M = True)
⋅ P( N = True M = True, O = False)
⋅ P( M = True)
⋅ P(O = False)
Indsætter vi tallene fra knudepunktstabellerne, får vi:
(34)
P(C = True, A = False, N = True, M = True, O = False)
= 0,10 ⋅ 0,15 ⋅ 0,70 ⋅ 0,05 ⋅ 0,85 = 0,0004462500
53
© Erik Vestergaard – www.matematiksider.dk
Vi ser, at der er en sandsynlighed på kun 0,000446 for at alle fem ting indtræffer samtidigt, altså at Niels ikke sover over sig, at metroen er defekt, at Niels kommer for sent,
at Anna ikke kommer for sent og at Chefen giver Niels en reprimande. Vi vil ofte lade
udtrykket P(C , A, N , M , O ) = P(C ∩ A ∩ N ∩ M ∩ O ) betegne den simultane sandsynlighedsfordeling, idet vi underforstår, at hver af de fem stokastiske variable antager værdierne henholdsvis False og True, hvilket her giver i alt 32 mulige kombinationer.
De marginale sandsynlighedsfordelinger
Som nævnt tidligere vil vi gerne kunne bestemme P( N = False) , altså besvare spørgsmålet: Hvad er sandsynligheden for, at Niels ikke kommer for sent? Her er tale om en
sandsynlighed uden betingelser og den involverer kun én af de stokastiske variable. Vi
søger med andre ord den marginale sandsynlighedsfordeling (på engelsk Marginal Probability Distribution). Løsningen er at summere alle de simultane sandsynligheder, som
opfylder N = False .
(35)
∑
P ( N = False) =
P (C , A, N = True, M , O )
C , A,M ,O
hvor der summeres over alle kombinationer af værdier af de stokastiske variable C, A,
M, og O. Hver variabel kan antage de to værdier False og True. Der er altså i alt 16
forskellige sandsynligheder at summere over. For at være lidt mere "økonomisk" vælger
vi at udregne hele den marginale fordeling for N på én gang:
(36)
P( N ) =
∑
P (C , A, N , M , O )
C , A,M ,O
Man kan så bare erstatte N med N = False eller N = True . Vi skal anvende kædereglen
på (36) og derefter foretage reduktioner, så vi ender op med et udtryk for den marginale
sandsynlighed, hvori der kun indgår sandsynligheder fra knudepunktstabellerne.
54
© Erik Vestergaard – www.matematiksider.dk
∑
P( N ) =
P(C , A, N , M , O )
C , A, M ,O
∑
=
P(C A, N , M , O ) ⋅ P( A N , M , O ) ⋅ P( N M , O ) ⋅ P( M O ) ⋅ P(O )
C , A, M ,O
∑
=
P(C A, N ) ⋅ P( A M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O )
C , A, M ,O
(37)



∑ P( N M , O ) ⋅ P( M ) ⋅ P(O ) ⋅  ∑ P( A M ) ⋅  ∑ P(C A, N )  
=

M ,O

A

C


∑ P( N M , O ) ⋅ P( M ) ⋅ P(O ) ⋅  ∑ P( A M ) 
=

M ,O
A

∑ P( N M , O ) ⋅ P( M ) ⋅ P(O )
=
M ,O
hvor vi har benyttet følgende:
1. lighedstegn:
2. lighedstegn:
3. lighedstegn:
4. lighedstegn:
5. lighedstegn:
6. lighedstegn:
De simultane sandsynligheder summeres over alle variable, bortset fra
den vi ønsker den marginale sandsynlighed for, her N.
Kædereglen i sætning 47 er benyttet.
Betingede uafhængigheder i det Bayesianske netværk er benyttet.
Der er (indirekte) fire summationstegn, nemlig én for hver variabel.
Mange af de indgående sandsynligheder afhænger ikke af C og A, så
de er sat udenfor summationstegnene for C og A. Dette trin kræver lidt
snilde.
Vi udnytter, at den inderste summation med C er lig med 1 ifølge sætning 29 side 17.
Igen bruges sætning 29.
For at bestemme sandsynligheden for at Niels ikke kommer for sent på arbejde, indsætter vi N = False på N ' s plads i (37):
P( N = False) =
∑ P( N = False M , O ) ⋅ P( M ) ⋅ P(O )
=
M ,O
P( N = False M = False, O = False) ⋅ P( M = False) ⋅ P(O = False)
+ P( N = False M = False, O = True) ⋅ P( M = False) ⋅ P(O = True)
(38)
+ P( N = False M = True, O = False) ⋅ P( M = True) ⋅ P(O = False)
+ P( N = False M = True, O = True) ⋅ P( M = True) ⋅ P(O = True)
= 0,90 ⋅ 0,95 ⋅ 0,85 + 0,50 ⋅ 0,95 ⋅ 0,15 + 0,30 ⋅ 0,05 ⋅ 0,85 + 0,10 ⋅ 0,05 ⋅ 0,15
= 0,8115
Sandsynligheden for at Niels ikke kommer for sent til arbejde – dvs. kommer til tiden –
er altså 81,15%. Den meget opmærksomme læser vil bemærke, at der egentligt bare er
© Erik Vestergaard – www.matematiksider.dk
55
tale om det vejede gennemsnit af sandsynligheder i knudepunktstabellen for N. Vægtene
er sandsynlighederne P ( M , O ) = P ( M O ) ⋅ P (O ) = P ( M ) ⋅ P (O ) . Generelt bør man dog
være varsom med at tage genveje i et netværk. Den sikre vej er altid at foretage summation over alle de relevante simultane sandsynligheder, som vi har gjort ovenfor.
Bemærkning 56
For at udregne P( N = True) kunne vi have foretaget en summation à la (38), men da N
kun kan antage de to værdier False og True, kan vi lige så godt bruge sætning 9d):
(39)
P( N = True) = 1 − P( N = False) = 1 − 0,8115 = 0,1885
□
Opdatering af marginale sandsynligheder når evidens er givet
En af de store pointer ved at anvende Bayesianske netværk er, at man kan tilføje ny viden (information, evidens) til det og iagttage, hvilken virkning det har på de marginale
sandsynligheder. Som et eksempel vil vi antage, at vi har indhentet information om at
Anna er kommet for sent på arbejde. Hvad er nu den opdaterede sandsynlighed for at
Niels også er kommet for sent på arbejde? Vi efterspørger med andre ord den betingede
sandsynlighed P ( N = True A = True ) . Vi gør det en smule mere generelt ved at udregne P ( N A = True ) , idet N da kan udskiftes med N = True eller N = False .
(40)
P( N A = True)
P( N ∩ A = True)
P( A = True)
1
=
⋅ ∑ P(C , A = True, N , M , O )
P( A = True) C ,M ,O
=
=
1
⋅ ∑ P(C A = True, N , M , O ) ⋅ P ( A = True N , M , O ) ⋅ P( N M , O ) ⋅ P( M O ) ⋅ P(O )
P( A = True) C ,M ,O
=
1
⋅ ∑ P(C A = True, N ) ⋅ P( A = True M ) ⋅ P( N M , O ) ⋅ P( M ) ⋅ P(O )
P( A = True) C ,M ,O
=



1
⋅ ∑  P( A = True M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O ) ⋅  ∑ P(C A = True, N )  
P( A = True) M ,O 
 C

=
1
⋅ ∑ P( A = True M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O )
P( A = True) M ,O
hvor vi har benyttet følgende:
1. lighedstegn:
2. lighedstegn:
Definition 12 er benyttet.
Sandsynligheden P( N ∩ A = True) bestemmes ved at addere alle de
simultane sandsynligheder, der opfylder N og A = True . Da N under-
56
© Erik Vestergaard – www.matematiksider.dk
3. lighedstegn:
4. lighedstegn:
5. lighedstegn:
6. lighedstegn:
forstås kendt, skal der altså summeres over alle mulige kombinationer
af værdierne af C, M og O.
Kædereglen i sætning 47 er benyttet.
Betingede uafhængigheder i det Bayesianske netværk er benyttet.
Vi sætter de størrelser uden for C-summationstegnet, som ikke afhænger af C.
Vi udnytter, at den inderste summation med C er lig med 1 ifølge sætning 29 side 17.
Vi er nu rede til at beregne den opdaterede marginale sandsynlighed for N = True , givet
informationen A = True . Vi indsætter N = True på N's plads i det sidste udtryk i (40):
(41)
P( N = True A = True)
=
1
⋅ ∑ P( A = True M ) ⋅ P ( N = True M , O ) ⋅ P( M ) ⋅ P(O )
P( A = True) M ,O
=
1
⋅
P( A = True)
[
P( A = True M = False) ⋅ P( N = True M = False, O = False) ⋅ P( M = False) ⋅ P(O = False)
+ P( A = True M = False) ⋅ P( N = True M = False, O = True) ⋅ P( M = False) ⋅ P(O = True)
+ P( A = True M = True) ⋅ P( N = True M = True, O = False) ⋅ P( M = True) ⋅ P(O = False)
+ P( A = True M = True) ⋅ P( N = True M = True, O = True) ⋅ P ( M = True) ⋅ P(O = True)
]
=
1
⋅ [
0,09
0,05 ⋅ 0,10 ⋅ 0,95 ⋅ 0,85
+ 0,05 ⋅ 0,50 ⋅ 0,95 ⋅ 0,15
+ 0,85 ⋅ 0,70 ⋅ 0,05 ⋅ 0,85
+ 0,85 ⋅ 0,90 ⋅ 0, 05 ⋅ 0,15
]
= 0,429
hvor de forskellige betingede sandsynligheder aflæses i knudepunktstabellerne. Den
marginale sandsynlighed P( A = True) = 0,09 antages udregnet efter samme principper
som vi udregnede den marginale sandsynlighed P( N = False) i (37) og (38) – se evt.
opgave 10.1. Vi konkluderer, at der er 42,9% sandsynlighed for at Niels er kommet for
sent på arbejde, hvis man får oplyst, at Anna er kommet for sent. Oplysningen om at
Anna er kommet for sent, har med andre ord øget sandsynligheden for at Niels også er
kommet for sent fra 18,9% til 42,9% (se bemærkning 56). Det skyldes naturligvis, at det
med informationen er blevet mere sandsynligt, at Metroen er defekt!
© Erik Vestergaard – www.matematiksider.dk
57
11. Computerprogrammet AgenaRisk
I afsnit 10 så vi, at det kan blive meget teknisk at foretage beregninger i et Bayesiansk
netværk. Og så var vores netværk endda lille! Heldigvis har dygtige folk lavet computerprogrammer, som udregner sandsynlighederne for os. Et af disse computerprogrammer er AgenaRisk. En reduceret udgave af det kommercielle program er gratis og kan
downloades fra firmaets hjemmeside www.agenarisk.com.
Programmet er meget brugervenligt. Der medfølger tutorials, så man hurtigt kan sætte sig ind
i det mest grundlæggende. Kort fortalt kan man
blandt andet tegne knuder, navngive dem og forbinde knuder med kanter, som vist på figur 1
nedenfor, idet vi tager udgangspunkt i BN eksemplet fra afsnit 10. På figur 2 er en knudepunktstabel for knuden N udfyldt. På figur 3 er
det vist, hvordan man alternativt til knuderne
med navne på, kan få vist de marginale sandsynlighedsfordelinger for de stokastiske variable i
hvert knudepunkt, herunder dem, som vi brugte
megen energi på at udregne manuelt i afsnit 10.
Figur 1
58
Figur 2
Figur 3
© Erik Vestergaard – www.matematiksider.dk
© Erik Vestergaard – www.matematiksider.dk
59
Figur 4
På figur 4 ovenfor har vi højreklikket på knuden A og valgt Enter Observation > Scenario 1 > True. Hermed har vi tilføjet informationen A = True til netværket. De marginale
sandsandsynligheder for samtlige knudepunkter bliver øjeblikkeligt opdateret med denne information! Vi ser, at P ( N = True A = True ) , så vi regnede altså rigtigt, da vi i
afsnit 10 fik sandsynligheden til 42,9%. Den opdaterede marginale sandsynlighed for A
er da også sat til 100% for True! På denne måde kan man lynhurtigt afprøve ting i netværket: hvilken betydning har den og den information for de enkelte sandsynligheder?
□
Det simpleste Bayesianske netværk man kan forestille sig er et, hvor der kun er to knuder med en kant imellem. Tilføjer man evidens til datterknuden, svarer det til at benytte
Bayes' formel. Lad os kigge på tilfældet med test for sygdom fra eksempel 32 side 20.
Roden i netværket er S : "Personen har sygdommen" og den har en kant rettet mod T :
"Testen viser positiv". Det er den kausale rækkefølge. A priori sandsynligheden for at
personen har sygdommen er 1/1000 = 0,001, svarende til, at man endnu ikke har fået
oplyst testresultatet. A priori sandsynligheden for ikke at have sygdommen er derfor
0,999. Disse to sandsynligheder for henholdsvis True og False til spørgsmålet om personen har sygdommen udgør knudepunktstabellen for knuden S. I knuden T har vi de
betingede sandsynligheder. Værdierne heri er betinget af om personen har sygdommen
60
© Erik Vestergaard – www.matematiksider.dk
eller ej. Vi kender sandsynlighederne for falsk-positiv (2%) og falsk-negativ (5%). Alt i
alt giver det anledning til nedenstående knudepunktstabeller.
Personen har
sygdommen (S)
Personen har sygdommen
0.999
False
True
0.001
Testen viser positiv
Testen viser
positiv (T)
Personen har sygdommen
False
True
False
0.98
0.02
True
0.05
0.95
I AgenaRisk konstrueres ovenstående BN og værdierne i knudepunktstabellerne indtastes. Det giver følgende marginale sandsynligheder:
Hvis man ikke ved noget, er sandsynligheden for et positivt testresultat altså 2,093%.
Tallet dækker både over de rigtigt syge og de falske-positive. Man kunne nu finde på at
tilføje den evidens, at testen viste positiv for at se hvilken indvirkning det har på de
marginale sandsynligheder for knuden S. Vi højreklikker derfor på knuden T og vælger
Enter Observation > Scenario 1 > True. Derved ændres de marginale sandsynligheder
for knuden T naturligvis til 0% for False og 100% for True. Men det interessante er at
den opdaterede marginale sandsynlighed for at knuden S er True er lig med 4,5%. Dette
kan oversættes til P ( S = True T = True ) = 0,045 , nøjagtigt som vi fik i eksempel 32!
© Erik Vestergaard – www.matematiksider.dk
61
□
AgenaRisk er i øvrigt ikke begrænset til kun at arbejde med diskrete fordelinger for de
indgående stokastiske variable: man kan også have variable, som for eksempel er normalfordelte!
12. Bayesianske netværk historisk set
I begyndelsen af 1980'erne introducerede Judea Pearl, forsker i computer science og statistik fra University of California, Los Angeles, Bayesianske netværk med det formål at
kunne repræsentere sandsynligheder for tro eller overbevisning (Beliefs) lokalt i netværket, så det tilsammen udgør et logisk sammenhængende hele. I starten handlede det dog
kun om træer og polytræer, som er specialtilfælde af de nuværende bayesianske netværk. Pearl udviklede først alene og senere sammen med en anden forsker algoritmer til
at "sende meddelelser" igennem netværket (belief propagation). Pearl arbejdede videre
med at lede efter algoritmer, som fungerer på mere generelle netværk. Hans banebrydende arbejde blev i øvrigt i 2011 belønnet med den prestigefyldte A. M. Turing Award
"For fundamental contributions to artificial intelligence through the development of a
calculus for probabilistic and causal reasoning".
Det næste store skridt fremad blev faktisk da danskeren Steffen L. Lauritzen, dengang
ansat på Aalborg Universitet, sammen med englænderen David John Spiegelhalter i
1988 beskrev en ny algoritme i artiklen "Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems" (se [19]). Artiklens jointree
algoritme, som fungerer for såkaldte multiply-connected structures, har stadig praktisk
betydning den dag i dag. Men jagten på andre algoritmer fortsatte. I 1994 fremkom
62
© Erik Vestergaard – www.matematiksider.dk
Zhang og Poole og siden Dechter i 1996 med den såkaldte variable elimination algoritme. Siden har en længere række af matematikere/statistikere forsøgt at gøre variabel elimination mere effektiv. Den lokale struktur i de bayesianske netværk kan afsløre uafhængighed, som igen betyder at udregningerne kan speedes op. To andre danskere fra
Aalborg Universitet, Stig K. Andersen og Finn V. Jensen, leverede også et bidrag i denne sammenhæng.
13. Anvendelser af Bayesianske netværk
I den banebrydende artikel [19] af Lauritzen og Spiegelhalter nævnt på forrige side,
diskuteres et fiktivt eksempel med diagnosticering af sygdomme. Det pågældende BN,
som kaldes "Asia", ser således ud:
Har været i
Asien?
Er ryger?
Har tuberkulose?
Har lungekræft?
Har bronkitis?
Tuberkulose eller
lungekræft?
Røntgenundersøgelsen
viser positiv?
Har
vejrtrækningsbesvær?
Eksemplet med knudepunktstabeller kan findes i en mappe, som downloades med den
gratis udgave af AgenaRisk. Eksemplet fås frem ved indefra programmet at vælge
menuen File > Open Example Model…. I mappen "Book models", som indeholder
eksemplerne fra Norman Fenton og Martin Neils bog [1], findes filen Asia.ast. Denne
fil åbnes, hvorefter man kan foretage eksperimenter med det, dvs. tilføje evidens til
bestemte knuder.
len Et af de områder, hvor man kan udnytte Bayesianske netværk i praksis, er til diagnosticering af sygdomme. Generelt er det ofte meget kompliceret at stille diagnoser i
63
© Erik Vestergaard – www.matematiksider.dk
lægeverdenen, eftersom symptomer kan være vage eller forskellige hos patienter. Her
kan automatiserede
På figuren
I 1989 dannede en gruppe af forskere fra Aalborg Universitet firmaet HUGIN Expert
A/S, opkaldt efter den ene af to ravne, som i den nordiske mytologi satte sig på Odins
skulder for at bringe nyt fra verden. Et andet firma som siden er kommet til siden er det
britiske AgenaRisk, ledet af Norman Fenton og Martin Neil. Figuren nedenfor giver en
indikation af de områder, hvor BN finder anvendelse.
Risk Management
Medical Diagnostic Systems
Forensic Science
Meteorology
Turbo Codes
Spam filters
Reasoning
Expert systems Probabilistic
Natural resource
management and policy
Military
Bioinformatics Networks
Security
Robotics
Artificial Intelligence
Uncertainty
Kalman filters
Machine Learning
Datamining
The LAW
Agriculture
Finance
Trouble shooting
CAUSAL MODELS
Decision Analysis
Diagnostisering af fejl i printer.
Safety and Realiability
64
© Erik Vestergaard – www.matematiksider.dk
A. Betingede sandsynligheder er også sandsynligheder
I dette appendiks vil vi steppe et niveau op i abstraktion i forhold til det meste af det
øvrige stof i denne note. Appendikset er ikke strengt nødvendigt, men kan hjælpe de læsere, som kan følge argumenterne, til en dybere forståelse. Samtidig vil det spare en
masse beviser for sætninger om betingede sandsynligheder.
Lad E være en hændelse, der ikke har sandsynlighed 0, dvs. P( E ) ≠ 0 . Vi vil vise, at
den betingede sandsynlighedsfunktion PE (⋅) ≡ P (⋅ E ) også er en sandsynlighedsfunktion. Punktummet er en såkaldt dummy, hvor man kan indsætte relevante størrelser. Da
P selv er en sandsynlighedsfunktion, tilfredsstiller den automatisk alle de fire punkter
a)-d) i definition 1 side 5. Vi skal vise, at den nye funktion PE også gør det. Det er hensigtsmæssigt først at præcisere, hvordan funktionen PE er defineret på både elementer u
i udfaldsrummet U og på delmængder A af U :
PE (u) = P({u} E ), u ∈U
(A1)
PE ( A) = P( A E ), A ⊆ U
Bemærk, at vi er nødt til at placere mængdeklammer rundt om elementet u, da betinget
sandsynlighed kun er defineret for mængder.
a) Det er klart at 0 ≤ PE (u ) ≤ 1 for alle u ∈U , fordi alle betingede sandsynligheder jo
ligger mellem 0 og 1.
b)
∑ PE (u)
=
u∈U
c)
∑ PE (u)
=
u∈U
∑
u∈U
P({u} ∩ E )
1
=
⋅ ∑ P({u} ∩ E )
P( E )
P( E ) u∈U
=
1
1
⋅ ∑ P(u ) =
⋅ P( E ) = 1
P( E ) u∈E
P( E )
=
∑ P({u} E )
u∈A
u∈A
=
d)
∑ P({u} E )
=
P({u} ∩ E )
1
=
⋅ ∑ P({u} ∩ E )
P( E )
P( E ) u∈A
u∈A
∑
1
1
⋅ ∑ P (u ) =
⋅ P( A ∩ E ) = P ( A E ) = PE ( A)
P( E ) u∈A∩ E
P( E )
PE (∅) = P(∅ E ) =
P (∅ ∩ E )
P (∅ )
0
=
=
= 0
P( E )
P( E )
P( E )
At PE tilfredsstiller de fire betingelser betyder, at PE selv er en sandsynlighedsfunktion
på U. Alle sætninger, såsom sætning 9, som er udledt på baggrund af de fire axiomer for
en sandsynlighedsfunktion, holder dermed også for P udskiftet med PE . Sætning 9c)
bliver for eksempel til PE ( Ac ) = 1 − PE ( A) , som når betydningen af PE udnyttes giver:
(A2)
P( Ac E ) = 1 − P( A E )
Vi kan altså bare sætte en betingelse E på alle sandsynlighederne i en given formel, så
gælder den stadig! Lad os kigge på, hvad der sker, når man bruger metoden på den
65
© Erik Vestergaard – www.matematiksider.dk
simple version af Bayes' formel i sætning 26. Før vi gør det skal vi dog lige godtgøre, at
hvis man i forvejen har en betinget sandsynlighed, så kan man bare sætte den nye betingelse ind som en ekstra betingelse:
(A3)
P ( A ∩ B E)
P ( A ∩ B)
PE ( A B ) = E
= E
=
PE ( B )
P( B E )
=
P( A ∩ B ∩ E )
P( E )
P( B ∩ E )
P( E )
P ( A ∩ ( B ∩ E ))
= P ( A B ∩ E ) = P ( A B, E )
P( B ∩ E )
Sidste lighedstegn angår blot notation, dvs. hvis vi har en betingelse, som er en fællesmængde af flere delbetingelser, så vælger man ofte at skrive delbetingelserne med komma imellem. Den simple version af Bayes' formel kommer til at se således ud med en
ekstra betingelse E indsat:
(A4)
P ( A B, E ) =
P( B A, E ) ⋅ P( A E )
P( B E )
Vi ser, at pointen i dette appendiks sætter os i stand til at generere en række nye formler.
66
© Erik Vestergaard – www.matematiksider.dk
Opgaver
Opgaverne er nummereret således, at det første ciffer angiver det afsnit, opgaven hører
til. Opgave 4.3 er således den tredje opgave hørende til afsnit 4.
Opgave 2.1
Betragt følgende eksperiment: Der spilles
plat og krone, og der foretages tre kast med
en mønt lige efter hinanden. Vi vedtager at
lade notationen ( p, k , p ) svare til det udfald,
hvor første kast gav plat, andet kast gav krone og tredje kast gav plat.
a) Opskriv alle de mulige udfald. Hvor mange elementer er der i udfaldsrummet?
b) Bestem sandsynlighederne for hvert udfald i udfaldsrummet. Hjælp: Du kan gange
sandsynlighederne for hvert kast sammen, da udfaldene af de enkelte kast er uafhængige af hinanden.
c) Betragt følgende hændelse H: Der var mindst 2 plat. Angiv den delmængde, som
svarer til hændelsen H og bestem sandsynligheden P ( H ) for hændelsen.
Opgave 2.2
Dette er en udvidelse af eksempel 7 i afsnit 2. Som udgangspunkt har vi det samme eksperiment som i eksempel 7, men den stokastiske variabel er en anden. En bankør tilbyder et spil, hvor spilleren slår med to terninger: en grøn og en rød. Hvis der er en 1’er
blandt de to terninger, skal spilleren betale 4 kr. til bankøren. I alle andre tilfælde vinder
spilleren det beløb i kroner, som svarer til forskellen mellem de to terningers visning.
Hvis den ene terning viser 5 og den anden 2, vinder spilleren altså 5 − 2 = 3 kroner.
X : Angiver det beløb, som spilleren vinder i ét enkelt spil.
a) Bestem sandsynlighedsfordelingen for X.
Hjælp: Ligesom i eksempel 7 skal du finde alle de mulige værdier, altså gevinster i
spillet. Du skal regne gevinsterne med fortegn, og da det er set fra spillerens synspunkt, er gevinsten positiv, hvis spilleren vinder noget og negativ, hvis spilleren
taber noget. For at bestemme de tilhørende sandsynligheder P( X = xi ) , kan du evt.
for at få overblik lave et "koordinatsystem" som i eksempel 7, blot med gevinsterne
anbragt i felterne fremfor summen af øjnene.
Man kan indføre begrebet middelværdien E ( X ) af en stokastisk variabel X. E'et står for
expectation på engelsk, altså den forventede værdi af X. Ikke overraskende er den defi-
67
© Erik Vestergaard – www.matematiksider.dk
neret som det vejede gennemsnit af værdierne x1 , x2 , … , xn af den stokastiske variabel.
Vægtene er naturligvis de tilhørende sandsynligheder P( X = xi ) :
E( X ) =
n
∑ xi ⋅ P( X = xi )
i =1
b) Benyt din sandsynlighedsfordeling fra a) til at vise, at E ( X ) = − 19 .
c) Hvad fortæller middelværdien her, sagt med ord? Hvorfor vil det ikke være
fornuftigt for spilleren i det lange løb at deltage i spillet?
Kommentar: Middelværdien betegnes undertiden også med det græske bogstav µ. En
anden størrelse, som man også bruger er variansen for X, og den er defineret ved:
n
∑ ( xi − µ)2 ⋅ P( X = xi )
Var( X ) =
i =1
Tager man kvadratroden af dette tal, fås spredningen: σ( X ) = Var ( X ) . Spredningen i
et spil som dette, vil fortælle lidt om, hvor spredte gevinsterne er, altså hvor chancebetonet spillet er. I det meget kedelige tilfælde, hvor et spil gav den samme gevinst, uanset
udfald, ville spredningen være 0.
Opgave 2.3
Vi betragter mængdeoperationerne fra side 9 samt Venn-diagrammer.
a) Tegn to overlappende delmængder A og B i et Venn-diagram. Skraver det område,
som svarer til mængden Ac ∪ B c .
b) Foretag nogle mængdeoperationer på delmængderne A og B, så resultatet svarer til
det markerede område i Venn-diagrammet på venstre delfigur.
U
A
B
U
A
B
c) Samme spørgsmål for højre delfigur.
Opgave 2.4
Lad A, B og C være vilkårlige delmængder af U. Vis følgende identiteter:
a)
b)
c)
d)
A ∪ ( B ∪ C ) = ( A ∪ B) ∪ C
A ∪ ( B ∩ C ) = ( A ∪ B) ∩ ( A ∪ C )
Ac ∪ B c = ( A ∩ B )c
Ac ∩ B c = ( A ∪ C )c
68
© Erik Vestergaard – www.matematiksider.dk
Hjælp: Du kan enten vælge at vise dem ved at tegne Venn-diagrammer, eller ved at argumentere direkte på elementer. Hvis du bruger Venn-diagrammer, så tegn overlappende delmængder. Hvis du argumenterer på element-niveau, tænk da således: Vis, at hvis
et element u tilhører venstresiden, så vil det også tilhøre højresiden og omvendt.
Opgave 2.5
Der slås med to terninger, en grøn og en rød. Lad der være givet følgende hændelser:
A : Forskellen på hvad den grønne og den røde terning viser er højest 1.
B : Den grønne terning viser mindst 5.
a) Bestem sandsynlighederne P ( A) , P( B) samt P( A ∩ B ) .
b) Prøv at udtrykke hændelsen Ac med ord og brug sætning 9 til at bestemme sandsynligheden for hændelsen.
c) Lav en liste med de udfald, som er i hændelsen ( A ∪ B )c .
Opgave 2.6
Bestem sandsynligheden for at få mindst en sekser ved 7 kast med en terning.
Hjælp: Bruge komplementærhændelsen efter metoden fra eksempel 33.
Opgave 2.7
Der vides at være gevinst på 10% af lodsedlerne i et stort lotteri. Thomas beslutter at
købe tre lodsedler. Lad Gk være hændelsen, at der er gevinst på den k'te lodseddel. Thomas vil gerne vide hvad sandsynligheden er for at han får gevinst på mindst en lodseddel og spørger derfor sin matematiklærer.
a) Hvorfor er hændelserne i princippet ikke helt uafhængige? Hvorfor er det her alligevel rimeligt at antage, at de er det, når man skal udregne en meget præcis (men
ikke helt rigtig) værdi for den søgte sandsynlighed? Udregn sandsynligheden.
b) Hvor mange lodsedler skal Thomas købe, hvis han vil være over 50% sikker på at
få gevinst på mindst én lodseddel?
Hjælp: Kig på komplementære hændelser, ligesom i eksempel 24.
Opgave 3.1
Eksperiment: Der trækkes på tilfældig måde ét kort fra et sæt spillekort med 52 kort.
Betragt følgende hændelser:
A : Kortet er et billedkort
B : Kortet er en spar
a) Bestem følgende sandsynligheder: P( A), P( B ), P( A ∩ B ) og P( A ∪ B ) .
b) Er hændelserne A og B uafhængige?
© Erik Vestergaard – www.matematiksider.dk
69
c) Bestem P( Ac ) . Hvordan vil du sprogligt formulere hændelsen Ac ?
d) Gentag a) og b) for et spil kort, som foruden de 52 kort har tre jokere.
Opgave 3.2
Ralf skal på en udflugt i en grotte i Sydeuropa. Antag at sandsynligheden for at blive
bidt af en flagermus i grotten i løbet af dagen er 2%. Det oplyses, at 3% af flagermusene
i grotten har hundegalskab. Hvad er sandsynligheden for at personen på udflugten bliver
bidt af en flagermus med hundegalskab? Benyt sandsynlighedsregningens multiplikationssætning (sætning 14) til at besvare spørgsmålet, idet du gør dig klart hvad de enkelte hændelser er.
Opgave 3.3
Vis at hvis A og B er to uafhængige hændelser i et endeligt sandsynlighedsfelt, så er de
komplementære hændelser Ac og B c også uafhængige.
Hjælp: Du skal vise, at (2) i definition 15 gælder for de to mængder Ac og B c . Regn på
venstre siden og højresiden og se, at det giver det samme, idet du undervejs flere gange
bruger sætning 9 for at komme tilbage til udtryk med A og B, som du ved noget om.
Undervejs får du brug for identiteten: Ac ∩ B c = ( A ∪ C )c fra opgave 24.
Opgave 3.4
Der foretages 7 kast med en terning.
a) Hvad er sandsynligheden for at få mindst én sekser.
b) Hvad er sandsynligheden for at få præcist 1 sekser?
Hjælp: Eksperiment: 7 kast med en terning. Betragt for i = 1, 2, … , 7 hændelserne Ai :
Den i'te terning viser 6 øjne.
70
© Erik Vestergaard – www.matematiksider.dk
Opgave 3.5
Der trækkes et kort fra et kortspil. Hvad er sandsynligheden for at kortet er en hjerter,
givet at det er en konge? Benyt definition 12 hertil. Giver det samme resultat, som din
intuition siger?
Opgave 4.1 (Beviser i simplere tilfælde)
Prøv at gennemføre beviserne for sætning 26 (loven om total sandsynlighed) samt beviset for sætning 28 (Bayes' formel) i tilfældet, hvor klassedelingen kun består af to
mængder, nemlig en mængde A og (nødvendigvis) dens komplementære mængde Ac .
Det kan være ganske nyttigt for at forstå det hele bedre. Skriv omhyggeligt op, idet du
tegner mængder …
Opgave 4.2
Eleverne på et lille gymnasium kan efter skoletid dyrke fitness meget billigt i et flot udstyret lokale på skolens område. Det vides at 35% af drengene på skolen har taget imod
tilbuddet, mens tallet for pigernes vedkommende er 20%. Det oplyses, at 55% af eleverne på skolen er piger. Fitness lokalet bliver kun brugt af elever på skolen. Hvad er sandsynligheden for at en tilfældig udvalgt person i fitnesslokalet er en pige?
Hjælp: Indfør hændelsen pige: Den udvalgte person er en pige, hændelsen dreng: Den
udvalgte person er en dreng samt hændelsen fitness: Den udvalgte person dyrker fitness.
Du spørges om P ( pige fitness ) , men ved mere om P ( fitness pige) , etc. Bayes' formel
er oplagt til at "vende problemet på hovedet".
Opgave 4.3
For at have mere sikre leverancer gør
en fabrik brug af tre underleverandører af en bestemt komponent til produktionen. Underleverandør A leverer
60% af komponenerne, mens de tilsvarende tal for underleverandør B og
C er henholdsvis 15% og 25%. Erfaringen har vist, at der hos underleverandørerne A, B og C er fejl i henholdsvis 3%, 8% og 5% af de komponenter den pågældende leverandør leverer.
a) Hvor stor en procentdel af de komponenter fabrikken modtager er der fejl i?
b) Der udtrækkes en tilfældig komponent fra en kasse med alle de komponenter
fabrikken har modtaget. Hvad er sandsynligheden for, at komponenten er leveret fra
underleverandør B.
71
© Erik Vestergaard – www.matematiksider.dk
Hjælp: I delspørgsmål a) skal du udregne den totale sandsynlighed, mens du i b) skal
benytte Bayes' formel. Indfør passende hændelser.
Opgave 4.4
Du skal regne videre på eksempel 32 med test for sygdom. Hvad er sandsynligheden for
at ikke at have sygdommen givet at testen er negativ?
c
Hjælp: Benyt Bayes' formel til at udregne sandsynligheden P( S c T ) .
Opgave 4.5 (ELISA test)
ELISA (Enzyme-linked immunosorbent assay) er en test til identifikation af bestemte
proteiner ved at udnytte antistoffers evne til at binde specifikt til dem. Formålet her er at
undersøge om blodet fra en person indeholder HIV. Testen er ikke perfekt: Antag, at
testen (korrekt) giver et positiv testresultat i 99% af de tilfælde, hvor blodet indeholder
virusset samt at testen (korrekt) giver et negativt testresultat i 99,5% af de tilfælde, hvor
blodet ikke indeholder virusset. Antag desuden at 1 ud af 10000 blodportioner indeholder HIV-virus.
a) Hvor mange procent af de donerede blodportioner vil teste positiv ved anvendelse
af ELISA-testen?
b) Hvor stor en del af de blodprøver, som giver et negativt resultat med ELISA-testen
er inficeret med HIV-virus?
c) Hvor stor en del af de blodprøver, som giver et positivt resultat ved testen, er rent
faktisk inficerede med HIV-virus?
Hjælp: Kig på eksempel 32, som er meget analog. Identificer de forskellige hændelser
og giv dem navne. Du kan for eksempel lade T være hændelsen: Testen viser positiv og
S være hændelsen: Blodportionen indeholder HIV-virus. Da haves P (T S ) = 0,99 , etc.
Hvilke sandsynligheder er det, der spørges efter i a), b) og c)? Du skal anvende både
formlen for den totale sandsynlighed (Sætning 27) og Bayes' formel (Sætning 28).
Opgave 4.6
Ifølge hjemmesiden www.lunge.dk er der i Danmark 17% af dem over 15 år, som ryger.
Her kan man også se, at 85% af alle lungekræfttilfældene i Danmark skyldes rygning.
En bestemt person (over 15 år) har fået konstateret lungekræft. Hvad er sandsynligheden for, at det skyldes rygning?
72
© Erik Vestergaard – www.matematiksider.dk
Opgave 4.7 (Arvelighedslære og Hardy-Weinberg-loven)
Når en mand og en kvinde får et barn, overfører de som bekendt et udvalg af deres arveanlæg til barnet. Af hensyn til matematikken i denne opgave er det nødvendigt at forstå
processen i grove træk. Hver almindelig celle i kroppen indeholder (normalt) 23 kromosompar, altså i alt 46 kromosomer. Hvert kromosompar bærer de samme gener på det
samme sted (locus) på kromosomerne. På figuren på næste side er således afbildet genet
for øjenfarve. Hvert gen kan imidlertid have forskellige former, kaldet alleller. På figuren har genet i det ene kromosom en allel for blå øjne, mens det andet har en allel for
brune øjne. Meiosen er den proces, som fører til dannelsen af kønsceller. Den proces er
afbildet på figuren, dog i en simplificeret udgave. Først sker en fordobling af
kromosomerne, herefter en indviklet proces, som ender ud med, at man har fire kønsceller (gameter). Gameterne er karakteristiske ved, at de hver især kun har 23 kromosomer
– der er nu ingen par! Hos kvinden går 3 ud af de fire gameter til grunde og bliver til såkaldte pollegemer. Denne proces er ikke afbildet på figuren. Det er tilfældigt hvilken
gamet, som fører til et modent æg. Rent matematisk vil det altså svare til på tilfældig vis
at vælge en af de fire gameter. Når en sædcelle (gamet fra manden) finder en ægcelle
(gamet fra kvinden), så kan man regne med, at det sker på tilfældig måde. På figuren
udvælges altså indirekte én af de fire sædceller og i praksis én af de fire kvindelige
gameter, og de har samme sandsynlighed for at blive valgt! Tilsammen vil den valgte
sædcelle og den valgte ægcelle danne en ny celle, kaldet en zygote, som er byggestenen
til alle celler i barnet. Det skal lige tilføjes, at +… på figuren hentyder til at der i cellen
er 22 andre objekter (kromosompar/kromosomer).
På figuren ser vi, at manden har genotype Bb for
øjenfarve, mens kvinden har genotypen bb. Her
står b for allellen blå øjne, mens B står for allellen brune øjne. Det betyder, at manden kommer
med 4 kønsceller med allellerne B, b, B, b, mens
kvinden kommer med b, b, b, b. At der er dobbelt så mange af hver allel ændrer intet ved
sandsynlighederne, så vi vil i det følgende blot
sige, at manden kommer med B, b, mens kvinden kommer med b, b. Mulighederne for hvilket
par af alleller barnet kan få, fremgår af figuren
på næste side.
Hardy-Weinberg loven
Lad os nu betragte situationen med genotyper på et overordnet plan, dvs. på populations-niveau. Hardy-Weinberg loven siger, at frekvenserne for en allel er konstante i en
population under nogle antagelser. Der vil altså under nogle forudsætninger automatisk
opstå en "ligevægt" i en population. Loven betyder, at man kan udregne frekvensfordelingen af genotyper i populationen. Lad os sige, at et gen har to mulige alleller, B og b,
som ovenfor. Vi kalder frekvensen af B for p og frekvensen af b for q.
73
© Erik Vestergaard – www.matematiksider.dk
Kopiering af kromosomer
gen for øjenfarve
b
B
kroma!der
b
b
B
B
Her to forskellige
udgaver af samme gen
kromosom
kromosom
kromosom
kromosom
B
+...
B
+...
b
b
B
b B
B
+...
+...
b
+...
Celle fra manden
b
+...
Meiose
sædceller (gameter)
+...
b
+...
b
+...
b
b
+...
b b
B
ægceller (gameter)
(Simplificeret)
b
b
b
+...
b
+...
Celle fra kvinden
b
+...
Zygote, hvorfra
barnet udvikles
74
© Erik Vestergaard – www.matematiksider.dk
Genotyperne BB og bb kaldes homozygote, mens genotypen Bb kaldes heterozygot. For
en heterozygot genotype er der i øvrigt ingen forskel på, om den ene eller den anden
allel kommer fra manden eller kvinden. For nogle geners vedkommende vil en eller
flere alleller være dominante i forhold til de øvrige, som dermed kaldes recessive. En
dominant allel vil komme til udtryk hos personen (fænotypiske udtryk). En dominant allel betegnes normalt med et stort bogstav, mens en recessiv allel betegnes med et lille
bogstav. For genet øjenfarve er allellen for brune øjne således dominerende over allellen
for blå øjne. Det betyder, at hvis bare en af allellerne er for brune øjne, så bliver personens øje brune. Kun i tilfældet med to alleller for blå øjne vil personen få blå øjne.
a) Argumenter for at genotyperne BB, bb og Bb forekommer med frekvenserne henholdsvis p 2 , q2 og 2 pq i populationen, idet du udnytter uafhængigheden mellem
allellerne.
b) I den danske befolkning har 36% brune øjne. Bestem, under antagelse af Hardy
Weinberg "ligevægt", frekvenserne for de to alleller for henholdsvis brune og blå
øje i Danmark, og brug det til at beregne frekvensfordelingen af de tre genotyper
BB, bb og Bb i Danmark.
Hjælp: Udnyt a) samt at p + q = 1 til at opstille en ligning og løs den.
c) Hardy-Weinbergs lov om "ligevægt" i frekvensen af allellerne i populationen har en
række forudsætninger. Søg på Internettet for at finde hvilke.
Det skal nævnes, at munken Gregor Mendel (1822-1884) i tidsrummet fra 1856 til 1863
eksperimenterede med ærteplanter på sit kloster. Her opdagede han på eksperimentel
basis, hvordan planternes arveanlæg blev nedarvet. Han nævnes derfor ofte som arvelighedslærens fader. Senere fandt man ud af, hvad der mere detaljeret sker på celleniveau,
både i mennesker, dyr og planter.
Opgave 4.8* (Genetik: Øjenfarve)
I denne opgave forudsættes det, at læseren er bekendt med den indledende teori om arvelighedslære fra opgave 45. Hermed menes specielt, hvordan genotyper nedarves. Poul
har brune øjne ligesom begge hans forældre. Søsteren Lise har derimod blå øjne.
a) Argumenter for, hvorfor begge forældre nødvendigvis må have genotype Bb.
b) Benyt a) til at vise, at sandsynligheden for at Poul har genotype Bb, er
Hjælp: Eksperimentet kan opfattes som et dobbelteksperiment derved, at der både udtrækkes en allel
fra moderen og en allel fra faderen. Udfaldsrummet har altså fire udfald, som er lige sandsynlige:
U = {( B, B ), ( B, b), (b, B ), ( b, b)} . Indfør dernæst
følgende fire hændelser:
2
3
.
Brune: Bb
Brune: Bb
Mor
Far
Poul
Brune
75
© Erik Vestergaard – www.matematiksider.dk
A1 : Poul har genotype BB
A2 : Poul har genotype Bb
A3 : Poul har genotype bb
C : Poul har brune øjne
Da hændelsen C er givet, er det P ( A2 C ) som skal beregnes. Da vi nemt kan finde
de "omvendte" betingede sandsynligheder, er det oplagt at bruge Bayes' formel.
c) Det oplyses, at Pouls kæreste Ida har blå øjne. Vis at sandsynligheden for at deres
første barn får blå øjne er 13 .
Hjælp: På figuren til højre er indtegnet sandsynligheden for at Poul har genotype Bb, som vi udregnede
i b). På tilsvarende vis udregnes, at sandsynligheden
for at Poul har genotype BB, er 13 . Vi ved altså ikke,
hvilken genotype Poul har, kun at det enten er Bb
eller BB, med sandsynligheder henholdsvis 23 og 13 .
Lav et vejet gennemsnit for at bestemme P( E1 ) , hvor
E1 skal står for hændelsen: "Det første barn har blå
øjne".
Brune:
Bb: !⁄#
BB: $⁄#
Blå: bb
Poul
Ida
Barn 1
d) Det oplyses nu, at det første barn faktisk fik brune øjne. Vis at med den nye information om det første barns øjenfarve, må sandsynligheden for, at det næste barn
også får brune øjne, opgraderes til 43 .
Hjælp: Lad E2 være hændelsen: "Det første barn har
brune øjne". Benyt Bayes' formel til at bestemme den
betingede sandsynlighed P ( A1 E2 ) ved hjælp af de
"omvendte" betingede sandsynligheder m.m. Gør det
samme med P ( A2 E2 ) . Derved har du de opdaterede
sandsynligheder for Pouls genotyper, afspejlende den
nye viden E2 . Med disse værdier kan du gå til figuren nedenfor. Skriv de nye værdier ud for genotype
Bb og BB. Benyt herefter vejet gennemsnit – som i
delspørgsmål c) – til at bestemme sandsynligheden
for at barn nummer 2 også får brune øjne. Du kan
lade F2 være hændelsen: "Barn 2 har brune øjne".
NB! I virkeligheden er øjenfarve ikke så simpelt som
vi gør det til i denne opgave. Faktisk er der flere loci,
som påvirker øjenfarven. Det er fx velkendt at nogle
personers øjenfarve er mere ovre i det grønne eller
grå område.
Brune:
Bb: !⁄#
BB: $⁄#
Blå: bb
Poul
Ida
Barn 1 Brune
Brune:
Bb: opdateret
BB: opdateret
Blå: bb
Ida
Poul
Barn 2
76
© Erik Vestergaard – www.matematiksider.dk
Opgave 4.9 (Variant af Monty Hall problemet)
I [9] omtales adskillige varianter af Monty Hall problemet. Nogle er med flere spillere
og andre med flere døre. Vi skal se på en variant, hvor der stadig er en spiller og tre
døre, men hvor betingelserne for værtens valg ændres en smule:
1) Studieværten åbner altid en dør, som skjuler en ged.
2) Studieværten åbner aldrig den dør, spilleren har valgt.
3) Hvis studieværten kan åbne mere end én dør uden at overtræde de to første regler,
så skal studieværten vælge den med det højeste nummer.
Hjælp: Start med at bestemme de betingede sandsynligheder, som har ændret sig en
smule i forhold til det klassiske Monty Hall problem. Brug derefter Bayes' formel. Du
kan naturligvis også vælge at lave et hændelsestræ.
Opgave 4.10 (Fangens fejlslutning)
Det er blevet annonceret, at to ud af fire
bestemte fanger i et fængsel skal løslades
før tid. En af de fire involverede fanger har
selv regnet ud, at han har en sandsynlighed
på 12 for at blive løsladt. Han er ven med
fængselsvagten og overvejer at spørge vagten om navnet på én af de andre tre, som
skal løslades. Men han tøver ud fra følgende overvejelser: Når vagten har fortalt mig
navnet på en af de andre tre medfanger, så
er der kun de andre to og mig selv tilbage.
Altså vil min sandsynlighed for at blive løsladt dale fra 12 til 13 . Påvis ved at indføre
passende hændelser, at fangen er forkert på den, og at han stadig har en sandsynlighed
på 12 for at blive løsladt, selv efter vagten nævner navnet på en af de andre tre.
Opgave 4.11
En undersøgelse viser ifølge hjemmesiden www.lunge.dk, at der i 2013 var 17% af danskerne over 15 år, som var rygere – lejlighedsrygere fraregnet. Skadevirkningen af rygning afhænger både af alder og af, hvor mange cigaretter, man ryger om dagen. Som et
godt middeltal kan man dog sige, at en ryger har 23 gange så stor sandsynlighed for at
udvikle lungekræft end en ikke-ryger. Vi tillader os at sidestille det med at af de personer, der har lungekræft, er der 23 gange så mange, som er rygere, som der er ikke rygere. Hvad er sandsynligheden for at en tilfældig valgt dansker med lungekræft er ryger?
Hjælp: Indfør for eksempel hændelserne: L : Personen har lungekræft og R : Personen er
c
ryger. Argumenter for at P( L R ) = 23 ⋅ P( L R ) . Benyt derefter Bayes' formel.
© Erik Vestergaard – www.matematiksider.dk
77
Opgave 5.1
Antag at man har fået beregnet a posteriori odds i sætning 34 til værdien p. Vis da, at
man får den a posteriori sandsynlighed ved P ( H E ) = p (1 + p ) .
Hjælp: Kald for eksempel P ( H E ) for x. Vis, at så må x (1 − x ) = p og løs ligningen.
Opgave 6.1 (Anklagerens fejlslutning – Sally Clark sagen)
Den britiske kvinde Sally Clark blev i 1999 fundet skyldig i at have myrdet begge hendes to børn, der begge døde pludseligt nogle få uger efter deres fødsel. Sagen byggede
på statistisk evidens. Det kom også frem, at Clark havde lidt af fødselsdepression efter
det første barns fødsel, men var kommet sig ved det andet barns fødsel. Børnelægen Sir
Roy Meadow forklarede i retten, at chancen for at to børn fra en velstående ikke-rygende familie skulle lide vuggedøden er 1 ud af 73 millioner. Han var nået frem til dette tal
ved at kvadrere tallet 1/8543, som blev angivet som sandsynligheden for at ét barn skulle lide vuggedøden.
a) Antag et øjeblik at sandsynligheden for at ét barn lider vuggedøden er 1/8543. Hvad
er betingelsen for, at man kan bestemme sandsynligheden for at begge børn lider
vuggedøden ved at opløfte 1/8543 til 2. potens? (Der er i øvrigt meget der tyder på,
at denne betingelse ikke er opfyldt!)
Mange aviser fremstillede sandsynligheden 1/73000000 som værende sandsynligheden
for at Sally Clark var uskyldig.
b) Redegør for hvorfor aviserne begår anklagerens fejlslutning.
Senere kom det frem, at hendes anden søn ikke havde lidt vuggedøden, men var død af
en stafylokok infektion. En oplysning, som forsvaret ikke havde modtaget. Sagen blev
genoptaget og i 2003 blev Sally Clark frikendt og løsladt. Misseren fik det britiske
retsvæsen til at undersøge flere hundrede gamle sager, hvilket førte til at to andre kvinder, der tidligere var dømt for at have myrdet deres børn, blev løsladt fra fængslet.
Opgave 6.2 (Bayes' faktoren – betydningen af øjenvidner)
I et Mecklenburg studie fra 2006 fandt man
at træfsandsynligheden, når øjenvidner skulle identificere en mistænkt i et line-up, var
60%, mens sandsynligheden for falsk alarm
var 3%. Betragt hændelserne:
H : Personen har begået udåden
E : Personen er genkendt ved opstilling foran øjenvidner
78
© Erik Vestergaard – www.matematiksider.dk
a) Bestem Bayes' faktoren for øjenvidneidentifikation, dvs.
P( E H )
c
.
P( E H )
b) Giv en sproglig fortolkning af denne faktor: Hvad kan man sige om a posteriori
odds i forhold til a priori odds?
Antag at a priori odds er 10%, dvs. at P( H ) P( H c ) = 0,10 .
c) Benyt Bayes' formel på odds form fra sætning 34 til at bestemme a posteriori odds
for øjenvidnegenkendelse ved et line-up.
d) Beregn a priori sandsynligheden P ( H ) og a posteriori sandsynligheden P ( H E ) .
Hjælp: Se pointen i opgave 5.0.
Opgave 6.3
Betragt eksempel 40 i afsnit 6. Retsmedicineren havde opgivet sandsynligheden for et
DNA match givet uskyld til at være 1 ud af 200 mio. Forsvareren Mr. Thwaites udfordrede disse tal, idet han mente, at de nærmere skulle drosles ned til enten 1 ud af 20 mio.
eller 1 ud af 2 mio. Benyt samme metode som vist i eksempel 40 til med de to reviderede DNA-sandsandsynligheder at bestemme de tilhørende sandsynligheder for uskyld,
altså P ( H E1, E2 , E3 , E DNA ) .
Opgave 6.4
En person er tiltalt for et mord. Betragt følgende hypoteser:
Hp : Tiltalte er skyldig i mordet
Hd : Tiltalte var ikke på gerningsstedet
Argumenter for, hvorfor disse to hændelser hverken behøver udgøre hele udfaldsrummet tilsammen eller ikke have noget overlap - altså at hændelserne ikke behøver udgøre
en klassedeling af udfaldsrummet.
Opgave 6.5
Vi skal undersøge eksemplet med forsvarerens fejlslutning (Defendant's fallacy) fra
afsnit 6 lidt nøjere. Vi gentager hændelserne:
E1 : Konen er myrdet
E2 : Ægtemanden har været voldelig overfor sin kone igennem længere tid
H : Ægtemanden har myrdet sin kone
Vi gør følgende antagelser:
•
•
•
1 ud af 10 mænd er voldelige overfor deres kone.
1 ud af 5 af de kvinder, som er myrdet, er myrdet af deres mand
50% af de ægtemænd, som har myrdet deres kone, har også været voldelig
overfor konen igennem længere tid.
79
© Erik Vestergaard – www.matematiksider.dk
Vi skal betragte et udtryk for sandsynligheden for at ægtemanden har begået mordet,
givet alle beviser. Det fås ved først at bruge Bayes' formel til at finde et udtryk for den
betingede sandsynlighed P ( H E2 ) og derefter tilføje den ekstra betingelse E1 i hver
sandsynlighed, som figurerer på højre og venstre side i formlen. Det kan vises at være
lovligt rent matematisk. Man får:
P ( H E2 , E1 ) =
P ( E2 H , E1 ) ⋅ P ( H E1 )
P ( E2 H , E1 ) ⋅ P ( H E1 ) + P( E2 H c , E1 ) ⋅ P( H c E1 )
a) Benyt antagelserne ovenfor til at identificere de enkelte sandsynligheder i formlen
ovenfor. Husk i den forbindelse at P( H c E1 ) = 1 − P( H E1 ) . Vis at det giver en
sandsynlighed på knap 56%.
b) Hvad er sandsynligheden for ægtemandens skyld, hvis vi ser bort fra oplysningen
om, at han er voldelig overfor sin kone, altså hvor stor er P ( H E1 ) ?
Opgave 6.6 (DMP – Database Match Probability)
I afsnit 6 kiggede vi på sandsynligheden for i en database med DNA-profiler at finde mindst ét DNA-match.
Vi arbejdede med en RMP (Random
1
Match Probability) på p = 705000000
.
Af vores analyse side 37 fremgår det
umiddelbart, at hvis der er x DNAprofiler i databasen, så er sandsynligheden for at finde mindst ét match givet ved f ( x ) = 1 − (1 − p ) x .
a) Benyt et CAS-værktøj til for ovenstående værdi af p at tegne grafen for funktionen
f. Lad definitionsmængden være fra 0 til 3 mia. Får du samme resultat som grafen
på side 38? Det skulle du gerne.
b) Hvor stor skal databasen være, for at der er 10% sandsynlighed for at finde mindst
ét DNA-match i databasen?
På grafen side 38 ser vi, at grafen ser meget lineær ud det første stykke. Det kan give os
en formodning om at vi kan vise en approksimativ lovmæssighed for sandsynligheden
for mindst ét DNA-match i en database med x DNA-profiler, når x ikke er for stor. I det
følgende må du gerne benytte CAS-værktøj.
c) Benyt differentialregning til at vise at ligningen for tangenten til grafen for f i punktet x = 0 er givet ved udtrykket L( x ) = − ln(1 − p ) ⋅ x , hvor p er RMP.
 − ln(1 − p ) 
d) Vis at lim 
 = 1.
p→∞
p


80
© Erik Vestergaard – www.matematiksider.dk
e) Benyt c) og d) til at konkludere, at for små værdier af p (som i praksis altid er
opfyldt) og ikke for store værdier af x, gælder følgende: f ( x ) ≈ p ⋅ x .
Bemærk at p ⋅ x netop er den såkaldte Database Match Probability, forkortet DMP. Vi
har dermed givet en begrundelse for det rimelige i at bruge denne størrelse.
Opgave 7.1
Lad A, B og C være hændelser i et endeligt sandsynlighedsfelt og antag at P( B, C ) ≠ 0 .
Vis at der da gælder følgende formel:
P( A, B, C )
P ( A B, C ) =
P ( B, C )
Opgave 7.2 (Simpsons paradoks – UC Berkeley)
Et autentisk eksempel på Simpsons paradoks hændte, da det berømte amerikanske University of California Berkeley i 1973 blev sagsøgt for at forfordele kvinder ved optagelse på videregående uddannelser. Tallene viste at mandlige studerende havde nemmere
ved at blive optaget, og forskellen kunne ikke tilskrives tilfældigheder, mente man. Antallet af studerende, som blev optaget og ikke optaget fordelt på køn er angivet i tabellen
nedenfor – for de seks største faggrupper.
UC Berkeley Optagelses data for de seks største fag
Fagområde
A
B
C
D
E
F
Mandlige studerende
Optaget
Ikke optaget
512
313
353
207
120
205
138
279
53
138
22
351
Kvindelige studerende
Optaget
Ikke optaget
89
19
17
8
202
391
131
244
94
299
24
317
a) Bestem optagelsesprocenterne for hvert køn og for hver faggruppe. Udregn desuden
optagelsesprocenterne for de to køn, når alle faggrupper lægges sammen i en pulje.
b) Man kunne foretage en masse statistiske analyser, men du skal blot kigge på tallene
for hver faggruppe for at vurdere, om du mener, at kvinderne er blevet forfordelt.
Hvad med procenterne i tilfældet, hvor alle faggrupper er slået sammen? Hvori består Simpsons paradoks i denne situation? Prøv at formulere det.
c) Forsøg at give en forklaring på, hvorfor procenterne i b) tilsyneladende vi giver et
meget forskelligt billede alt efter om man betragter dem fagruppevist eller totalt.
Hjælp: Eftersom det i Californien er ulovligt at offentliggøre meget specifik statistik om optagelser på universiteterne, er faggrupperne kun angivet med store bogstaver: A, B, …, F. Du kan måske gætte lidt på, hvilke faggrupper de forskellige
bogstaver kan stå for, når man tænker på forskelle i køn …
81
© Erik Vestergaard – www.matematiksider.dk
Opgave 9.1 (Bayes' formel på odds form, når der er flere beviser)
Lad der være givet tre "beviser" E1 , E2 og E3 samt en hypotese H. Vi ønsker at undersøge hvad der sker med a priori odds for H, når der tages hensyn til de tre beviser.
a) Vis at man kan udregne a posteriori odds ved at multiplicere med Bayes-faktorer,
som vist i denne formel:
P( H E1 , E2 , E3 )
P( E3 E2 , E1 , H ) P( E2 E1 , H )
P( E1 H )
P( H )
=
⋅
⋅
⋅
c
c
c
c
P( H E1 , E2 , E3 )
P( H c )
P( E3 E2 , E1 , H ) P( E2 E1 , H ) P( E1 H ) a posteriori odds
Bayes-faktor for E3
Bayes-faktor for E2
Bayes-faktor for E1 a priori odds
b) Vis at hvis beviserne er betinget uafhængige med hypotesen H, så reducerer udtrykket i a) til følgende udtryk:
P( H E1 , E2 , E3 )
P( E3 H ) P( E2 H ) P( E1 H ) P( H )
=
⋅
⋅
⋅
c
c
c
c
c
P( H E1 , E2 , E3 )
P( E3 H ) P( E2 H ) P( E1 H ) P( H )
Man kan altså under disse forudsætninger få a posteriori odds ved at starte med a
priori odds og multiplicere med Bayes-faktoren for hvert enkelt bevis (givet H) et
efter et!
Hjælp: a) Benyt Bayes' formel på odds form fra sætning 34 samt kædereglen. b) Tag udgangspunkt i formlen i a) og udnyt den betingede uafhængighed. Husk i øvrigt at når
man skriver komma imellem hændelser, så underforstås fællesmængde! Således betyder
P ( H E1, E2 , E3 ) det samme som P ( H E1 ∩ E2 ∩ E3 ) .
Opgave 10.1
Betragt det Bayesianske netværk "For sent til arbejde" fra afsnit 10.
a) Benyt teknikken i (37) til at vise, at den marginale sandsynlighedsfordeling for C er
givet ved følgende udtryk (ingen reduktioner er mulige her):
P (C ) =
∑
P (C A, N ) ⋅ P( A M ) ⋅ P ( N M , O ) ⋅ P( M ) ⋅ P(O )
A, N , M ,O
b) Vis på analog vis, at den marginale sandsynlighedsfordeling for A er givet ved følgende udtryk, hvor reduktioner via sætning 29 er mulige:
P( A) =
∑ P( A M ) ⋅ P( M )
M
c) Hvad er sandsynligheden for at Anna kommer for sent på arbejde? Hjælp: Se (38).
d) Hvad er sandsynligheden for at Niels slipper for en reprimande?
82
© Erik Vestergaard – www.matematiksider.dk
Opgave 10.2
Betragt det Bayesianske netværk "For sent til arbejde" fra afsnit 10.
a) Brug teknikken anvist i afsnit 10 til at vise, at den opdaterede marginale sandsynlighed for C givet informationen A = True er givet ved følgende udtryk:
P (C A = True)
=
1
⋅ ∑ P (C A = True, N ) ⋅ P ( A = True M ) ⋅ P ( N M , O ) ⋅ P ( M ) ⋅ P (O )
P ( A = True) N ,O ,M
b) Indsæt C = False på C 's plads i udtrykket under a) og udskriv eksplicit hvert led i
summen á la det vi gjorde i (41). Udregn til slut P (C = False A = True) , altså sandsynligheden for at Niels ikke får en reprimande af chefen, givet at Anna kommer
for sent – ved at indsætte værdierne fra knudepunktstabellerne. Svaret er 57,1%.
Opgave 10.3
I eksempel 50 i afsnit 7 kiggede vi på en situation, hvor Anders, Lise og Ulla overvejede at deltage i byfesten i deres hjemby. Situatuationen kan beskrives i rammerne af et
Bayesiansk netværk. Vi har de stokastiske variable A, L og U. Variablen A kan antage
værdierne True og False, alt efter om Anders detager i byfesten eller ej. Tilsvarende
med de to øvrige personer.
Anders deltager (A)
Anders deltager
0.50
False
True
0.50
Lise deltager (L)
Lise deltager
Anders deltager
False
True
Ulla deltager (U)
Ulla deltager
False
0.75
0.25
True
0.00
1.00
Lise deltager
False
True
False
1.00
0.00
True
0.10
0.90
a) Benyt teknikken fra afsnit 10 til at bestemme de marginale sandsynligheder for de
stokastiske variable A, L og U.
b) Dagen efter fortalte Ulla, at hun var til byfesten. Hvad er sandsynligheden for at
Anders også deltog? Hjælp: Bestem et udtryk for den marginale sandsynlighed for
A givet informationen U = True , altså bestem et udtryk for P ( A U = True ) og indsæt derefter A = True på A 's plads, og indsæt de relevante sandsynligheder fra
knudepunktstabellen.
83
© Erik Vestergaard – www.matematiksider.dk
Opgave 11.1
I stil med det sidste simple eksempel i afsnit 11 skal du i AgenaRisk lave et Bayesiansk
netværk med to knuder og en kant imellem, så det afspejler situationen i anklagerens
fejlslutning side 28-29:
Personen
var ikke på
gerningsstedet
(H)
Personen var ikke på gerningsstedet
0.0002
False
True
0.9998
Blodtype match
(E)
Anklagedes blodtype matcher blod fra gerningssted
True
Personen var ikke på gerningsstedet False
0.00
0.99
False
True
1.00
0.01
Prøv at tilføje evidensen True til knuden E, svarende til at man har registreret blodtype
match mellem anklagede og blodet på gerningsstedet. Får du samme resultat som på
side 29?
Opgave 11.2
I denne opgave skal vi betragte en situation, hvor der ikke blot foretages én test for sygdom som i afsnit 11, men hele to! Vi antager, at begge tests har samme betingede sandsynligheder. Desuden antager vi, at de to tests er betinget afhængige, dvs. knuderne skal
ikke forbindes med en kant!
Personen har
sygdommen (S)
Personen har sygdommen
0.999
False
True
0.001
Test 1 viser positiv
Personen har sygdommen
False
True
Testen viser
positiv (T1)
Testen viser
positiv (T2)
False
0.98
0.02
True
0.05
0.95
False
0.98
0.02
True
0.05
0.95
Test 2 viser positiv
Personen har sygdommen
False
True
a) Hvad er sandsynligheden for at have sygdommen, hvis begge tests viser positiv?
Hjælp: Tilføj evidensen True til både T1 og T2.
b) Hvad er sandsynligheden for at have sygdommen, hvis den første test viser positiv
og den anden negativ?
84
© Erik Vestergaard – www.matematiksider.dk
Opgave 11.3
Ved DNA-beviser er der en særlig problematik, hvis to nært beslægtede personer er
mistænkte i en kriminalsag. DNA profiler hos nære slægtninge er nemlig meget ens. I
det følgende betragter vi en situation, hvor en person er tiltalt og DNA materiale fundet
på gerningsstedet matcher personens DNA. Kriminalpolitiet opdager nu, at tiltaltes
broder også kan have været på gerningsstedet. Spørgsmålet er, hvilken indflydelse det
har på om tiltalte er skyldig? Vores BN med knudepunktstabeller er afbildet nedenfor. I
sidste tabel aflæses for eksempel, at hvis tiltalte er uskyldig og den nære slægtning var
på gerningsstedet, så er der 99,9% sandsynlighed for, at tiltalte er uskyldig.
Nær
slægtning var på
gerningsstedet?
(G)
Tiltalte er
skyldig? (S1)
Nær
slægtning er
skyldig?
(S2)
Der er DNA
match?
(D)
Tiltalte er skyldig?
0.9999
False
True
0.0001
Nær slægtning var på gerningsstedet?
0.9999
False
True
0.0001
Nær slægtning er skyldig?
Tiltalte er skyldig
Nær slægtning var på gern...
False
True
True
False
True
0.50
0.50
False
1.00
0.00
False
Tiltalte er skyldig
Nær slægtning var på gern... False
True
False
0.999999 0.999
True
0.000001 0.001
False
0.00
1.00
False
1.00
0.00
True
1.00
0.00
Der er DNA match?
True
True
0.00
1.00
a) Hvad er sandsynligheden for at tiltalte er skyldig, hvis der er DNA-match? Hjælp:
Tilføj evidensen True til knuden D.
b) Hvad er sandsynligheden for at tiltalte er skyldig, hvis vi tillige får at vide at den
nære slægtning var på gerningsstedet?
© Erik Vestergaard – www.matematiksider.dk
85
Litteratur
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
Norman Fenton, Martin Neil. Risk Assessment and Decision Analysis with Bayesian Networks. CRC Press, 2013.
James V. Stone. Bayes' Rule - A Tutorial Introduction to Bayesian Analysis. Septel Press. First Edition, 2013.
Ole Groth Jørsboe. Sandsynlighedsregning. Matematisk Institut, Danmarks
Tekniske Universitet, 1995.
Richard J. Larsen, Morris L. Marx. An Introduction to Mathematical Statistics
and its Applications. 5th Edition. Prentice Hall, 2012.
Lester L. Helms. Probability Theory – With Contemporary Applications. W. H.
Freeman and Company, 1996.
Dimitri P. Bertsekas, John N. Tsitsiklis. Introduction to Probability. Athena
Scientific, 2002.
Stephen M. Stigler. The History of Statistics - The Measurement of Uncertainty
before 1900. The Belknap Press of Harvard University Press, 1986.
Roger Hahn. Pierre Simon Laplace 1749-1827 - A Determined Scientist. Harvard
University Press, 2005.
Stephen Lucas, Jason Rosenhouse, Andrew Schepler. The Monty Hall Problem,
Reconsidered. Mathematics Magazine, Vol 82, No. 5, Dec. 2009, side 332-342.
A. P. Dawid. Bayes's Theorem And Weighing Evidence by Juries. University College London, 2001 (pdf).
Norman Fenton, Daniel Berger, David Lagnado, Martin Neil, Anne Tsu. When
'neutral' evidence still has probative value (with implications from the Barry
Georg Case). Science and Justice, Vol 54, 2014, page 274-287.
J. Pete Blair, D. Kim Rossmo. Evidence in Context: Bayes' Theorem and Investigations. Police Quarterly, Vol. 13, 2, 2010, page 123-135.
Michael Lynch, Ruth McNally. "Science", "common sense" and DNA evidence: a
legal controversy about the public understanding of science. Public Understanding of Science, 2009.
Ian W. Evett, Bruce S. Weir. Interpreting DNA Evidence – Statistical Genetics for
Forensics Scientists. Sinaur Associates Inc., U.S., 1998.
Jonathan J. Koehler. Error and Exaggeration in the Presentation of DNA Evidence at Trial. Jurimetrics Journal 34, 1993, page 21-39.
Joseph K. Blitzstein, Jessica Hwang. Introduction to Probability. CRC Press
(Chapman & Hall), 2015.
Keith Devlin, Gary Lordon. The Numbers Behind NUMB3RS – Solving Crime
with Mathematics. Plume Books, 2007.
David J. Balding. Christopher D. Steele. Weight-of-Evidence for Forensics DNA
Profiles. Second Edition, John Wiley & Sons, 2015.
Steffen L. Lauritzen, David J. Spiegelhalter. Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems. Journal of
the Royal Statistical Society, Series B (Methodological), Vol. 50, No. 2 (1988),
pp. 157-224.
86
© Erik Vestergaard – www.matematiksider.dk
Links
Legal Cases involving Bayes (Siden er baseret på offentliggjorte rapporter og personlige
erfaringer. Den indeholder en lang liste med retssager, hvor der har foregået diskussioner af sandsynlighedsmæssig art).
R. v. Denis John Adams (Transskription af appelsagen mod Denis John Adams).
Communicating and Interpreting Statistical Evidence in the Administration of Criminal
Justice (Vejledning til dommere, advokater, kriminaltekniske videnskabsfolk og ekspertvidner – ved Colin Aitken, Paul Roberts, Graham Jackson).
Avoiding Probabilistic Reasoning Fallacies in Legal Practice using Bayesian Networks
(Et udkast til en senere artikel i Australian Journal of Legal Philosophy, af Norman
Fenton og Martin Neil. Mange fine pointer).
Flere gode noter fra siden www.agenarisk.com af Norman Fenton og Martin Neil:
•
•
•
The use of Bayes and causal modelling in decision making, uncertainty and
risk (Om Bayes formel og Bayesianske netværk - ved Norman Fenton og
Martin Neil).
Making Sense of Probability: Fallacies, Myths and Puzzles (Hjemmeside
med en liste over fejlslutninger, myter og gåder ved Norman Fenton).
The “Jury Observation Fallacy” and the use of Bayesian Networks to present Probabilistic Legal Arguments (Med et Bayesiansk netværk demonstreres overraskende effekter, under kendskab til tidligere lignende domfældelser af den anklagede).
Math on Trial
http://www.medicine.mcgill.ca/epidemiology/hanley/tmp/CandHch0102/Math%20on%20Trial.pdf
AgenaRisk (Det britiske firma, som leverer BN løsninger. Ledet af Norman Fenton og
Martin Neil).
HUGIN Expert A/S (Det første firma i verden, som udnyttede Bayesianske netværk
kommercielt. Har udgangspunkt i Aalborg).