Lektion 4 - Matematikcentrum

Transcription

Lektion 4 - Matematikcentrum
LUNDS
UNIVERSITET,
M ATEMATIKCENTRUM ,
M ATEMATISK
STATISTIK
B IOSTATISTISK GRUNDKURS , MASB11, VT-15, VT2
Ö VNING 4, 2015-04-10 OCH INF ÖR Ö VNING 5
Lektionens mål: Du ska
• kunna tolka figurer av täthetsfunktion, f (x) och fördelningsfunktion, F (x), för en kontinuerlig slumpvariabel
• vara väl bekant med normalfördelningen: tolka μ och σ, beräkna sannolikheter och kvantiler
• kunna bestämma fördelningen för linjärkombinationer av oberoende normalfördelade s.v.
1 När en slumpvariabel X är kontinuerlig, d.v.s. kan anta oändligt många värden, är det inte meningsfullt att använda begreppet sannolikhetsfunktion. Variationen måste beskrivas med en funktion —
den s.k. täthetsfunktionen f (x). Läs om den, och den tillhörande fördelningsfunktionen, på s. 87–
89. Observera hur beräkning av sannolikheter kan illustreras i figurer.
Gör uppgift 78(a)-(c) i studiematerialet samt Dig4 och Dig5 på bifogade blad.
2 Den i särklass viktigaste kontinuerliga standardfördelningen är normalfördelningen, läs om den på
s. 91–95. Tyvärr finns det två sätt att kodbeteckna en normalfördelning, antingen, som i kursboken,
N (μ, σ2 ) eller N (μ, σ) som i studiematerialet och i de ”digitala uppgifterna” (och i de flesta andra
svenska kursböcker). Om det t.ex. står N (7, 9) gäller det alltså att hålla rätt på om det betyder att
σ = 3 eller σ = 9.
Gör uppgifterna Dig9 och Dig15 på bifogade blad.
3 Normalfördelningen N (0, 1), med μ = 0 och σ = 1 kallas den standardiserade normalfördelningen. För att räkna sannolikheter i denna fördelning kan man utnyttja tabell, se tabell
4 i boken.
Gör uppgift 112 i studiematerialet.
4 I varje kontinuerlig fördelning kan man definiera kvantiler — läs om dem på s. 97. För normalfördelningen betecknas kvantilen z1−α och är den punkt på x-axeln som understigs av 100 ·
(1 − α) % av fördelningen. För att finna kvantilerna ska man alltså gå ”bakvägen” i tabellen över
fördelningsfunktionen.
Gör uppgift 113.
5 När man ska beräkna sannolikheter i en generell normalfördelning N (μ, σ2 ) är ett alternativ att
först standardisera den, d.v.s. överföra den till en N (0, 1) innan man kan avläsa värdet i tabell.
Observera också att för alla värden på μ och σ gäller att:
• ungefär 68 % av en normalfördelning ligger inom μ ± σ
• ungefär 95 % av en normalfördelning ligger inom μ ± 2 · σ
• ungefär 99.5 % av en normalfördelning ligger inom μ ± 3 · σ
Man kan förstås också beräkna sannolikheter i normalfördelningen genom att använda dator eller
en ”avancerad” räknare. Även om du väljer räknare är det nödvändigt för senare delen av kursen att
du känner till begreppet standardisering och vet vad det innebär.
Gör uppgift 116 (vikt hos 10-åringar) och uppgift 121 (nyfödda barn) i studiematerialet.
Biostatistisk grundkurs, VT-15, VT2
2
6 En av orsakerna till att normalfördelningen är så användbar som matematisk modell är att
summor av normalfördelade slumpvariabler också är normalfördelade. Hur väntevärdet och
variansen i summan ska beräknas finns beskrivet i avsnitt 4.5. Tabell 4.3 ger en sammanfattning av sambanden — speciellt viktiga är resultaten för medelvärdet, d.v.s. tabellens sista
rad.
Gör uppgift Dig17, Dig18 samt uppgift 130.
Om du vill träna mer på detta avsnitt eller när du repeterar är följande uppgifter lämpliga
att titta på: 118, 119 och 136 i studiematerialet samt Dig19 på bifogade blad.
Inför Övning 5 (2015-04-15):
Aktuella avsnitt i boken är 4.5 och 5.
A
Repetera avsnitt 4.5 och notera speciellt att väntevärdet för ett medelvärde
1X
Xi är μ
n
medan variansen är σ2 /n.
B Läs avsnitt 5.1 noga — det är viktigt för förståelsen av kursens statistikdel.
C Avsnitt 5.2 är ett specialfall av centrala gränsvärdessatsen som berättas om i punkt 3 på s. 114.
Läs igenom 5.2, avsnitt 5.2.2 kan du dock läsa kursivt.
Biostatistisk grundkurs, VT-15, VT2
3
DIGITALA UPPGIFTER, kontinuerliga fördelningar, normalfördelningen
1. Vilka av figurerna visar en fördelningsfunktion F och vilka en täthetsfunktion f ?
FIGUR A
FIGUR B
1
1
0.5
0.5
0
0
2
4
6
0
0
2
FIGUR C
1
1
0.5
0.5
0
0
2
4
6
0
0
2
FIGUR E
1
0.5
0.5
0
2
6
4
6
4
6
FIGUR F
1
0
4
FIGUR D
4
6
0
0
2
2. I figuren ovan visas tre täthetsfunktioner, f , med respektive fördelningsfunktion, F . Para ihop
de tre täthetsfunktionerna med respektive fördelningsfunktion.
3. Avgör vilka påståenden som är korrekta angående täthetsfunktionen, f (x) och fördelningsfunktionen,
F (x), för en kontinuerlig slumpvariabel X .
Rx
(a) F (x) = −∞ f (t)dt
(b) 0 ≤ F (x) ≤ 1
(c) 0 ≤ f (x) ≤ 1
(d) F (x) är den primitiva funktionen till f (x)
(e) P(X = x) = f (x)
4. En slumpvariabel X har täthetsfunktion f (x) (bilden nedan) och fördelningsfunktion F (x).
Ange hur arean till höger om linjen kan betecknas.
(a) P(X ≤ 4)
(b) P(X ≥ 4)
(c) P(X > 4)
(d) 1 − F (4)
(e) F (4)
(f ) F (∞) − F (4)
Biostatistisk grundkurs, VT-15, VT2
4
Täthetsfunktion, f(x)
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−2
0
2
4
6
8
10
5. Bilden visar fördelningsfunktionen, F (x), för den stokastiska variabeln X . Vad är
(a) P(X ≤ 5)
(b) P(X > 5)
(c) P(X < 5)
(d) P(3 < X ≤ 5)
(e) P(3 ≤ X ≤ 5)
Fördelningsfunktion, F(x)
1
0.9
0.8
F(3)=0.31
0.7
F(5)=0.93
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
6. Bilden visar täthetsfunktionen, f (x), för den stokastiska variabeln X och siffrorna i figuren
motsvarar arean för området. Låt motsvarande fördelningsfunktion betecknas F(x). Vad är
(a) P(X ≤ 3)
(b) P(X > 1)
(c) P(X < 1)
(d) P(X ≥ 3)
(e) P(X = 3)
(f ) F (3)
Biostatistisk grundkurs, VT-15, VT2
5
(g) F (3) − F (1)
Täthetsfunktion, f(x)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.49
0
0
0.38
1
2
0.13
3
4
5
6
7
7. Figurerna visar täthetsfunktion och fördelningsfunktion för tre standardfördelningar. Para
ihop rätt figurer med respektive fördelning
• exponentialfördelning
• normalfördelning
• rektangelfördelning (likformig fördelning)
FIGUR A
FIGUR B
1
1
0.5
0.5
0
0
2
4
6
0
0
2
FIGUR C
1
1
0.5
0.5
0
0
2
4
6
0
0
2
FIGUR E
1
0.5
0.5
0
2
6
4
6
4
6
FIGUR F
1
0
4
FIGUR D
4
6
0
0
2
8. Bilderna visar täthetsfunktionen, f (x), och fördelningsfunktionen, F (x), för en exponentialfördelning där f (x) = λe−λx .
(a) Ange värdet på λ.
(b) Fördelningsfunktionen F (x) är
i. 1 − e−λx
ii. −e−λx
(c) Beräkna P(X ≥ 4)
(d) För vilket a gäller P(X ≤ a) = 0.95?
Biostatistisk grundkurs, VT-15, VT2
6
Exponentialfördelningen: täthetsfunktion, f(x)
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
Exponentialfördelningen: fördelningsfunktion, F(x)
1
0.8
0.6
0.4
0.2
0
0
5
10
15
9. Figuren visar tre normalfördelningar. Para ihop figurerna med rätt kodbeteckning N(μ, σ).
(a) N(0, 3)
(b) N(5, 1)
(c) N(5, 2)
(d) N(0, 1)
(e) N(10, 2)
(f ) N(10, 5)
FIGUR A
0.4
0.2
0
−4
−3
−2
−1
0
1
2
3
4
12
14
FIGUR B
0.2
0.1
0
−4
−2
0
2
4
6
8
10
FIGUR C
0.1
0.05
0
−10
−5
0
5
10
15
20
25
30
10. Figuren visar fördelningsfunktionen, F (x), för en rektangelfördelning (likformig fördelning).
Biostatistisk grundkurs, VT-15, VT2
7
Rektangelfördelning: fördelningsfunktion, F(x)
1
0.8
0.6
0.4
0.2
0
−1
0
1
2
3
4
5
6
7
(a) Ange a och b.
(b) Vilken av figurerna nedan beskriver motsvarande täthetsfunktion, f (x)?.
FIGUR A
0.3
0.2
0.1
0
−1
0
1
2
3
4
5
6
7
4
5
6
7
4
5
6
7
FIGUR B
0.2
0.1
0
−1
0
1
2
3
FIGUR C
0.2
0.1
0
−1
0
1
2
3
(c) Beräkna P(X > 4)
(d) Beräkna P(0 ≤ X ≤ 3)
11. En tågvärd på Lunds station noterar ofta hur många minuter Öresundståget från Helsingör
till Helsingborg är försenat. När hon plockat bort extrema händelser som t.ex. olyckor och avstängningar p.g.a. snö eller storm kvarstår normalaförseningar. Hon ritar samtliga 2325 noteringar om förseningar i ett histogram och anser att en approximativ modell är att X =försening
är rektangelfördelad (likformigt fördelad) i intervallet 0 till 7 minuter. Nedan visas motsvarande täthetsfunktion (frekvensfunktion), f (x) för denna modell.
Biostatistisk grundkurs, VT-15, VT2
8
täthetsfunktion − f(x)
0.25
0.2
0.15
0.1
0.05
0
−1
0
1
2
3
4
5
6
7
8
9
x−försening
(a) Ange f (x)
(b) Vad är sannolikheten att förseningen överstiger 5 minuter?
(c) Vad är sannolikheten att förseningen är mellan 3 och 4 minuter?
(d) Vad är sannolikheten att förseningen är exakt 3 minuter?
(e) Hur lång är den förväntade förseningen?
12. Bilderna visar en täthetsfunktionerna för en normalfördelad respektive rektangelfördelad stokastisk variabel. Ange väntevärdet i
(a) normalfördelningen
(b) rektangelfördelningen
Normalfördelning
0.8
0.6
0.4
0.2
0
2
3
4
5
6
7
8
9
10
Rektangelfördelning
0.2
0.15
0.1
0.05
0
−3
−2
−1
0
1
2
3
4
5
6
7
13. Bilderna visar täthetsfunktionen, f (x), och fördelningsfunktionen, F (x), för en exponentialfördelning där f (x) = 0.5e−0.5x och F (x) = 1 − e−0.5x .
(a) Ange det värde a där P(X ≥ a) = 0.05
(b) Ange fördelningens 5 % kvantil
(c) Ange fördelningens 95 % percentil
(d) Ange fördelningens median
(e) Beräkna (eller slå upp) fördelningens väntevärde
Biostatistisk grundkurs, VT-15, VT2
9
(f ) Beräkna (eller slå upp) fördelningens standardavvikelse
Exponentialfördelningen: täthetsfunktion, f(x)
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
Exponentialfördelningen: fördelningsfunktion, F(x)
1
0.8
0.6
0.4
0.2
0
0
5
10
15
14. Bilden visar fördelningsfunktionen, F (x), för en rektangelfördelning där F (x) = 0.25(x − 1)
då 1 ≤ x ≤ 5.
(a) Ange det värde a där P(X ≥ a) = 0.05
(b) Ange fördelningens 25 % kvantil
(c) Ange fördelningens median
(d) Ange fördelningens väntevärde
(e) Beräkna (eller slå upp) fördelningens standardavvikelse
Rektangelfördelning: fördelningsfunktion, F(x)
1
0.8
0.6
0.4
0.2
0
−1
0
1
2
3
4
5
6
7
15. Bilden visar en täthetsfunktion för en normalfördelad stokastisk variabel som har enheten
meter (m), vad är standardavvikelsen?
(a) 2 m
(b) 2 m2
(c) 4 m
(d) 4 m2
Biostatistisk grundkurs, VT-15, VT2
10
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
10
12
14
16
18
20
22
längd (m)
24
26
28
30
16. För de två oberoende s.v. X och Y gäller att X ∈N(10,3) (σ är 3) och Y ∈N(30,4).
Linjärkombinationerna i (a)-(e) nedan är också normalfördelade, ange deras väntevärde och
standardavvikelse. Svara, vid behov, med två decimaler.
(a) X + Y
(b) X − Y + 20
(c) (X + Y )/2
(d) 2X + 3Y − 60
(e) 4X − Y
17. UPPGIFT: Mängden godis som äts av en slumpmässigt vald person under påskhelgen varierar
enligt en normalfördelning med väntevärde 0.9 kg och standardavvikelse 0.2 kg. Vi väljer
slumpmässigt fyra personer. Ange väntevärde och standardavvikelse för
(a) total mängd godis de fyra äter
(b) medelkonsumtionen av godis hos de fyra personerna
18. Den stokastiska variablerna X1 , . . . , X4 är oberoende och normalfördelade med väntevärde
25 och varians 9.
(a) Vilken av figurerna nedan motsvarar fördelningen för X1 + X2 + X3 + X4 − 75?
(b) Ange väntevärdet och standardavvikelsen för X1 + X2 + X3 + X4 − 75
(c) Vilken av figurerna nedan motsvarar fördelningen för X̄ = 41 (X1 + X2 + X3 + X4 )?
(d) Ange väntevärdet och standardavvikelsen för X̄ = 41 (X1 + X2 + X3 + X4 )
Biostatistisk grundkurs, VT-15, VT2
11
Fördelning A
0.1
0.05
0
5
10
15
20
25
30
35
40
45
30
35
40
45
30
35
40
45
Fördelning B
0.4
0.2
0
5
10
15
20
25
Fördelning C
0.2
0.1
0
5
10
15
20
25
19. Den stokastiska variablerna X1 , . . . , X4 är oberoende och samtliga är normalfördelade med
väntevärde 25 och standardavvikelse 3.5. Antag att X1 , . . . , X4 beskriver vikten hos 4 treåringar
i en viss population. I figuren är markerat sannolikheten att en mätning, X1 , avviker från
väntevärdet 25 med mindre än 3 enheter, d.v.s. P(22 < X1 < 28). Avgör om följande är sant
eller falskt:
(a) Om jag bildar medelvärdet, X¯4 , av de fyra vikterna kommer P(22 < X¯4 < 28) att vara
större än P(22 < X1 < 28)
(b) Om jag tar 8 barn och bildar medelvärdet av deras vikter, X¯8 kommer P(22 < X¯8 <
28) < P(22 < X¯4 < 28)
(c) Om jag vill att medelvärdet av n barns vikter ska avvika från intervallet (22, 28) med
liten sannolikhet kan jag uppnå det genom att låta n vara stort, d.v.s. mäta vikterna på
många barn.
NORMALFÖRDELNING, N(25,3.5)
0.12
0.1
0.08
0.06
0.04
0.02
0
10
15
20
25
vikt (kg)
30
35
40
Biostatistisk grundkurs, VT-15, VT2
12
Lösningar
1. Figur A, C och D är täthetsfunktioner medan de tre övriga är fördelningsfunktioner.
2. Figur A (täthetsfunktion) och Figur E (fördelningsfunktion) visar en exponentialfördelning.
Figur C (täthetsfunktion) och Figur D (fördelningsfunktion) visar en normalfördelning.
Figur F (täthetsfunktion) och Figur B (fördelningsfunktion) visar en rektangelfördelning.
3. Enbart påstående (a) och (b) är sanna.
4. Beteckningarna i (b), (c), (d) och (f ) gäller.
5.
(a) P(X ≤ 5) = F (5) = 0.93
(b) P(X > 5) = 1 − F (5) = 0.07
(c) P(X < 5) = F (5) = 0.93
(d) P(3 < X ≤ 5) = F (5) − F (3) = 0.93 − 0.31 = 0.62
(e) P(3 ≤ X ≤ 5) = F (5) − F (3) = 0.93 − 0.31 = 0.62
6.
(a) P(X ≤ 3) = 0.49 + 0.38 = 0.87
(b) P(X > 1) = 1 − 0.49 = 0.51
(c) P(X < 1) = 0.49
(d) P(X ≥ 3) = 0.13
(e) P(X = 3) = 0
(f ) F (3) = 0.87
(g) F (3) − F (1)0.38
7. Figur A (täthetsfunktion) och Figur E (fördelningsfunktion) visar en exponentialfördelning.
Figur C (täthetsfunktion) och Figur D (fördelningsfunktion) visar en normalfördelning.
Figur F (täthetsfunktion) och Figur B (fördelningsfunktion) visar en rektangelfördelning.
8.
(a) λ = 0.5.
(b) F (x) = 1 − e−λx
(c) P(X ≥ 4) = 1 − F (4) = e−λ4 = e−2
(d) För a gäller F (a) = 1 − e−0.5a = 0.95, vilket ger a =
− ln(0.05)
0.5
= 5.9915.
9. Figur A visar en N(0, 1)
Figur B visar en N(5, 2)
Figur C visar en N(10, 5)
10.
(a) a = 1 och b = 5.
(b) Figur B
(c) 0.2
(d) 0.4
11.
(a) Eftersom totala arean under täthetsfunktionen är 1, gäller att f (x) =
och 0 för övrigt.
1
7
då 0 < x < 7
Biostatistisk grundkurs, VT-15, VT2
13
R7
(b) P(X > 5) = 5 71 dx = 1 − 57 = 72 . Detta kan också tolkas som andelen av den area
under figuren som överstiger 5.
R4
(c) P(3 < X ≤ 4) = 3 17 dx = 47 − 73 = 17 . Detta kan också tolkas som andelen av den
area under figuren som överstiger 3 men understiger 4.
(d) För varje kontinuerlig stokastisk variabel X gäller för konstanten a att P(X = a) = 0.
R7
(e) Här söks fördelningens väntevärde E(X ) (som också betecknas μ). E(X ) = 0 x · 17 dx =
2
1 72
( − 02 ) = 27 = 3.5. Detta kan också tolkas som tyngdpunktenpå fördelningen, vilket
7 2
i detta fall blir mitten på lådan”.
12.
(a) normalfördelningens väntevärde är 7
(b) rektangelfördelningen väntevärde är 1
13.
(a)
14.
(a)
15. Bredden på normalfördelningen motsvaras av ungefär 6 gånger standardavvikelsen, d.v.s. 6σ.
Från figuren antar variabeln nästan alltid värden mellan 14 och 26. Det gäller alltså att 26 −
14 = 12 = 6σ vilket ger σ = 2. Enheten på standardavvikelsen är alltid den samma som
den man mäter i, rätt svar är alltså 2m.
16.
(a) μ = 40; σ = 5
(b) μ = 0; σ = 5
(c) μ = 40; σ =
(d) μ = 50; σ =
(b) μ = 0.9; σ =
18.
√
√
9
4
+
16
4
4 · 9 + 9 · 16
16 · 9 + 16
√
(a) μ = 4 · 0.9; σ = 4 · 0.22 = 2 · 0.2
(e) μ = 10; σ =
17.
q
0.2
√
4
=
0.2
2
(a) Det är normalfördelning A eftersom variansen för fördelningen för summan är större
än den ursprungliga fördelningen.
(b) E(X1 + X2 + X3 + X4 − 75) = E(X1 ) + E(X2 ) + E(X3 ) + E(X4 ) − 75 = 4 · 25 − 75 = 25;
V (X1 + X2 + X3 + X4 − 75) = V (X1 ) + V (X2 ) + V (X3 ) + V (X4 ) = 4 · 9 = 36 vilket
ger en standardavvikelse på 6.
(c) Det är figur normalfördelning B eftersom variansen för fördelningen för medelvärdet
är mindre än den ursprungliga fördelningen men väntevärdet är det samma
(d) E( 41 (X1 + X2 + X3 + X4 )) = 14 (E(X1 ) + E(X2 ) + E(X3 ) + E(X4 )) = 41 · 4 · 25 = 25;
V ( 14 (X1 +X2 +X3 +X4 )) = ( 41 )2 (V (X1 )+V (X2 )+V (X3 )+V (X4 )) = 161 ·4·16 = 164 = 4;
19. Alla tre påstående är sanna. Medelvärdet av n variablerna kommer att vara normalfördelat
med väntevärde 25 och varians 16n . Ju större n, desto mer är fördelningen för medelvärdet
koncentrerat kring väntevärdet 25.