Matematisk statistik Tentamen: 2015–01–10 kl 800–1300

Transcription

Matematisk statistik Tentamen: 2015–01–10 kl 800–1300
LÖSNINGAR TILL
Tentamen: 2015–01–10 kl 800 –1300
FMS 086 — Matematisk statistik för B, K, N och BME, 7.5 hp
MASB02 — Matematisk statistik för kemister,
7.5 hp
Matematisk statistik
Matematikcentrum
Lunds tekniska högskola
Lunds universitet
1. Modell:
Tidig period: x1 , . . . , x9 observationer av N μ1 , σ2
Sen period: y1 , . . . , y7 observationer av N μ2 , σ2
Ur mätdata fås
sx2 = 0.2953
¯x = 6.7444
sy2 = 0.1314
¯y = 5.6143
och en sammanvägd skattning av σ2 :
sp2
=
(9 − 1) · sx2 + (7 − 1) · sy2
9+7−2
med 9 + 7 − 2 = 14 frihetsgrader.
= 0.2251,
För att testa om silverhalt minskat ställer vi upp hypoteserna
H 0 : μ1 = μ2
mot
H 1 : μ1 > μ2
Intervallmetod: Ett ensidigt, nedåt begränsat 95% konfidensintervall för μ1 − μ2 ges av:


1.7613 s z }| {
1 1
¯x − ¯y − t
sp2
+
, ∞
0.05 (14)
 = 0.7091, ∞
Iμ1 −μ2 = 
9 7

| {z }
|
{z
}
1.1302
0.2391
Eftersom intervallet ej täcker noll kan H0 förkastas på nivå 0.05; det är en signifikant minskning i
myntens silverhalt.
Teststorhet: Relevant teststorhet ges av
¯x − ¯y
T =q
= 4.7272
sp2 19 + 17
H0 förkastas på nivå 0.05 efterom den ensidiga olikheten
4.7272 = T > t0.05 (14) = 1.7613
gäller.
2.
(a) Vi har en enkel linjär regressionsmodell där Fe-halten – y beror av x – antal meter från utsläppskällan.
De uppmätta Fe-halterna är alltså observationer av
yi = α + βxi + εi ,
där
εi ∈ N 0, σ2 ,
oberoende av varandra.
Kvadratsummor och medelvärden är givna i uppgiften och skattningarna blir
Sxy
= −0.0263,
Sxx
2
Sxy
Q0 = Syy −
= 208.87,
Sxx
β∗ =
α∗ = ¯y − β ∗¯x = 54.5365,
(σ2 )∗ = s2 =
Q0
= 26.108,
n−2
s = 5.11
(b) Eftersom lutningen på en rät linje, β i det här fallet, anger hur mycket y ökar då x ökas en enhet blir
minskningen per 100 m: −100β.
Ett 95% konfidensintervall för β blir
σ∗
=
Iβ = β ∗ ± t0.025 (n − 2) · d(β ∗ ) = β ∗ ± t0.025 (8) · √
Sxx
= −0.0263 ± 2.31 · 0.0047 = −0.0372, −0.0153
Detta intervall kan vi transformera till det sökta
I−100β = −100 · Iβ = 1.53, 3.72
(c) Morgondagens mätning vid x0 = 500 meter från utsläppspunkten täcks ges av ett 95% prediktionsintervall för Fe-halten:
s
1 (500 − ¯x )2
IY (500) = α∗ + β ∗ · 500 ± t0.025 (n − 2) · s · 1 + +
=
n
Sxx
= 41.41 ± 12.38 = 29.0, 53.8
3.
(a) P(acceptabel rening) = P(bra i steg I ∩ dålig i steg II) + P(dålig i steg I ∩ bra i steg II) =
= 0.8 · 0.3 + 0.7 · 0.2 = 0.38.
(b) P(oacceptabel rening) = P(dålig i steg I ∩ dålig i steg II) = 0.2 · 0.3 = 0.06.
X = antal omgångar av de 100 studerade med oacceptabel rening.
Modell: X ∈ Bin(100, 0.06) (hundra oberoende försöka med slh. 0.06 att “lyckas”).
Vi söker P(X ≥ 10) vilket inte direkt kan avläsas i binomialfördelningens tabell. Vi uttnyttjar att X
är approximativt Po(100 · 0.06) = Po(6) (ty p < 0.1 och n > 10) och får
P(X ≥ 10) = 1 − P(X ≤ 9) = 1 − 0.9161 = 0.08
där sannolikheten är hämtad från tabell över Poissonfördelning.
(c) Låt p=P(oacceptabel rening), vilken vi nu inte känner. Vi vill testa
H0 : p = 0.06 (de givna sannolikheterna stämmer)
H1 : p > 0.06 (oacceptabel rening sker oftare än angivet)
Med direktmetoden ska vi beräkna
α0 = P ”få det vi fick eller värre” | ”H0 sann” = P X ≥ 10 | X ∈ Bin(100, 0.06) =
= P X ≥ 10 | X ∈ Po(6) = 0.08
där sannolikheten beräknades i föregående uppgift.
Eftersom α0 > 0.05 kan H0 inte förkastas på nivå 0.05. Nej, data tyder inte på att vår misstanke
är befogad.
Kommentar: Uppgiften kan inte lösas med teststorhet. Under H0 gäller nämligen att np(1 − p) =
5.64 och X kan inte normalapproximeras.
4. Man frågade 124 slumpmässigt utvalda ungdomar hur fort de kört en bil när de kört som fortast. Man
ritade histogram och normalfördelnings plot för data (x) och log transformerad data (y = log(x)) och
beräknde följande värden
x = 135.7661
Sxx = 73 430
y = 4.8958
(a) En lämplig modell ges av att y är normalfördelad (x är log-normal).
Syy = 3.6801
(b) Man vill göra ett konfidensintervall för väntevärdet, E(X ) = μ. En rimlig skattning av väntevärdet
är μ∗ = x = 135.7661.
Då skattningen är ett medelvärde (dvs summa) över många likafördelade och oberoende stokastiskavariabler ger CGS att skattningen μ∗ är normalfördelad med varians och medelfel
r
σ2
s2
Sxx
∗
2
∗
V(μ ) = ,
s =
= 596.9936,
d(μ ) =
= 2.1942.
n
n−1
n
Ett approximativt 95% konfidensintervall för μ ges nu av
Iμ = μ∗ ± t0.025 (n − 1) · d(μ∗ ) = 135.7661 ± t0.025 (124 − 1) ·2.1942 = 131.42, 140.11
{z
}
|
1.98
Vi har använt att t0.025 (124 − 1) ≈ t0.025 (120).
Kommentar: Om intervallet konstrueras genom att först göra ett intervall för väntevärdet i Y =
log(X ) och sen transformera intervallet fås ett intervall för medianen i X , inte för väntevärdet.
(c) En lämplig model är att antalet
unga förare som kört fortare än 150 km/h beskrivs av en binomial
fördelning X ∈ Bin n, p
Givet att x = 27 av n = 124 förare kört fortare än 150 km/h vill vi konstruera ett konfidensintervall
för p.
En skattningen av p ges av p∗ = nx = 0.2177 med medelfel
V(X )
p(1 − p)
X
= 2 =
,
V(p ) = V
n
n
n
∗
r
∗
d(p ) =
p∗ (1 − p∗ )
= 0.0371.
n
Eftersom p∗ (1 − p∗ )n = 21.121 > 10 kan vi använda CGS för att normalapproximera X och
därmed p∗ vilket ger att
X
p(1 − p)
∗
∈
p = ∼ N p,
n
n
Ett approximativt 95% konfidensintervall för p ges nu av
Ip = p∗ ± λ0.025 · d(p∗ ) = 0.1451, 0.2904
5. Längden av metalltråd som behövs till det i:te gemet ges av en stokastikvariabel, Xi , med väntevärde och
varians
E(Xi ) = 15.9 mm
V(Xi ) = 0.52 mm2
Den totala längden, Y , som behövs till 100 gem är då approximativt normalfördelad enligt CGS (summa
av många likafördelade och oberoende variabler) med
Y =
E(Y ) =
V(Y ) =
100
X
i=1
100
X
i=1
100
X
i=1
Xi
E(Xi ) = 100 · 15.9 = 1590
V(Xi ) = 100 · 0.52 = 25
En kartong innehåller minst 100 gem om den totala längden Y som behövs för att tillverka 100 gem är
kortare än den tillgängliga metalltråden (1600 mm). Vi är alltså intereserade av


 Y − 1590
1600 − 1590 


√
P minst 100 gem i en kartong = P (Y ≤ 1600) = P  √
≤
=


25
25
| {z }
N (0,1)
= Φ(2) = 0.9772
6.
(a) Det systematiska felet är observerat värde minus verkligt/riktigt värde: 91 − 100 = −9
(b) Sannolikheten att en mjölkförpackningar är dålig är p = 0.001. Antalet dåliga paket, X , bland
n = 2400 slumpvis utvalda paket är nu binomialfördelad med
X ∈ Bin(2400, 0.001)
Sannolikheten att ingen förpackning är dålig
2400
P(X = 0) = pX (0) =
0.0010 (1 − 0.001)2400 = 0.9992400 = 0.091.
0
Alternativt kan man direkt räkna ut slh. att inget packet är dåligt som sannolikheten att alla packet
är bra
P(X = 0) = P(”alla packet är bra”) = (1 − 0.001)2400 = 0.091.
(c) Tiden det tar för en enhet av ämnet att brytas ner beskrivas av en stokastikvariabel, X ∈ Exp(100),
och den sökta sannolikheten är
Z ∞
i∞
h
1 −x/100
P(X > 200) =
e
dx = −e −x/100
= e −200/100 = e −2 = 0.1353
200
200 100
(d) Då konfidensintervallet för β inte innehåller 0 finns en signifikant effekt på kokpunkten. Effekten
är positiv, dvs högre kokpunkt vid högre lufttryck — eller högre kokpunkt vid lägre höjd.
(e)
i) Den poolade varians skattningen ges av
(n − 1) · 2.33 + (n − 1) · 4.33 + (n − 1) · 2.33 + (n − 1) · 2.33
=
2k · (n − 1)
2.33 + 4.33 + 2.33 + 2.33
=
= 2.83
4
sp2 =
b ges av
ii) Medelfelet d(A)
b = √sp = √sp = 0.49
d(A)
12
2k n