Matematisk statistik Tentamen: 2015–01–10 kl 800–1300
Transcription
Matematisk statistik Tentamen: 2015–01–10 kl 800–1300
LÖSNINGAR TILL Tentamen: 2015–01–10 kl 800 –1300 FMS 086 — Matematisk statistik för B, K, N och BME, 7.5 hp MASB02 — Matematisk statistik för kemister, 7.5 hp Matematisk statistik Matematikcentrum Lunds tekniska högskola Lunds universitet 1. Modell: Tidig period: x1 , . . . , x9 observationer av N μ1 , σ2 Sen period: y1 , . . . , y7 observationer av N μ2 , σ2 Ur mätdata fås sx2 = 0.2953 ¯x = 6.7444 sy2 = 0.1314 ¯y = 5.6143 och en sammanvägd skattning av σ2 : sp2 = (9 − 1) · sx2 + (7 − 1) · sy2 9+7−2 med 9 + 7 − 2 = 14 frihetsgrader. = 0.2251, För att testa om silverhalt minskat ställer vi upp hypoteserna H 0 : μ1 = μ2 mot H 1 : μ1 > μ2 Intervallmetod: Ett ensidigt, nedåt begränsat 95% konfidensintervall för μ1 − μ2 ges av: 1.7613 s z }| { 1 1 ¯x − ¯y − t sp2 + , ∞ 0.05 (14) = 0.7091, ∞ Iμ1 −μ2 = 9 7 | {z } | {z } 1.1302 0.2391 Eftersom intervallet ej täcker noll kan H0 förkastas på nivå 0.05; det är en signifikant minskning i myntens silverhalt. Teststorhet: Relevant teststorhet ges av ¯x − ¯y T =q = 4.7272 sp2 19 + 17 H0 förkastas på nivå 0.05 efterom den ensidiga olikheten 4.7272 = T > t0.05 (14) = 1.7613 gäller. 2. (a) Vi har en enkel linjär regressionsmodell där Fe-halten – y beror av x – antal meter från utsläppskällan. De uppmätta Fe-halterna är alltså observationer av yi = α + βxi + εi , där εi ∈ N 0, σ2 , oberoende av varandra. Kvadratsummor och medelvärden är givna i uppgiften och skattningarna blir Sxy = −0.0263, Sxx 2 Sxy Q0 = Syy − = 208.87, Sxx β∗ = α∗ = ¯y − β ∗¯x = 54.5365, (σ2 )∗ = s2 = Q0 = 26.108, n−2 s = 5.11 (b) Eftersom lutningen på en rät linje, β i det här fallet, anger hur mycket y ökar då x ökas en enhet blir minskningen per 100 m: −100β. Ett 95% konfidensintervall för β blir σ∗ = Iβ = β ∗ ± t0.025 (n − 2) · d(β ∗ ) = β ∗ ± t0.025 (8) · √ Sxx = −0.0263 ± 2.31 · 0.0047 = −0.0372, −0.0153 Detta intervall kan vi transformera till det sökta I−100β = −100 · Iβ = 1.53, 3.72 (c) Morgondagens mätning vid x0 = 500 meter från utsläppspunkten täcks ges av ett 95% prediktionsintervall för Fe-halten: s 1 (500 − ¯x )2 IY (500) = α∗ + β ∗ · 500 ± t0.025 (n − 2) · s · 1 + + = n Sxx = 41.41 ± 12.38 = 29.0, 53.8 3. (a) P(acceptabel rening) = P(bra i steg I ∩ dålig i steg II) + P(dålig i steg I ∩ bra i steg II) = = 0.8 · 0.3 + 0.7 · 0.2 = 0.38. (b) P(oacceptabel rening) = P(dålig i steg I ∩ dålig i steg II) = 0.2 · 0.3 = 0.06. X = antal omgångar av de 100 studerade med oacceptabel rening. Modell: X ∈ Bin(100, 0.06) (hundra oberoende försöka med slh. 0.06 att “lyckas”). Vi söker P(X ≥ 10) vilket inte direkt kan avläsas i binomialfördelningens tabell. Vi uttnyttjar att X är approximativt Po(100 · 0.06) = Po(6) (ty p < 0.1 och n > 10) och får P(X ≥ 10) = 1 − P(X ≤ 9) = 1 − 0.9161 = 0.08 där sannolikheten är hämtad från tabell över Poissonfördelning. (c) Låt p=P(oacceptabel rening), vilken vi nu inte känner. Vi vill testa H0 : p = 0.06 (de givna sannolikheterna stämmer) H1 : p > 0.06 (oacceptabel rening sker oftare än angivet) Med direktmetoden ska vi beräkna α0 = P ”få det vi fick eller värre” | ”H0 sann” = P X ≥ 10 | X ∈ Bin(100, 0.06) = = P X ≥ 10 | X ∈ Po(6) = 0.08 där sannolikheten beräknades i föregående uppgift. Eftersom α0 > 0.05 kan H0 inte förkastas på nivå 0.05. Nej, data tyder inte på att vår misstanke är befogad. Kommentar: Uppgiften kan inte lösas med teststorhet. Under H0 gäller nämligen att np(1 − p) = 5.64 och X kan inte normalapproximeras. 4. Man frågade 124 slumpmässigt utvalda ungdomar hur fort de kört en bil när de kört som fortast. Man ritade histogram och normalfördelnings plot för data (x) och log transformerad data (y = log(x)) och beräknde följande värden x = 135.7661 Sxx = 73 430 y = 4.8958 (a) En lämplig modell ges av att y är normalfördelad (x är log-normal). Syy = 3.6801 (b) Man vill göra ett konfidensintervall för väntevärdet, E(X ) = μ. En rimlig skattning av väntevärdet är μ∗ = x = 135.7661. Då skattningen är ett medelvärde (dvs summa) över många likafördelade och oberoende stokastiskavariabler ger CGS att skattningen μ∗ är normalfördelad med varians och medelfel r σ2 s2 Sxx ∗ 2 ∗ V(μ ) = , s = = 596.9936, d(μ ) = = 2.1942. n n−1 n Ett approximativt 95% konfidensintervall för μ ges nu av Iμ = μ∗ ± t0.025 (n − 1) · d(μ∗ ) = 135.7661 ± t0.025 (124 − 1) ·2.1942 = 131.42, 140.11 {z } | 1.98 Vi har använt att t0.025 (124 − 1) ≈ t0.025 (120). Kommentar: Om intervallet konstrueras genom att först göra ett intervall för väntevärdet i Y = log(X ) och sen transformera intervallet fås ett intervall för medianen i X , inte för väntevärdet. (c) En lämplig model är att antalet unga förare som kört fortare än 150 km/h beskrivs av en binomial fördelning X ∈ Bin n, p Givet att x = 27 av n = 124 förare kört fortare än 150 km/h vill vi konstruera ett konfidensintervall för p. En skattningen av p ges av p∗ = nx = 0.2177 med medelfel V(X ) p(1 − p) X = 2 = , V(p ) = V n n n ∗ r ∗ d(p ) = p∗ (1 − p∗ ) = 0.0371. n Eftersom p∗ (1 − p∗ )n = 21.121 > 10 kan vi använda CGS för att normalapproximera X och därmed p∗ vilket ger att X p(1 − p) ∗ ∈ p = ∼ N p, n n Ett approximativt 95% konfidensintervall för p ges nu av Ip = p∗ ± λ0.025 · d(p∗ ) = 0.1451, 0.2904 5. Längden av metalltråd som behövs till det i:te gemet ges av en stokastikvariabel, Xi , med väntevärde och varians E(Xi ) = 15.9 mm V(Xi ) = 0.52 mm2 Den totala längden, Y , som behövs till 100 gem är då approximativt normalfördelad enligt CGS (summa av många likafördelade och oberoende variabler) med Y = E(Y ) = V(Y ) = 100 X i=1 100 X i=1 100 X i=1 Xi E(Xi ) = 100 · 15.9 = 1590 V(Xi ) = 100 · 0.52 = 25 En kartong innehåller minst 100 gem om den totala längden Y som behövs för att tillverka 100 gem är kortare än den tillgängliga metalltråden (1600 mm). Vi är alltså intereserade av Y − 1590 1600 − 1590 √ P minst 100 gem i en kartong = P (Y ≤ 1600) = P √ ≤ = 25 25 | {z } N (0,1) = Φ(2) = 0.9772 6. (a) Det systematiska felet är observerat värde minus verkligt/riktigt värde: 91 − 100 = −9 (b) Sannolikheten att en mjölkförpackningar är dålig är p = 0.001. Antalet dåliga paket, X , bland n = 2400 slumpvis utvalda paket är nu binomialfördelad med X ∈ Bin(2400, 0.001) Sannolikheten att ingen förpackning är dålig 2400 P(X = 0) = pX (0) = 0.0010 (1 − 0.001)2400 = 0.9992400 = 0.091. 0 Alternativt kan man direkt räkna ut slh. att inget packet är dåligt som sannolikheten att alla packet är bra P(X = 0) = P(”alla packet är bra”) = (1 − 0.001)2400 = 0.091. (c) Tiden det tar för en enhet av ämnet att brytas ner beskrivas av en stokastikvariabel, X ∈ Exp(100), och den sökta sannolikheten är Z ∞ i∞ h 1 −x/100 P(X > 200) = e dx = −e −x/100 = e −200/100 = e −2 = 0.1353 200 200 100 (d) Då konfidensintervallet för β inte innehåller 0 finns en signifikant effekt på kokpunkten. Effekten är positiv, dvs högre kokpunkt vid högre lufttryck — eller högre kokpunkt vid lägre höjd. (e) i) Den poolade varians skattningen ges av (n − 1) · 2.33 + (n − 1) · 4.33 + (n − 1) · 2.33 + (n − 1) · 2.33 = 2k · (n − 1) 2.33 + 4.33 + 2.33 + 2.33 = = 2.83 4 sp2 = b ges av ii) Medelfelet d(A) b = √sp = √sp = 0.49 d(A) 12 2k n