Ekstraoppgaver i STK1100 Våren 2015 Oppgave 1. La Z 1 og Z2
Transcription
Ekstraoppgaver i STK1100 Våren 2015 Oppgave 1. La Z 1 og Z2
Ekstraoppgaver i STK1100 Våren 2015 Oppgave 1. La Z1 og Z2 være uavhengige normalfordelte variable med forventning 0 og p varians 1. Definer X1 = µ1 +σ1 Z1 og X2 = µ2 +σ2 (ρZ1 + 1 − ρ2 Z2 ) for konstanter µ1 , µ2 og σ1 , σ2 > 0 og −1 < ρ < 1. Da er (X1 , X2 ) bivariate normal fordelt med tetthetsfunskjon f (x1 , x2 ) som gitt på side 258 i Devore & Berk (2012). Vis at ρ = 0 impliserer at X1 og X2 er uavhengige. Oppgave 2. La (X1 , X2 ) være bivariate normalfordelt med E X1 = E X2 = 0, Var X1 = Var X2 = 1 og Cor(X1 , X2 ) = ρ. Den simultane tetthetsfunskjon til (X1 , X2 ) er da gitt ved 2 1 x1 − 2ρx1 x2 + x22 f (x1 , x2 ) = p . exp − 2(1 − ρ2 ) 2π 1 − ρ2 Vis ved å integrere ut x1 (eller x2 ) at marginalfordelingen til X1 (eller X2 ) er normal. Oppgave 3. La X1 og X2 være bivariate normalfordelt variable som i Oppgave 1. Vis at hvis Var X1 = Var X2 , så er Y1 = X1 + X2 uavhengig av Y2 = X1 − X2 . Hint: Bruk strukturen og resultatet fra Oppgave 1. Oppgave 4. La X1 og X2 være bivariate normalfordelt som i Oppgave 1. Bestem c (en konstant) slik at Var(X1 + cX2 ) blir minst mulig. Oppgave 5. La X ∼ N(µ, σ 2 ) og (Y | X = x) ∼ N(x, τ 2 ). Forklar hvorfor Y er normalfordelt og bruk reglene om total forventning og varians på side 261 i Devore & Berk (2012) til å finne forventning og varians for Y . Hint: Bruk simultanfordelingen til (X, Y ) for å finne fordelingen til Y . Oppgave 6. La Z1 og Z2 være uavhengige normalfordelte variable med forventning 0 og p varians 1. Definer X1 = Z1 og X2 = ρZ1 + 1 − ρ2 Z2 og vis at Cor(X12 , X22 ) = ρ2 . Hint: Bruk (eller vis) at E Z1 Z2 = E Z13 Z2 = 0 og E Zi4 = 3 for i = 1, 2. Oppgave 7. La U ∼ U (0, 1) være uniform på (0, 1). Hvis X har sannsynlighetsfordelings funksjon F med entydig invers F −1 (slik at F −1 (F (x)) = x), vis at Y = F −1 (U ) har samme fordeling som X. Hint: Hvorfor er det nok å vise at Pr{Y ≤ x} = Pr{X ≤ x}? Oppgave 8. Bruk matlab koden i ekstraoppgave_8.m for å simulere Cor(X12 , X22 ) for ulike verdier av −1 ≤ ρ ≤ 1 og plot resultatene sammen med fasit svaret for Oppgave 6. Hint: legg en for-løkke rundt den eksisterende koden for å beregne korrelasjonen for ulike verdier av ρ. Oppgave 9. Endel olympiske idrettsarrangementer blir avgjort (helt eller delvis) av en bedømmelses jury, f.eks. i hopp og kunstløp. Normalt gir hvert medlem i en jury poeng som så blir kombinert/transformert til en felles poengsum. Vi skal her bruke stokastisk simulering for å undersøke robustheten, med tanke på bestikkelser, til ulike transformasjons regler. Vi antar at det er sju medlemmer i juryen og skal først se på følgende regler: (i) Største og minste poengsum fjernet før man tar gjennomsnittet. 1 2 (ii) Middelverdien (medianen). (iii) Gjennomsnittet av alle. For å lage en stokastisk modell, skal vi anta at for en gitt utøver finnes det en sann riktig poengsum g (vi vil for enkelhet anta at g = 0). Vi skal tenke på hver enkelt dommers poengsum som en stokastisk Yi = g + Ui , for i = 1, . . . , 7, hvor U1 , . . . , U7 er uavhengige og uniforme på [−0.5, 0.5] (det stokastiske elementet kan betraktes som støy/usikkerhet eller som en modell for den underliggende uenigheten blant medlemmene i en jury); se også forelesningsnotatene til uke 16. a) Modifiser koden i ekstraoppgave_9.m for å undersøke effekten av bestikkelser på de tre transformasjons reglene (i), (ii) og (iii) over. Bruk kommandoen U(:,1) = U(:,1) + k; for en konstant k for å modellere at første jurymedlem er bestukket for å gi en for høy poengsum. Anta at juryen gir poeng på en skala fra 0 til 20 poeng og undersøk effekt for ulike verdier av k. b) Undersøk hva som skjer hvis man antar at to medlemmer av juryen er betalt for å gi en for høy poengsum. c) Anta en ny regel er foreslått hvor man tilfeldig kaster ut 2 jury bedømmelser før man tar snittet resten. Undersøk kvaliteten til denne metoden, både i forhold juks, silk som i punkt a) og b), og under normal omstendigheter. Vil du anbefale den nye regelen? d) Lag en femte transformasjon regel og undersøk (ved hjelp av stokastisk simulering) om din metode kan slå de foreslått over. I tillegg til å se på histogram, tell opp antall ganger din metode slår hver av de andre og beregn f.eks. estimert mean squared error (msej = E[(X − g)2 ] = bias(X)2 + Var X, hvor X representerer en av P 2 transformasjons reglene over) med formelen mse d j = 1/N N i=1 xi,j , hvor N er antall simuleringer og xi,j er poengsum i for metode j i simulering nummer i. Forklar også hva estimert mse forteller deg om metodene. Oppgace 10. Vi skal her vise en mer generell utgave av store talls lov (the law of large numbers). La X1 , X2 , . . . være en sekvens av uavhengige stokastike variable med EX1 = µi (som alle er begrenset) og Var Xi = σi2 , for i = 1, 2, . . .. Anta at 0 ≤ σi2 ≤ M < ∞, for all i, og la a være et vilkårlig positivt tall. a) Bruk Chebyshev’s ulikhet til å vise at n n 1 X 2 1 X µi ≥ a ≤ 2 2 σi Pr X̄n − n n a i=1 i Husk: Chebyshev’s ulikhet forteller oss at for enhver stokastisk variabel Y (med begrenset forventning) og konstant a > 0 så er Pr{|Y − E Y | ≥ a} ≤ Var(Y )/a2 . b) Bruk a) til å argumentere for at n X 1 lim Pr X̄n − µi ≥ a = 0 n→∞ n i=1 3 og sjekk at ‘klassisk’ store talls lov (på side 303 i Devore & Berk (2012)) er et spesialtilfelle. Oppgace 11. En regnskapsfører ønsker å forenkle bokføring ved å runde av beløpene til nærmeste heltall; for eksempel blir 99.51 og 100.48 begge ført som 100 kroner. Vi skal undersøke den totale feilen for 100 beløp. En måte å løse dette på er ved å modellere avrundingsfeilen som en stokastisk variabel. Vi skal anta at hver av de 100 feilene, la oss si X1 , . . . , X100 , er uavhengig og uniform fordelt på [−0.5, 0.5]. a) Finn forventning og varians til en Xi . b) Bruk Chebyshev’s ulikhet til å beregne en øvre grense for sannsynligheten Pr{|X1 + · · · X100 | > 10} at den totale feilen skal overskride 10 kroner. Oppgave 12. I et gitt land vil en andel p av velgerne stemme på kandidat G og en andel 1 − p stemme på kandidaten B. I en meningsmåling blir flere velgere spurt om hvordan de skal stemme. La Xi = ‘person nummer i stemmer på kandidat G’. En modell for målingene er at folk blir valgt ut og intervjuet slik X1 , X2 , . . . er uavhengige og har en Bernoulli fordeling med parameter p. a) Vi skal bruke X̄n for å predikere p. Hvis vi bruker Chebyshev’s ulikhet, hvor mange må vi spørre, hvor stor må n være, slik at vi kan med sannsynlight 0.90 si at X̄n er innenfor ±0.2 av sann p. Hint: Løs dette for p = 1/2 og bruk at p(1 − p) ≤ 1/4 for alle 0 ≤ p ≤ 1. b) Svar på oppgave a) men finn n slik at X̄n er innenfor ±0.1 av sann p. c) Svar på oppgave a) men vi skal nå oppgi svaret med sannsynlighet 0.95. d) Hvis p > 1/2 så vinner kandidat G og hvis X̄n > 1/2 predikerer vi at G vil vinne. Finn det minste utvalget n slik at sannsynligheten for at prediksjonene blir riktig er minst 0.90 hvis sann p = 0.6. References Devore, J. L. & Berk, K. N. (2012). Modern mathematical statistics with applications. Springer.