Ekstraoppgaver i STK1100 Våren 2015 Oppgave 1. La Z 1 og Z2

Transcription

Ekstraoppgaver i STK1100 Våren 2015 Oppgave 1. La Z 1 og Z2
Ekstraoppgaver i STK1100 Våren 2015
Oppgave 1. La Z1 og Z2 være uavhengige normalfordelte variable med forventning 0 og
p
varians 1. Definer X1 = µ1 +σ1 Z1 og X2 = µ2 +σ2 (ρZ1 + 1 − ρ2 Z2 ) for konstanter µ1 , µ2
og σ1 , σ2 > 0 og −1 < ρ < 1. Da er (X1 , X2 ) bivariate normal fordelt med tetthetsfunskjon
f (x1 , x2 ) som gitt på side 258 i Devore & Berk (2012). Vis at ρ = 0 impliserer at X1 og
X2 er uavhengige.
Oppgave 2. La (X1 , X2 ) være bivariate normalfordelt med E X1 = E X2 = 0, Var X1 =
Var X2 = 1 og Cor(X1 , X2 ) = ρ. Den simultane tetthetsfunskjon til (X1 , X2 ) er da gitt
ved
2
1
x1 − 2ρx1 x2 + x22
f (x1 , x2 ) = p
.
exp −
2(1 − ρ2 )
2π 1 − ρ2
Vis ved å integrere ut x1 (eller x2 ) at marginalfordelingen til X1 (eller X2 ) er normal.
Oppgave 3. La X1 og X2 være bivariate normalfordelt variable som i Oppgave 1. Vis
at hvis Var X1 = Var X2 , så er Y1 = X1 + X2 uavhengig av Y2 = X1 − X2 . Hint: Bruk
strukturen og resultatet fra Oppgave 1.
Oppgave 4. La X1 og X2 være bivariate normalfordelt som i Oppgave 1. Bestem c (en
konstant) slik at Var(X1 + cX2 ) blir minst mulig.
Oppgave 5. La X ∼ N(µ, σ 2 ) og (Y | X = x) ∼ N(x, τ 2 ). Forklar hvorfor Y er normalfordelt og bruk reglene om total forventning og varians på side 261 i Devore & Berk (2012)
til å finne forventning og varians for Y . Hint: Bruk simultanfordelingen til (X, Y ) for å
finne fordelingen til Y .
Oppgave 6. La Z1 og Z2 være uavhengige normalfordelte variable med forventning 0 og
p
varians 1. Definer X1 = Z1 og X2 = ρZ1 + 1 − ρ2 Z2 og vis at Cor(X12 , X22 ) = ρ2 .
Hint: Bruk (eller vis) at E Z1 Z2 = E Z13 Z2 = 0 og E Zi4 = 3 for i = 1, 2.
Oppgave 7. La U ∼ U (0, 1) være uniform på (0, 1). Hvis X har sannsynlighetsfordelings
funksjon F med entydig invers F −1 (slik at F −1 (F (x)) = x), vis at Y = F −1 (U ) har
samme fordeling som X. Hint: Hvorfor er det nok å vise at Pr{Y ≤ x} = Pr{X ≤ x}?
Oppgave 8. Bruk matlab koden i ekstraoppgave_8.m for å simulere Cor(X12 , X22 ) for
ulike verdier av −1 ≤ ρ ≤ 1 og plot resultatene sammen med fasit svaret for Oppgave 6.
Hint: legg en for-løkke rundt den eksisterende koden for å beregne korrelasjonen for ulike
verdier av ρ.
Oppgave 9. Endel olympiske idrettsarrangementer blir avgjort (helt eller delvis) av en
bedømmelses jury, f.eks. i hopp og kunstløp. Normalt gir hvert medlem i en jury poeng
som så blir kombinert/transformert til en felles poengsum. Vi skal her bruke stokastisk
simulering for å undersøke robustheten, med tanke på bestikkelser, til ulike transformasjons
regler. Vi antar at det er sju medlemmer i juryen og skal først se på følgende regler:
(i) Største og minste poengsum fjernet før man tar gjennomsnittet.
1
2
(ii) Middelverdien (medianen).
(iii) Gjennomsnittet av alle.
For å lage en stokastisk modell, skal vi anta at for en gitt utøver finnes det en sann riktig
poengsum g (vi vil for enkelhet anta at g = 0). Vi skal tenke på hver enkelt dommers
poengsum som en stokastisk Yi = g + Ui , for i = 1, . . . , 7, hvor U1 , . . . , U7 er uavhengige og
uniforme på [−0.5, 0.5] (det stokastiske elementet kan betraktes som støy/usikkerhet eller
som en modell for den underliggende uenigheten blant medlemmene i en jury); se også
forelesningsnotatene til uke 16.
a) Modifiser koden i ekstraoppgave_9.m for å undersøke effekten av bestikkelser på
de tre transformasjons reglene (i), (ii) og (iii) over. Bruk kommandoen U(:,1) =
U(:,1) + k; for en konstant k for å modellere at første jurymedlem er bestukket
for å gi en for høy poengsum. Anta at juryen gir poeng på en skala fra 0 til 20
poeng og undersøk effekt for ulike verdier av k.
b) Undersøk hva som skjer hvis man antar at to medlemmer av juryen er betalt for å
gi en for høy poengsum.
c) Anta en ny regel er foreslått hvor man tilfeldig kaster ut 2 jury bedømmelser før
man tar snittet resten. Undersøk kvaliteten til denne metoden, både i forhold juks,
silk som i punkt a) og b), og under normal omstendigheter. Vil du anbefale den
nye regelen?
d) Lag en femte transformasjon regel og undersøk (ved hjelp av stokastisk simulering)
om din metode kan slå de foreslått over. I tillegg til å se på histogram, tell opp
antall ganger din metode slår hver av de andre og beregn f.eks. estimert mean
squared error (msej = E[(X − g)2 ] = bias(X)2 + Var X, hvor X representerer en av
P
2
transformasjons reglene over) med formelen mse
d j = 1/N N
i=1 xi,j , hvor N er antall
simuleringer og xi,j er poengsum i for metode j i simulering nummer i. Forklar
også hva estimert mse forteller deg om metodene.
Oppgace 10. Vi skal her vise en mer generell utgave av store talls lov (the law of large
numbers). La X1 , X2 , . . . være en sekvens av uavhengige stokastike variable med EX1 = µi
(som alle er begrenset) og Var Xi = σi2 , for i = 1, 2, . . .. Anta at 0 ≤ σi2 ≤ M < ∞, for all
i, og la a være et vilkårlig positivt tall.
a) Bruk Chebyshev’s ulikhet til å vise at
n
n
1 X 2
1 X µi ≥ a ≤ 2 2
σi
Pr X̄n −
n
n a
i=1
i
Husk: Chebyshev’s ulikhet forteller oss at for enhver stokastisk variabel Y (med
begrenset forventning) og konstant a > 0 så er Pr{|Y − E Y | ≥ a} ≤ Var(Y )/a2 .
b) Bruk a) til å argumentere for at
n
X
1
lim Pr X̄n −
µi ≥ a = 0
n→∞
n
i=1
3
og sjekk at ‘klassisk’ store talls lov (på side 303 i Devore & Berk (2012)) er et
spesialtilfelle.
Oppgace 11. En regnskapsfører ønsker å forenkle bokføring ved å runde av beløpene til
nærmeste heltall; for eksempel blir 99.51 og 100.48 begge ført som 100 kroner. Vi skal
undersøke den totale feilen for 100 beløp. En måte å løse dette på er ved å modellere
avrundingsfeilen som en stokastisk variabel. Vi skal anta at hver av de 100 feilene, la oss
si X1 , . . . , X100 , er uavhengig og uniform fordelt på [−0.5, 0.5].
a) Finn forventning og varians til en Xi .
b) Bruk Chebyshev’s ulikhet til å beregne en øvre grense for sannsynligheten Pr{|X1 +
· · · X100 | > 10} at den totale feilen skal overskride 10 kroner.
Oppgave 12. I et gitt land vil en andel p av velgerne stemme på kandidat G og en andel
1 − p stemme på kandidaten B. I en meningsmåling blir flere velgere spurt om hvordan
de skal stemme. La Xi = ‘person nummer i stemmer på kandidat G’. En modell for
målingene er at folk blir valgt ut og intervjuet slik X1 , X2 , . . . er uavhengige og har en
Bernoulli fordeling med parameter p.
a) Vi skal bruke X̄n for å predikere p. Hvis vi bruker Chebyshev’s ulikhet, hvor mange
må vi spørre, hvor stor må n være, slik at vi kan med sannsynlight 0.90 si at X̄n
er innenfor ±0.2 av sann p. Hint: Løs dette for p = 1/2 og bruk at p(1 − p) ≤ 1/4
for alle 0 ≤ p ≤ 1.
b) Svar på oppgave a) men finn n slik at X̄n er innenfor ±0.1 av sann p.
c) Svar på oppgave a) men vi skal nå oppgi svaret med sannsynlighet 0.95.
d) Hvis p > 1/2 så vinner kandidat G og hvis X̄n > 1/2 predikerer vi at G vil vinne.
Finn det minste utvalget n slik at sannsynligheten for at prediksjonene blir riktig
er minst 0.90 hvis sann p = 0.6.
References
Devore, J. L. & Berk, K. N. (2012). Modern mathematical statistics with applications.
Springer.