Løsningsforslag til obligatorisk oppgave i ECON 2130
Transcription
Løsningsforslag til obligatorisk oppgave i ECON 2130
Andreas Myhre April 2015 Løsningsforslag til obligatorisk oppgave i ECON 2130 Oppgave 1: E(XY) = E(X(Z – X)) Setter inn Y = Z - X E(XY) = E(XZ – X2) E(XY) = E(XZ) – E(X2) X og Z er uavhengige, så Cov(X, Z) = 0. Dermed er E(XZ) = E(X)E(Z) også lik 0, siden E(X) = E(Z) = 0. E(XY) = - E(X2) E(XY) = - (Var(X) + (E(X))2) Bruker formelen Var(X) = E(X2) – (E(X))2 E(XY) = - Var(X) Har fått oppgitt i oppgaven at X er normalfordelt med forventning lik 0 og standardavvik lik 1. Da er også Var(X) = 1. E(XY) = -1 ρ(X, Y) = ρ(X, Y) = ρ(X, Y) = ρ(X, Y) = ρ(X, Y) = ρ(X, Y) = ρ(X, Y) = Cov( X , Y ) σ xσ y Cov( X , Y ) Var ( X ) *Var (Y ) E ( XY ) − µ x µ y Var ( Z − X ) Var(X) = 1, og Var (Y) kan skrives som Var(Z – X): µ x = µ y = 0, så dette leddet faller bort. E ( XY ) Var (1* Z + (−1) X ) −1 12 Var ( Z ) + (−1) 2 Var ( X ) −1 Var ( Z ) + Var ( X ) Var(Z) og var(X) er begge lik 1. Så: −1 2 1 Oppgave 2: Her lot jeg først Excel til å trekke 20 tall for variablene X og Z, der X og Z er normalfordelte med forventning 0 og standardavvik 1. Deretter lagde jeg en tredje kolonne for Y, og satte Y lik Z - X. Først lagde jeg et punktdiagram for variablene X og Z, og fikk følgende resultat: 1,5 1 0,5 0 -2 -1 -0,5 0 1 2 Series1 3 -1 -1,5 -2 Her ser vi at det er stor spredning og liten sammenheng mellom variablene, X og Z virker å være uavhengige av hverandre. Korrelasjonen mellom X og Z er derfor i dette tilfellet liten (0,17 i med disse tallene i Excel), da det ikke er noen tydelig lineær sammenheng. Den forventede korrelasjonen mellom X og Z er lik 0, så vårt estimat bommer noe på den sanne korrelasjonen. Dette skyldes i hovedsak tilfeldigheter og at vi har få observasjoner. Deretter gjorde jeg akkurat det samme for variablene X og Y. Resultatet ble slik: 2,5 2 1,5 1 0,5 Series1 0 -2 -1,5 -1 -0,5 -0,5 0 0,5 1 1,5 -1 -1,5 -2 Her ser vi en viss sammenheng mellom variablene, da det ikke er noen observasjoner av lav verdi på X som medfører lav verdi på Y, og ingen observasjoner av høy verdi for X som medfører en høy verdi for Y. Vi observerer derfor en negativ sammenheng mellom variablene. X og Y gir dermed et visst inntrykk av avhengighet, som forventet, da den teoretiske korrelasjonen mellom X og Y er -0.707. 2 Oppgave 3: Først skal vi se at vi kan skrive korrelasjonen som ρ(X, Y) = Vi har ρ(X, Y) = ρ(X, Y) = σ xσ y 1+ a 2 og Y = Z + aX Cov( X , Y ) ρ(X, Y) = ρ(X, Y) = Cov( X , Y ) a Var ( X ) *Var (Y ) E ( XY ) − µ x µ y Var (Y ) Var(X) = 1, så vi kan skrive: µ x = µ y = 0, så dette leddet faller bort. Setter inn for Y: E ( X ( Z + aX )) ρ(X, Y) = Var ( Z + aX ) E ( XZ ) + aE ( X 2 ) Var ( Z ) + a 2Var ( X ) Siden X og Z er uavhengige er E(XZ) = 0. E(X2) = Var(X) + (E(X))2 = 1. Var(X) = Var(Z) = 1. Da kan vi skrive uttrykket som: ρ(X, Y) = a 1+ a 2 Deretter kan vi løse denne likningen mhp a: ρ= a 1+ a 2 ρ2(1+a2) = a2 ρ2 +a2ρ2 = a2 a2(1-ρ2) = ρ2 ρ2 a = 1− ρ 2 ρ a=± 1− ρ 2 2 3 Da finner vi følgende verdi for a når ρ = -0.2: a=± − 0.2 1 − (−0.2) 2 =± 0.2 = ± 0.204 0.96 Her blir a = -0.204 fordi a og ρ må ha samme fortegn. Etter å ha simulert n = 20 observasjoner for X og Z i Excel på samme måte som i oppgave 2, lager vi en tredje kolonne for Y, der vi setter Y = Z – 0.204X. Deretter plotter vi X og Y-variablene i et punktdiagram. Der fikk jeg følgende resultat: 3 2,5 2 1,5 1 Series1 0,5 0 -2 -1,5 -1 -0,5 -0,5 0 0,5 1 1,5 -1 -1,5 Her ser vi at det er en svak negativ sammenheng mellom X og Y, omtrent som forventet, da ρ = -0.2. Og for ρ = 0.9: a=± 0.9 1 − 0.9 2 =± 0.9 = ± 2.065 0.19 Her blir a = 2.065 fordi a og ρ må ha samme fortegn. Deretter gjør vi det samme som i sted, og får dette spredningsplottet: 4 8 6 4 2 Series1 0 -2 -1 0 1 2 3 -2 -4 -6 Her ser vi at det er en tydelig lineær sammenheng mellom X og Y. Sammenhengen er positiv i likhet med fortegnet på ρ. Sammenhengen er også mye tydeligere enn i sted, noe som skyldes at absoluttverdien på ρ er større ved dette tilfellet. Oppgave 4: Her bruker vi tallene fra oppgave 2, og beregner korrelasjonen mellom X og Y ved hjelp av Excel. Resultatet jeg fikk, altså estimert korrelasjon mellom X og Y med mine observasjoner, ble r = -0.58355643. Estimeringsfeilen er dermed |-0.58355-(-0.707)| = 0.12355 Vi ser at korrelasjonen mellom X og Y for n = 20 tilfeldige variabler er i nærheten av det forventede resultatet (-0.707), men samtidig ikke helt nøyaktig. Dette skyldes i stor grad størrelsen på utvalget, da n = 20 er et forholdsvis lite utvalg. Hadde vi økt n, og dermed fått et større utvalg, hadde sannsynligvis estimeringsfeilen vært mindre. Men størrelsen på estimeringsfeilen skyldes også i stor grad tilfeldigheter. 5 Oppgave 5: Etter å ha fått 25 ulike observasjoner for r, lagde jeg et histogram med 6 intervaller og intervallbredde 0.05. Histogrammet mitt ble seende slik ut: Frekvens Histogram 12 10 8 6 4 2 0 Frekvens -0,85 -0,8 -0,75 -0,7 -0,65 -0,6 Mer Intervall Til tross for relativt få observasjoner for r (25 observasjoner), gir histogrammet et visst inntrykk av at r er normalfordelt, da det er en klar tendens til at de fleste observasjonene samler seg rundt gjennomsnittet for de 25 observasjonene for r, som er -0.74 (se histogram). Samtidig er flere av observasjonene for r er et stykke unna denne verdien. Dette kan forklares ved hjelp av størrelsen på standardavviket for r, som Excel beregnet til å være 0.067 med dette datasettet. Hadde standardavviket vært mindre, hadde sannsynligvis flere av observasjonene samlet seg rundt midten av histogrammet ved fast intervallbredde. Gjennomsnittet er beregnet til -0.74057, og medianen til -0.7515. Vi ser her at begge disse verdiene treffer forholdsvis bra i forhold til forventningsverdien ρ (som er -0.707), selv om treffsikkerheten nok kunne vært bedre. Gjennomsnittet bommer altså med 0.03357 på den forventete korrelasjonen. Standardavviket til gjennomsnittet er av Excel beregnet til å være 0.013264 (skal være lik standardavviket for r delt på n ). Et typisk avvik for gjennomsnittet fra den forventete verdien ρ skal altså være ca. 0.013264. Men gjennomsnittet bommer her med mye mer, faktisk så mye som 2.53 standardavvik (sjekk selv; ta gjennomsnittet av observasjonene for r minus forventningsverdien (ρ) delt på standardavviket til gjennomsnittet, kalt standardfeil i Excel). Dette er en forholdsvis stor bom også relativt til standardavviket, men samtidig ikke unaturlig stort. Hadde vi hatt flere observasjoner, hadde gjennomsnittet av observasjonene våre for r sannsynligvis truffet enda nærmere forventningsverdien ρ. Men mye av årsaken til størrelsen på bommen skyldes i dette tilfellet tilfeldigheter. Vår estimerte korrelasjon r virker å være en relativt pålitelig estimator for den sanne korrelasjonen ρ, vi må i alle fall være forsiktige med å konkludere med det motsatte. Største verdi for r var -0.60673, og minste verdi -0.8832 Dette gir en differanse på 0.27647 mellom største og minste verdi. 6 Oppgave 6: Her gjør vi det samme som i oppgave 5, men øker n slik at n = 50 (for hver observasjon av r). Dette ga meg følgende histogram for observasjonene av r, med samme intervallbredde (0.05) som i oppgave 5: Histogram Frekvens 8 6 4 2 Frekvens 0 -0,8 -0,75 -0,7 -0,65 -0,6 -0,55 Mer Intervall Dette histogrammet ser litt annerledes ut enn det jeg fikk i oppgave 5, men også her får vi inntrykket av at r er normalfordelt. Her ser histogrammet mer ”pålitelig” ut, da ingen av intervallene skiller seg voldsomt ut med en veldig høy eller lav frekvens. Dette histogrammet gir også muligens et litt klarere inntrykk av at r er normalfordelt i forhold til i oppgave 5. Dette er helt forventet siden antallet observasjoner for hver av de 25 estimatorene for ρ (altså våre 25 observasjoner for r) har økt fra 20 til 50. Men vær obs på at dette også i stor grad kan skyldes tilfeldigheter, da et histogram kan se rimelig forskjellig ut avhengig av hvor man setter intervallgrensene. Det er begrenset for hvor bastante konklusjoner man kan trekke fra et histogram med så få observasjoner. Gjennomsnittet for våre 25 observasjoner for r er nå beregnet til å være -0.7014, og medianen er -0.712558. Disse verdiene treffer altså bedre enn verdiene i oppgave 5 på den forventede verdien ρ = -0.707. Dette er i tråd med forventningene om at gjennomsnittet er en mer pålitelig estimator for den sanne verdien ρ når antallet observasjoner øker. Men som vi skal se, skyldes dette her i stor grad tilfeldigheter. Standardavviket til r og standardavviket til gjennomsnittet til r (står som standardfeil i Excel) er henholdsvis 0.067 og 0.0134, altså nesten akkurat det samme som i oppgave 5. Fordi vi har flere observasjoner for hver verdi av r, skulle en forvente at flere av verdiene samlet seg rundt midten av histogrammet ved samme intervallbredde, dvs. en skulle forvente at standardavviket for r var mindre enn i oppgave 5. Dette er dog ikke tilfellet her, så vi må konkludere med at dette skyldes tilfeldigheter. Gjennomsnittet treffer likevel bedre enn i oppgave 5 (som ikke er gitt med tanke på at standardavviket for gjennomsnittet er omtrent det samme). For å komme med en litt mer generell konklusjon: Vi forventer at standardavviket for r, er mindre jo flere observasjoner vi har for hver verdi av r. Altså forventer vi også at standardavviket til gjennomsnittet for observasjonene av r, er mindre jo flere observasjoner vi har for hver verdi av r. Således forventer vi at gjennomsnittet treffer bedre på den sanne verdien ρ jo flere observasjoner vi har for hver verdi av r. Det gjorde det også i dette tilfellet, men ikke på grunn av lavere standardavvik. Her skyldtes det i hovedsak tilfeldigheter. Men at standardavviket for r ikke var mindre selv om antall observasjoner økte, var ikke forventet, og således også tilfeldig. 7 Oppgave 7: Etter å ha simulert 50 observasjoner for X og Z, og satt Y = Z – 3X2 fikk jeg følgende resultat: 4 2 0 -3 -2 -1 -2 0 1 2 3 -4 -6 Series1 -8 -10 -12 -14 -16 Deretter beregnet jeg korrelasjonen mellom X og Y i Excel, og fikk r(X, Y) = 0.072283. Resultatet tyder derfor på at det ikke er noen klar lineær sammenheng mellom X og Y, noe vi også ser i punktdiagrammet, at det ikke er. Vi observerer derimot at X og Y likevel virker å være stokastisk avhengige av hverandre, da observasjonene samler seg rundt det som ville vært en ikke-lineær kurve i diagrammet. Men denne effekten fanges ikke opp i beregningen av korrelasjonen. Dette er fordi korrelasjonsverdien r som vi beregner, beskriver den lineære sammenhengen mellom X og Y. I dette tilfellet er det heller ingen klar lineær sammenheng, men definitivt en sammenheng. Vi kan derfor konkludere med at r ikke nødvendigvis er egnet til å beskrive en sammenheng mellom to variabler som ikke er lineær. Her ser vi at selv om kovariansen mellom to variabler forventes å være lik 0 (og derfor også korrelasjonen), trenger ikke nødvendigvis variablene å være uavhengige. Beregner også den sanne ρ: ρ(X, Y) = Cov( X , Y ) σ xσ y Cov(X, Y) = E(XY) - µ x µ y Forventningen til X og Y er lik 0. Cov(X, Y) = E(X(Z – 3X2)) Cov(X, Y) = E(XZ – 3X3) Cov(X, Y) = E(XZ) – 3E(X3) Cov(X, Y) = 0 X og Z er uavhengige og E(XZ) er derfor lik 0. E(X3) er også lik 0 når X er normalfordelt med forventning 0. Og derfor må også korrelasjonen mellom X og Y, altså ρ(X, Y) være lik 0. Korrelasjon lik 0 tilsier at det ikke er noen form for lineær sammenheng mellom X og Y, og eksperimentet gikk dermed omtrent som forventet, da estimeringsverdien r var svært liten, og ikke signifikant forskjellig fra 0. 8 Oppgave 8: (i) 𝑥𝑥̅ = 21 · 45110 = 2148 1 X – sigarettkonsum per voksen per år. 1 Y – HKS-dødelighet per 100 000. S x = 807.9766 Bruk formlene oppgitt i oppgave 4 for estimering av standardavviket til x og y samt kovariansen. 𝑦𝑦� = 21 · 3042.2 = 144.87 S y = 66.56133 S xy = 39233.33 Estimerer ρ: r(X, Y) = r(X, Y) = S xy SxSy 39233.33 807.9766 * 66.56133 r(X, Y) = 0.7295 Sammenheng mellom sigarettkonsum og HKS-dødelighet HKS-dødelighet 300 250 200 150 Series1 100 Linear (Series1) 50 0 0 1000 2000 3000 4000 Sigarettkonsum 9 5000 Vi ser at det er en relativt klar sammenheng mellom sigarettkonsum og HKS-dødelighet, uten at det forklarer alt. Korrelasjonskoeffisienten r = 0.7295, gir r2 = 0.53217. Dermed forklares ca. 53 % av HKS-dødeligheten ut ifra sigarettkonsumet. Resten blir stående uforklart i vår modell. Denne uforklarte delen, er et resultat av at andre faktorer også spiller inn (som for eksempel landenes helsevesen), feilmargin (kommer an på størrelsen på utvalget) samt tilfeldigheter. Sammenhengen er likevel såpass klar at vi trolig kan slå fast at røyking fører til en hyppigere HKS-dødelighetsrate. Hvor sikkert vi kan slå fast dette, skal vi se nærmere på i oppgave 9. (ii) Hvis vi endrer benevningen for HKS-dødelighet til å omhandle hver 10 000, vil vi få følgende endringer: Estimator for standardavvik for X og Y: S x = 807.9766 uendret. S y = 6.656133 1/10 i forhold til i sted. Estimator for kovariansen: S xy = 3923.3 1/10 i forhold til i sted. Estimator for korrelasjonskoeffisienten: r(X, Y) = r(X, Y) = S xy SxSy 3923.3 807.9766 * 6.656133 r(X, Y) = 0.7295 uendret. Vi ser her at om vi endrer benevningen for HKS-dødeligheten til pr. 10 000, vil alle Yverdiene bli 10 ganger mindre. Dette får konsekvenser for standardavviket til Y og kovariansen mellom X og Y, som begge får lavere verdier i forhold til i sted. Korrelasjonskoeffisienten, derimot, forblir uendret. Fordi alle Y-verdiene endres proporsjonalt med X, vil ikke den relative sammenhengen mellom X og Y bli påvirket. 10 Oppgave 9: (i) Ved å plotte en rad for verdiene av x for så å beregne verdiene for h(x), får vi følgende graf: 30 h(x) 20 10 0 -1,5 -1 -0,5 0 0,5 1 1,5 h(x) -10 -20 -30 Som vi ser er strengt voksende i x. Legg også merke til at funksjonen er kontinuerlig, dvs. det er ingen ”hopp”. (ii) Legg merke til at Z = h(r), den samme funksjonen som i oppgave (i) bare med r som argument istedenfor x. Siden h(r) er en strengt voksende, kontinuerlig funksjon av r, vil h(r) være større enn eller lik h(r 0 ) hvis og bare hvis r er større enn eller lik r 0 . Å si at h(r) er større enn eller lik h(r 0 ) er derfor ekvivalent med å si at r er større enn eller lik r 0 . Dermed vil også sannsynligheten for at r er større enn eller lik r 0 være den samme som sannsynligheten for at Z er større enn eller lik h(r 0 ). Altså P(r ≥ r 0 ) = P(Z ≥ h(r 0 )). (iii) Vi har P(r ≥ r 0 ) = P(Z ≥ h(r 0 )). Vår observerte verdi for r fra oppgave 8, var r 0 = 0.7295. Så vi kan sette inn denne verdien i uttrykket: 1+0.7295 P(r ≥ 0.7295) = P(Z ≥ h(0.7295)) = P(Z ≥ √20 ∙ ln �1−0.7295� ) = P(Z ≥ 8.297) Siden vi vet at Z er tilnærmet normalfordelt med forventning 0 og standardavvik 1, kan vi tolke dette uttrykket slik: Sannsynligheten for at vi observerer en verdi for r som er større enn vår verdi under antagelsen ρ = 0, er det samme som sannsynligheten for at en normalfordelt variabel er minst 8.297 standardavvik unna sin forventede verdi. Altså ekstremt usannsynlig. Hvor usannsynlig, kan vi finne ut ved hjelp av Excel, eller ved hjelp av tabell D.3 i Løvås. 11 For en normalfordelt variabel med forventning 0 og standardavvik 1 gjelder følgende: P(Z ≤ z) = G(z) P(Z ≥ 8.297) = 1 - P(Z < 8.297) = 1 - P(Z ≤ 8.297) Siden Z er en kontinuerlig variabel. Så P(Z ≥ 8.297) = 1 - P(Z ≤ 8.297) = 1 - G(8.297) Ved å bruke Excel, finner vi G(8.297) ≈ 1. Altså er P(r ≥ 0.7295) = P(Z ≥ 8.297) ≈ 0. Vi observerer en p-verdi så liten at vi kan runde den av til 0. Dette betyr at sannsynligheten for at vi observerer en verdi for r som er større enn vår verdi, er tilnærmet lik 0 under antagelsen om at ρ = 0. Vi burde derfor vurdere om antagelsen vår er feil, og at det finnes en sammenheng mellom variablene, dvs. ρ ≠ 0. I dette tilfellet er resultatet svært signifikant, og vi kan fastslå nesten helt sikkert at ρ ≠ 0, og at det er en sammenheng mellom sigarettkonsum og HKS-dødelighet. En p-verdi nærme 0 forteller oss at sannsynligheten for at ρ = 0 er ekstremt liten, og konklusjonen vår om at ρ ≠ 0 nesten alltid er sann. I dette tilfellet konkluderer vi med at ρ > 0, dvs. sammenhengen er positiv. Merk: Tabell D.3 i Løvås har bare verdier for G opp til ca. 3. Vi ser at allerede for G(3) er sannsynligheten veldig nærme 1. Altså er det ekstremt sjeldent en normalfordelt variabel er mer enn 3 standardavvik unna sin forventede verdi. Dermed er det enda sjeldnere at en normalfordelt variabel er så mye som 8.297 standardavvik unna sin forventede verdi, og sannsynligheten for dette er veldig nærme 0. For verdier over 3 er vi derfor såpass sikre at vi i de fleste tilfeller kan runde sannsynligheten opp til 1. Men pass her på å si at sannsynligheten er tilnærmet lik 1, for helt 100 % sikkert er det ikke, men nesten! 12