Multippel regresjon
Transcription
Multippel regresjon
Vi ønsker å tilpasse en rett linje gjennom dataskyen Denne linjen skal ha den beste tilpasningen (minst feil) til data 20 Disse avvikene skal minimeres 10 5 0 Y 15 Trendlinje 2 4 6 X 8 10 Avhengig variabel: y Uavhengig variabel x y = ax + b I regresjonsanalyser: "Structure" 2 -2 4 0 Y 6 2 8 4 10 6 "Noise" 2 4 6 8 10 2 14 X 4 6 12 X 0 2 4 6 Y 8 10 "Structure + Noise" 2 4 6 X 8 10 8 10 Y=β0 +β1X Litt tidkrevende å regne ut. Dette gjøres vanligvis av et dataprogram Enkel når vi først vet β1 1. 2. 3. 4. Det finnes en y-verdi for hver x-verdi y-variabelen er normalfordelt Gjennomsnittene til disse normalfordelingene ligger på regresjonslinja og de har samme standardavvik y-variablen er kun en funksjon av x Vi skal se på vekt som en funksjon av alder Datasettet er ikke reelt, men gir oss en god innføring i regresjonsanalyse Vi har registert alder og vekt hos 100 menn i 30 årene (10 fra hvert årsintervall) Vi ønsker å bruke disse dataene til å si noe om hvor mye denne gruppen menn i Norge legger på seg i løpet at et år 90 85 vekt 80 75 70 30 31 32 33 34 35 alder 36 37 38 39 Først regner vi ut summen over brøkstreken = 380.2 Deretter under =825 β1=380.2/825=0.46 β0= 77.34 -0.46*34.5 =61.47 Y= 61.47 +0.46*x lm(formula = vekt ~ alder) Coefficients: (Intercept) alder Estimate 61.4407 0.4608 Std. Error 4.1298 0.1193 t value Pr(>|t|) 14.877 < 2e-16 *** 3.863 0.000201 *** Bruk informasjonen over til å prediktere vekt ved alder 35, 40 og 1 år 90 85 vekt 80 75 70 30 31 32 33 34 35 alder 36 37 38 39 r=0 r=-1 0>r<1 r=1 r=0 Korrelasjonskoeffesienten r r og r2 beregnes via formelen r gir oss antall standardavvik y endrer seg dersom x endres med ett standardavvik. r har grensene -1 og 1 Måler hvor mye av variasjonen den lineære modellen forklarer SS (sum of squares) "Y minus rød linje" Regr line SSE (Residual sum of squares) "Y minus grønn linje" Mean(Y) r2 = SS – SSE SS SS = Total variasjon SSE = Resterende (Residual) variasjon SS-SSE = SSR (Sum of Square Regresjon) Gitt data for antallet kroner brukt på radioreklame og overskudd i 150 små bedrifter Sammenhengen mellom x (kroner i reklame) og y (Inntekter i 1000 kr) er det samme i alle tre eksemplene. “Støyen" er ulik Vil du anbefale meg som bedriftsleder å invistere i radioreklame, og hvor mye? 10 6 4 2 beta1 0.00691 p-value 0 R-squared 0.9021 0 Selskapets overskudd i 100 000 kr 8 r 0.95 p-value 0 0 50 100 Kr til Radioreklame i 1000 150 10 8 6 4 2 beta1 0.00637 p-value 0.002 R-squared 0.0663 0 Selskapets overskudd i 100 000 kr r 0.26 p-value 0.002 0 50 100 Kr til Radioreklame i 1000 150 10 8 6 4 2 beta1 0.00805 p-value 0.132 R-squared 0.0153 0 Selskapets overskudd i 100 000 kr r 0.12 p-value 0.132 0 50 100 Kr til Radioreklame i 1000 150 Lineær regresjon lar oss beregne den best tilpassede rette linjen mellom datapunktene til to variabler I noen datasett finnes det flere lineære sammenhenger Vi ønsker å justere for effekten av disse, og vise hvilke som er signifikante effekter Basketball Vi har mål høyden til 100 basketballspillere og vi har et mål på hvor mange poeng de gjennomsnittlig har scoret i løpet av en sesong Vi tror det er en sammenheng mellom høyde og gjennomsnitlig poengfangst Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -54.63216 8.26963 -6.606 2.06e-09 height 0.40114 0.04162 9.638 7.40e-16 Basketball Vi vet i tillegg vekten til basketballspillerene Vi tror også det er en sammenheng mellom vekt og gjennomsnittlig poengfangst (Tyngre = mer muskler) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -18.2857 5.1093 -3.579 0.000538 basket$weight 0.4145 0.0488 8.493 2.22e-13 To Vi variabler som korrelerer med score ønsker å oppgi effekten av gjennomsnitlig score for høyde justert for vekt Eller Gjennomsnittlig score for vekt justert for høyde Generell formel Yhatt = skjæringspunkt +stigningstall variabel1 * verdi variabel 1 +....+ stigningstall variabel n *verdi variabel n Hvis regresjonsparameteret βn er signifikant forskjellig fra null inkluderer vi denne termen i analysen vår Call: lm(formula = basket$score ~ basket$weight + basket$height) Coefficients: Estimate Std. Error t value (Intercept) -48.64826 8.39305 -5.796 Pr(>|t|) 8.44e-08 *** basket$weight 0.17744 0.07032 2.523 0.0133 * basket$height 0.27766 0.06356 4.369 3.14e-05 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 3.332 on 97 degrees of freedom Multiple R-squared: 0.5185, Adjusted R-squared: 0.5086 F-statistic: 52.23 on 2 and 97 DF, p-value: 4.031e-16