6.1 Večkratna regresija

Transcription

6.1 Večkratna regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Linearna regresija
Enostavna linearna regresija - študij odvisnosti med eno
odvisno in eno neodvisno spremenljivko.
Večkratna (multipla) linearna regresija (splošni linearni model)
je multivariatna metoda za proučevanje odvisnosti med eno
odvisno in več neodvisnimi spremenljivkami.
Večkratna (multipla) regresija
Z regresijsko analizo je mogoče odvisnost med odvisno in eno
ali več neodvisnimi spremenljivkami izraziti v obliki regresijske
enačbe.
Uporaba:
Ocenjevanje težje merljivih količin z drugimi, lažje določljivimi.
Večkratna (multipla) regresija
Večkratna (multipla) regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Regresijska premica
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Enostavni linearni regresijski model
Regresijska premica je premica, ki se podatkom
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) v ravnini najbolj tesno prilega.
Vrednost odvisne spremenljivke Y želimo izraziti s pomočjo
neodvisne spremenljivke X v obliki linearne zveze:
Skica: yi , ŷi .
Y = a + bX + U (predvidevamo linearni vpliv X na Y ),
Regresijska premica je določena tako, da je pri njej, v
primerjavi z drugimi premicami, vsota kvadratov rezidualov
kjer je Ŷ = a + bX regresijska premica ter U napaka oz.
rezidual, ki nastane zaradi slučajnih vplivov ali zaradi tega, ker
v model niso vključene vse spremenljivke, ki vplivajo na Y .
n
(odklonov)
∑ (ŷi − yi )2 najmanjša (metoda najmanjših
i =1
kvadratov).
Predpostavka modela: E (U ) = 0 (sicer lahko popravimo a).
Linearni model je v povprečju točen.
Npr. na podlagi znanih podatkov določimo
model, ki ob podani telesni višini omogoči izračun predvidene
telesne teže. Pri tem želimo, da bo naša napoved v povprečju
točna - uporabimo regresijsko premico.
MOTIVACIJA:
Večkratna (multipla) regresija
Večkratna (multipla) regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Determinacijski koeficient
∑ ( yi − y ) 2 =
i =1
Enostavni linearni regresijski model
n
n
i =1
i =1
∑ (ŷi − y )2 + ∑ (ŷi − yi )2 .
Kvocient pojasnjene in celotne variance je enak r 2 , kjer je r
vzorčni korelacijski koeficient med X in Y . Rečemo mu
determinacijski koeficient.
Veljavnost enostavnega linearnega modela testiramo z analizo
variance, ki temelji na velikosti deleža z modelom pojasnjene
variance:
H0 : r 2 = 0 (linearni model ni ustrezen);
H1 : r 2 6= 0 (linearni model je ustrezen).
Zanesljivost izračunanih parametrov regresijske premice
testiramo s t-testom:
Determinacijski koeficient r 2 pove, kolikšen delež variance
spremenljivke Y pojasni spremenljivka X .
H0 : b = 0 (X in Y sta neodvisni);
H1 : b 6= 0 (X in Y sta odvisni).
Kvadratni koren iz nepojasnjene variance izraža povprečno
odstopanje dejanskih vrednosti spremenljivke Y od vrednosti
na regresijski premici.
Primer: SPSS (Dieta).
Večkratna (multipla) regresija
Linearna regresija
Večkratna linearna regresija
Testiranje modela
Celotna variabilnost spremenljivke Y je enaka vsoti z
modelom pojasnjene variabilnosti in nepojasnjene variabilnosti:
n
Linearna regresija
Enostavni linearni regresijski model
Večkratna (multipla) regresija
Večkratna linearna regresija
Splošni (večrazsežni) linearni regresijski model
Model predvideva linearno odvisnost spremenljivke Y od
neodvisnih spremenljivk X1 , X2 , . . . , Xm v obliki statističnega
modela: Y = b0 + b1 X1 + b2 X2 + · · · + bm Xm + U = Ŷ + U,
kjer je Ŷ = b0 + b1 X1 + b2 X2 + · · · + bm Xm regresijska
hiperravnina (premica za m = 1, ravnina za m = 2) ter U
napaka oz. rezidual.
Koeficienti bi (regresijski koeficienti) so določeni tako, da se
hiperravnina podatkom najbolj prilega (z metodo najmanjših
kvadratov). Primer:
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Regresijski koeficienti
X = (Y , X1 , X2 , . . . , Xm ) statistični vektor.
Podatki vzorca velikosti n:
(y1 , x11 , x12 , . . . , x1m ), (y2 , x21 , x22 , . . . , x2m ), . . . , (yn , xn1 , xn2 , . . . , xnm ).
Regresijski koeficienti b0 , b1 , . . . , bm so določeni z metodo
najmanjših kvadratov. Hiperravnina je določena tako, da je
vsota kvadratov rezidualov najmanjša:
n
n
i =1
i =1
∑ (yi − b0 − b1 xi1 − b2 xi2 − · · · − bm xim )2 = ∑ (yi − ŷi )2 .
Regresijska hiperravnina za m = 2.
Večkratna (multipla) regresija
Večkratna (multipla) regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Determinacijski koeficient
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Testiranje modela
Celotna variabilnost (VKs ) spremenljivke Y je enaka vsoti
pojasnjene variabilnosti (variabilnosti regresije VKr )
spremenljivke Ŷ = b0 + b1 X1 + · · · + bm Xm in nepojasnjene
variabilnosti spremenljivke U.
VKr
Determinacijski koeficient r 2 =
∈ [0, 1].
VKs
Determinacijski koeficient r 2 pove, kolikšen delež variabilnosti
Y je pojasnjen z X1 , X2 , . . . , Xm .
Primer: SPSS (Dieta).
Ali X1 , X2 , . . . , Xm statistično značilno vplivajo na Y v
linearnem modelu?
Veljavnost linearnega modela testiramo z analizo variance, ki
temelji na velikosti deleža z modelom pojasnjene variance:
H0 : r 2 = 0 (linearni model ni ustrezen);
H1 : r 2 6= 0 (linearni model je ustrezen).
Pri tem je r 2 determinacijski koeficient, ki pove kolikšen delež
variabilnosti Y je pojasnjen z X1 , X2 , . . . , Xm .
Zanesljivost izračunanih parametrov regresijske hiperravnine
testiramo s t-testom:
H0 : bi = 0 (Xi in Y sta neodvisni);
H1 : bi 6= 0 (Xi in Y sta odvisni).
Večkratna (multipla) regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna (multipla) regresija
Večkratna linearna regresija
Predpostavke regresijske analize
1. Nekoreliranost rezidualov:
Za poljubni dve vrednosti sprem. Y morata biti pripadajoča
reziduala nekorelirana. Izpolnjevanje te predpostavke
testiramo z Durbin-Watsonovim testom. Testna statistika
lahko zavzame vrednosti na intervalu [0, 4] (dopustne so
vrednosti z intervala [1,3]). Pomen:
2: reziduali so nekorelirani;
> 2: negativna korelacija;
< 2: pozitivna korelacija.
2. Homoskedastičnost:
Varianca rezidualov mora biti konstantna za vse vrednosti Y .
V SPSS-u v Plots izrišemo graf, ki prikazuje standardizirane
vrednosti rezidualov v odvisnosti od standardiziranih, z
modelom napovedanih, vrednosti odvisne spremenljivke.
Predpostavka je izpolnjena, če so točke čim bolj naključno
(neurejeno) razporejene.
Večkratna (multipla) regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Predpostavke regresijske analize
3. Normalno porazdeljeni reziduali:
Spremenljivka U (rezidual) mora biti normalno porazdeljena s
povprečno vrednostjo 0 (linearni model je v povprečju točen).
V SPSS-u v Plots izberemo histogram.
4. Ni multikolinearnosti:
Med neodvisnimi spremenljivkami ne sme biti močnih povezav.
Prisotnost multikolinearnosti preverjamo z VIF faktorjem
(variance inflation factor). Multikolinearnosti ni, če je njegova
vrednost manjša od 10.
V SPSS-u izberemo Collinearity diagnostics.
Večkratna (multipla) regresija
Linearna regresija
Enostavni linearni regresijski model
Večkratna linearna regresija
Primernost spremenljivk, velikost vzorca
Kakšne spremenljivke so primerne za regresijsko analizo?
Odvisna spremenljivka mora biti zvezna, neodvisne pa so lahko
številske (merjene na nekem intervalu) ali kategorične (z
dvema kategorijama).
Kako velik vzorec potrebujemo za regresijsko analizo?
Kriteriji so različni (več je bolje); npr. vsaj 15 enot za vsako
neodvisno spremenljivko.
Linearna regresija
Enostavni linearni regresijski model
Metode vključevanja neodvisnih spremenljivk
Hierarhična: Spremenljivke vključujemo postopno glede na
pomembnost, ki izhaja in predhodnih teoretičnih in praktičnih
izkušenj. Hierarhijo določimo z bločnim zapisom.
Sočasna (Enter): Vse izbrane spremenljivke vključimo v model
hkrati.
Postopna (Stepwise): Program vključuje spremenljivke
postopno. Na posameznem koraku doda tisto spremenljivko, ki
pojasni največji delež preostale variance odvisne spremenljivke.
Primer: SPSS (Zgoščenke).
Analyze → Regression → Linear
Večkratna (multipla) regresija
Večkratna linearna regresija
Večkratna (multipla) regresija