6.1 Večkratna regresija
Transcription
6.1 Večkratna regresija
Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Linearna regresija Enostavna linearna regresija - študij odvisnosti med eno odvisno in eno neodvisno spremenljivko. Večkratna (multipla) linearna regresija (splošni linearni model) je multivariatna metoda za proučevanje odvisnosti med eno odvisno in več neodvisnimi spremenljivkami. Večkratna (multipla) regresija Z regresijsko analizo je mogoče odvisnost med odvisno in eno ali več neodvisnimi spremenljivkami izraziti v obliki regresijske enačbe. Uporaba: Ocenjevanje težje merljivih količin z drugimi, lažje določljivimi. Večkratna (multipla) regresija Večkratna (multipla) regresija Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Regresijska premica Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Enostavni linearni regresijski model Regresijska premica je premica, ki se podatkom (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) v ravnini najbolj tesno prilega. Vrednost odvisne spremenljivke Y želimo izraziti s pomočjo neodvisne spremenljivke X v obliki linearne zveze: Skica: yi , ŷi . Y = a + bX + U (predvidevamo linearni vpliv X na Y ), Regresijska premica je določena tako, da je pri njej, v primerjavi z drugimi premicami, vsota kvadratov rezidualov kjer je Ŷ = a + bX regresijska premica ter U napaka oz. rezidual, ki nastane zaradi slučajnih vplivov ali zaradi tega, ker v model niso vključene vse spremenljivke, ki vplivajo na Y . n (odklonov) ∑ (ŷi − yi )2 najmanjša (metoda najmanjših i =1 kvadratov). Predpostavka modela: E (U ) = 0 (sicer lahko popravimo a). Linearni model je v povprečju točen. Npr. na podlagi znanih podatkov določimo model, ki ob podani telesni višini omogoči izračun predvidene telesne teže. Pri tem želimo, da bo naša napoved v povprečju točna - uporabimo regresijsko premico. MOTIVACIJA: Večkratna (multipla) regresija Večkratna (multipla) regresija Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Determinacijski koeficient ∑ ( yi − y ) 2 = i =1 Enostavni linearni regresijski model n n i =1 i =1 ∑ (ŷi − y )2 + ∑ (ŷi − yi )2 . Kvocient pojasnjene in celotne variance je enak r 2 , kjer je r vzorčni korelacijski koeficient med X in Y . Rečemo mu determinacijski koeficient. Veljavnost enostavnega linearnega modela testiramo z analizo variance, ki temelji na velikosti deleža z modelom pojasnjene variance: H0 : r 2 = 0 (linearni model ni ustrezen); H1 : r 2 6= 0 (linearni model je ustrezen). Zanesljivost izračunanih parametrov regresijske premice testiramo s t-testom: Determinacijski koeficient r 2 pove, kolikšen delež variance spremenljivke Y pojasni spremenljivka X . H0 : b = 0 (X in Y sta neodvisni); H1 : b 6= 0 (X in Y sta odvisni). Kvadratni koren iz nepojasnjene variance izraža povprečno odstopanje dejanskih vrednosti spremenljivke Y od vrednosti na regresijski premici. Primer: SPSS (Dieta). Večkratna (multipla) regresija Linearna regresija Večkratna linearna regresija Testiranje modela Celotna variabilnost spremenljivke Y je enaka vsoti z modelom pojasnjene variabilnosti in nepojasnjene variabilnosti: n Linearna regresija Enostavni linearni regresijski model Večkratna (multipla) regresija Večkratna linearna regresija Splošni (večrazsežni) linearni regresijski model Model predvideva linearno odvisnost spremenljivke Y od neodvisnih spremenljivk X1 , X2 , . . . , Xm v obliki statističnega modela: Y = b0 + b1 X1 + b2 X2 + · · · + bm Xm + U = Ŷ + U, kjer je Ŷ = b0 + b1 X1 + b2 X2 + · · · + bm Xm regresijska hiperravnina (premica za m = 1, ravnina za m = 2) ter U napaka oz. rezidual. Koeficienti bi (regresijski koeficienti) so določeni tako, da se hiperravnina podatkom najbolj prilega (z metodo najmanjših kvadratov). Primer: Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Regresijski koeficienti X = (Y , X1 , X2 , . . . , Xm ) statistični vektor. Podatki vzorca velikosti n: (y1 , x11 , x12 , . . . , x1m ), (y2 , x21 , x22 , . . . , x2m ), . . . , (yn , xn1 , xn2 , . . . , xnm ). Regresijski koeficienti b0 , b1 , . . . , bm so določeni z metodo najmanjših kvadratov. Hiperravnina je določena tako, da je vsota kvadratov rezidualov najmanjša: n n i =1 i =1 ∑ (yi − b0 − b1 xi1 − b2 xi2 − · · · − bm xim )2 = ∑ (yi − ŷi )2 . Regresijska hiperravnina za m = 2. Večkratna (multipla) regresija Večkratna (multipla) regresija Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Determinacijski koeficient Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Testiranje modela Celotna variabilnost (VKs ) spremenljivke Y je enaka vsoti pojasnjene variabilnosti (variabilnosti regresije VKr ) spremenljivke Ŷ = b0 + b1 X1 + · · · + bm Xm in nepojasnjene variabilnosti spremenljivke U. VKr Determinacijski koeficient r 2 = ∈ [0, 1]. VKs Determinacijski koeficient r 2 pove, kolikšen delež variabilnosti Y je pojasnjen z X1 , X2 , . . . , Xm . Primer: SPSS (Dieta). Ali X1 , X2 , . . . , Xm statistično značilno vplivajo na Y v linearnem modelu? Veljavnost linearnega modela testiramo z analizo variance, ki temelji na velikosti deleža z modelom pojasnjene variance: H0 : r 2 = 0 (linearni model ni ustrezen); H1 : r 2 6= 0 (linearni model je ustrezen). Pri tem je r 2 determinacijski koeficient, ki pove kolikšen delež variabilnosti Y je pojasnjen z X1 , X2 , . . . , Xm . Zanesljivost izračunanih parametrov regresijske hiperravnine testiramo s t-testom: H0 : bi = 0 (Xi in Y sta neodvisni); H1 : bi 6= 0 (Xi in Y sta odvisni). Večkratna (multipla) regresija Linearna regresija Enostavni linearni regresijski model Večkratna (multipla) regresija Večkratna linearna regresija Predpostavke regresijske analize 1. Nekoreliranost rezidualov: Za poljubni dve vrednosti sprem. Y morata biti pripadajoča reziduala nekorelirana. Izpolnjevanje te predpostavke testiramo z Durbin-Watsonovim testom. Testna statistika lahko zavzame vrednosti na intervalu [0, 4] (dopustne so vrednosti z intervala [1,3]). Pomen: 2: reziduali so nekorelirani; > 2: negativna korelacija; < 2: pozitivna korelacija. 2. Homoskedastičnost: Varianca rezidualov mora biti konstantna za vse vrednosti Y . V SPSS-u v Plots izrišemo graf, ki prikazuje standardizirane vrednosti rezidualov v odvisnosti od standardiziranih, z modelom napovedanih, vrednosti odvisne spremenljivke. Predpostavka je izpolnjena, če so točke čim bolj naključno (neurejeno) razporejene. Večkratna (multipla) regresija Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Predpostavke regresijske analize 3. Normalno porazdeljeni reziduali: Spremenljivka U (rezidual) mora biti normalno porazdeljena s povprečno vrednostjo 0 (linearni model je v povprečju točen). V SPSS-u v Plots izberemo histogram. 4. Ni multikolinearnosti: Med neodvisnimi spremenljivkami ne sme biti močnih povezav. Prisotnost multikolinearnosti preverjamo z VIF faktorjem (variance inflation factor). Multikolinearnosti ni, če je njegova vrednost manjša od 10. V SPSS-u izberemo Collinearity diagnostics. Večkratna (multipla) regresija Linearna regresija Enostavni linearni regresijski model Večkratna linearna regresija Primernost spremenljivk, velikost vzorca Kakšne spremenljivke so primerne za regresijsko analizo? Odvisna spremenljivka mora biti zvezna, neodvisne pa so lahko številske (merjene na nekem intervalu) ali kategorične (z dvema kategorijama). Kako velik vzorec potrebujemo za regresijsko analizo? Kriteriji so različni (več je bolje); npr. vsaj 15 enot za vsako neodvisno spremenljivko. Linearna regresija Enostavni linearni regresijski model Metode vključevanja neodvisnih spremenljivk Hierarhična: Spremenljivke vključujemo postopno glede na pomembnost, ki izhaja in predhodnih teoretičnih in praktičnih izkušenj. Hierarhijo določimo z bločnim zapisom. Sočasna (Enter): Vse izbrane spremenljivke vključimo v model hkrati. Postopna (Stepwise): Program vključuje spremenljivke postopno. Na posameznem koraku doda tisto spremenljivko, ki pojasni največji delež preostale variance odvisne spremenljivke. Primer: SPSS (Zgoščenke). Analyze → Regression → Linear Večkratna (multipla) regresija Večkratna linearna regresija Večkratna (multipla) regresija