Luku 1 Yhden selittäjän lineaarinen regressio
Transcription
Luku 1 Yhden selittäjän lineaarinen regressio
Luku 1 Yhden selitt¨ aj¨ an lineaarinen regressio T¨am¨a luku on tiivistelm¨a Jørgensenin kirjan luvusta 1. T¨ass¨a luvussa k¨asitell¨a¨an yksinkertaisilla tarkasteluilla yhden selitt¨aj¨an lineaarista regressiota, mutta suoraviivaisia laskuja ei ole t¨ass¨a laskettu auki, vaan ne esitet¨a¨an luennoilla tai j¨atet¨a¨an lukijan tarkistettavaksi. Luvussa 2 tarkastellaan sitten yleist¨a lineaarista regressiota k¨aytt¨am¨all¨a hienostuneempia matemaattisia ty¨okaluja. 1.1 Regressiomalli Analysoitavana on n:n havaintoyksik¨on suuruinen aineisto, jonka muuttujista yksi, y, on luonteeltaan selitett¨av¨a ja toinen, x, selitt¨a¨a selitett¨av¨an muuttujan y vaihtelua. Olkoot (x1 , y1 ), . . . , (xn , yn ) vastaavat havainnot. Muuttujien x ja y v¨alinen yhteyden ajatellaan olevan osapuilleen lineaarinen. Kutsumme muuttujaa y selitett¨av¨aksi muuttujaksi tai vasteeksi (dependent variable, response variable). Kutsumme muuttujaa x selitt¨av¨aksi muuttujaksi (independent variable, explanatory variable). Ajattelmme, ett¨a yi :t ovat vastaavien satunnaismuuttujien Yi havaittuja arvoja. Sen sijaan ajattelemme, ett¨a selitt¨av¨at muuttujat xi ovat ei-satunnaisia eli vakioita. T¨allainen oletus on luonteva, jos xi :t ovat kokeen suunnittelijan valittavissa olevia lukuja. Joissakin tapauksissa lineaarista regressiota sovelletaan tilanteessa, jossa ei ole luontevaa olettaa, ett¨a xi :t ovat vakioita, vaan on luontevaa olettaa, ett¨a ne ovat tiettyjen satunnaismuuttujien X1 , . . . , Xn havaittuja arvoja. T¨all¨oin 1 ajatellaan, ett¨a koko analyysi tehd¨a¨an ehdollistamalla selitt¨avien muuttujien havaittuihin arvoihin, eli t¨all¨oin tarkastellaan selitett¨avien muuttujien Y1 , . . . , Yn ehdollista jakaumaa ehdolla X1 = x1 , . . . , Xn = xn . Yhden selitt¨aj¨an lineaarisessa mallissa tehd¨a¨an seuraavat oletukset. Selitt¨avien muuttujien arvot xi ovat kiinteit¨a annettuja lukuja. Havaintoja yi vastaavat satunnaismuuttujat Yi ovat riippumattomia, ja ne noudattavat jakaumaa Yi ∼ N (µi , σ 2 ), i = 1, . . . , n, jossa keskiarvot µi = EYi toteuttavat yht¨al¨ot µi = β1 + β2 xi , i = 1, . . . , n. Keskiarvoille tehty oletus on rakenneoletus: se kertoo, miten selitett¨av¨an muuttujan vaihtelu riippuu selitt¨av¨ast¨a muuttujasta. Normaalisuusoletus on jakaumaoletus, joka kertoo, mink¨alaista satunnaisvaihtelua mallissa on rakenneosan lis¨aksi. Mallissa on kolme parametria, vakiotermi (intercept) β1 ∈ R, kulmakerroin (slope) β2 ∈ R ja varianssiparametri σ 2 ∈ R + . Toinen tapa esitt¨aa¨ sama malli on kirjoittaa Yi = β1 + β2 xi + i , i = 1, . . . , n, jossa virheet i ∼ N (0, σ 2 ) riippumattomasti, ja i on havaintoyksikk¨o¨on i liittyv¨a ei-havaittu satunnaismuuttuja. Mallissa tehd¨a¨an siis seuraavat oletukset, jotka alla luetellaan tilastolisen analyysin j¨arkevyyden kannalta summittaisessa t¨arkeysj¨arjestyksess¨a. (i) Yi :n odotusarvo riippuu lineaarisesti xi :st¨a. (ii) Muuttujat Y1 , . . . , Yn ovat riippumattomia. (iii) Muuttujan Yi varianssi on vakio (homoskedastisuus). (iv) Muuttujalla Yi on normaalijakauma. N¨am¨a oletukset pit¨aisi yritt¨a¨a verifioida aineiston ja sit¨a koskevan taustatiedon perusteella. Hajontakuvio on t¨at¨a varten t¨arke¨a apuv¨aline, ja siit¨a voi yritt¨a¨a arvioida (i) lineaarisuutta ja (iii) vakiovarianssisuutta. Normaalisuutta (iv) voi yritt¨a¨a tutkia residuaalikuvioiden avulla. Riippumattomuutta (ii) ei voida verifioida aineistosta, vaan se yleens¨a oikeutetaan koetta koskevalla taustatiedolla. 2 1.2 Parametrien SU-estimaatit Johdamme parametrien suurimman uskottavuuden estimaatit eli SU-estimaatit. Mallin mukaan Yi ∼ N (β1 + β2 xi , σ 2 ) riippumattomasti, joten uskottavuusfunktio on n Y 1 2 2 −1/2 2 L(β1 , β2 , σ ) = (2πσ ) exp − 2 (yi − β1 − β2 xi ) , 2σ i=1 josta logaritminen uskottavuusfunktio saadaan kirjoitettua muotoon `(β1 , β2 , σ 2 ) = log L(β1 , β2 , σ 2 ) n n 1 X 2 = − log(2πσ ) − 2 (yi − β1 − β2 xi )2 2 2σ i=1 n 1 = − log(2πσ 2 ) − 2 D(β1 , β2 ). 2 2σ Kutsumme poikkeamien neli¨osummaa D(β1 , β2 ) nimell¨a devianssi. T¨ast¨a muodosta huomaamme seuraavaa. Oli σ 2 > 0 mik¨a tahansa kiinte¨a arvo, niin logaritmisen uskottavuusfunktion maksimoi parametrien β1 ja β2 suhteen ne arvot, jotka minimoivat devianssin D(β1 , β2 ). Kirjoitetaan nyt rakenneyht¨al¨o muotoon EYi = µi = β1 + β2 xi = β1 + β2 (xi − x¯) + β2 x¯ ja uudelleenparametroidaan malli k¨aytt¨am¨all¨a alkuper¨aisten selitt¨avien muuttujien arvojen sijasta keskistettyj¨a arvoja ti = xi − x¯. T¨all¨oin malli muuntuu muotoon EYi = µi = α + β2 ti , jossa otettiin k¨aytt¨o¨on uusi parametri α = β1 + β2 x¯. Uudessa mallissa parametreina ovat α, β2 ja σ 2 . Alkuper¨aisen mallin parametri β1 saadaan laskettua uusista parametreist¨a kaavalla β1 = α − β2 x¯, 3 ja muut kaksi parametria ovat samoja alkuper¨aisess¨a ja keskistetyss¨a mallissa. Parametrien α, β2 ja σ 2 avulla ilmaistuna logaritminen uskottavuusfunktio on samaa muotoa kuin alkuper¨aisten parametrien avulla ilmaistuna sill¨a erolla, ett¨a devianssin lausekkeena on ˜ D(α, β2 ) = n X (yi − α − β2 ti )2 . i=1 Derivoimalla devianssin lauseketta kahteen kertaan, saadaan selville, ett¨a mik¨ali St > 0, devianssilla on yksik¨asitteinen minimipiste kohdassa α ˆ = y¯, Sty βˆ2 = , St jossa n y¯ = 1X yi , n i=1 Sty = n X ti yi , i=1 St = n X t2i . i=1 (Aina St ≥ 0, ja jos St = 0, niin kaikki xi :t ovat yht¨asuuria, eik¨a lineaarinen malli ole mielek¨as!) Keskistetyn mallin parametrien α ja β2 SU-estimaatit ovat edell¨a johdetut α ˆ ja βˆ2 . Alkuper¨aisen mallin parametrien β1 ja β2 SU-estimaatit ovat βˆ1 = α ˆ − βˆ2 x¯. (SU-estimaatin invarianssiominaisuus!) Huomaa, ett¨a sovitettu regressiosuora y = βˆ1 + βˆ2 x kulkee aina aineiston painopisteen (¯ x, y¯) kautta, sill¨a edellisen nojalla βˆ1 + βˆ2 x¯ = y¯. Jos varianssi σ 2 > 0 kiinnitet¨a¨an, ja log-uskottavuusfunktio maksimoidaan muiden parametrien suhteen, niin tulokseksi saadaan ˜ 2 ) = − n log(2πσ 2 ) − 1 D(βˆ1 , βˆ2 ). `(σ 2 2σ 2 T¨at¨a σ 2 :n funktioita kutsutaan parametrin σ 2 logaritmiseksi profiiliuskottavuusfunktioksi. Parametrin σ 2 SU-estimaatti saadaan ratkaistua ratkaisemalla t¨am¨an funktion maksimipiste. Derivoimalla SU-estimaatille saadaan johdettua kaava n σ ˆ2 = 1 1X D(βˆ1 , βˆ2 ) = (yi − βˆ1 − βˆ2 xi )2 . n n i=1 4 1.3 Estimaattorien ominaisuuksia Kun puhumme estimaattoreista, tarkoitamme estimaatteja vastaavia satunnaismuuttujia. Oletamme, ett¨a lineaarinen malli pit¨a¨a paikkansa, ja tutkimme satunnaismuuttujien Pn n X ti Yi 1 S tY α ˆ = Y¯ = Yi , βˆ2 = = Pi=1 n 2 n i=1 St i=1 ti jne. jakaumia (ts. estimaattorien otantajakaumia, sampling distribution) ja muita ominaisuuksia. 1.3.1 Tyhjent¨ avyys Tilastollisessa mallissa, jossa havaintovektorin Y = (Y1 , . . . , Yn ) yhteisjakaumalla on parametrina tai parametrivektorina θ, tunnusluku T = t(Y ) on tyhjent¨av¨a, jos Y :n ehdollinen jakauma ehdolla T ei ole θ:n funktio. T¨all¨oin tunnusluku T sis¨alt¨a¨a parametrista yht¨a paljon tietoa kuin alkuper¨ainen havaintovektori. Tilastollisen p¨a¨attelyn teorian nojalla tiedet¨a¨an, ett¨a tunnusluku T on tyhjent¨av¨a silloin ja vain silloin, kun havaintojen (yhteis)tiheys fY voidaan kirjoittaa faktoroidussa muodossa fY (y; θ) = g(t(y); θ)h(y), ∀y, θ. (My¨os satunnaismuuttujan T otosvastinetta kutsutaan tyhjent¨av¨aksi tunnusluvuksi.) T¨am¨an perusteella on helppo n¨aytt¨aa¨, ett¨a yhden selitt¨aj¨an lineaarisessa regressiossa tunnusluku t(y) = (Sy , y+ , Sty ) on tyhjent¨av¨a, jossa Sy = n X 1 yi2 , y+ = n X 1 yi , Sty = n X ti yi . 1 Pienill¨a laskuilla n¨ahd¨a¨an t¨am¨an perusteella, ett¨a my¨oskin parametrien SUestimaattorit (ˆ α, βˆ1 , σ ˆ 2 ) muodostavat tyhjent¨av¨an tunnusluvun. 1.3.2 Regressiokertoimien estimaattorien jakaumat Palautetaan ensin mieleen kahden satunnaismuuttujan U ja V v¨alinen kovarianssi, joka m¨a¨aritell¨a¨an kaavalla Cov(U, V ) = E[(U − EU )(V − EV )]. 5 Muuttujan U varianssi Var U on sama kuin Cov(U, U ). Yksinkertainen lasku osoittaa, ett¨a kovarianssi on bilineaarinen (eli lineaarinen molempien argumenttien suhteen) ts., jos αi :t ja βj ovat vakioita ja Ui :t ja Vj :t satunnaismuuttujia, niin X X X αi Ui , βj Vj ) = αi βj Cov(Ui , Vj ). Cov( i j ij Koska muttujien Y1 , . . . , Yn yhteisjakauma on moniulotteinen normaalijakauma eli multinormaalijakauma, ja koska keskistetyn mallin SU-estimaattorit α ˆ ja βˆ2 ovat niiden lineaarikombinaatioita, on niiden yhteisjakauma kaksiulotteinen normaalijakauma. Helposti saadaan johdettua tulokset α ˆ ∼ N (α, σ2 ), n 2 σ βˆ2 ∼ N (β2 , ), St sek¨a Cov(ˆ α, βˆ2 ) = 0. Siis keskistetyn mallin parametrit α ˆ ja βˆ2 ovat korreloimattomia. Koska niiden yhteisjakauma on kaksiulotteinen normaalijakauma, t¨ast¨a seuraa, ett¨a ne ovat per¨ati riippumattomia. Alkuper¨aisen mallin kertoimien β1 ja β2 SU-estimaattorien yhteisjakauma on my¨oskin kaksiulotteinen normaalijakauma, ja laskemalla saadaan selville, ett¨a 2 1 x ¯ 2 βˆ1 ∼ N β1 , σ + n St ja σ2 , St joten alkuper¨aisen mallin estimaattorit ovat korreloituneita ja riippuvia. Jos x-arvot sijaitsevat kaukana origosta (¯ x on iso verrattuna arvoon St ), niin vaˆ kiotermin estimaattorin β1 varianssi on suuri, eli estimaattori βˆ1 on ep¨astabiili. T¨am¨an takia kannattaa useimmiten k¨aytt¨a¨a keskistetty¨a mallia, jonka kertoimien tulkinta on lis¨aksi usein mielekk¨a¨amp¨a¨a kuin keskist¨am¨att¨om¨an mallin parametrien tulkinta. Huomaa, ett¨a regressiokertoimien estimaattorit ovat harhattomia ja ett¨a niiden jakaumat riippuvat (tuntemattomasta) varianssiparametrista σ 2 , mink¨a vuoksi n¨ait¨a tuloksia ei voi suoraan k¨aytt¨a¨a esim. parametrien luottamusv¨alien johtamiseen. Cov(βˆ1 , βˆ2 ) = −¯ x 6 1.3.3 Varianssiparametri T¨ass¨a luvussa johdetaan se t¨arke¨a tulos, ett¨a σ ˆ 2 on riippumaton regressioparametrien estimaattoreista. T¨at¨a varten tarkastellaan ensin residuaalien ri = y i − µ ˆi = yi − βˆ1 − βˆ2 xi = yi − α ˆ − βˆ2 ti ominaisuuksia, jossa µ ˆi = βˆ1 + βˆ2 xi = α ˆ + βˆ2 ti on i:s sovite (fitted value). Olkoon Ri residuaalia ri vastaava satunnaismuuttuja, Ri = Yi − βˆ1 − βˆ2 xi = Yi − α ˆ − βˆ2 ti . Nyt ERi = EYi − E α ˆ − ti E βˆ2 = 0, ja pienill¨a laskuilla havaitaan, ett¨a Cov(Ri , α ˆ ) = Cov(Ri , βˆ2 ) = 0. Nyt satunnaismuuttujilla α ˆ , βˆ2 ja Ri on yhteisjakaumana multinormaalijakauma, sill¨a ne saadaan lineaarikombinaatioina satunnaismuuttujista Y1 , . . . , Yn , joilla on multinormaalijakauma. Koska multinormaalijakaumassa korreloimattomuudesta seuraa riippumattomuus, on Ri riippumaton parista (ˆ α, βˆ2 ). Koska n 1X 2 R , σ ˆ2 = n i=1 i seuraa, ett¨a my¨os σ ˆ2 on riippumaton parista (ˆ α, βˆ2 ). Yhdistettyn¨a edell¨a johˆ q β2 t¨ast¨a seuraa, ett¨a keskistetyn mallin kaikki kolme dettuun tulokseen α ˆ− parametriestimattoria ovat kesken¨a¨an riippumattomia. Keskist¨am¨att¨om¨ass¨a mallissa n¨ahd¨a¨an vastaavilla laskuilla, ett¨a σ ˆ 2 on riippumaton parista (βˆ1 , βˆ2 ). Satunnaismuuttujan Ri reunajakauma on normaalijakauma, jonka varianssi saadaan laskettua helposti k¨aytt¨am¨all¨a edell¨a johdettuja riippumattomuustuloksia. Ri :n jakaumaksi saadaan 1 t2i 2 Ri ∼ N 0, σ 1 − − n St Osoittautuu, ett¨a varianssiparametrin SU-estimaattorin jakauma on skaalausta vaille tietty χ2 -jakauma (khiin neli¨o tai khii toiseen). Palautetaan mieleen χ2 -jakauman m¨a¨aritelm¨a. Olkoot Z1 , . . . , Zk riippumattomia standardinormaalijakaumaa noudattavia satunnaismuuttujia. T¨all¨oin satunnaismuuttujalla U = Z12 + · · · + Zk2 7 on χ2 -jakauma k:lla vapausasteella (degrees of freedom, df ), eli U ∼ χ2 (k). Tunnetusti t¨am¨an jakauman odotusarvo on k ja varianssi on 2k. Luvun 2 tuloksista selvi¨a¨a aikanaan, ett¨a D(βˆ1 , βˆ2 ) = n X Ri2 ∼ σ 2 χ2 (n − 2), i=1 (kahden parametrin estimointiin kuluu kaksi vapausastetta), joten Eσ ˆ2 = n−2 1 ED(βˆ1 , βˆ2 ) = σ 2 . n n SU-estimaattori σ ˆ 2 on siis alasp¨ain harhainen, ja sen sijasta tavallisesti k¨aytet¨a¨an harhatonta estimaattoria n 1 1 X 2 Ri = D(βˆ1 , βˆ2 ). σ ˜ = n − 2 i=1 n−2 2 1.4 Residuaalit Edellisess¨a kappaleessa johdettiin residuaalia vastaavalle satunnaismuuttujalle jakaumana 1 t2i 2 Ri ∼ N 0, σ 1 − − . n St Sovitteelle µ ˆi saadaan helposti johdettua jakauma 1 t2i 2 µ ˆ i ∼ N µi , σ + . n St Sellaisessa suuressa otoksessa, jossa my¨os St on suuri, residuaalien varianssit menev¨at kohti arvoa σ 2 ja sovitteiden varianssit kohti nollaa. Residuaalien avulla voidaan yritt¨a¨a selvitt¨a¨a, ovatko havainnot Yi normaalijakautuneita. Jos lineaarinen malli pit¨a¨a paikkansa, residuaalit ovat normaalijakautuneita, niiden varianssi on osapuilleen σ 2 , ja ne ovat osapuilleen (mutta ei tarkalleen) korreloimattomia. Residuaalien normaalisuutta voidaan selvitt¨a¨a vertaamalla residuaalien jakaumaa normaalijakaumaan normaalisen kvantiilikuvion (eli fraktiilikuvion) (normal probability plot, normal QQ plot) avulla. Siin¨a piirret¨a¨an pistekuvio, jossa toiselle akselille piirret¨a¨an arvot ui = Φ−1 ((i − 1/2)/n), 8 jossa Φ−1 on standardinormaalijakauman kertym¨afunktion k¨a¨anteisfunktio, ja toiselle akselille arvot r(i) , jossa r(i) on i:nneksi pienin residuaaleista, r(1) ≤ r(2) ≤ · · · ≤ r(n) . Kirjassa suositellaan, ett¨a j¨arjestetyt residuaalit esitet¨aa¨n vaaka-akselilla ja ui :t pystyakselilla, mutta usein akselit valitaan toisin p¨ain. Jos lineaarisen mallin oletukset pit¨av¨at paikkansa, pisteet asettuvat suunnilleen origon kautta kulkevalle suoralle, jonka kulmakerroin on σ −1 , mik¨ali residuaali esitet¨a¨an vaaka-akselilla ja σ, mik¨ali ne esitet¨a¨an pystyakselilla. 1.5 Parametreja koskeva p¨ a¨ attely Jos mallin parametrit β1 ja β2 tunnettaisiin, niin varianssiparametri σ 2 voitaisiin estimoida lausekkeella n1 D(β1 , β2 ), sill¨a D(β1 , β2 ) ∼ σ 2 χ2 (n). Varianssiparametrin SU-estimaattorin alasp¨ainen harha syntyy siit¨a, ett¨a t¨ah¨an lausekkeeseen sijoitetaan tuntemattomien parametrien tilalle niiden SU-estimaattorit, jotka lasketaan minimoimalla t¨at¨a samaista lauseketta. Kuten jo mainittiin, varianssiparametrille k¨aytet¨a¨an tavallisesti harhaisen SU-estimaattorin sijasta harhatonta estimaattoria n σ ˜2 = 1 X 2 1 Ri = D(βˆ1 , βˆ2 ). n − 2 i=1 n−2 Palautetaan mieleen (Studentin) t-jakauma. Jos satunnaismuuttujat U ∼ N (0, 1), V ∼ χ2 (k) ovat riippumattomia, niin satunnaismuuttujalla U Z=p V /k on t-jakauma k:lla vapausasteella, eli Z ∼ t(k). Edell¨a johdimme tuloksen 2 σ βˆ2 ∼ N (β2 , ), St 9 mink¨a motivoimana m¨a¨arittelemme estimaattorin βˆ2 keskivirheen (standard error, s.e.) eli estimaattorin otantajakauman keskihajonnan otosestimaatin kaavalla σ ˜ s. e.(βˆ2 ) = √ , St jossa siis tuntemattoman varianssiparametrin sijalle on sijoitettu sen harhaton estimaatti σ ˜2. Parametrin β2 t-testisuure m¨a¨aritell¨a¨an kaavalla βˆ2 − β2 . s. e.(βˆ2 ) t(Y ) = Seuraavaksi osoitetaan, ett¨a t(Y ):ll¨a on t-jakauma n − 2:lla vapausasteella, (kun m¨a¨aritelm¨ass¨a k¨aytetty β2 on ko. parametrin todellinen arvo). Nyt √ (βˆ2 − β2 ) St /σ t(Y ) = √ s. e.(βˆ2 ) St /σ jossa osoittajan ja nimitt¨aj¨a ovat riippumattomia satunnaismuuttujia, koska q σ βˆ2 − ˜ 2 . Osoittajan jakauma on N (0, 1), ja nimitt¨aj¨a on neli¨ojuuri lausekkeesta χ2 (n − 2) σ ˜2 ∼ , σ2 n−2 miss¨a k¨aytettiin tietoa (n − 2)˜ σ 2 ∼ σ 2 χ2 (n − 2). Siis t(Y ) ∼ t(n − 2). T¨at¨a tulosta voidaan k¨aytt¨a¨a parametria β2 koskevien testien konstruoin(0) tiin sek¨a sen luottamusv¨alin laskemiseen. Olkoon β2 annettu vakio (kulma(0) kertoimen β2 kohdalla tyypillisesti β2 = 0), ja tarkastellaan hypoteesia (0) H0 : β2 = β2 , k¨aytt¨am¨all¨a kaksisuuntaista vastahypoteesia (0) HA : β2 6= β2 . T¨all¨oin voidaan k¨aytt¨a¨a tunnuslukua (0) βˆ2 − β2 t(Y ) = , s. e.(βˆ2 ) 10 0.2 0.0 −6 −4 −2 0 2 4 6 Kuva 1.1: Kaksisuuntaisen t-testin kriittinen alue koostuu kahdesta h¨ant¨aalueesta, joihin kumpaankin j¨a¨a osuus a/2 todenn¨ak¨oisyysmassasta. jonka jakauma on t(n − 2) silloin, kun H0 p¨atee. Nollahypoteesin kannalta kriittisi¨a ovat ne tapaukset, joissa |t(Y )| on suuri. Nollahypoteesi hyl¨at¨aa¨n merkitsevyystasolla a, jos |t(y)| > t1−a/2 (n − 2), miss¨a oikealla puolella oleva merkint¨a tarkoittaa sit¨a pistett¨a, jossa t(n − 2) jakauman kertym¨afunktio saavuttaa arvon 1 − a/2, ks. kuvaa 1.1. (T¨ass¨a k¨aytettiin hyv¨aksi t-jakauman symmetrisyytt¨a.) Palautetaan mieleen, ett¨a testin p-arvo eli havaittu merkitsevyystaso tarkoittaa todenn¨ak¨oisyytt¨a, ett¨a nollahypoteesin p¨atiess¨a testisuuretta vastaava satunnaismuuttuja saa arvon, joka on yht¨a suuri tai suurempi kuin nyt havaittu testisuureen arvo. Yll¨aolevan testin p-arvo on PH0 (|t(Y )| ≥ t(y)) = 2(1 − G(|t(y)|)), jossa G on jakauman t(n − 2) kertym¨afunktio (ja jossa j¨alleen k¨aytettiin hyv¨aksi t-jakauman symmetrisyytt¨a). Koska todenn¨ak¨oisyydell¨a 1 − a p¨atee ep¨ayht¨al¨o |t(Y )| = |βˆ2 − β2 | < t1−a/2 (n − 2), s. e.(βˆ2 ) niin ratkaisemalla t¨am¨a ep¨ayht¨al¨o parametrin β2 suhteen p¨a¨adyt¨a¨an seuraavaan parametrin β2 luottamusv¨aliin luottamustasolla 1 − a, [βˆ2 − t1−a/2 (n − 2) s. e.(βˆ2 ), βˆ2 + t1−a/2 (n − 2) s. e.(βˆ2 )]. 11 Parametrien β1 ja α kohdalla testisuureet konstruoidaan samalla periaatteella. Esimerkiksi parametrin β1 kohdalla l¨ahdet¨a¨an liikkeelle tuloksesta x¯2 2 1 ˆ β1 ∼ N (β1 , σ ( + )), n St jonka perusteella βˆ1 :n keskivirheeksi m¨aa¨ritell¨a¨an s 1 x¯2 s. e.(βˆ1 ) = σ ˜ + , n St ja sen t-testisuureeksi m¨aa¨ritell¨a¨an t(Y ) = βˆ1 − β1 . s. e.(βˆ1 ) T¨am¨an j¨alkeen konstruoida testej¨a ja luottamusv¨alej¨a parametrille β1 kuten edell¨a β2 :lle. Varianssiparametrin kohdalla l¨ahdet¨a¨an liikkeelle tiedosta σ ˜2 χ2 (n − 2) ∼ , σ2 n−2 2 josta saadaan johdettua hypoteesi¨a H0 : σ 2 = σ(0) koskeva testi sek¨a seuraavaa luottamustason 1 − a luottamusv¨ali " # (n − 2)˜ σ2 (n − 2)˜ σ2 , χ21−a/2 (n − 2) χ2a/2 (n − 2) jossa χ2b (k) tarkoittaa sit¨a pistett¨a, jossa χ2 (k)-jakauman kertym¨afunktio saa arvon b. 12 Luku 2 Yleinen lineaarinen malli Huomautus: yleinen lineaarinen malli on englanniksi general linear model. Yleistetty lineaarinen malli, generalized linear model, on taas aivan eri asia. 2.1 Lineaarinen malli lineaarialgebran k¨ asitteill¨ a Kehit¨amme seuraavaksi geometrisen l¨ahestymistavan lineaarisen mallin k¨asittelyyn. Tarkastelemme havaintovektoria y, vastaavaa satunnaisvektoria Y sek¨a sen odotusarvovektoria µ vektoriavaruuden R n pistein¨a, jossa µ1 y1 Y1 .. .. .. T y = (y1 , . . . , yn ) = . , Y = . , µ = . . µn Yn yn Yleisess¨a lineaarisessa mallissa asetetaan lineaarisia rajoitteita keskiarvovektorille µ. Yhden selitt¨aj¨an lineaarisessa regressiossa oletettiin, ett¨a µi = β1 + β2 xi , i = 1, . . . , n. Voimme esitt¨aa¨ t¨am¨an rakenneoletuksen vektorimerkinn¨oill¨a muodossa µ = β1 1 + β2 x, jossa k¨aytettiin seuraavia n-komponenttisia pystyvektoreita 1 x1 .. .. 1 = . , x = . . 1 xn 13 Toisin sanoen malli voidaan ilmaista siten, ett¨a µ on kahden annetun vektorin 1 ja x lineaarikombinaatio eli µ kuuluu n¨aiden kahden vektorin viritt¨am¨a¨an aliavaruuteen. M¨ a¨ aritelm¨ a. Yleisess¨a lineaarisessa mallissa oletetaan, ett¨a havaintoja yi vastaavat satunnaismuuttujat Yi ovat riippumattomia ja ett¨a Yi ∼ N (µi , σ 2 ), i = 1, . . . , n, jossa keskiarvovektori µ (joka on parametri eli tuntematon vakiovektori) toteuttaa rajoitteen (hypoteesin, rakenneoletuksen) µ ∈ L, jossa L on annettu (tunnettu ja ei-satunnainen) avaruuden R n aliavaruus ja σ 2 > 0 on parametri (eli tuntematon vakio). Palautetaan mieleen lineaarialgebran k¨asitteit¨a. Joukko L ⊂ R n on aliavaruus, jos on voimassa x, y ∈ L ja a, b ∈ R ⇒ ax + by ∈ L. Erityisesti nollavektori kuuluu jokaiseen aliavaruuteen. Vektorit x1 , . . . , xk ∈ L muodostavat aliavaruuden L kannan, jos (i) ne viritt¨av¨at L:n, eli mik¨a tahansa L:n alkio y voidaan esitt¨a¨a niiden lineaarikombinaationa y = a1 x1 + · · · + ak xk . (ii) joukko {x1 , . . . , xk } on lineaarisesti riippumatton (eli vapaa) ts. a1 x1 + · · · + ak xk = 0 ⇒ a1 = · · · = ak = 0. Lineaarialgebrasta tiedet¨a¨an, ett¨a jokaisella R n :n aliavaruudella on olemassa kanta ja ett¨a jokaisella L:n kannalla on yht¨a monta kantavektoria. T¨at¨a tarvittavaa kantavektoreiden lukum¨a¨ar¨a¨a kutsutaan aliavaruuden dimensioksi, dim(L). Huomaa, ett¨a kantavektoreiden lineaarisen riippumattomuuden ansiosta vektorin x ∈ L esitys kantavektoreiden lineaarikombinaationa on yksik¨asitteinen. Jos x1 , . . . , xk on lineaarisen mallin aliavaruuden L kanta, niin rakenneoletus µ ∈ L voidaan ilmaista muodossa µ= k X xj βj = Xβ, j=1 14 jossa X on tunnettu vakiomatriisi, jonka sarakkeet (pystyvektorit) ovat x1 , . . . , xk , ja kerroinvektori β = (β1 , . . . , βk )T on parametri, eli se on tuntematon vakiovektori. Matriisia X kutustaan t¨all¨oin asetelmamatriisiksi (design matrix ) tai mallimatriisiksi (model matrix ). Huomaa, ett¨a t¨all¨a kurssilla mallimatriisin sarakkeet ovat aina lineaarisesti riippumattomia (ellei erityisesti toisin mainita). On hy¨odyllist¨a tarkastella lineaarista mallia toisaalta tietyn kannan (ja tietyn mallimatriisin) avulla lausuttuna ja toisaalta koordinaattivapaasti eli pelk¨ast¨a¨an aliavaruuden L avulla ilmaistuna. Joskus aliavaruudelle L k¨aytet¨a¨an kahta eri kantaa ja mallimatriisia µ = X1 β ja µ = X2 ψ. Kun n × k-mallimatriisin X1 sarakkeet esitet¨a¨an n × k-mallimatriisin X2 sarakkeiden muodostaman kannan avulla, p¨aa¨dyt¨aa¨n esitykseen X1 = X2 A, jossa k × k-matriisin A sarakkeet ovat lineaarisesti riippumattomat (sill¨a muuten X1 :n sarakkeet olisivat lineaarisesti riippuvat). T¨am¨an takia A on k¨a¨antyv¨a matriisi. Koska µ = X1 β = X2 ψ = X2 Aβ, on ψ = Aβ ja β = A−1 ψ. Aliavaruuden L kannan vaihto on sama asia kuin t¨allainen lineaarisen mallin lineaarinen uudelleenparametrointi. Vektoreiden x, y ∈ R n sis¨atulo on T T x·y =x y =y x= n X xi yi , i=1 ja vektorin x normi on kxk = √ xT x. Vektorit x ja y ovat ortogonaaliset eli toisiaan vastaan kohtisuorat, jos xT y = 0, mik¨a voidaan ilmaista merkinn¨all¨a x ⊥ y. Pythagoraan lause sanoo, ett¨a x ⊥ y ⇒ kx + yk2 = kxk2 + kyk2 . Aliavaruuden L ortogonaalikomplementti L⊥ on L⊥ = {x ∈ R n : x ⊥ z L⊥ on tunnetusti aliavaruus. 15 ∀z ∈ L}. Jos L on aliavaruus ja y ∈ R n , niin tunnetusti on olemassa yksik¨asitteinen vektori pL (y) ∈ L siten, ett¨a y − pL (y) ∈ L⊥ tai ekvivalentisti siten, ett¨a y − pL (y) ⊥ z ∀z ∈ L. Vektoria pL (y) kutsutaan vektorin y ortogonaaliprojektioksi aliavaruuteen L. Huomaa, ett¨a ortogonaaliprojektio pL (y) on pistett¨ a y l¨ ahin aliavaruuden L piste, eli pL (y) on optimointiteht¨av¨an ky − zk = min! rajoitteella z ∈ L, yksik¨asitteinen ratkaisu, sill¨a jos z ∈ L, niin Pythagoraan lauseen mukaan ky − zk2 = ky − pL (y)k2 + kpL (y) − zk2 ≥ ky − pL (y)k2 , ja ep¨ayht¨al¨o on aito, jos z 6= pL (y). Ortogonaaliprojektio on lineaarinen kuvaus, sill¨a kun y1 , y2 ∈ R n esitet¨a¨an muodossa yj = pL (yj ) + (y − pL (yj )), j = 1, 2, jossa pL (yj ) ∈ L ja y − pL (yj ) ∈ L⊥ , niin havaitaan, ett¨a kaikille skalaareille α1 , α2 p¨atee α1 y1 + α2 y2 = [α1 pL (y1 ) + α2 pL (y2 )] + [α1 (y1 − pL (y1 )) + α2 (y2 − pL (y2 ))], jossa oikean puolen ensimm¨ainen termi kuuluu aliavaruuteen L ja toinen termi aliavaruuteen L⊥ . N¨ain ollen pL (α1 y1 + α2 y2 ) = α1 pL (y1 ) + α2 pL (y2 ) ∀y1 , y2 ∀α1 , α2 . Koska kuvaus y 7→ pL (y) on lineaarinen, sen v¨alit¨a¨a tietty n × n-matriisi H, eli pL (y) = Hy, ∀y Luvussa 2.2.1 annetaan matriisille H lauseke k¨aytt¨am¨all¨a mielivaltaista aliavaruuden L kantaa. 16 Ortogonaaliprojektion k¨asittely on yksinkertaista, jos aliavaruudelle L tunnetaan ortogonaalinen kanta e1 , . . . , ek , eli kanta, jonka vektorit ovat kesken¨a¨an kohtisuorat (ja kaikille aliavaruuksille l¨oytyy ortogonaalinen kanta). T¨all¨oin ortogonaaliprojektio saadaan lausekkeella pL (y) = k X ej · y e. 2 j ke k j j=1 T¨am¨a todistetaan tarkistamalla, ett¨a lausekkeen oikea puoli kuuluu aliavaruuteen L kaikilla y ja ett¨a y:n ja v¨aitetyn lausekkeen erotus on kohtisuorassa L:n kantavektoreita vastaan. Mielivaltainen aliavaruuden kanta voidaan ortogonalisoida Gramin–Schmidtin ortogonalisointiprosessilla. Otetaan k¨aytt¨o¨on merkint¨a S ⊂ Rn span S, tarkoittamaan joukon S viritt¨am¨a¨a aliavaruutta (eli pienint¨a aliavaruutta, joka sis¨alt¨a¨a joukon S.) Olkoon a1 , . . . , ak aliavaruuden L kanta, ja m¨a¨aritell¨a¨an Lj = span{a1 , . . . , aj }. M¨aa¨ritell¨a¨an e1 = a1 ja sen j¨alkeen ej = aj − pLj−1 (aj ), j = 2, . . . , k. T¨all¨oin e1 , . . . , ej on aliavaruuden Lj ortogonaalinen kanta, ja erityisesti e1 , . . . , ek on aliavaruuden L ortogonaalinen kanta. Yll¨a ortogonaaliprojektio pLj−1 (aj ) saadaan laskettua helposti, sill¨a indeksin j kohdalla yll¨a olevassa iteraatiossa tunnetaan aliavaruuden Lj−1 ortogonaalinen kanta e1 , . . . , ej−1 . Jos L1 ja L2 ovat aliavaruuksia, niin my¨os niiden leikkaus ja summa ovat aliavaruuksia. Aliavaruuksien L1 ja L2 summa on juokko L1 + L2 = {v1 + v2 : v1 ∈ L1 , v2 ∈ L2 }. Aliavaruudet L1 ja L2 ovat ortogonaaliset, mik¨a voidaan ilmaista merkinn¨all¨a L1 ⊥ L2 , jos v1 ⊥ v2 kaikilla v1 ∈ L1 ja v2 ∈ L2 . T¨all¨oin aliavaruuksien L1 ja L2 summaa kutsutaan ortogonaaliseksi suoraksi summaksi, ja sit¨a merkit¨a¨an L 1 ⊕ L2 . (Huomaa, ett¨a monissa muissa l¨ahteiss¨a merkint¨a¨a L1 ⊕ L2 k¨aytet¨a¨an my¨os aliavaruuksien suoralle summalle, jossa summattavilta aliavaruuksilta vaaditaan ainoastaan, ett¨a L1 ∩ L2 = {0}, mik¨a tietenkin pit¨a¨a paikkansa, jos L1 ja L2 ovat ortogonaalisia.) 17 Jos L2 ⊂ L1 ⊂ R n ovat aliavaruuksia, niin L2 :n ortogonaalikomplementti L1 :ss¨ a on L1 L 2 = L 1 ∩ L⊥ 2 = {x ∈ L1 : x ⊥ z ∀z ∈ L2 }. Erityisesti tavanomaiselle ortogonaalikomplementille L⊥ voidaan k¨aytt¨aa¨ merkint¨a¨a R n L. 2.2 SU-estimaatit Tarkastelemme lineaarista mallia µ ∈ L, jossa L on aliavaruus. Uskottavuusfunktio on n Y 1 2 −1/2 2 2 L(µ, σ ) = (2πσ ) exp − 2 (yi − µi ) 2σ i=1 1 2 −n/2 2 = (2πσ ) exp − 2 ky − µk . 2σ Oli σ 2 > 0 mik¨a tahansa arvo, niin µ:n suhteen t¨am¨an funktion maksimoi se µ ∈ L, joka minimoi lausekkeen ky − µk2 , ja t¨am¨an teht¨av¨an ratkaisu on µ ˆ = pL (y). Argumentin µ suhteen maksimoitu uskottavuusfunktio eli parametrin σ 2 profiiliuskottavuusfunktio on 1 2 2 2 −n/2 2 ˜ L(σ ) = L(ˆ µ, σ ) = (2πσ ) exp − 2 ky − µ ˆk . 2σ Varianssiparametrin σ 2 > 0 SU-estimaatti l¨oydet¨a¨an maksimoimalla t¨at¨a funktiota, ja maksimipisteeksi saadaan helpoilla laskuilla σ ˆ2 = 1 ky − µ ˆ k2 n olettaen, ett¨a y 6∈ L. Jos y ∈ L, niin σ 2 :n SU-estimaatti ei ole m¨aa¨ritelty. (Uskottavuusfunktio l¨ahestyy t¨ass¨a tapauksessa ¨a¨aret¨ont¨a, kun σ 2 l¨ahestyy nollaa, mutta arvo nolla ei kuulu parametriavaruuteen.) Jos lineaarinen malli pit¨a¨a paikkansa ja L on avaruuden R n aito aliavaruus, niin tapauksen {Y ∈ L} todenn¨ak¨oisyys on nolla, joten rajoitus y 6∈ L ei ole huolestuttava. Kootaan tulokset lauseeksi. 18 Lause 1. Lineaarisen mallin µ ∈ L SU-estimaatit ovat olemassa jos ja vain jos y 6∈ L, ja t¨all¨oin niill¨a on lausekkeet 1 µ ˆ = pL (y), σ ˆ 2 = ky − µ ˆ k2 . n Uskottavuusfunktion maksimiarvo on n n L(ˆ µ, σ ˆ 2 ) = (2πˆ σ 2 )− 2 e− 2 Varianssiparametrin SU-estimaatin σ ˆ 2 sijasta sille tullaan k¨aytt¨am¨a¨an estimaattia 1 σ ˜2 = ky − µ ˆk2 , jossa k = dim(L). n−k T¨ass¨a y = (y − µ ˆ) + µ ˆ, jossa y − µ ˆ ∈ L⊥ ja µ ˆ ∈ L, joten termit ovat ortogonaalisia. Pythagoraan lauseen nojalla ko. estimaatin lauseke voidaan kirjoittaa my¨os muodossa 1 σ ˜2 = (kyk2 − kˆ µk2 ). n−k 2.2.1 Ortogonaaliprojektion matriisiesitys Olkoon x1 , . . . , xk lineaariavaruuden L kanta ja olkoon X = x1 , . . . , x k matriisi, jonka sarakkeina on kyseiset kantavektorit. Jos µ ∈ L, niin µ= k X xj βj = Xβ j=1 jollekin β ∈ R k , ja t¨am¨a esitys on yksik¨asitteinen. Koska my¨os µ ˆ ∈ L, on ˆ jolla olemassa yksik¨asitteinen β, ˆ µ ˆ = pL (y) = X β. T¨all¨oin µ ˆ = X βˆ on parametrin µ SU-estimaatti aliavaruutta L vastaavassa ˆ lineaarisessa mallissa. Seuraavaksi johdamme lausekkeen estimaatille β. ˆ Kerroinvektorin β lauseke voidaan johtaa joko derivoimalla (kuten kirjassa) tai seuraavalla geometrisella tarkastelulla. Koska vektorit x1 , . . . , xk muodostavat L:n kannan, seuraavat asiat ovat ekvivalentteja. X βˆ = pL (y) ⇔ y − X βˆ ⊥ z ∀z ∈ L ⇔ y − X βˆ ⊥ xj ∀j = 1, . . . , k ˆ = 0. ⇔ X T (y − X β) 19 Edell¨a johdettua yht¨al¨o¨a X T X βˆ = X T y kutsutaan normaaliyht¨ al¨ oksi (tai normaaliyht¨al¨oiksi tai normaaliyht¨al¨oryhm¨aksi). Koska X:n sarakkeet muodostavat kannan, ovat ne lineaarisesti riippumattomia. Todistamme seuraavaksi, ett¨a t¨ast¨a seuraa se seikka, ett¨a X T X on s¨ a¨ anno ¨llinen matriisi, eli ett¨a t¨all¨a matriisilla on olemassa k¨a¨anteismatriisi. Ensinn¨akin X T X on k × k-neli¨omatriisi, ja toisekseen seuraava implikaatioketju X T Xa = 0 ⇒ (aT X T )(Xa) = 0 ⇒ Xa = 0 ⇒ a=0 osoittaa, ett¨a matriisin X T X nolla-avaruus koostuu nollavektorista. T¨am¨an takia matriisi X T X on s¨aa¨nn¨ollinen. Siis βˆ voidaan ratkaista normaaliyht¨al¨ost¨a, jolloin saadaan βˆ = (X T X)−1 X T y. T¨am¨an j¨alkeen ortogonaaliprojektio µ ˆ saadaan lausekkeesta pL (y) = µ ˆ = X βˆ = X(X T X)−1 X T y = Hy, miss¨a otettiin k¨aytt¨oo¨n merkint¨a H = X(X T X)−1 X T . Lineaarikuvauksen pL v¨alitt¨av¨a¨a n × n-matriisia H kutsutaan hattumatriisiksi. (Selitys: sovitevektorille µ ˆ k¨aytet¨a¨an usein merkint¨a¨a yˆ, joten hattumatriisi laittaa hatun y:n p¨a¨alle, yˆ = Hy.) Voidaan my¨os sanoa, ett¨a H on projektiomatriisi aliavaruuteen L. Laskemalla n¨ahd¨a¨an, ett¨a hattumatriisi on idempotentti ja symmetrinen, ts. HH = H ja H T = H. K¨a¨ant¨aen, jos P on idempotentti ja symmetrinen matriisi, niin se on projektiomatriisi aliavaruuteen R(P ) = {P x : x ∈ R n } eli kuvauksen x 7→ P x kuva-avaruuteen eli P :n sarakkeiden viritt¨am¨a¨an aliavaruuteen. (Kirjassa k¨aytet¨a¨an merkint¨a¨a span{P } ≡ R(P ).) T¨am¨a tarkistetaan seuraavilla laskuilla. 1) P y ∈ R(P ) kaikilla y (tietenkin). 20 2) Tarkistetaan, ett¨a y − P y on kohtisuorassa aliavaruutta R(P ) vastaan: y − P y ∈ R(P )⊥ ∀y ⇔ P T (I − P )y = 0 ∀y, mutta j¨alkimm¨ainen identiteetti on tietenkin tosi symmertrisyyden ja idempotenttisuuden takia. 2.2.2 Kerroinvektorin estimaattorin jakauma Jostain syyst¨a kirjan luvussa 2 ei tehd¨a t¨ass¨a teht¨avi¨a yksinkertaisia huomiota kerroinvektorin estimaattorin jakaumasta. Ensin kertaamme multinormaalijakauman ominaisuuksia. Satunnaisvektori Y = (Y1 , . . . , Yk )T on vektori, jonka komponentit Yj ovat satunnaismuuttujia. Sen odotusarvovektori on komponenttien odotusarvoista koottu vektori ts. vektorin odotusarvo m¨a¨aritell¨a¨an laskemalla odotusarvo komponentti komponentilta, Y1 EY1 EY = E ... = ... Yk EYk Satunnaismatriisi ja sen odotusarvo m¨a¨aritell¨a¨an samaan tapaan. Jos Z on satunnaismatriisi ja A, B ja C ovat vakiomatriiseja, joiden dimensiot ovat yhteensopivia, niin odotusarvon lineaarisuudesta ja matriisioperaatioiden m¨a¨aritelmist¨a seuraa, ett¨a E[AZB + C] = A(EZ)B + C. Kahden satunnaisvektorin U ja V kovarianssimatriisi m¨a¨aritell¨a¨an kaavalla Cov(U, V ) = E[(U − EU )(V − EV )T ], joten sen alkio (i, j) on E[(Ui −EUi )(Vi −EVi )T ] = Cov(Ui , Vj ). Jos A ja a ovat vakiomatriisi ja vakiovektori siten, ett¨a lauseke AU + a on hyvin m¨a¨aritelty, ja B ja b ovat vakiomatriisi ja vakiovektori siten, ett¨a lauseke BV + b on hyvin m¨a¨aritelty, niin koska AU + a − E[AU + a] = A(U − EU ), BV + b − E[BV + b] = B(V − EV ), on Cov(AU + a, BV + b) = E[(A(U − EU )(V − EV )T B T ] = A Cov(U, V )B T . 21 T¨am¨a kaava pit¨a¨a sis¨all¨a¨an luvussa 1.3.6 k¨aytetyn kovarianssin bilineaarisuusominaisuuden. Satunnaisvektorin Y kovarianssimatriisi (eli varianssi-kovarianssimatriisi) on Cov(Y ) = Cov(Y, Y ) = E[(Y − EY )(Y − EY )T ], jonka alkio kohdassa (i, j) on E[(Yi − EYi )(Yj − EYj )] = Cov(Yi , Yj ). Kovarianssimatriisi on aina v¨ahint¨aa¨n positiivisesti semidefiniitti (ja usein per¨ati positiivisesti definiitti). Edell¨a johdetun kaavan nojalla Cov(AY + b) = A Cov(Y )AT , kun A on vakiomatriisi ja b vakiovektori. Multinormaalijakauma eli moniulotteinen normaalijakauma voidaan m¨a¨aritell¨a l¨ahtem¨all¨a liikkeelle satunnaisvektorista U = (U1 , . . . , Uk ), jonka komponentit ovat riippumattomia ja noudattavat standardinormaalijakaumaa, Uj ∼ N (0, 1). T¨all¨oin satunnaisvektorilla U on tiheysfunktio k Y 1 2 1 1 √ e− 2 ui = (2π)−n/2 exp(− uT u), fU (u) = 2 2π j=1 u = (u1 , . . . , uk )T . Merkit¨aa¨n t¨all¨oin, ett¨a U ∼ N (0, I). Huomaa, ett¨a EU = 0 ja Cov(U ) = I. T¨am¨an j¨alkeen sanotaan, ett¨a satunnaisvektorilla Y on multinormaalijakauma, jos se voidaan esitt¨a¨a muodossa Y = AU + b, jossa A on vakiomatriisi ja b vakiovektori. Voidaan osoittaa, ett¨a multinormaalijakauman m¨a¨ar¨a¨av¨at jakauman odotusarvovektori sek¨a kovarianssimatriisi, ja multinormaalijakaumalle odotusarvolla µ ja kovarianssimatriisilla Σ k¨aytet¨a¨an merkint¨a¨a N (µ, Σ). Multinormaalijakaumalla on mm. seuraavat ominaisuudet. • Jos Y noudattaa multinormallijakaumaa, niin Y :n komponentit noudattavat yksiulotteista normaalijakaumaa, ja yleisemmin, jos C on vakiomatriisi ja d on vakiovektori, niin satunnaisvektori CY + d noudattaa multinormaalijakaumaa. T¨am¨a n¨ahd¨aa¨n l¨ahtem¨all¨a liikkeelle esityksest¨a Y = AU + b, jossa U ∼ N (0, I) ja huomaamalla, ett¨a CY + d = (CA)U + (Cb + d). • Jos Σ on positiivisesti definiitti (jolloin se on my¨os ei-singulaarinen), niin jakaumalla N (µ, Σ) on tiheysfunktio 1 T −1 −n/2 −1/2 f (y) = (2π) det(Σ) exp − (y − µ) Σ (y − µ) . 2 22 • Jos Σ on singulaarinen, niin multinormaalijakauma N (µ, Σ) on my¨os singulaarinen ts. se ei ole jatkuva jakauma eik¨a diskreetti jakauma (paitsi jos Σ = 0, jolloin jakauma on diskreetti). • Jos Y noudattaa multinormaalijakaumaa, ja sen osavektorit U = (Y1 , . . . , Yj )T , V = (Yj+1 , . . . , Yk ) ovat korreloimattomia ts. Cov(U, V ) = 0, niin ne ovat per¨ati riippumattomia. (T¨ah¨an ominaisuuteen vedottiin lukuisia kertoja luvussa 1). T¨am¨an ominaisuuden todistaminen onnistuisi n¨app¨ar¨asti k¨aytt¨am¨all¨a jakauman karakteristista funktiota. Ei-singulaarisessa tapauksessa ominaisuuden voi todistaa my¨os k¨aytt¨am¨all¨a tiheysfunktion lauseketta. Multinormaalijakauman avulla ilmaistuna lineaarisen mallin µ = Xβ oletukset (rakenneoletus ja jakaumaoletus) voidaan molemmat ilmaista kaavalla Y ∼ N (Xβ, σ 2 I), sill¨a onhan mallin mukaan Yi = µi + σ Yi − µi = µi + σUi , σ jossa satunnaismuuttujat Ui ∼ N (0, 1) riippumattomasti, ja µi = [Xβ]i . Koska kerroinvektorin SU-estimaattori on βˆ = (X T X)−1 X T Y, jossa X ja siten my¨os (X T X)−1 X T on vakiomatriisi, niin βˆ noudattaa multinormaalijakaumaa, jonka odotusarvovektori ja kovarianssimatriisi lasketaan seuraavaksi. Odotusarvovektori on E βˆ = (X T X)−1 X T EY = (X T X)−1 X T Xβ = β, joten βˆ on harhaton. Kovarianssimatriisi on ˆ = (X T X)−1 X T Cov(Y )[(X T X)−1 X T ]T Cov(β) = (X T X)−1 X T (σ 2 I)X(X T X)−1 = σ 2 (X T X)−1 . Siis βˆ noudattaa (ei-singulaarista) multinormaalijakaumaa βˆ ∼ N (β, σ 2 (X T X)−1 ). 23 My¨os sovitevektori µ ˆ = X βˆ = X(X T X)−1 X T Y = HY sek¨a residuaalivektori R=Y −µ ˆ = (I − H)Y noudattavat multinormaalijakaumaa, koska ne saadaan lineaarisilla muunnoksilla multinormaalijakaumaa noudattavasta vektorista Y . Laskemalla n¨ahd¨a¨an, ett¨a µ ˆ ∼ N (µ, σ 2 H), R ∼ N (0, σ 2 (I − H)). N¨am¨a molemmat multinormaalijakaumat ovat singulaarisia (ellei malli ei ole triviaali). My¨os µ ˆ:n ja R:n yhteisjakauma on singulaarinen multinormaalijakauma, jossa Cov(ˆ µ, R) = 0, joten satunnaisvektorit µ ˆ ja R ovat riippumattomia. Koska varianssiparametrin estimaattori σ ˜2 = 1 kRk2 , n−k k = dim(L) on satunnaisvektorin R funktio, ovat µ ˆ ja σ ˜ 2 riippumattomia. Samalla tavalla n¨ahd¨a¨an, ett¨a my¨os βˆ ja σ ˜ 2 ovat riippumattomia. 2.3 Uskottavuusosam¨ a¨ ar¨ atestin ja F -testin v¨ alinen yhteys Tilastollisen p¨a¨attelyn perusty¨okalu lineaarisessa mallissa on ns. F -testi. T¨ass¨a luvussa esitell¨a¨an ko. testi sek¨a osoitetaan, ett¨a se on ekvivalentti uskottavuusosam¨aa¨r¨atestin kanssa. Olkoot L1 ja L2 kaksi sis¨akk¨aist¨a aliavaruutta siten, ett¨a L2 on L1 :n aito aliavaruus, eli L2 ⊂ L 1 , ja k2 = dim(L2 ) < k1 = dim(L1 ). Oletamme, ett¨a aliavaruutta L1 vastaava lineaarinen malli on voimassa, ja tahdomme testata hypoteesia H0 : µ ∈ L2 k¨aytt¨am¨all¨a vastahypoteesia HA : µ ∈ L1 \ L2 . 24 Uskottavuusosam¨aa¨r¨atesti (likelihood ratio test) perustuu testisuureeseen Q(y) = L(ˆ µ1 , σ ˆ12 ) , L(ˆ µ2 , σ ˆ22 ) jossa (ˆ µ1 , σ ˆ12 ) ovat parametrien (µ, σ 2 ) SU-estimaatit k¨aytt¨am¨all¨a mallia L1 ja (ˆ µ2 , σ ˆ22 ) SU-estimaatit k¨aytt¨am¨all¨a mallia L2 . Osoittajassa on uskottavuusfunktion maksimiarvo mallin L1 ja nimitt¨aj¨ass¨a mallin L2 vallitessa. Koska parametriavaruudet ovat sis¨akk¨aiset (L2 ⊂ L1 ), on L(ˆ µ1 , σ ˆ12 ) ≥ L(ˆ µ2 , σ ˆ22 ), joten Q(y) ≥ 1. Suuret testisuureen Q(y) arvot ovat kriittisi¨a H0 :n kannalta: jos Q(y) on suuri, niin uskottavuusfunktion maksimi mallissa L2 on selv¨asti pienempi kuin uskottavuusfunktion maksimi mallissa L1 . Nollahypoteesi µ ∈ L2 hyl¨at¨a¨an merkitsevyystasolla α, jos Q(y) > c, jossa c m¨a¨ar¨aytyy ehdosta PL2 (Q(Y ) > c) = α. Seuraavaksi muokkaamme testisuureen Q(y) lauseketta. Lauseen 1 mukaan 2 − n2 − n2 σ ˆ1 ky − µ ˆ 1 k2 L(ˆ µ1 , σ ˆ12 ) = = Q(y) = L(ˆ µ2 , σ ˆ22 ) σ ˆ22 ky − µ ˆ 2 k2 T¨ass¨a y−µ ˆ2 = (y − µ ˆ1 ) + (ˆ µ1 − µ ˆ2 ), jossa termit ovat ortogonaalisia, sill¨a y−ˆ µ1 ∈ L ⊥ ˆ1 −ˆ µ2 ∈ L1 . Pythagoraan 1 ja µ lauseen mukaan ky − µ ˆ2 k2 = ky − µ ˆ1 k2 + kˆ µ1 − µ ˆ 2 k2 , ja kun t¨am¨a sijoitetaan Q(y):n lausekkeeseen, se saadaan muotoon Q(y) = ky − µ ˆ 2 k2 ky − µ ˆ 1 k2 n2 = kˆ µ1 − µ ˆ 2 k2 1+ ky − µ ˆ 1 k2 n2 Seuraavaksi m¨a¨arittelemme F -testisuureen hypoteeseille H0 : µ ∈ L2 kaavalla kˆ µ1 − µ ˆ2 k2 /(k1 − k2 ) F (y) = . ky − µ ˆ1 k2 /(n − k1 ) Huomaa, ett¨a uskottavuusosam¨a¨ar¨an testisuure Q(y) saadaan soveltamalla bijektiivist¨a aidosti kasvavaa funktiota testisuureeseen F (y). Uskottavuusosam¨aa¨r¨atestin kriittinen alue on muotoa Q(y) > c ja F -testin kriittinen alue on muotoa F (y) > d, joten n¨am¨a testit ovat samoja. 25 0.4 0.0 0 2 4 6 8 Kuva 2.1: F -testin kriittinen alue merkitsevyystasolla α koostuu kyseess¨a olevan F -jakauman siit¨a oikeanpuoleisesta h¨ant¨aalueesta, johon j¨a¨a todenn¨ak¨oisyysmassasta α:n verran. Suuret testisuureen F (y) arvot ovat kriittisi¨a H0 :n kannalta. Tulemme my¨ohemmin todistamaan, ett¨a nollahypoteesin p¨atiess¨a (eli kun µ ∈ L2 ) F testisuureen jakauma on F -jakauma vapausasteilla k1 − k2 ja n − k1 , eli F (Y ) ∼ F (k1 − k2 , n − k1 ), kun H0 p¨atee eli kun µ ∈ L2 . Palautetaan t¨ass¨a yhteydess¨a mieleen F -jakauman m¨a¨aritelm¨a. Jos satunnaismuuttujat U1 ∼ χ2 (f1 ) ja U2 ∼ χ2 (f2 ) ovat riippumattomia, niin t¨all¨oin osam¨a¨ar¨a U1 /f1 ∼ F (f1 , f2 ), U2 /f2 miss¨a F (f1 , f2 ) on (Fisherin) F -jakauma vapausasteilla f1 ja f2 . V¨alitt¨om¨asti n¨aemme, ett¨a jos T ∼ t(f ), niin T 2 ∼ F (1, f ). Kun testataan hypoteesia H0 : µ ∈ L2 merkitsevyystasolla α, verrataan F -testisuureetta F (y) arvoon d, joka m¨a¨ar¨at¨a¨an siten, ett¨a nollahypoteesin p¨atiess¨a hypoteesi hyl¨at¨a¨an todenn¨ak¨oisyydell¨a α, eli PL2 (F (Y ) > d) = α, ks. kuvaa 2.1. Kun k¨ayt¨amme hyv¨aksi sit¨a tietoa, ett¨a F (Y ):ll¨a on H0 :n vallitessa F -jakauma, niin n¨aemme, ett¨a d = F1−α (k1 − k2 , n − k1 ), 26 jossa Fβ (f1 , f2 ) tarkoittaa sit¨a pistett¨a, jossa ko. F -jakauman kertym¨afunktio saa arvon β. T¨am¨an testin p-arvo on PL2 (F (Y ) ≥ F (y)) = 1 − G(F (y)), miss¨a G on jakauman F (k1 − k2 , n − k1 ) kertym¨afunktio. 2.4 Yhden selitt¨ aj¨ an lineaarinen regressio uudestaan k¨ asiteltyn¨ a K¨asittelemme yhden selitt¨aj¨an lineaarista regressiota keskistetyss¨a muodossa, EYi = µi = α + β2 ti , jossa ti = xi − x¯, i = 1, . . . , n, eli mallin rakenneoletus on µ = α1 + β2 t, jossa t = (t1 , . . . , tn )T . Huomaa, ett¨a a) vektorit 1 ja t ovat lineaarisesti riippumattomia, mik¨ali t ei ole muotoa a1. Koska ti -arvojen keskiarvo on nolla, vektorit 1 ja t ovat lineaarisesti riippumattomia silloin ja vain silloin, kun St = n X t2i > 0. i=1 Jos St > 0, vektorit 1 ja t muodostavat kaksiulotteisen aliavaruuden span{1, t} kannan. P b) Vektorit 1 ja t ovat ortogonaalisia, sill¨a 1T t = ni=1 ti = 0. Oletetaan, ett¨a St > 0. T¨all¨oin 1 ja t ovat lineaarisesti riippumattomia, ja lineaarisen mallin mallimatriisi X on X = [1, t], joten T 1 1 1T t n 0 X X= T = , t 1 tT t 0 St T 27 Pn y n¯ y i X y = Pni=1 = , t y S ty i=1 i i T josta T −1 (X X) 1/n 0 = , 0 1/St α ˆ y¯ T −1 T = (X X) X y = . Sty /St βˆ2 Regressiokertoimien estimaattorien jakauma on 2 α ˆ α α σ /n 0 2 T −1 ∼N , σ (X X) =N , . β2 β2 0 σ 2 /St βˆ2 Oletetaan, ett¨a yhden selitt¨aj¨an lineaarinen malli pit¨a¨a paikkansa, ja johdetaan F -testisuure hypoteesille H2 , ett¨a selitt¨av¨a muuttuja on mallissa tarpeeton, eli hypoteesille H2 : β2 = 0. Alkuper¨ainen malli vastaa aliavaruutta L1 = span{1, t} ja hypoteesia H2 vastaa aliavaruus L2 = span{1}. T¨ass¨a L2 ⊂ L1 , ja dim(L2 ) = 1 < dim(L1 ) = 2. Mallin L1 p¨atiess¨a sovite on µ ˆ1 = α ˆ 1 + βˆ2 t = y¯1 + βˆ2 t, ja mallin L2 p¨atiess¨a taas yT 1 1 = y¯1. k1k2 N¨ain ollen F -testisuure hypoteesille β2 = 0 on µ ˆ2 = F (y) = kˆ µ1 − µ ˆ2 k2 /(2 − 1) βˆ22 St = , ky − µ ˆ1 k2 /(n − 2) σ ˜2 miss¨a σ ˜ 2 on varianssiparametrin estimaatti mallissa L1 , 1 σ ˜2 = ky − µ ˆ1 k2 . n−2 Palautetaan mieleen luvusta 1.5, ett¨a t-testisuure hypoteesille β2 = 0 on βˆ2 t(y) = √ , σ ˜ / St joten F -testisuureen ja t-testisuureen v¨alill¨a on yhteys F (y) = t2 (y). T¨ast¨a seuraa, ett¨a t¨alle hypoteesille F -testi ja (kaksisuuntainen) t-testi ovat samoja. 28 2.5 Lis¨ a¨ a jakaumateoriaa T¨ass¨a kappaleessa osoitetaan, ett¨a aikaisemmin m¨a¨aritellyll¨a F -testisuureella on nollahypoteesin p¨atiess¨a todellakin F -jakauma Sivutuotteena johdetaan se tulos, ett¨a aliavaruutta L vastaavassa yleisess¨a lineaarisessa mallissa varianssiparametrin estimaattorin jakauma on seuraava skaalattu khiin neli¨o, σ ˜2 = 1 σ2 2 kY − µ ˆ k2 ∼ χ (n − k), n−k n−k jossa k = dim(L). 2.5.1 Multinormaalijakauman N (0, σ 2 I) ominaisuuksia Kirjoitamme lineaarisen mallin muodossa Y = µ + , µ ∈ L, jossa virhevektorin = (1 , . . . , n )T komponentit ovat riippumattomia, ja niill¨a on jakauma N (0, σ 2 ), joten virhevektorilla on multinormaalijakauma N (0, σ 2 I). Seuraavaksi osoitamme, ett¨a jos esit¨amme virhevektorin miss¨a tahansa R n :n ortonormeeratussa kannassa, niin koordinaattien yhteisjakauma on edelleen N (0, σ 2 I). Olkoon e1 , . . . , en avaruuden R n ortonormeerattu kanta ts. kantavektorit ovat kesken¨a¨an ortogonaalisia ja kunkin pituus on yksi. Muodostetaan neli¨omatriisi A asettamalla kantavektorit A:n sarakkeiksi, A = [e1 , . . . , en ]. T¨all¨oin A on ortogonaalinen matriisi, eli A−1 = AT . Ortogonaalisen matriisin determinantti on joko +1 tai −1, sill¨a 1 = det(I) = det(AT A) = det(AT ) det(A) = det(A)2 . Olkoot ϕ1 , . . . , ϕn satunnaisvektorin koordinaatit ortonormeeratussa kannassa e1 , . . . , en , jolloin n X ϕi ei = Aϕ, = i=1 jossa ϕ = (ϕ1 , . . . , ϕn ). T¨ast¨a n¨ahd¨a¨an satunnaisvektorien ja ϕ v¨alinen yhteys, ϕ = AT ⇔ = Aϕ. 29 Lause 2. Jos A on ortogonaalinen matriisi ja ∼ N (0, σ 2 I), niin satunnaisvektorin ϕ = AT jakauma on N (0, σ 2 I). Todistus. Satunnaisvektorin tiheysfunktio on 1 2 −n/2 2 f (x) = (2πσ ) exp − 2 kxk , 2σ ja satunnaisvektorin ϕ tiheysfunktio fϕ saadaan kaavalla 1 2 −n/2 2 fϕ (y) = f (Ay) | det(A)| = (2πσ ) exp − 2 kyk , 2σ jossa k¨aytettiin hyv¨aksi tulosta kAyk2 = y T AT Ay = y T y = kyk2 . Palautetaan mieleen kappaleesta 2.1, ett¨a merkint¨a L1 ⊕ L2 tarkoittaa kahden ortogonaalisen aliavaruuden ortogonaalista suoraa summaa. Laajennamme merkinn¨an koskemaan useampaa kuin kahta aliavaruutta. Merkint¨a U = L1 ⊕ · · · ⊕ Lr tarkoittaa aliavaruuksien L1 , . . . , Lr ortogonaalista suoraa summaa, eli sit¨a, ett¨a aliavaruudet Li ja Lj ovat ortogonaalisia, kun i 6= j, ja ett¨a U :n alkiot ovat muotoa u = v1 + · · · + vr , jossa vj ∈ Lj . Lause 3. Olkoon ∼ N (0, σ 2 I) ja olkoot L1 , . . . , Lr avaruuden R n ortogonaalisia aliavaruuksia siten, ett¨a R n = L1 ⊕ · · · ⊕ Lr . Olkoon ki = dim(Li ) ja olkoon pi ortogonaaliprojektio aliavaruuteen Li . T¨all¨oin (i) p1 (), . . . , pr () ovat riippumattomia. (ii) kpi ()k2 ∼ σ 2 χ2 (ki ), i = 1, . . . , r. Todistus. Muodostetaan kullekin aliavaruudelle Lj ortonormeerattu kanta, ja luetellaan kantavektorit per¨akk¨ain siten, ett¨a ensin luetellaan L1 :n kantavektorit, sitten L2 :n kantavektorit jne. ja viimeiseksi Lr :n kantavektorit. T¨all¨oin lopputulos, e1 , . . . , en , on R n :n ortonormeerattu kanta, koska aliavaruudet Lj ovat ortogonaalisia. Konstruktion perusteella Lj :n kantavektorit ovat enj−1 +1 , . . . , enj , j = 1, . . . , r 30 kun m¨aa¨ritell¨a¨an n0 = 0 ja n j = k1 + · · · + kj , j = 1, . . . , r. M¨a¨aritell¨a¨an ortogonaalinen matriisi A siten, ett¨a sen sarakkeet ovat ortonormaalit kantavektorit e1 , . . . , en ja m¨aa¨ritell¨aa¨n satunnaisvektori ϕ kaavalla ϕ = AT ⇔ = Aϕ. T¨all¨oin ortogonaaliprojektiolla pj on esitys nj X pj () = ϕi ei . i=nj−1 +1 Lauseen 2 mukaan satunnaismuuttujat ϕ1 , . . . , ϕn ovat riippumattomia, ja kukin niist¨a noudattaa normaalijakaumaa N (0, σ 2 ). Niinp¨a satunnaisvektorit p1 (), . . . , pr () ovat riippumattomia, sill¨a pj () riippuu vain muuttujista ϕi , i = nj−1 + 1, . . . , nj , ja t¨ass¨a indeksijoukot ovat erillisi¨a eri j:n arvoilla. Pythagoraan lauseen ja χ2 -jakauman m¨a¨aritelm¨an nojalla p¨atee lis¨aksi 2 kpj ()k = nj X i=nj−1 +1 ϕ2j =σ nj X 2 ϕ 2 j i=nj−1 +1 σ ∼ σ 2 χ2 (kj ). 2.5.2 Parametrien estimaattorit Tarkastellaan lineaarista mallia µ ∈ L1 , eli Y = µ + , µ ∈ L1 , ∼ N (0, σ 2 I), jossa dim(L1 ) = k1 . Esitet¨aa¨n R n ortogonaalisena suorana summana R n = L1 ⊕ L⊥ 1, ja olkoot pL1 ja pL⊥1 vastaavat ortogonaaliset projektiot. 31 Lauseen 3 mukaan kpL⊥1 ()k2 ∼ σ 2 χ2 (n − k1 ). Lis¨aksi pL⊥1 (Y ) = Y − pL1 (Y ), ja toisaalta pL⊥1 (Y ) = pL⊥1 (µ) + pL⊥1 () = pL⊥1 (). Edell¨a pL⊥1 (µ) = 0, sill¨a µ ∈ L1 . T¨am¨an takia σ ˜2 = 1 σ2 1 kY − pL1 (Y )k2 = kpL⊥1 ()k2 ∼ χ2 (n − k1 ), n − k1 n − k1 n − k1 joka tulos saatiin nyt vihdoin viimein todistettua, vaikka sit¨a on sovellettu jo useissa yhteyksiss¨a aikaisemmin. Erityisesti estimaattori σ ˜ 2 on harhaton, Eσ ˜ 2 = σ2. Koska µ ˆ = pL1 (Y ) = pL1 (µ) + pL1 () = µ + pL1 (), n¨ahd¨a¨an lausetta 3 soveltamalla, ett¨a sovitevektori µ ˆ ja estimaattori σ ˜ 2 ovat kesken¨aa¨n riippumattomia, mink¨a asian tiesimme jo luvun 2.2.2 perusteella. 2.5.3 F-testi Tarkastelemme kahta sis¨akk¨aist¨a aliavaruutta L2 ⊂ L1 , k2 = dim(L2 ) < k1 = dim(L1 ), ja oletamme, ett¨a aliavaruutta L2 vastaava lineaarinen malli pit¨a¨a paikkansa. Olkoot p1 ja p2 ortogonaaliprojektiot aliavaruudelle L1 ja L2 , jolloin µ ˆ1 = p1 (y), µ ˆ2 = p2 (y). F -testisuure L2 :lle L1 :n vallitessa on F (y) = kp1 (y) − p2 (y)k2 /(k1 − k2 ) ky − p1 (y)k2 /(n − k1 ) Osoitamme seuraavaksi, ett¨a L2 :n vallitessa F -testisuureella on jakauma F (Y ) ∼ F (k1 − k2 , n − k1 ), 32 kun µ ∈ L2 . Oletetaan siis, ett¨a µ ∈ L2 . Esitet¨a¨an R n seuraavan kolmen aliavaruuden ortogonaalisena suorana summana, R n = L2 ⊕ (L1 L2 ) ⊕ L⊥ 1, jossa aliavaruuksien dimensiot ovat k2 , k1 − k2 ja n − k1 , ja jossa ortogonaaliprojektiot ko. aliavaruuksiin ovat p2 , p1 − p2 ja y 7→ y − p1 (y). Lausetta 3 soveltamalla saadaan selville, ett¨a kp2 ()k2 ∼ σ 2 χ2 (k2 ) kp1 () − p2 ()k2 ∼ σ 2 χ2 (k1 − k2 ) k − p2 ()k2 ∼ σ 2 χ2 (n − k1 ), ja ett¨a n¨am¨a kolme satunnaismuuttujaa ovat riippumattomia. Koska µ ∈ L2 ⊂ L1 , on µ = p1 (µ) = p2 (µ), joten p1 (Y ) − p2 (Y ) = p1 (µ) + p1 () − p2 (µ) − p2 () = p1 () − p2 () Y − p1 (Y ) = µ + − p1 (µ) − p1 () = − p1 (). Siis, kun µ ∈ L2 , kp1 () − p2 ()k2 /(k1 − k2 ) kp1 (Y ) − p2 (Y )k2 /(k1 − k2 ) = kY − p1 (Y )k2 /(n − k1 ) k − p1 ()k2 /(n − k1 ) ∼ F (k1 − k2 , n − k1 ), F (Y ) = jossa tarvittiin sit¨a tietoa, ett¨a osoittaja ja nimitt¨aj¨a ovat riippumattomia ja jossa osoittajan ja nimitt¨aj¨an varianssiparametrit kumosivat toisensa. F-testisuureen n¨akee usein esitett¨av¨an muodossa F (y) = (RSS2 − RSS1 )/(k1 − k2 ) , RSS1 /(n − k1 ) jossa RSSj on j¨a¨ann¨osneli¨osumma (residual sum of squares) mallista µ ∈ Lj , eli RSSj = ky − pLj (y)k2 . T¨am¨a kaava on tietenkin yht¨apit¨av¨a edell¨a esitetyn kaavan kanssa (HT). 2.5.4 F-testi, kun rajoitteet ovat muotoa Aβ = 0 K¨ayt¨ann¨oss¨a malli µ ∈ L1 spesifioidaan useimmiten tietyn mallimatriisin avulla, µ = Xβ, ja rajoitettu malli µ ∈ L2 annetaan usein muodossa Aβ = 0, 33 jossa A on annettu q × k-matriisi, jonka vaakarivit ovat lineaarisesti riippumattomia. T¨all¨oin alkuper¨aisen mallin aliavaruus L1 = R(X), ja rajoitetun mallin µ ∈ L2 aliavaruus L2 on L2 = {µ ∈ R n : ∃β ∈ R k siten, ett¨a µ = Xβ ja Aβ = 0}. T¨all¨oin voidaan edet¨a sill¨a tavalla, ett¨a q kappaletta parametreista βj eliminoidaan rajoitusehtojen avulla. Esimerkiksi, jos q = 1 ja rajoitusehtona on β1 + β2 = 0, niin t¨all¨oin voidaan esim. β1 eliminoida kaavalla β1 = −β2 ja ilmaista rajoitettu malli parametrien β2 , . . . , βk avulla. T¨am¨an j¨alkeen voidaan ratkaista µ ˆ2 ja k¨aytt¨a¨a edell¨a kehitetty¨a kaavaa F -testisuureelle. T¨ass¨a tilanteessa voidaan antaa my¨os eksplisiittinen kaava F -testisuureelle. Er¨as hy¨odyllinen muoto on F (y) = ˆ βˆT AT [A(X T X)−1 AT ]−1 Aβ/q , σ ˜2 (*) jossa βˆ on alkuper¨aisest¨a mallista µ ∈ L1 laskettu estimaatti βˆ = (X T X)−1 X T y, ja σ ˜ 2 on alkuper¨aisen mallin µ ∈ L1 varianssiparametrin estimaatti. Kaavan (*) voi johtaa l¨ahtem¨all¨a liikkeelle siit¨a, ett¨a F -testisuureen osoittajassa oleva neli¨omuoto on y:n ortogonaaliprojektion pituuden neli¨o aliavaruudelle L1 L2 . Lis¨aksi tarvitaan se tieto, ett¨a matriisin X(X T X)−1 AT sarakkeet muodostavat kannan aliavaruudelle L1 L2 . T¨am¨a todistetaan tarkistamalla, ett¨a kyseisen matriisin sarakkeet ovat lineaarisesti riippumattomia sek¨a laskemalla seuraavasti. v ∈ L 1 L2 = L 1 ∩ L ⊥ 2 ⇔ v = Xβ ja (Aβ 0 = 0 ⇒ β 0 X T Xβ = 0) ⇔ v = Xβ ja X T Xβ ∈ N (A)⊥ = R(AT ) ⇔ v = Xβ ja X T Xβ = AT z jollekin z ∈ R q ⇔ v = X(X T X)−1 AT z jollekin z ∈ R q . Lopuksi kaava (*) johdetaan soveltamalla luvun 2.2.1 teoriaa k¨aytt¨am¨all¨a kantana matriisin X(X T X)−1 AT sarakkeita. 34 2.6 t-testin ja F -testin v¨ alinen yhteys Tarkastellaan lineaarista mallia µ = Xβ, jonka mallimatriisi on X. Luvussa 2.2.2 johdettiin kerroinvektorin β SU-estimaattorille tulos βˆ ∼ N (β, σ 2 C), jossa C = (XX T )−1 . Olkoon cij matriisin C alkio kohdassa (i, j). Kerroinvektorin β = (β1 , . . . , βk ) alkion βj keskivirhe on √ s. e.(βˆj ) = σ ˜ cjj ja sen t-testisuure on t(y) = βˆj − βj . s. e.(βˆj ) Kirjoitetaan vastaava satunnaissuure t(Y ) muodossa √ (βˆj − βj )/(σ cjj ) p t(Y ) = , σ ˜ 2 /σ 2 jossa osoittajassa on standardinormaalijakaumaa noudattava satunnaismuuttuja, ja nimitt¨aj¨ass¨a on neli¨ojuureen sis¨all¨a siit¨a riippumaton satunnaismuuttuja, jolle σ ˜2 1 ∼ χ2 (n − k). 2 σ n−k Siis t-jakauman m¨a¨aritelm¨an nojalla t(Y ) ∼ t(n − k), mink¨a perusteella voidaan muodostaa hypoteesia βj = 0 koskeva t-testi samalla tavalla kuin luvussa 1.5. T¨allaisessa testiss¨a tutkitaan, onko kerrointa βj vastaava selitt¨aj¨a tarpeellinen lineaarisessa mallissa, kun malli sis¨alt¨aa¨ muut selitt¨av¨at muuttujat. Hypoteesia βj = 0 voidaan testata my¨os F -testill¨a. T¨am¨a vastaa rajoitetta Aβ = 0, jossa A = eTj ja ej on R n :n standardikannan j:s vektori. K¨aytt¨am¨all¨a luvun 2.5.4 kaavaa (*) F -testisuureeksi saadaan F (y) = βˆj2 /cjj , σ ˜2 joten F (y) = t2 (y), mist¨a seuraa, ett¨a testit ovat samat. Kirjassa vastaava lasku lasketaan ilman kaavaa (*), ja laskut ovat huomattavasti hankalampia kuin yhden selitt¨aj¨an tapauksessa. 35 2.7 Luottamusjoukot ja affiinit hypoteesit 2.7.1 Luottamusellipsoidi Oletetaan, ett¨a satunnaisvektori Y noudattaa lineaarista mallia n×k-mallimatriisilla X eli ett¨a Y = µ + , µ = Xβ, ∼ N (0, σ 2 I). Tarkastellaan hypoteesia H2 : β = β0 , jossa β0 on annettu k-komponenttinen vektori. Emme voi testata t¨at¨a hypoteesia suoraan F -testill¨a, sill¨a ko. hypoteesi on µ:n avulla ilmaistuna sama kuin µ ∈ {µ0 }, jossa µ0 = Xβ0 , ja joukko {µ0 } on aliavaruus t¨asm¨alleen silloin, kun µ0 = 0 eli kun β0 = 0. Sen sijaan tarkastelemme muunnettua mallia, jossa hypoteesi H2 on ekvivalentti aliavaruuden {0} kanssa. M¨a¨aritell¨a¨an satunnaisvektori Y 0 kaavalla Y 0 = Y − Xβ0 . T¨all¨oin Y 0 noudattaa lineaarista mallia mallimatriisilla X, sill¨a Y 0 = Y − Xβ0 = X(β − β0 ) + = Xβ 0 + , miss¨a uuden mallin parametrin β 0 ja alkuper¨aisen mallin parametrin β v¨alill¨a on yhteys β 0 = β − β0 . Alkuper¨aisen mallin hypoteesi β = β0 on sama kuin uuden mallin hypoteesi β 0 = 0. Kehitet¨a¨an seuraavaksi F -testisuureen lauseketta uuden mallin hypoteesille β 0 = 0 eli aliavaruudelle L2 = {0}. Uudessa mallissa µ ˆ1 = X βˆ0 ja µ ˆ2 = 0, miss¨a uuden mallin kerroinvektorin β 0 SU-estimaattorille p¨atee kaava βˆ0 = (X T X)−1 X T Y 0 = (X T X)−1 X T (Y − Xβ0 ) = βˆ − β0 , jossa βˆ on alkuper¨aisen mallin kerroinvektorin β SU-estimaattori. Niinp¨a F testisuureen osoittajassa on neli¨omuoto kˆ µ1 − µ ˆ2 k2 = kX βˆ0 k2 = kX(βˆ − β0 )k2 = (βˆ − β0 )T X T X(βˆ − β0 ). Nimitt¨aj¨ass¨a on varianssiparametrin estimaatti uudessa mallissa, kun µ ∈ L1 = R(X) eli 1 1 1 ˆ 2, ky 0 − X βˆ0 k2 = ky − Xβ0 − X(βˆ − β0 )k2 = ky − X βk n−k n−k n−k 36 joten nimitt¨aj¨a on sama kuin varianssiparametrin estimaatti σ ˜ 2 alkuper¨aisess¨a mallissa. F -testisuureen lauseke ja sen jakauma on F (Y ) = (βˆ − β0 )T X T X(βˆ − β0 )/k ∼ F (k, n − k), σ ˜2 kun β = β0 . F -testisuureen avulla voidaan johtaa luottamusjoukko parametrivektorille β. Jos on annettu luottamustaso 1 − a (jossa 0 ≤ a ≤ 1), niin todenn¨ak¨oisyydell¨a 1 − a on voimassa ( ) ˆT T ˆ k (β0 − β) X X(β0 − β)/k β ∈ β0 ∈ R : ≤ F1−a (k, n − k) σ ˜2 jossa F1−α (f1 , f2 ) on se piste, jossa F (f1 , f2 )-jakauman kertym¨afunktio saa arvon 1 − α. T¨am¨a luottamusjoukko on R k :n ellipsoidi, jonka keskipiste on βˆ ja jonka muodon m¨a¨ar¨a¨a matriisi X T X. Luottamusellipsoidin visualisointi on tietenkin hankalaa, jos k > 3. 2.7.2 Luottamusv¨ alit Yksitt¨aiselle kertoimelle βj , 1 ≤ j ≤ k voidaan muodostaa luottamusv¨ali luvussa 2.6 johdetun tuloksen t(Y ) = perusteella, jossa βˆj − βj ∼ t(n − k) s. e.(βˆj ) √ s. e.(βˆj ) = σ ˜ cjj ja jossa cjj on matriisin (X T X)−1 j:s l¨avist¨aj¨aalkio. T¨ast¨a tuloksesta seuraa (samanlaisilla laskuilla kuin luvussa 1.5), ett¨a luottamustasolla 1 − a kertoimelle βj p¨atee luottamusv¨ali βˆj ± s. e.(βˆj ) t1−a/2 (n − k), jossa t1−a/2 (n − k) on se piste, jossa t(n − k)-jakauman kertym¨afunktio saa arvon 1 − a/2. Varoitus: jos kaikille kertoimille muodostetaan luottamusv¨alit t¨all¨a tavalla, niin todenn¨ak¨oisyys, ett¨a kaikki komponentit saisivat samalla kerralla arvon, joka osuu luottamusv¨aliin ei ole 1 − a. 37 2.7.3 Affiini hypoteesi Tarkastellaan lineaarista mallia µ ∈ L1 sek¨a siit¨a rajoitettua mallia H2 : µ ∈ x 0 + L2 , miss¨a x0 ∈ L1 on annettu vakio ja L2 ⊂ L1 annettu aliavaruus. T¨ass¨a joukko x0 + L2 = {v ∈ R n : v = x0 + z jollekin z ∈ L2 } on affiini aliavaruus, ja kutsumme vastaavaa hypoteesia affiiniksi hypoteesiksi. Affiini aliavaruus x0 + L2 ⊂ L1 oletusten x0 ∈ L1 ja L2 ⊂ L1 takia. Hypoteesia H2 testataan siirtym¨all¨a tarkastelemaan satunnaisvektoria Y 0 = Y − x0 = µ − x0 + = µ0 + . Alkuper¨aisin mallin hypoteesi µ ∈ L1 on uudessa mallissa aliavaruutta L1 vastaava lineaarinen malli ja alkuper¨aisen mallin hypoteesi µ ∈ x0 + L2 on uudessa mallissa aliavaruutta L2 vastaava hypoteesi. T¨all¨a tekniikalla saadaan affiini hypoteesi muunnettua uuden mallin lineaariseksi hypoteesiksi, jonka j¨alkeen voidaan soveltaa F -testi¨a. T¨arke¨a erikoistapaus affiinista mallista on se, jossa tarkasteltavat mallit ovat µ = Xβ sek¨a siit¨a rajoitettu alimalli µ = Xβ ja Aβ = c, jossa A on q × k-matriisi, jonka vaakarivit ovat lineaarisesti riippumattomia, ja c ∈ R q on annettu vektori, joka on valittu siten, ett¨a yht¨al¨oll¨a Aβ = c on (ainakin yksi) ratkaisu, eli c ∈ R(A). T¨all¨oin luvun 2.5.4 kaavaa (*) soveltamalla saadaan yksinkertaisilla laskuilla F -testisuure kehitetty¨a muotoon F (y) = (Aβˆ − c)T [A(X T X)−1 AT ]−1 (Aβˆ − c)/q , σ ˜2 jossa βˆ on rajoittamattoman mallin µ = Xβ kerroinvektorin estimaatti, eli βˆ = (X T X)−1 X T y, ja σ ˜ 2 on rajoittamattoman mallin varianssiparametrin estimaatti. 38 2.8 Tyhjent¨ avyys Uskottavuusfunktio mallissa µ = Xβ, jossa X:n sarakkeet ovat lineaarisesti riippumattomat on 1 2 2 −n/2 2 L(β, σ ) = (2πσ ) exp − 2 ky − Xβk . 2σ Koska ky − Xβk2 = y T y − 2y T Xβ + β T X T Xβ, niin uskottavuusfunktio riippuu havainnoista y ainoastaan tunnusluvun (y T y, y T X) kautta. (Muista, ett¨a X on vakiomatriisi!) Faktorointikriteerin nojalla kyseinen tunnusluku on tyhjent¨av¨a. My¨os tunnusluku ˆ σ (β, ˜2) on tyhjent¨av¨a, sill¨a kyseinen pari saadaan bijektiivisell¨a kuvauksella parista (y T y, y T X), mik¨a n¨ahd¨a¨an kaavoista βˆ = (X T X)−1 X T y 1 1 ˆ σ ˜2 = (kyk2 − kˆ µk2 ) = (y T y − βˆT X T X β). n−k n−k 2.9 Ep¨ akeskeiset jakaumat ja F -testin voima Kirjan luvussa 2.9 k¨asitell¨a¨an F -testin voimafunktiota eli todenn¨ak¨oisyytt¨a, ett¨a nollahypoteesi hyl¨at¨a¨an (eli testi toimii oikein) silloin, kun vaihtoehtohypoteesi pit¨a¨a paikkansa. T¨at¨a todenn¨ak¨oisyytt¨a tarkastellaan mallin parametrien µ ja σ 2 funktiona. Osoittautuu, ett¨a F -testin voimafunktio voidaan esit¨a¨a k¨aytt¨am¨all¨a ns. ep¨akeskeist¨a F -jakaumaa. 39 Luku 3 Yhden otoksen malli sek¨ a yksisuuntainen varianssianalyysi 3.1 Yhden otoksen lineaarinen malli Tarkastelemme mallia, jossa satunnaismuuttujat Yi ovat riippumattomia, ja Yi ∼ N (β, σ 2 ), i = 1, . . . , n, jolloin keskiarvovektori µ = EY toteuttaa yht¨al¨on µ = β1, eli mallimatriisi X = 1. T¨ast¨a saadaan helposti estimaattorit sek¨a niiden jakaumat, 2 σ βˆ = Y¯ ∼ N (β, ) n n X 1 σ2 2 σ ˜2 = (Yi − Y¯ )2 ∼ χ (n − 1). n − 1 i=1 n−1 Hypoteesia H0 : β = β0 voidaan testata t-testill¨a, jossa testisuure ja sen jakauma ovat βˆ − β0 Y¯ − β0 √ ∼ t(n − 1). t(Y ) = = ˆ σ ˜/ n s. e.(β) Luottamustason 1 − α luottamusv¨ali parametrille β on σ ˜ y¯ ± √ t1−α/2 (n − 1) n 40 3.2 Parivertailu Tarkastelemme mallia Yi = Ui2 − Ui1 , i = 1, . . . , n, jossa parit (U11 , U12 ), . . . , (Un1 , Un2 ) ovat riippumattomia ja samoin jakautuneita ja jossa Yi ∼ N (β, σ 2 ), i = 1, . . . , n riippumattomasti. Sen sijaan yhden parin satunnaismuuttujat Ui1 ja Ui2 saavat olla riippuvia. Tilanne, jossa havaintojen erotuksilla on yksiulotteinen normaalijakauma syntyy erityisesti silloin, jos parilla (Ui1 , Ui2 ) on kaksiulotteinen normaalijakauma. Kiinnostuksen kohteena on hypoteesi H0 : β = 0, jonka vallitessa parin havainnoilla on sama odotusarvo. T¨ass¨a mallissa Ui1 voisi esim. olla vasteen arvo yksik¨olle i ennen tietty¨a k¨asittely¨a, ja Ui2 vaste k¨asittelyn j¨alkeen. Toinen tapaus, jossa t¨am¨a malli on paikallaan on se, jossa yksik¨on tietty¨a ominaisuutta mitataan kahdella eri menetelm¨all¨a: Ui1 on yksik¨ost¨a i tehty mittaus menetelm¨all¨a yksi ja Ui2 yksik¨ost¨a i tehty mittaus menetelm¨all¨a kaksi. Parivertailussa eli parittaisessa t-testiss¨a yksinkertaisesti vain sovelletaan yhden otoksen lineaarisen mallin kaavoja erotuksiin Yi . 3.3 Yksisuuntainen varianssianalyysi Indeksoimme nyt vastemuuttujat kahdella indeksill¨a i ja j. Indeksi i ∈ {1, . . . , k} kertoo ryhm¨an ja j indeksoi tapauksia ryhm¨an sis¨all¨a. Ryhm¨ass¨a i indeksi j saa arvot 1, . . . , nj , jossa nj ≥ 1. Usein ryhm¨at vastaavat erilaisia k¨asittelyj¨a (treatment). Ryhm¨an i havaintoja vastaavat satunnaismuuttujat ovat Yi1 , Yi2 , . . . , Yini . Mallin mukaan vasteen keskiarvo on vakio kussakin ryhm¨ass¨a, mutta voi vaihdella ryhm¨ast¨a ryhm¨a¨an, Yij ∼ N (βi , σ 2 ), i = 1, . . . , k, j = 1, . . . , ni , jossa satunnaismuuttujat Yij ovat eri indekseill¨a kesken¨a¨an riippumattomia, ja havaintojen kokonaislukum¨a¨ar¨a on n = n1 + n2 + · · · + nk . 41 Vastaavat havaitut suureet ovat yij . Kiinnostuksen kohteena on nollahypoteesi, jonka mukaan vasteen odotusarvo ei riipu ryhm¨ast¨a i. T¨at¨a nollahypoteesia vastaa F -testisuure, joka voidaan tulkita tiettyjen varianssiestimaattorien suhteeksi, mink¨a perusteella (melkoisen harhaanjohtava) nimitys varianssianalyysi lienee aikanaan valittu. Yksisuuntainen varianssianalyysi on tavallaan yhden selitt¨aj¨an lineaarisen mallin yleistys: siin¨a kuvaillaan vastevektorin Y riippuvuutta faktorista I, jossa Y11 1 .. .. . . Y1n1 1 Y21 2 . . . . . . Y = I = . , Y2n2 2 . . .. .. Y k k1 .. .. . . Yknk k Kussakin kohdassa faktorin I arvo (eli sen taso) kertoo, mist¨a ryhm¨ast¨a vastaava havainto on per¨aisin vektorissa Y . Joskus faktorin I tasot syntyv¨at diskretoimalla jatkuvan muuttujan X vaihteluv¨ali, jolloin yksisuuntainen varianssianalyysi esitt¨aa¨ mielivaltaista riippuvuutta t¨am¨an selitt¨av¨an muuttujan ja vastemuuttujan v¨alill¨a (kun vasteella on vakiovarianssinen normaalijakauma). Otetaan k¨aytt¨o¨on merkint¨a Y¯i+ ryhm¨an i keskiarvolle ni 1 X ¯ Yij , Yi+ = ni j=1 i = 1, . . . , k, sek¨a merkint¨a Y¯++ kaikkien havaintojen keskiarvolle k n i 1 XX Y¯++ = Yij . n i=1 j=1 Vastaavia otosvektorista y laskettuja suureita merkit¨aa¨n vastaavasti y¯i+ ja y¯++ . M¨a¨aritell¨a¨an vektorit ei siten, ett¨a vektori ei koostuu ryhm¨an i indikaattorimuuttujista (dummy variable), eli ei = (0, . . . , 0, 1, . . . , 1, 0, . . . , 0)T , | {z } ni kpl 42 i = 1, . . . , k, jossa arvo yksi esiintyy niiss¨a kohdissa, miss¨a havaintovektorin Y arvo on per¨aisin ryhm¨ast¨a i. Kutsumme vektoria ei ryhm¨an i osoitinvektoriksi (dummy vector). T¨all¨oin EY = µ = β1 e1 + · · · + βk ek , joten malli on lineaarinen. Vektorit ei ovat ortogonaalisia, sill¨a ( 0, kun i 6= l eTi el = ni , kun i = l. Koska oletuksen mukaan kukin ni ≥ 1, ovat vektorit e1 , . . . , ek lineaarisesti riippumattomia ja siten muodostavat aliavaruuden L1 = span{e1 , . . . , ek } kannan. Mallimatriisi on X = [e1 . . . ek ]. Koska kantavektorit (mallimatriisin sarakkeet) ovat ortogonaalisia, ovat estimaattorit sek¨a niiden jakaumat helppo johtaa. Projektio aliavaruuteen L1 on k k X X eTi Y ei = Y¯i+ ei , p1 (Y ) = T e e i=1 i=1 i i joten kertoimien estimaattorit ja niiden jakaumat ovat 2 σ βˆi = Y¯i+ ∼ N (βi , ), ni i = 1, . . . , k. Kertoimien estimaattorit ovat kesken¨a¨an riippumattomia. Varianssiparametrin estimaattori ja sen jakauma (mallissa µ ∈ L1 ) on σ ˜12 ni k 1 1 XX σ2 2 2 = ky − p1 (y)k = (Yij − Y¯i+ )2 ∼ χ (n − k). n−k n − k i=1 j=1 n−k Testattava nollahypoteesi on H2 : β1 = β2 = · · · = βk , jota vastaa aliavaruus L2 = span{1}. Vastaava projektio on p2 (Y ) = Y¯++ 1. 43 Nollahypoteesia testataan tuttuun tapaan F -testill¨a, jonka testisuure ja sen jakauma nollahypoteesin ollessa tosi on F (Y ) = kp1 (Y ) − p2 (Y )k2 /(k − 1) ∼ F (k − 1, n − k). σ ˜12 Osoittajassa esiintyy suure kp1 (y) − p2 (y)k2 = ni k X X (¯ yi+ − y¯++ )2 = i=1 j=1 k X ni (¯ yi+ − y¯++ )2 , i=1 jota k¨aytt¨am¨all¨a F -testisuure saadaan muotoon Pk 1 yi+ − y¯++ )2 i=1 ni (¯ k−1 , F (y) = 1 Pk Pni ¯i+ )2 i=1 j=1 (yij − y n−k joka voidaan tulkita ryhmien v¨alisen varianssin ja ryhmien sis¨aisen varianssin osam¨a¨ar¨aksi. F -testisuureelle voidaan johtaa muita lausekkeita k¨aytt¨am¨all¨a kaikille lineaarisille malleille p¨atevi¨a identiteettej¨a (HT) kp1 (y) − p2 (y)k2 = ky − p2 (y)k2 − ky − p1 (y)k2 = kp1 (y)k2 − kp2 (y)k2 . Jos nollahypoteesi hyl¨at¨a¨an, voidaan seuraavaksi olla kiinnostuneita muotoa H3 : βi = βl olevista hypoteeseista. T¨am¨an hypoteesin t-testisuure on helppo johtaa, sill¨a riippumattomuuden ansiosta 1 1 2 + . Var(βˆi − βˆl ) = σ ni nl Hypoteesin H3 t-testisuure on t(Y ) = βˆ − βˆl qi σ ˜1 n1i + , 1 nl jolla on jakaumana t(n − k) hypoteesin H3 ollessa tosi. Yksisuuntainen varianssianalyysi voidaan parametroida eri tavoilla. Usein malli kirjoitetaan muodossa EYij = µij = α + δi , 44 j = 1, . . . , ni , jossa on n¨aenn¨aisesti k + 1 kerroinparametria (varianssiparametrin lis¨aksi). Hypoteesi β1 = · · · = βk = 0 vastaa uudessa parametroinnissa ehtoa δ1 = · · · = δk = 0. Uudessa parametroinnissa vasteiden odotusarvojen muodostama vektori saa esityksen k X µ = α1 + δi ei , i=1 mutta t¨ass¨a tarvitaan jokin sidosehto, P ennen kuin mallin parametrit ovat yksik¨asitteisi¨a eli identifioituvia: koska i ei = 1, t¨ass¨a α voitaisiin muuten valita mielivaltaisesti ja sitten valita δi = βi − α. Sidosehto voidaan valita esim. siten, ett¨a seuraava ortogonaalisuusehto toteutuu k X ( δi ei )T 1 = 0, i=1 mik¨a on yht¨apit¨av¨a¨a ehdon k X ni δi = 0 i=1 kanssa. T¨all¨oin kertoimien SU-estimaateiksi saadaan α ˆ = y¯++ βˆ = βˆi − α ˆ = y¯i+ − y¯++ . Varoitus: eri tilasto-ohjelmissa saatetaan k¨aytt¨a¨a varianssianalyysiss¨a erilaisia parametrointeja. Varianssianalyysiss¨a voidaan my¨os testata sit¨a mallin oletusta, onko varianssi vakio ryhmiss¨a. T¨all¨oin tarkastellaan alkuper¨aisen vakiovarianssisen eli homoskedastisen mallin sijasta heteroskedastista mallia Yij ∼ N (µi , σi2 ), jossa vakiovarianssinen malli vastaa hypoteesia σ12 = · · · = σk2 . T¨am¨an hypoteesin testaukseen kehitetty erilaisia testej¨a. • Jos ryhmi¨a on kaksi, voidaan k¨aytt¨aa¨ F -testi¨a (HT). • Muussa tapauksessa voidaan k¨aytt¨a¨a Bartlettin testi¨a (joka on kuvailtu kirjan luvussa 3.5) tai Levenen testi¨a. N¨aist¨a F -testi ja Bartlettin testi ovat herkki¨a mallin normaalijakaumaoletukselle. Levenen testi on t¨alle oletukselle v¨ahemm¨an herkk¨a, mist¨a syyst¨a sit¨a usein suositellaan. 45 Luku 4 Usean selitt¨ aj¨ an malleja 4.1 Toistot ja lineaarisen mallin puuttellisuuden testaus (Vrt. kirjan luku 4.1) Joskus voi olla etua siit¨a, ett¨a lineaarista mallia tarkastellaan varianssianalyysin (analysis of variance, ANOVA) mallin alimallina. T¨am¨a on mahdollista, jos k¨aytett¨aviss¨a on toistoja, eli havaintoja, joissa x-komponentti on vakio. Takastellaan yhden selitt¨aj¨an lineaarista regressiota, jossa kullakin xarvolla xi on saatu ni toistoa, eli mallia Yij ∼ N (β1 + β2 xi , σ 2 ), i = 1, . . . , k, j = 1, . . . , ni , jossa satunnaismuuttujat Yij ovat riippumattomia, ja jossa ryhmien lukum¨a¨ar¨a k > 2. T¨am¨a malli on yksisuuntaisen varianssianalyysimallin Yij ∼ N (δi , σ 2 ), i = 1, . . . , k, j = 1, . . . , ni , alimalli. Lineaarisessa regressiossa toistojen kera on nimitt¨ain voimassa lis¨aehto eli nollahypoteesi H0 : δi = β1 + β2 xi , i = 1, . . . , n. Edell¨a yhden selitt¨aj¨an malli on tietenkin yhden selitt¨aj¨an malli, ja sen parametrien estimointi sujuu tuttuun tapaan. Yhden selitt¨aj¨an mallia verrataan malliin, jonka dimensio on k, mink¨a takia t¨at¨akin asiaa voidaan tarkastella otsikon “monen selitt¨aj¨an malleja” alla Huomaa, ett¨a pystymme estimoimaan varianssiparametrin ANOVA-mallista (toistojen avulla) tekem¨att¨a mit¨a¨an oletusta vasteen odotusarvon ja selitt¨aj¨an 46 funktionaalisesta muodosta, ja voimme testata lineaarista regressiota ANOVAmallin alimallina F -testill¨a. L¨ahestymistapaa kutsutaan nimell¨a lack of fit -testaus, mallin puutteellisuuden testaus. Varianssin vakioisuus joudutaan tietenkin olettamaan F -testiss¨a, mutta sit¨akin puolta voidaan halutessa testata Bartlettin testill¨a, Levenen testill¨a tai graafisilla tarkasteluilla. ANOVA-mallissa varianssiparametrin estimaattoriksi tulee σ ˜12 ni k 1 XX = (Yij − Y¯i+ )2 , n − k i=1 j=1 ja F -testisuureeksi saadaan yksinkertaisilla laskuilla Pk ni (Y¯i+ − βˆ1 − βˆ2 xi )2 /(k − 2) F (Y ) = i=1 . σ ˜12 Nollahypoteesin vallitessa F (Y ) noudattaa jakaumaa F (k − 2, n − k). T¨am¨a l¨ahestymistapa voidaan tietenkin helposti yleist¨a¨a siihen tapaukseen, jossa tahdotaan testata monen selitt¨aj¨an lineaarista mallia vertaamalla sit¨a yksisuuntaiseen ANOVA-malliin, kunhan k¨aytett¨aviss¨a on toistoja (HT). 4.2 Kovarianssianalyysi: regressiosuorien vertailu (Vrt. kirjan luku 4.2) Tarkastellaan yhden selitt¨aj¨an regressiota, jossa havainnot tulevat yhdest¨a k:sta ryhm¨ast¨a. Tavoitteena on vertailla tuloksena saatavia k:ta regressiosuoraa. Tekniikkaa kutsutaan nimell¨a kovarianssianalyysi (analysis of covariance, AN(O)COVA), ja nimi jountuu ilmeisesti siit¨a seikasta, ett¨a selitt¨avi¨a muuttujia on tapana kutsua my¨oskin kovariaateiksi. Tarkasteltava malli on Yij ∼ N (β1i + β2i xij , σ 2 ), i = 1, . . . , k, j = 1, . . . , ni , jossa satunnaismuuttujat Yij ovat riippumattomia. Vasteen vaihtelua selitt¨av¨at skalaari xij ja lis¨aksi indeksi¨a i vastaava luokkamuuttuja eli faktori. Kiinnostuksen kohteena on se kysymys, onko regressiosuorilla eroa. Tavallisesti tarkastellaan ensin, ovatko kulmakertoimet samat, ja sen j¨alkeen voidaan viel¨a tarkastella, ovatko my¨os regressiosuorien vakiot samoja. J¨arjestet¨a¨an kahdella indeksill¨a indeksoidut vasteet yhdeksi vektoriksi Y siten, ett¨a ensin luetellaan ryhm¨ast¨a yksi saadut vasteet, sitten ryhm¨ast¨a kaksi saadut vasteen jne., eli Y = (Y11 , . . . , Y1n1 , Y21 , . . . , Y2n2 , . . . , Yk1 , . . . , Yknk )T . 47 T¨all¨oin odotusarvovektori µ = EY voidaan esitt¨aa¨ summana µ= k X (β1i ei + β2i ui ), i=1 jossa ei = (0, . . . , 0, 1, . . . , 1, 0, . . . , 0), | {z } ryhm¨ ai ja ui = (0, . . . , 0, xi1 , . . . , xini , 0, . . . , 0), | {z } ryhm¨ ai joten malli on lineaarinen. Esim. kahden ryhm¨an tapauksessa 1 x11 0 0 .. .. .. .. . . . . 1 x 0 0 µ = β11 + β21 1n1 + β12 + β22 . 0 0 1 x21 . . . . .. .. .. .. 0 0 1 x2n2 Kertoimien β1i ja β2i estimoiminen on helppoa. Estimaateiksi tulee samat arvot, jotka saataisiin tekem¨all¨a erikseen k lineaarista regressiota, joista i:nness¨a on mukana vain ryhm¨ast¨a i saadut havainnot. T¨am¨a perustuu siihen seikkaan, ett¨a eri ryhmi¨a i ja j vastaavat kantavektorit ovat ortogonaalisia, eli eTi ej = eTi uj = uTi ej = uTi uj = 0, kun i 6= j. Varianssiparametrin estimaatiksi saadaan σ ˜12 ni k 1 XX (yij − βˆ1i − βˆ2i xij )2 . = n − 2k i=1 j=1 Sitten voidaan testata hypoteesia, ett¨a kaikki kulmakertoimet ovat samoja, eli H2 : β21 = β22 = · · · = β2k , mik¨a vastaa alimallia Yij ∼ N (β1i + β2 xij , σ 2 ), i = 1, . . . , k, j = 1, . . . , ni . T¨at¨a alimallia voidaan testata F -testill¨a, ja testisuureelle on kohtalaisen helppoa johtaa konkreettinen, k¨asinlaskuihinkin soveltuva lauseke. 48 Jos hypoteesi H2 hyv¨aksyt¨a¨an, voidaan viel¨a testata, ovatko regressiosuorien vakiotkin samoja eli H2 :n alihypoteesia H3 : β11 = β12 = · · · = β1k . Hypoteesi H3 vastaa tavallista yhden selitt¨aj¨an lineaarista regressiota. Testaus onnistuu j¨alleen kerran F -testill¨a. On tietenkin mahdollista testata ensin regressiosuorien vakioiden yht¨asuuruutta ja vasta sitten kulmakertoimien yht¨asuuruutta, mutta t¨ah¨an j¨arjestykseen liittyy ongelmia. Regressiosuorien vakioiden arvot riippuvat nimitt¨ain x-akselin origion paikan valinnasta, mink¨a takia vakioiden vertailu ei v¨altt¨am¨att¨a ole mielek¨ast¨a. Jos x-arvot ovat kaukana origosta, hyv¨aksyt¨a¨an vakioiden yht¨asuuruus hyvin helposti, sill¨a t¨all¨oin vakioiden estimaattoreilla on suuri varianssi. Huomaa, ett¨a t¨ass¨a luvussa teemme per¨akk¨ain monta testi¨a. Sivuutamme t¨ass¨a esityksess¨a kuitenkin t¨allaisiin per¨att¨aisiin testeihin liittyv¨an ongelmakent¨an. 4.3 Ennusteen luottamusv¨ ali ja uuden vasteen ennustev¨ ali (Vrt. kirjan luku 4.5) Tarkastelemme yleist¨a lineaarista mallia, jossa odotusarvovektori µ = Xβ, ja X on n × k-matriisi. Odotusarvovektorin i:s komponentti on µi = k X xij βj = xT[i] β, j=1 jossa xT[i] on matriisin X i:s vaakarivi. Olkoon x0 = (x01 , . . . , x0k )T uusi, annettu, selitt¨aj¨avektorin arvo. Tarkastelemme kahta samantapaista teht¨av¨a¨a, jotka liittyv¨at uuteen vasteeseen Yx0 selitt¨aj¨avektorin arvolla x0 . Oletamme, ett¨a uuden vasteen jakauma on Yx0 ∼ N (xT0 β, σ 2 ), ja ett¨a Yx0 on riippumaton aineistosta Y1 , . . . , Yn . Johdamme seuraavaksi • luottamusv¨alin vasteen Yx0 odotusarvolle eli lineaariselle ennusteelle µx0 = xT0 β • ennustev¨alin satunnaismuuttujalle Yx0 . 49 Huomaa, ett¨a µx0 on parametrivektorin funktio, mutta Yx0 on satunnaismuuttuja, mink¨a vuoksi teemme eron niille johdettujen v¨alien nimitysten suhteen. Ensiksi johdamme luottamusv¨alin selitt¨aj¨avektoria x0 vastaavalle lineaariselle ennusteelle µx0 = xT0 β. Sen piste-estimaattori on ˆ µ ˆx0 = xT0 β, ja t¨am¨an estimaattorin jakauma on µ ˆx0 ∼ N (xT0 β, xT0 (σ 2 C)x0 ), jossa C = (X T X)−1 . Estimaattorin keskivirhe on edellisen perusteella q s. e.(ˆ µ x0 ) = σ ˜ xT0 Cx0 , jossa σ ˜ 2 on varianssiparametrin tavanomainen estimaattori. Tuttuun tapaan µ ˆ x0 − µ x0 ∼ t(n − k), s. e.(ˆ µ x0 ) josta saadaan luottamustason 1 − a luottamusv¨aliksi µ ˆx0 ± s. e.(ˆ µx0 )t1−a/2 (n − k) =µ ˆx0 ± t1−a/2 (n − k) σ ˜ q xT0 Cx0 Yhden selitt¨aj¨an lineaarisessa regressiossa, jossa µi = β1 + β2 xi = α + β2 (xi − x¯) uutta x-pistett¨a u0 vastaa (mallin keskist¨am¨att¨om¨ass¨a muodossa) selitt¨aj¨avektori x0 = (1, u0 )T . Yksinkertaisilla laskuilla (HT) saadaan t¨ast¨a huomiosta regressiosouran luottamustason 1 − a luottamusv¨aliksi pisteess¨a x = u0 s 1 (u0 − x¯)2 βˆ1 + βˆ2 u0 ± t1−a/2 (n − 2) σ ˜ + . n St Regressiosuoran luottamusv¨ali on kapeimmillaan pisteess¨a u0 = x¯. Uuden vasteen ennustev¨alin johtamiseksi tarkastellaan ensin yleist¨a lineaarista mallia µ = Xβ. Satunnaismuuttujan Yx0 paras ennuste on tietenkin µ ˆx0 , mink¨a takia tarkastellaan satunnaismuuttujaa Yx0 − µ ˆx0 . Sen varianssi 50 on (toisistaan v¨ahennett¨avien satunnaismuuttujien riippumattomuuden nojalla) Var(Yx0 − µ ˆx0 ) = σ 2 + σ 2 xT0 Cx0 . Koska σ ˜ 2 on riippumaton sek¨a satunnaismuuttujasta Yx0 ett¨a satunnaismuuttujasta µ ˆx0 joiden yhteisjakauma on multinormaalijakauma, on Y −µ ˆ x0 p x0 ∼ t(n − k). σ ˜ 1 + xT0 Cx0 Jos on annettu 0 < a < 1, niin jakaumatuloksen perusteella todenn¨ak¨oisyydell¨a 1 − a on voimassa Y −µ ˆx0 x0 ≤ t1−a/2 (n − k), p σ ˜ 1 + xT0 Cx0 josta saadaan ratkaistua, ett¨a todenn¨ak¨oisyydell¨a 1 − a uusi vaste Yx0 saa arvon v¨alilt¨a q µ ˆx0 ± t1−a/2 (n − k) σ ˜ 1 + xT0 Cx0 . T¨am¨a on uuden vasteen ennustev¨ali. Yhden selitt¨aj¨an lineaarisen regression tapauksessa uutta x-pistett¨a u0 vastaa taas selitt¨aj¨avektori x0 = (1, u0 )T , ja ennustev¨aliksi uudelle vasteelle saadaan s 1 (u0 − x¯)2 βˆ1 + βˆ2 u0 ± t1−a/2 (n − 2) σ ˜ 1+ + . n St Huomautus: Johdetut luottamus- ja ennustev¨alit ovat voimassa vain selitt¨aj¨avektorin arvolla x0 eli pisteess¨a x0 . T¨allaisten v¨alien lis¨aksi on mahdollista johtaa v¨alej¨a, jotka ovat voimassa simultaanisesti eli yht¨aaikaisesti kaikilla selitt¨aj¨avektorin arvoilla. 4.4 4.4.1 T¨ aydent¨ avi¨ a huomioita lineaarisista malleista Muunnokset Joskus linaarisia malleja sovelletaan vasta sen j¨alkeen, kun alkuper¨aisiin selitt¨aviin muuttujiin ja selitett¨av¨a¨an muuttujaan on ensin sovellettu muunnoksia. Kirjan luvussa 4.3.2 tarkastellaan esimerkki¨a, jossa puun tilavuutta v yritet¨a¨an ennustaa sen rinnankorkeushalkaisijan d ja pituuden h avulla. Halkaisija ja pituus voidaan helposti mitata kasvavasta puusta, mutta tilavuuden mittaaminen onnistuu luotettavasti vain kaatamalla puu ensin. Aineisto 51 koostuu tietyn puulajin yksil¨oist¨a tehdyist¨a mittauksista (di , hi , vi ). Ensiksi yritet¨a¨an yht¨al¨o¨a v = β1 + β2 d + β3 h vastaavan mallin sovitusta. Residuaalikuvioista n¨ahd¨a¨an, ett¨a mallin oletukset eiv¨at t¨ayty. Sovitettu malli on asiaa koskevan tiedon valossa huono. Jos puun runko olisi muodoltaan sylinteri tai kartio, niin tilavuus saataisiin molemmissa tapauksissa kaavalla v = cd2 h, jossa c on vakio. J¨arkev¨ampi malli saadaan siirtym¨all¨a logaritmeihin, ja sovittamalla mallia log v = β1 + β2 log d + β3 log h, jota vastaavat residuaalikuviot n¨aytt¨av¨at j¨arkevilt¨a. Logaritmisella asteikolla esitetyss¨a lineaarisessa mallissa oletetaan, ett¨a log Vi = β1 + β2 log di + β3 log hi + i , jossa Vi on tilavuutta vastaava satunnaismuuttuja ja jossa virheet i ∼ N (0, σ 2 ) riippumattomasti. Alkuper¨aisell¨a asteikolla ilmaistuna mallin oletus on, ett¨a Vi = eβ1 dβi 2 hβi 3 ei . Huomaa, ett¨a alkuper¨aisell¨a asteikolla virhe on multiplikatiivinen eik¨a additiivinen. Alkuper¨aisen asteikon virheen, exp(i ), jakauma on lognormaalinen, eli t¨am¨an satunnaismuuttujan logaritmilla on normaalijakauma. Mallia tarvitaan tilavuuden ennustamiseen puun halkaisijan ja pituuden avulla. Jos uudelle puulle saadaan tilavuuden logaritmille ennustev¨ali [l, u], niin v¨ali saadaan muunnettua alkuper¨aiselle asteikolle soveltamalla logaritmin k¨a¨anteisfunktiota eli eksponenttifunktiota. Ts. ennustev¨ali tilavuudelle on [exp(l), exp(u)]. 4.4.2 Selitt¨ ajien lis¨ a¨ aminen Lineaarisessa mallissa oletetaan, ett¨a selitett¨avist¨a muuttujista koostetulla satunnaisvektorilla Y on esitys ∼ N (0, σ 2 I), Y = Xβ + , jossa X on tunnettu vakiomatriisi. Erityisesti oletetaan, ett¨a virhevektorin komponentit i ovat riippumattomia ja i ∼ N (0, σ 2 ). Virheiden riippumattomuutta ei voida todistaa aineistoa tarkastelemalla, vaan t¨am¨a oletus pit¨a¨a 52 todentaa koetta koskevalla taustatiedolla (jos aineisto on jo annettu) tai hyv¨a¨all¨a kokeen suunnitelulla (jos aineiston ker¨a¨amist¨a vasta suunnitellaan). Usein lineaarisessa mallissa on mukana alkuper¨aisten selitt¨ajien ohessa niiden funktioita kuten esim. yhden selitt¨aj¨an kvadraattisia termej¨a, eri selitt¨ajien tuloja tai muita sopivia kantafunktioita. T¨am¨a on mahdollista, koska lineaarisen mallin oletusten mukaan malli on lineaarinen parametriensa eik¨a alkuper¨aisten selitt¨ajien suhteen. Mahdollisia alkuper¨aisten selitt¨ajien funktioita on tietysti rajattomasti, mink¨a takia usein lineaarisia malleja sovitetaan siten, ett¨a lopullisessa mallissa k¨aytett¨av¨at selitt¨aj¨at valitaan suuresta joukosta kandidaatteja soveltamalla F -testej¨a tms. ty¨okaluja. T¨ass¨a yhteydess¨a on paikallaan varoitus. Lopullisen mallin ep¨avarmuudesta saadaan liian optimistinen kuva, mik¨ali t¨all¨oin tuijotetaan vain lopullisen mallin parametrien ep¨avarmuutta kuvaavia tunnuslukuja, ts. jos k¨aytet¨a¨an vain t¨all¨a kurssilla k¨asiteltyj¨a asioita. 4.4.3 Lineaaristen mallien rajoitukset Lineaarisia malleja ei voida soveltaa kaikkissa tilanteissa. Jos esimerkiksi selitett¨av¨a muuttuja on bin¨aa¨rinen, eiv¨at lineaarisen mallin oletukset taatusti pid¨a paikkaansa. Jos Yi voi saada vain arvot 0 ja 1 ja lis¨aksi on k¨aytett¨aviss¨a yksi selitt¨aj¨a xi , niin ns. logistinen malli voi sopia selitt¨am¨a¨an vasteen Yi vaihtelua. Mallissa oletetaan, ett¨a Yi :t ovat riippumattomia ja ett¨a log P (Yi = 1) = β0 + β1 xi . 1 − P (Yi = 1) Logistinen malli on erikoistapaus ns. yleistetyist¨a lineaarisista mallista, joita varten on olemassa pitk¨alle kehitetty teoria ja hyvi¨a tietokoneohjelmia. Joskus teoria kertoo, ett¨a vaste on muotoa Yi = f (xi , β) + i , i ∼ N (0, σ 2 ) jossa funktio f riippuu parametrivektorista β ep¨alineaarisesti, ja kiinnostuksen kohteena on parametrivektorin arvo. T¨all¨oin oikea l¨ahestymistapa on ep¨alineaarinen regressio. 53