Kombinationer af lande- og individdata. Multilevel analyse.
Transcription
Kombinationer af lande- og individdata. Multilevel analyse.
Kombinationer af lande- og individdata. Multilevel analyse. No. 1 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Henrik Lolle Indlæg ved arrangement i Selskab for Surveyforskning: Kunsten at sammenligne lande, onsdag den 12. september 2012 Kombinationer af lande- og individdata. Multilevel analyse. No. 2 of 27 Multilevel data strukturer og analysemetoder Multilevel (hierarkiske) data består af variabler målt på forskellige i hinanden indlejrede niveauer, f.eks.: Elever i skoler Borgere i kommuner Elever i skoler i klasser Måletidspunkter ved individer Borgere i lande Borgere i måletidspunkter i lande Multilevel eller mixed effect metoder er statistiske analysemetoder, der kan håndtere og udforske hierarkiske problemstillinger på hierarkisk strukturerede, eller multilevel, data på fornuftig vis. Kombinationer af lande- og individdata. Multilevel analyse. No. 3 of 27 Hvorfor har vi brug for MLA? ”Standard statistical tests lean heavily on the assumption of independence of the observations. If this assumption is violated (and in multilevel data this is almost always the case) the estimates of the standard errors of conventional statistical tests are much too small, and this results in many spuriously ‘significant’ results.” (Joop Hox 2010: Multilevel Analysis) Allerede midt i forrige århundrede kendte man til disse problemer, og der blev udviklet metoder til at korrigere for nogle af de fejl, man ellers ville gøre. Efterhånden holdt man op med at betragte multilevel data som irritationsmomenter, der skulle håndteres, og gik i stedet over til at se disse som noget, der giver spændende muligheder. Kombinationer af lande- og individdata. Multilevel analyse. No. 4 of 27 To eller nogle få makroenheder (f.eks. lande) kan nemt håndteres med ordinære analysemetoder Land 1 i1 i2 Land 2 i2 …… in Men egner sig kun til nogle typer af problemstillinger! Kombinationer af lande- og individdata. Multilevel analyse. No. 5 of 27 Eksempel på fejlestimering på individniveauanalyse på hierarkiske data Lykke . . ... .. .. . .. .. . . . .. .. ... . En t-test ville sikkert finde signifikant forskel i gennemsnit, og det er der intet i vejen med. BNP/indb. Land 1 and 2 Men der vil være stor risiko for en fejlkonklusion, hvis man på baggrund af dataene siger, at denne forskel skyldes forskel i BNP! Kombinationer af lande- og individdata. Multilevel analyse. No. 6 of 27 Fejlestimering med lineær regression Lykke . . ... .. .. Tilsvarende gælder det for ordinær individbaseret lineær regression på hierarkiske data. . .. .. . . . .. .. ... . OLS regressionslinje BNP/indb. Land 1,2 og 3 Des flere lande og des færre individer i de enkelte lande, jo mindre bliver fejlestimeringen, men så længe der er flere individer inden for enkelte lande, vil der principielt kunne ske fejlestimering. Kombinationer af lande- og individdata. Multilevel analyse. No. 7 of 27 Aggregering af individdataene som løsning Man har mildest talt ikke gode muligheder for at spore effekter fra individvariabler Aggregeringen formindsker antallet af frihedsgrader Risiko for såkaldt økologisk fejlslutning (fra makro til mikro) Man forbiser en masse potentielt spændende information, som niveauopsplitning af variansen på den afhængige variabel og varierende effekt fra individvariabler hen over makroenhederne No. 8 of 27 Kombinationer af lande- og individdata. Multilevel analyse. En anden type fejlestimering med lineær regression baseret på individenhederne Lykke Nu ses der på effekten fra en individniveau variabel, SES. OLS regressionslinje for de enkelte lande Overordnet OLS regressionslinje En slags ”frog pond-effekt”. SES Såkaldt ”fixed effect” analyse kan i nogle situationer være en løsning! No. 9 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Den ”tomme” model (varianskomponent-model) Lykke Ingen uafhængige variabler, kun opsplitning af variansen på den afhængige variabel på de to niveauer. Landene varierer i niveau, og individerne varierer inden for det enkelte land. Overordnet intercept Lande Ud over interceptet er der et fejlled på både lande- og individniveau: Yij 0 u0 j eij No. 10 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Random Intercept Model med en individvariabel Lykke Afvigelse fra det gennemsnitlige niveau for lykke SES ML regressionsligning: Yij 0 1 x1ij u0 j eij No. 11 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Random Slope Model Lykke Afvigelse fra den gennemsnitlige effekt fra X (SES) SES Nu tre fejlled (og tre variansestimater): Yij 0 1 X ij u1 j X ij u0 j eij Kombinationer af lande- og individdata. Multilevel analyse. No. 12 of 27 Random Slope Model, inkl. landevariabel Z kunne f.eks. være en variabel, der indikerer niveauet for udgifter til sociale foranstaltninger. Den vil muligvis kunne forklare noget af niveauforskellen i lykke landene imellem: Yij 0 1 X ij 2 Z j u1 j X ij u0 j eij Muligvis kan effektvariansen på SES evt. derudover forklares ved størrelsen af sociale udgifter, en såkaldt ”cross level interaction”: Yij 0 1 X ij 2 Z j 3 X ij Z j u1 j X ij u0 j eij No. 13 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Centrering af uafhængige variabler Det er ofte bedre at estimere variation mellem makroenheder ved individvariablernes gennemsnit end i deres oprindelige nulpunkt. Lykke Her er bedre! Her er ikke et godt sted at estimere niveauforskelle SES Nulpunkt i original Nulpunkt i variabel gennemsnits-centreret variabel No. 14 of 27 Kombinationer af lande- og individdata. Multilevel analyse. .6 .4 .2 0 Density .8 1 Eksempel i Stata, tilfredshed med livet som afhængig variabel 0 2 4 6 How satisfied are you with your life 8 10 No. 15 of 27 Kombinationer af lande- og individdata. Multilevel analyse. .6 .4 .2 0 Density .8 1 Kontrol over livet som primær uafhængig 0 2 4 6 How much freedom you feel 8 10 No. 16 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Den tomme model i Stata V22 Coef. _cons 6.798144 Random-effects Parameters Std. Err. .1244536 z P>|z| 54.62 0.000 [95% Conf. Interval] 6.55422 7.042069 Estimate Std. Err. [95% Conf. Interval] var(_cons) .8638002 .163872 .5955681 1.252839 var(Residual) 4.494941 .0227333 4.450605 4.539719 V2: Identity LR test vs. linear regression: chibar2(01) = 14635.52 Prob >= chibar2 = 0.0000 Niveauet for den gennemsnitlige respondent i det gennemsnitlige land Varians mellem respondenter inden for det enkelte land, svarer til en std.afv. på 2,1 Varians mellem lande, svarer til en std.afv. på 0,9 No. 17 of 27 Kombinationer af lande- og individdata. Multilevel analyse. -2 -1 0 1 2 Interceptresidualer (landevariation) 0 20 40 vc_i_rank 60 No. 18 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Random Intercept Model V22 Coef. c_V46 _cons .307043 6.793784 Random-effects Parameters Std. Err. .0032746 .1034479 z P>|z| 93.77 65.67 0.000 0.000 [95% Conf. Interval] .300625 6.59103 .3134611 6.996538 Estimate Std. Err. [95% Conf. Interval] var(_cons) .5960752 .1132422 .4107618 .864992 var(Residual) 4.041766 .0204414 4.0019 4.08203 V2: Identity LR test vs. linear regression: chibar2(01) = 10677.58 Prob >= chibar2 = 0.0000 Effekt fra ”kontrol over livet” Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,60: R2land = 0,30 Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,04: R2 = individ 0,10 Helt ”efter bogen” bør der i modellen også inddrages en udgave af variablen V46, der er aggregeret til landeniveau. No. 19 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Random Slope Model V22 Coef. c_V46 _cons .3159914 6.789863 Std. Err. .0132023 .1028847 Random-effects Parameters z 23.93 65.99 Estimate P>|z| [95% Conf. Interval] 0.000 0.000 .2901154 6.588212 Std. Err. .3418673 6.991513 [95% Conf. Interval] V2: Unstructured var(c_V46) var(_cons) cov(c_V46,_cons) .0090186 .58929 -.0029616 .0018413 .1120022 .0101356 .0060444 .4060197 -.0228269 .0134565 .8552853 .0169038 var(Residual) 3.9989 .0202318 3.959443 4.038751 LR test vs. linear regression: chi2(3) = 11362.41 Gennemsnitlig effekt fra ”kontrol over livet” Mål for sammenhæng (kovarians) mellem landeintercept effekt fra ”kontrol over livet” Prob > chi2 = 0.0000 Variation i effekten fra ”kontrol over livet” No. 20 of 27 Kombinationer af lande- og individdata. Multilevel analyse. -.4 -.2 0 .2 .4 Slope-residualer 0 20 40 rs1_s_rank 60 No. 21 of 27 Kombinationer af lande- og individdata. Multilevel analyse. 2 4 6 8 10 Regressionslinjer for de enkelte lande -6 -4 -2 0 c_V46 2 4 No. 22 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Flere uafhængige V22 Coef. female c_age c_edu c_V46 c_wbgi_cce _cons .1011365 -.0026442 .0655871 .3089986 .4017405 6.680043 Std. Err. .0143787 .000485 .0033474 .0131105 .0756041 .0838567 Random-effects Parameters z P>|z| 7.03 -5.45 19.59 23.57 5.31 79.66 Estimate 0.000 0.000 0.000 0.000 0.000 0.000 Std. Err. [95% Conf. Interval] .0729547 -.0035948 .0590262 .2833025 .2535593 6.515686 .1293184 -.0016936 .0721479 .3346948 .5499218 6.844399 [95% Conf. Interval] V2: Unstructured var(c_V46) var(_cons) cov(c_V46,_cons) .0088823 .3813418 -.0052504 .0018161 .0726881 .0081197 .0059497 .2624615 -.0211647 .0132605 .5540681 .0106639 var(Residual) 3.970617 .0200887 3.931438 4.010186 LR test vs. linear regression: Effekt fra landeniveauvariablen ”kontrol over korruption” chi2(3) = 7843.58 Prob > chi2 = 0.0000 No. 23 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Samme, blot Random Intercept V22 Coef. female c_age c_edu c_V46 c_wbgi_cce _cons .0984257 -.0028035 .065574 .300559 .4146373 6.684568 Random-effects Parameters Std. Err. .0144327 .0004857 .0033564 .0032818 .0754912 .0834063 z P>|z| 6.82 -5.77 19.54 91.58 5.49 80.14 0.000 0.000 0.000 0.000 0.000 0.000 [95% Conf. Interval] .0701382 -.0037554 .0589955 .2941268 .2666774 6.521094 .1267132 -.0018516 .0721524 .3069911 .5625973 6.848041 Estimate Std. Err. [95% Conf. Interval] var(_cons) .3773694 .0718909 .2597816 .5481824 var(Residual) 4.012976 .0202958 3.973393 4.052953 V2: Identity LR test vs. linear regression: chibar2(01) = 7163.20 Prob >= chibar2 = 0.0000 Fra tom model svinder variansen på landeniveau ind fra 0,86 til 0,38: R2land = 0,56 Tilsvarende svinder variansen på individniveau ind fra 4,49 til 4,01: R2individ = 0,11 No. 24 of 27 Kombinationer af lande- og individdata. Multilevel analyse. 2 -1 0 1 BLUP r.e. for V2: _cons 2 1 0 -1 -2 -2 -1 0 1 BLUP r.e. for V2: _cons 2 Landeresidualerne svinder ind hen over modellerne 0 20 40 vc_i_rank 60 0 20 40 ri_i_rank 60 0 20 40 ri4_i_rank 60 No. 25 of 27 Kombinationer af lande- og individdata. Multilevel analyse. Mulighed for at liste landeresidualer V2 vc_i vc_i_ste vc_i_r~k 63762. 66079. 67513. 68007. 69318. Sweden Netherla Argentin Canada Finland .9125032 .9126738 .9264378 .9497304 1.034646 .0671719 .0655785 .0687064 .0463179 .0664423 46 47 48 49 50 70495. 71918. 72820. 74289. 76662. New Zeal Switzerl Guatemal Norway Mexico 1.082277 1.10297 1.147613 1.170241 1.43201 .0714612 .0605453 .0670375 .0663771 .0549395 51 52 53 54 55 77733. Colombia 1.509981 .0387003 56 Kombinationer af lande- og individdata. Multilevel analyse. Eksempel på ekstra komplikation: gentagne tværsnitsdata over mange lande No. 26 of 27 Datastruktur (hvor der forestilles en længere række af lande): Land 1 t1 i11 i12 i13 …… i1n Land 2 t2 i21 i22 i23 …… i2n t1 i11 i12 i13 …… i1n t2 i21 i22 i23 …… i2n Kombinationer af lande- og individdata. Multilevel analyse. No. 27 of 27 Læringsmuligheder (bøger og kurser) Essex Summer School Hjemlige ph.d.-kurser Snijders, Tom A. B. & Bosker, Roel: An Introduction to Basic and Advanced Multilevel Modeling Hox, Joop: Multilevel Analysis. Techniques and Applications. Rabe-Hesketh, Sophia & Skrondal, Anders: Multilevel and Longitudinal Modeling Using Stata LEMMA learning environment: http://www.cmm.bris.ac.uk/lemma/login/index.php under Centre for Multilevel Modeling i Bristol Fairbrother, Malcolm: Two Muiltilevel Modeling Techniques for Analyzing Comparative Longitudinal Survey Datasets (unpublished paper)