Analyse (957/868, 924/904, 969/849, 997/900) - sociologisk
Transcription
Analyse (957/868, 924/904, 969/849, 997/900) - sociologisk
Indholdsfortegnelse Indledning (957/868, 924/904, 969/849, 997/900) ......................................................................... 4 Problemstilling (957/868, 924/904, 969/849, 997/900) ........................................................................... 5 Læsevejledning (957/868, 924/904, 969/849, 997/900)........................................................................... 5 Teoretisk afsnit ............................................................................................................................... 6 Overgangen til refleksiv modernitet (969/849) ....................................................................................... 6 Refleksivitet (924/904) ............................................................................................................................ 8 Individet i den refleksive modernitet: De non-sociale strukturer (997/900) ............................................ 9 Geografisk differentiering: Levende, døde, vilde og tamme zoner (957/868) .........................................13 Teoretisk diskussion (957/868, 924/904, 969/849, 997/900) ..................................................................16 Teoretiske hypoteser og kausalmodeller (957/868, 924/904, 969/849, 997/900) ........................ 18 Teoretisk hypotese 1 ..............................................................................................................................18 Operationalisering (957/868, 924/904, 969/849, 997/900) .......................................................... 22 Hypotese 1 .............................................................................................................................................22 Afhængig variabel (Y) .........................................................................................................................................22 Uafhængige variable (X) .....................................................................................................................................22 Hypotese 2 .............................................................................................................................................25 Afhængig variabel (Y) .........................................................................................................................................25 Afhængig variabel (X) .........................................................................................................................................25 Kontrolvariable til hypotese 1 og hypotese 2 ......................................................................................................27 Empiriske hypoteser (957/868, 924/904, 969/849, 997/900) ........................................................ 29 Empirisk hypotese 1 ...............................................................................................................................29 Empirisk hypotese 2 ...............................................................................................................................30 Datapræsentation (924/904) ........................................................................................................ 31 Population, stikprøve og analyseudvalg .................................................................................................31 Analyseudvalg....................................................................................................................................................31 Variabelpræsentationen (969/849) .............................................................................................. 33 Indledende om repræsentativitetstesten (969/849) ..............................................................................38 Z-test på køn (997/900) ..........................................................................................................................38 Homogenitetstest ved aldersfordeling (969/849) ...................................................................................40 Nonparametrisk analyse (957/868).............................................................................................. 44 1 Geografisk placering og uddannelseslængde .........................................................................................44 Uddannelse og internetforbrug ..............................................................................................................45 Statistisk teori (957/868, 924/904, 969/849, 997/900) ................................................................ 47 Lineær regression (957/868) ..................................................................................................................47 Method of ordinary least squares (924/904) ......................................................................................................48 Antagelser om simpel lineær regression (969/849) .............................................................................................49 Best linear unbiased estimators (997/900) .........................................................................................................50 Lineære værktøjer (957/868) .............................................................................................................................51 Logistisk regression (957/868, 969/849, 997/900) .................................................................................57 Regression med binære variable (969/849) ........................................................................................................57 Estimering af binære variable (969/849) ............................................................................................................57 Odds (997/900)..................................................................................................................................................58 Den logistiske regressionsmodel (957/868) ........................................................................................................59 Estimation af parameterestimater (957/868) .....................................................................................................62 Hypotesetest af enkelte parametre (957/868) ....................................................................................................63 Den logistiske trekant (969/849) ........................................................................................................................64 Modelsøgning (969/849, 997/900)............................................................................................... 65 Modelsøgning 1 (969/849) .....................................................................................................................66 Modelkontrol for slutmodel 1 (957/868, 924/904) ....................................................................... 70 Likelihood-ratio test (LR-test) (957/868) ................................................................................................70 Grupperet residualanalyse (957/868).....................................................................................................71 Hosmer-Lemeshow test (924/904) .........................................................................................................74 Modelsøgning 2 (997/900, 924/904) ............................................................................................ 76 Slutmodel 2 (924/904)............................................................................................................................80 Lineær modelkontrol af slutmodel 2 (957/868, 924/904, 969/849, 997/900) .............................. 81 Modelvalg – residualanalyse (997/900)..................................................................................................81 Multikollinaritet (969/849) ....................................................................................................................83 Homoskedasticitet (924/904) .................................................................................................................85 Fejlleddenes normalitet (957/868) .........................................................................................................90 Underspecifikation (957/868) ................................................................................................................92 Resultatanalyse (957/868, 924/904, 969/849, 997/900) ............................................................. 94 Hypotese 1 .............................................................................................................................................94 Hypotese 2 .............................................................................................................................................96 Opsummering af resultatanalyse ...........................................................................................................97 2 Analyse (957/868, 924/904, 969/849, 997/900) .......................................................................... 98 Er det danske samfund differentieret i forhold til adgang til informationsstrukturer? ..........................98 Hvorvidt kommer den informationelle og kommunikative sociale differentiering til udtryk i geografisk opdelte zoner? .......................................................................................................................................99 Diskussion (957/868, 924/904, 969/849, 997/900) .................................................................... 100 Forbrug af internet: Kvantitativ eller kvalitativ differentiering? ..........................................................100 Geografiske zoner: Differentiering eller distingvering? ........................................................................100 Eksklusion fra statsborgerskab? ...........................................................................................................101 Konklusion (957/868, 924/904, 969/849, 997/900) ................................................................... 102 Litteraturliste ............................................................................................................................. 103 Litteratur til Social differentiering ........................................................................................................103 Litteratur til Videregående kvantitative metoder ................................................................................103 Internetsider ........................................................................................................................................104 Bilag ........................................................................................................................................... 105 Bilag 1: ISCO-kode ................................................................................................................................105 Bilag 2: Bortfaldsanalyse ......................................................................................................................114 Bilag 3: Standardiserede residualer mod ŷ – test for heteroskedasticitet ............................................127 Bilag 4: Binomial fordeling ...................................................................................................................128 Bilag 5: Standardiserede grupperesidualer...........................................................................................129 3 Indledning (957/868, 924/904, 969/849, 997/900) Vi ønsker i denne opgave at foretage en sociologisk statistisk undersøgelse af socialt differentierende forhold i dansk kontekst. Fokus vil ligge på individers adgang til information og kommunikation samt deres geografiske placering. ”Der sker en udrangering i disse år. Mellem dem som er opkoblet og dem som ikke er. Nogle gange så glemmer folk som mig, at der findes mennesker, der ikke er på Facebook, der ikke har en mail, ikke bruger netbank og som aldrig googler. Det kan meget nemt blive et demokratisk og socioøkonomisk problem. Hvis ikke det allerede er det.”1 Således indleder Kristian Levring Madsen sit indlæg, ”Det digitale skel”, på Kommunikationsforum, 2008. Madsen argumenterer for, at det er problematisk, at der er nogle personer, der bliver ’koblet af’, og således får adgang til væsentligt mindre viden, end personer, der behersker de digitale kommunikations- og informationsbølger. Problemet er endvidere, ifølge Madsen, at de mennesker, der bliver koblet af digitalt er de samme, som er koblet af i andre henseender; mennesker med lavindkomst og ikke mindst dårlig uddannelse. Men hvad betyder det? De afkoblede er endvidere sat i forbindelse med udkantsdanmark. Dette uddybes af Lars Trier Mogensen, redaktør for lederkollegiet på Politiken, i en artikel d. 27. april 2010: ”Danmarks nye vilde vesten, også kaldet ’den rådne banan’, er ved at blive forbeholdt passive unge, ældre og kroniske arbejdsløse mænd.” 2. Argumentet går på, at landkommunerne er blevet afkoblet som parallelsamfund; kendetegnet ved indbyggere med korte eller ingen uddannelser, høj arbejdsløshed samt en lav grad af socialt og kulturelt liv. Kontrasten til dette er, ifølge artiklen, det produktive flertal i byerne, hvorfor en reference til sociologien Henrik Dahl lyder på at: ”Landbefolkningen må indse, at de har tabt.” 3 Det er ovenstående tendenser af social differentiering, vi ved hjælp af statistiske værktøjer og relevant sociologisk teori ønsker at undersøge. 1 http://www.kommunikationsforum.dk/Kristian-Levring-Madsen/blog/det-digitale-skel 2 http://politiken.dk/debat/signatur/ECE957839/udkantsdanmark-er-det-vilde-vesten/ 3 http://politiken.dk/debat/signatur/ECE957839/udkantsdanmark-er-det-vilde-vesten/ 4 Problemstilling (957/868, 924/904, 969/849, 997/900) Med ovenstående betragtninger for øje udledes følgende problemstilling: Med udgangspunkt i datamateriale fra European Social Survey vil denne opgave gennem statistisk regressionsanalyse og anvendt sociologisk teori undersøge, hvorvidt og hvordan det danske samfund er socialt differentieret med hensyn til adgang til information og kommunikation. Endvidere undersøges det, hvorvidt denne form for differentiering er geografisk. Læsevejledning (957/868, 924/904, 969/849, 997/900) Ovenstående sondringer vil hovedsagligt blive undersøgt på baggrund af den amerikanske sociolog Scott Lashs tanker om den refleksive modernitet. Ydermere vil det blive diskuteret, hvorvidt disse mønstre af social differentiering kan ses som et led i, hvordan identitet formes og opretholdes. I første del af opgaven inddrages relevant sociologisk teori, der kan lede an til en statistisk analyse af social differentiering og identitetsskabelse i vores samtid. På baggrund af ovenstående foretages en redegørelse for og analyse af Lashs teoretiske sondringer om social differentiering. Der vil i denne forbindelse være fokus på betragtninger omhandlende selvrefleksion, informations-og kommunikationsstrukturer og geografiske zoner. Afslutningsvist diskuteres anvendelsen af de teoretiske begreber i dansk kontekst med henblik på at klargøre visse problematikker og forbehold. I anden del af opgaven vil operationaliseringen finde sted. Her vil blive redegjort for, hvordan vi operationaliserer vores teoretiske begreber og hypoteser til empirisk målbare størrelser. Opgavens tredje del består af vores statistiske arbejde. Her vil vi præsentere vores variable; undersøge om vores analyseudvalg er repræsentativt ift. vores population; foretage lineære og logistiske modelsøgninger med tilhørende modelkontroller på baggrund af relevant statistisk teori; samt analysere slutmodellernes resultater. I opgavens fjerde del analyseres og sammenholdes de empiriske resultater med anvendte sociologiske teori. Afslutningsvist diskuteres det endvidere, om individers placering i mønstre af social differentiering har indflydelse på deres identitetsudvikling i den refleksive modernitet. 5 Teoretisk afsnit Overgangen til refleksiv modernitet (969/849) Scott Lash skriver sig ind i den sociologiske tradition med en tidsdiagnostisk samfundsteori omhandlende de strukturelle forandringer, der adskiller hans samtid fra det klassiske moderne samfund. Lashs overordnede mål er at tage afstand fra såvel modernitetens socialt utopiske metanarrativer, som det bl.a. kendes fra Karl Marx’ revolutionære klasseteori som den postmoderne dystopiske evolutionisme. Lash peger på en tredje vej, inspireret af den kritiske sociologitradition, der søger at udnytte de strukturelle potentialer, der ligger indlejret i det moderne samfunds karakter (Lash i Beck et al.1997:112). Lash peger på, at et stærkt begreb om refleksivitet kan være et nyttigt bidrag til at imødegå den kritiske teoritraditions evindelige problematik, nemlig systemets kolonisering af livsverdenen. I refleksiviteten, eller snarere selvrefleksiviteten ligger et potentiale, der forener disse to aspekter af det samfundsmæssige liv. For hvad sker der når moderniteten begynder at reflektere over sig selv og gør sig bevidst om sin egen udskejende og destruerende karakter? (Ibid.:112). Lash peger på, at kun ved at have selvrefleksion som et immanent element i moderniseringen, kan modernitet som samfundsmæssigt system opretholdes i det sene 20. århundrede. En sådan selvrefleksion kommer dog ikke af ingenting, men stiller krav til individerne i samfundet. Krav om højt uddannelsesniveau bliver helt centralt i forhold til at kunne rejse de rationelle kritiske spørgsmål, der skal foranledige den kritiske selvrefleksion af moderniteten. Kun individer, der besidder den nødvendige uddannelse, er i stand til at rejse disse spørgsmål (Ibid.:112f). Der knyttes altså en form for strukturel kobling mellem systemet og livsverdenen; i koblingen fra individets egen forståelse og kritiske refleksion over de strukturer individet selv er en del af. Dermed bliver individets refleksion også modernitetens selvrefleksion. Ovenstående refererer til Lashs begreb ’refleksiv modernisering’, der er strukturelt væsensforskellig fra den ’simple modernisering’ fra hvilken den udspringer. Den simple modernisering var kendetegnet ved dens funktionelle stratificering samt horisontale og vertikale hierarkier i upersonlige og bureaukratiske underkastende velfærdsinstitutioner, der, jf. koloniseringen af livsverdenen, har invaderet sociale rettigheder i dets oplysningsprojekt (Ibid.:113). 6 Den refleksive modernitet kommer til at repræsentere en samfundsstruktur, der modsat den simple modernitets underkastelse af dets individer, inddrager individer og styrker dem i refleksionens frigørende processer. Individers refleksion foranlediger bevidstgørelse om dets centrale placering i myndiggørende og klientfokuserede velfærdsforordninger (Ibid.:113). Et vigtigt begrebspar, som Lash udleder af ovenstående, er forholdet mellem den simple modernitets individuationsprocesser og den refleksive modernitets individualiseringsprocesser. Individuation betegner processer, der gør individet bevidst om sig selv og sin egenart, men også om sin placering i den sociale virkelighed, hvor det må acceptere blot at være en blandt andre individer4. Individualisering betegner en proces, hvor individet skabes i mere flygtige og ustabile processer uden rod i traditionelle sociale fællesskaber 5. Lashs pointe er, at netop informations- og kommunikationsmidler skaber sådanne processer, hvor individer sættes i stand til at reflektere over sig selv og finde sin egen genuine placering i det sociale liv uafhængigt af individer og strukturer omkring sig. Det er i denne forstand individualiseringens frigørende processer, der driver samfundsudviklingen frem (Ibid.:113). Hos Lash findes altså en klar skelnen mellem de to stadier af moderniteten, hvorfor han udvider den klassiske sociologis skelnen mellem det traditionelle og det moderne samfund, til en tretrinsudvikling fra det traditionelle over den simple- til den refleksive modernitet. Den refleksive modernitet er således ikke blot en nuance af den simple modernitet, men en helt ny samfundsorden (Ibid.:113). Lash argumenterer for denne tredeling med reference til den tyske sociolog Ferdinand Tönnies’ begrebspar gemeinschaft og gesellschaft. Gemeinschaft knytter sig til det traditionelle samfunds tætte kommunale meningsfællesskaber, mens gesellschaft knyttes til det industrielle moderne samfunds interessekollektiver (Ibid.:114). Lash peger her på, at de klassestrukturer, der karakteriserer den simple modernitets gesellschaft, ikke indeholder individualiserende processer, 4 http://www.denstoredanske.dk/Krop,_psyke_og_sundhed/Psykologi/Analytisk_psykologi/individuation 5 http://www.denstoredanske.dk/Samfund,_jura_og_politik/Sociologi/Grupper/individualisering?highlight=in dividualisering 7 men upersonlige bureaukratiske strukturer. Disse strukturer individuerer dets individer snarere end det frigør dem i individualiseringsprocesser. Nye informations- og kommunikationsmidler muliggør det oplyste individs refleksion og kritik af den simple modernitets gesellschaftlische interessefællesskaber, hvilket foranlediger udviklingen til den refleksive modernitet, der kendetegner samtiden (Ibid.:115). I forlængelse af Lashs beskrivelse af overgangen til den refleksive modernitet behandles nedenfor centrale begreber til forståelse af de differentierende strukturer og identitetsskabende elementer, der kendetegner samtiden. Refleksivitet (924/904) Ud fra ovenstående tidsdiagnose søger Lash at stille skarpere på, hvad refleksivitet egentligt er (Lash i Beck et al.1997:115). Inspireret af Anthony Giddens og Ulrich Beck beskriver Lash den refleksivitet, som kendetegner samfundsudviklingen i nyere tid. Refleksiviteten kan, ifølge Lash, både være strukturel og individuel. Hos såvel Giddens som Beck finder karakteren af refleksivitet sted ved enten spekulation over institutioner og ekspertsystemer eller modstand mod kernen af disse strukturer (Ibid.:115ff). Giddens beskriver, ifølge Lash, selvrefleksivitet, der indebærer, at individer sætter sig ud over den sociale struktur, de befinder sig i, reflekterer over dem selv og deres position. Endvidere begrebsliggør Giddens en institutionel refleksivitet, der indebærer, at sociale praksisser i stigende grad omskabes i henhold til individers viden om dem. I takt med individers frisættelse fra den simple modernitets bureaukratiske strukturer muliggøres en større indsigt i strukturelle regler og ressourcer, der tilvejebringer alternative forandringsprocesser og skift i tillidsrelationer (Ibid.:116). Tillid handler ikke længere om ansigt-til-ansigts involveringer, men derimod om stigende tillid til institutioner og ekspertsystemer. Beck ser modsat et potentiale i refleksiviteten til kritik af ekspertsystemer. Strukturel refleksivitet vedrører en frigørelse fra og kritik af ekspertsystemer, hvor selvrefleksivitet fordrer frihed og kritik af forskellige psykoterapier. Refleksivitet bygger således på mistillid til ekspertsystemer, ifølge Beck (Ibid.:116ff). 8 Lash pointerer, at Beck og Giddens optegnelser over refleksivitet vidner om, at den tidligere heteronome overvågning af individer er erstattet af autonomi og selvovervågning. Lash kritiserer dog Giddens og Beck for, at deres værker slutter for brat, da de kun tage højde for den rationelle, bevidste monitering af egen praksis (Ibid.:120). Beck og Giddens betragter faktorer, der har medført, at individets refleksivitet er gået fra et materielt til et psykisk niveau, men mangler, ifølge Lash, at adressere et tredje led i form af modsatrettede strukturer. Lash introducerer her begrebet æstetisk refleksivitet, der, i modsætning til selvmonitorering, omhandler selvfortolkning. Man vælger hele tiden mellem en myriade af muligheder, men dette valg er ikke udelukkende en dekontekstuel, kognitiv afvejning af fordele og ulemper, men er også indlejret i individers livsverden (Ibid.:135). Lash påpeger her refleksivitetens omfang og grænser, hvorfor han spørger:”Why, we might ask, do we find reflexivity in some places and not in others?” (Ibid.:120). Refleksivitet indeholder altså individers frigørelse fra upersonlige strukturer. Dette har medført nye uligheder i form af ulige refleksivitetschancer, der er opstået med et interartikuleret sæt af nonsociale strukturer, hvilket ekspliciteres i følgende. Individet i den refleksive modernitet: De non-sociale strukturer (997/900) Som antydet i ovenstående konstaterer Lash, at individet befinder sig i en periode af markante forandringer - at det indgår i en refleksiv modernitet. Centralt er det, at individet til dels har løsrevet sig fra de sociale strukturer - herunder økonomiske, politiske, ideologiske, normativt regulerende og institutionelle - og nu, i den refleksive modernitet, indgår i non-sociale informations- og kommunikationsstrukturer (I&K-strukturer): Et artikuleret net af globale og lokale netværk af information og kommunikation (Lash i Beck et al.1997:119). Eroderingen af de sociale strukturer skaber, ifølge Lash, øget agens hos individet - individets Freizetzung (Ibid.:119). Frisættelsen af individet fra de sociale strukturer er, ifølge Lash, forårsaget af kapitalens logikker: Den refleksive akkumulation baner vejen for økonomisk akkumulation (Ibid.:119). Det er således ikke individet, der har løsrevet sig fra strukturerne, men omvendt strukturerne, som har løsrevet sig fra individet. Altså frigøres agens fra strukturelle sociale bindinger. Løsrivelsen er sket i relation til markedet, der qua et stigende specialiseret forbrug, bliver nødt til at agere fleksibelt ift. produktionen (Ibid.:119). Ovenstående fordrer, ifølge Lash, skabelsen af individer, der er fleksibelt specialiseret. Kravet om 9 individualiseret specialisering nødvendiggør en selvrefleksivitet, der gør, at vi som nævnt, bevæger os fra en tilstand præget af heteronomi til autonomi; fra regler til selvmonitorering (Ibid.:119). Således kan man argumentere for, at strukturerne konstruerer nye veje, som civilisationen kan bevæge sig i retning af. Koblingen mellem det heteronome og autonome er ligeledes noget Zygmunt Bauman behandler i sin argumentation for den flydende modernitet. Bauman beskriver, at vi er gået fra en tung til en let kapitalisme (Bauman 2000:75). Bauman betoner, at det moderne samfund før var kendetegnet af regler, orden og kontrol, mens den flydende modernitet omvendt er kendetegnet af kaos, foranderlighed og en høj grad af mobilitet (Ibid.:74). Således lægger Bauman ligeledes op til, at individet må forholde sig refleksivt og fleksibelt til de strukturer, det indgår i. Hos både Lash og Bauman har moderniteten altså udviklet sig fra en tilstand karakteriseret af strukturel tvang til øget agens. At netop aktørperspektivet kommer til at stå stærkt i Lashs argumentation for en refleksiv modernitet skyldes, at indgåelse i og tilegnelse af nonsociale strukturer fordrer refleksivitet. Denne fordring bliver ligeledes det, som kommer til at differentiere individerne i den refleksive modernitet; og bliver altså afgørende for skabelsen af social ulighed (Ibid.:120). Lash betoner, at den refleksive modernitets klassestruktur er polariseret og besidder en mindre grad bevidsthed (Ibid.:120). Uligheder er dog, på trods af den mindre klassebevidsthed, stadig tilstede i den refleksive modernitet, men, som antydet, er individets placering i det samfundsmæssige ikke længere defineret ved adgangen til produktionsforhold, men derimod adgangen til informationsforhold (Ibid.:121). Lash skriver: ”In reflexive modernity, life chances – the outcome who are to be reflexivity winners and who the reflexivity losers – depend instead on the place in the ’mode of information’.” (Ibid.:121). Hermed åbnes op for en dikotomisk differentieret inddeling af individer - refleksive tabere og vindere. Refleksive vindere er følgelig dem, der har adgang til og indgår i I&K-strukturer, mens det omvendte gør sig gældende for de refleksive tabere. Informationsstrukturer består på den ene side af netværk, hvori information strømmer, og på den anden side rum, hvori erhvervelse af informationsbehandlende egenskaber finder sted (Ibid.:121). Som antydet indledningsvist bliver uddannelsesniveau af særlig betydning i den refleksive modernitet. Dette skyldes, at informationsbehandlende kundskaber forudsætter individer med høj 10 uddannelse, da uddannelse gør individet i stand til at reflektere. Lash skriver: ”(...) the work-force must acquire substantial information-processing abilities and thus must be highly educated.” (Ibid.:113). Den refleksive modernitets differentiering, hvor adgang til de nonsociale strukturer er af central betydning, har altså i høj grad relation til individers uddannelsesniveau. Lash skriver ift. kommunikationsstrukturerne, at:”(...) communication is the key term, the pivotal social fact for the global information order.” (Lash 2002:208). Kommunikationsstrukturerne har altså i høj grad forbindelse til informationsstrukturerne; da kommunikation muliggør global udbredelse af information (Ibid.:204). Lash skriver, at computeren er en helt central informationsmaskine i den refleksive modernitet: ”The personal computer is an interactive information machine, permitting interactivity with both content and the user.” (Ibid.:68). Ovenstående forhold skaber, ifølge Lash, ’elektroniske fællesskaber’, der trods begrebet om ’fællesskab’, fremstår som endnu mere ’gesellschaftlich’, mere upersonlige og mere distancerede end de fælleskaber, der fandtes i den simple modernitets bureaukratiske institutioner (Ibid.:27). Lash ekspliciterer ikke årsagen til de elektroniske fællesskabers negligering af socialitet, hvorfor Baumans kobling mellem nærhed og moral med fordel kan inddrages. Bauman argumenterer for, at der findes en kobling mellem nærhed og moralsk impuls. Dette kommer bl.a. til udtryk i hans skriverier om Holocaust, hvor en af pointerne netop er, at det bureaukratiske apparats manglende nærhed til begivehedernes materialitet tømmer handling for moralsk og intersubjektivt indhold (Bauman 1991:40fff). Dette er ligeledes tilfældet med de elektroniske fællesskaber, det nonsociale, der ikke kan sidestilles med de sociale strukturer. Lash betoner, at der i den refleksive modernitet opstår nogle sociale klasser, hvis position, jf. de refleksive tabere og vindere, determineres af adgangen til nonsociale strukturer. I denne forbindelse argumenterer Lash for en ny arbejderklasse, middelklasse og underklasse. Strukturenes incitament til træning og adgang til informationsstrømme forårsager opgraderingen af en ny ’refleksiv’ arbejderklasse (Lash i Beck et al.1997:127). Den nye arbejderklasse indgår i nonsociale strukturer på tre niveauer; som individuerede forbrugere, som brugere af informationaliserede produktionsmidler, samt som producenter af forbrugervarer - herunder fjernsyn, computere, mobiltelefoner og lign. (Ibid.:129). Den nye udvidede middelklasse er skabt på baggrund af den refleksive modernitets nye princip for akkumulation, hvor informationsgoder bliver centrale (Ibid.:129). Den nye middelklasse arbejder indeni de nonsociale strukturer - som eksperter i ekspertsystemerne (Ibid.:129). Endvidere har den nye middelklasse udviklet sig fra at være en 11 ’serviceklasse’ til en klasse, der bliver serviceret (Ibid.:129). Således kan argumentere for, at mens den transformerede middelklasse arbejder indeni I&K-strukturer, så arbejder den nye refleksive arbejderklasse for og med disse nonsociale strukturer (Ibid.:130). De sociale strukturers aftagende indflydelse og det stigende incitament om øget agens opleves af samtlige sociale klasser. Det er dog kun hos underklassen, at de sociale strukturer ikke bliver erstattet af de nonsociale (Ibid.:132). I opposition til den nye arbejder- og middelklasse, som, qua deres adgang til og omgang med de nonsociale strukturer, fremstår som refleksive vindere, er således den nye underklasse. Den nye underklasse består af de individer, som hverken arbejder indeni strukturerne (middelklassen) eller for og med dem (arbejderklassen). De er med andre ord fundamentalt ekskluderede fra I&K-strukturer, hvorfor de fremstår som refleksive tabere (Ibid.:130). Udviklingen fra den heteronome monitorering til selvmonitorering, som den nye arbejder- og middelklasse har oplevet, udebliver for den nye underklasse. Deres tilværelse er derimod karakteriseret ved en meget lav grad af monitorering i det hele taget (Ibid.:131). Skabelsen af den nye underklasse skyldes, ifølge Lash, skiftet fra industri- til informationsproduktion. Dette har skabt en ny klasse med strukturelt nedadgående mobilitet fra arbejderklassen (Ibid.:130). Underklassen er med andre ord den del af den ’gamle’ arbejderklasse, som ikke har formået, at tilpasse sig i de nonsociale strukturer. McDonalds-proletariatet, som Lash anvender synonymt med den nye underklasse, har en arbejdsgang, som er substantielt mindre informativ og substantielt mere materiel, sammenlignet med den nye arbejder- og middelklasse (Ibid.:132). I takt med civilsamfundets dybere integration med de nonsociale strukturer, oplever underklassen endvidere en decideret eksklusion fra statsborgerskabet - på et politisk og kulturelt niveau (Ibid.:133). Dette skyldes, at borgerskabsrettigheder i den refleksive modernitet, ifølge Lash, er tilknyttet adgangen til I&K-strukturer, som den nye underklasse er ekskluderet fra. Lash antyder endvidere, at individer, hvis forældre ikke har formået at tilpasse sig i de non-sociale strukturer, er udsat for en social reproduktion. Lash skriver: ”(...) working-class fathers breed underclass sons.” (Ibid.:131). Således opstår en form for kumulativ differentieringsproces, hvor forældre tilhørende den materielle produktion - den produktionsform der før var dominerende - videregiver disse egenskaber til deres børn. Problemet er dog, at produktionen er gået fra at være materiel til informationaliseret, hvorfor børnene oplever en socioøkonomisk devaluering. Det bør nævnes, at Lash åbner op for et teknologisk potentiale af mobilitet for underklassen: Selvom underklassen hverken arbejder indeni eller for de nonsociale strukturer, kan de gennem eksempelvis TV, internet og radio få muligheden 12 for at være modtagere af symbol- og billedekommunikation; og dermed modtagere af I&Kstrukturer (Ibid.:134). Centralt er det, at Lash i sin afsluttende beskrivelse af underklassen, berører den grad intersektionalitet, der er på spil i forbindelse differentiering under den refleksive modernitet. Selvom klasserne hovedsagligt er defineret ved adgangen til informationsforhold, er de endvidere defineret ved mere pluralistiske karakteristika; køn, etnicitet, alder osv. (Ibid.:134). Professor ved London University, Ann Phoenix, skriver indgående om intersektionalitet og definerer det som: ”(...) an onotological framework that establishes that social existence is never singular, but rather that everybody belongs simultaneously to multiple categories that are historically and geographically located (...)” (Phoenix 2006:28). Intersektionalitet udtrykker således, at ingen social kategori står alene, samt en anerkendelse af, at individer er simultant positionerede inden for diverse sociale kategorier. Den simultane differentiering er ligeledes noget Lash observerer i den refleksive modernitet, hvorfor det behandles i forbindelse med vores operationalisering og den senere analyse. Geografisk differentiering: Levende, døde, vilde og tamme zoner (957/868) Ovenstående beskrev, hvordan nonsociale strukturer har overtaget den simple modernitets sociale strukturer, samt overgangen fra den materielle til den informationaliserede produktion. De nonsociale strukturer får endnu en specifik rolle, når de sættes i relation til strømmenes logik. I&Kstrukturer kommer til at danne selve rammen om strømmene (Lash 2002:27), hvilket uddybes i følgende afsnit. I takt med at det nationale samfund, ifølge Lash, eroderer, kommer strømmenes logik til at tage dets plads. Strømmene består hovedsagligt af symbolske eller kulturelle størrelser - herunder information, kommunikation, billeder eller ideer (Ibid.:27). En interessant betragtning, som Lash gør sig ved disse strømme, er, at man, i bogstavelig forstand, kan kortlægge deres koncentration og forbindelser. Eksempelvis mener Lash at kunne se tætte forbindelser og høje koncentrationer af strømme i eks. London, Silicon Valley samt forskerparker og områderne omkring store uddannelsescentre (Ibid.:27). Skiftet fra sociale til I&K-strukturer leder, som nævnt, frem til nye mønstre af social differentiering. Klassekonstruktioner bliver dermed også et spørgsmål om adgangen til de globale strømme. Social 13 ulighed, som nu bestemmes af adgang til strømme, omkranset af de nonsociale strukturer, antager nu i højere grad en form bestemt af geografi. Bestemmelsen af sociale klasser bliver dermed i mindre grad et spørgsmål om placering i produktionen, og mere et spørgsmål om geografisk placering, hvor koncentrationen af strømme er centralt. For Lash bliver det i sidste ende et spørgsmål om zoner (Ibid.:28). Hvor strømmene har stor tyngde findes de levende zoner, mens lokaliteter med kun lette strømme benævnes døde zoner. Lokaliteter med høj tæthed af strømme markerer de tamme zoner, mens lokaliteter med spredte strømme derimod markerer vilde zoner. Levende og døde zoner er hovedsagligt betegnelser for de økonomiske rum, mens tamme og vilde zoner betegner de identitetsskabende rum. Man kan altså sige, at levende og døde zoner refererer til strømmenes tilstedeværelse eller fravær, mens vilde og tamme zoner refererer til, hvad aktørerne i rummene gør med disse strømme (Ibid.:28f). Lash gennemgår fire zonetyper, der hver konstitueres af en kombination af to af de nævnte zoner, skildret ved: Levende og tamme zoner Døde og tamme zoner Levende og vilde zoner Døde og vilde zoner Figur 1: Kombinationer mellem zonerne De levende og tamme zoner findes, iflg. Lash, i rummene med avancerede producent- og forbrugertjenester, der tilhører produktionen i den avancerede sektor. Disse rum er først og fremmest levende zoner grundet de allestedsnærværende strømme. De er dog samtidig tamme zoner, da identiteterne i disse rum er relativt stabile (Ibid.:29). Disse rum indeholder den del af den nye middelklasse, som Lash betegner informationsbourgeoisiet eller øverste økonomiske del af klassestrukturen. De levende og vilde zoner betegner derimod den ’intellektuelle’ del af den nye middelklasse. Det ekspliciteres, at det er den ’intellektuelle elite’, der behersker de nye medier (Ibid.:29). Lashs eksempler på de levende og vilde zoner tager som oftest udgangspunkt i storbyer, eksempelvis kvartererne Chelsea og ’downtown’ i New York City. Disse står i modsætning til den levende, men tamme, ’uptown kultur’. De levende og vilde zoner findes oftest omkring universiteter, kunstskoler samt andre rum, der samler forskellige former for alternativ livsstil. Strømmene her flyder måske ikke ligeså tykt, men symbolerne og tegnene er mere flygtige og kontingente, mens identiteterne er mangfoldige og omskiftelige (Ibid.:29). 14 Lash definerer ligeledes to typer af døde zoner. De døde og vilde zoner bebos af den nye underklasse, som er blevet gjort nedadgående mobile i takt med, at I&K-strukturerne har vundet indpas. Eksempler er de individer, der bestod af den industrielle arbejderklasse, men som nu enten er arbejdsløse eller har svært ved at finde arbejde. Social uorden formulerer levereglerne i disse rum, hvor identiteterne er flydende og disintegrerede (Ibid.:29). De døde og tamme zoner er ikke umiddelbart ekskluderet fra informationskulturen, men er simpelthen blevet forbigået af den. Det er i disse zoner man finder landmændene og de faglærte arbejdere, der besidder stabile identiteter og snarere føler sig truet af end ekskluderet af forandringen. Rent geografisk findes disse zoner oftest i umoderne forstæder, små byer og på landet (Ibid:29). Efter at have karakteriseret de refleksive vindere, de refleksive tabere samt den geografiske differentiering af I&K-strukturerne, er det relevant at søge en overensstemmelse mellem ovenstående. Da de levende zoner indeholder både høj økonomisk aktivitet og uddannelsesniveau, qua placering omkring højere læreranstalter, vil det være nærliggende at placere de refleksive vindere i disse zoner, da de besidder karakteristika, der stemmer overens med disse zoners strømme. Man kan med en vis forsigtighed sige, at de levende zoner er de refleksive vinderes habitus 6. Det omvendte gør sig gældende for de døde zoner, der indeholder de individer, der enten er blevet ekskluderet eller forbigået af strømmene, der konstituerer den nye informationskultur. Disse samfundsgrupper indeholder de individer, der enten har svært ved, eller slet ikke formår, at tilpasse sig I&K-strukturerne, hvilket i høj grad er den karakteristik, der også karakteriserer de refleksive tabere. De, der er isolerede fra I&K-strukturerne, flytter sig ikke, men forbliver i den nye periferi, de tamme og døde zoner. 6 Habitus skal her ikke forstås som indlejrede mentale strukturer, men med reference til begrebet som det forstås inden for den biologiske verden. 15 Teoretisk diskussion (957/868, 924/904, 969/849, 997/900) Da vi ønsker at foretage en analyse på baggrund af Lashs teori om den refleksive modernitet, er det centralt at diskutere, hvorvidt hans forståelsesramme kan anvendes på danske samfundsforhold. Lash argumenterer for, at der under den refleksive modernisering forekommer differentierende processer, som er determineret af individers adgang til og omgang med nonsociale strukturer. Kløften mellem refleksive vindere og tabere er i Lashs beskrivelse yderst dikotomisk opstillet, hvorfor det er relevant at diskutere dets applikation på danske forhold. Lashs teoretiske funderinger i ”Reflexive Modernization” (1997) bygger hovedsagligt på socioøkonomiske forhold i hhv. Japan, Nordamerika og Tyskland. Man kan argumentere for, at en applikation på danske forhold derfor fordrer overvejelser om netop de socioøkonomiske vilkår, der forefindes i Danmark med den socialdemokratiske velfærdsmodel. Den socialdemokratiske velfærdsmodel skaber, sammenlignet med de andre velfærdsmodeller, mere økonomisk og social lighed, og der er en klar omfordelingseffekt mellem høje og lave indkomster (Larsen og Møller 2009:120). Danmarks tilslutning til den socialdemokratiske velfærdsmodel kommer bl.a. til udtryk i tal fra OECD fra 1995. Tallene viser, at Danmark brugte flere ressourcer på sociale formål end lande, vi typisk sammenligner os med: Tyskland, Italien og UK. Helt præcist brugte Danmark i 1995 34 % af BNP på sociale formål (Larsen og Møller 2009:122). Med ovenstående in mente kan man diskutere, hvorvidt de dikotomiske differentieringsmønstre, inddelt i hhv. refleksive tabere og vindere, som Lash ser i eks. Nordamerika, på samme måde kommer til udtryk i dansk kontekst. Den store omfordelingseffekt, der finder sted, kan alt andet lige være medvirkende til, at differentieringen ikke på samme måde bliver så todelt, som Lash ellers stiller det op. På baggrund af tal fra Eurostat, kan det konstateres, at Danmark ift. andre EU-lande ligger relativt lavt placeret, hvad angår andelen af personer, der lever i risikoen for fattigdom, angivet ved 12 % i 2008. Hvis man sammenligner med f.eks. Tyskland, hvis socioøkonomiske forhold Lash netop belyser, kan vi via Eurostat se, at deres andel af personer i risiko for fattigdom lå på 15 % i 2008 (Hansen 2010:7). Man kan således argumentere for, at den nye underklasse, dvs. den del af den ’gamle’ arbejderklasse, som ikke har formået at tilpasse sig i de nonsociale strukturer, ikke på samme måde gør sig gældende i Danmark, da den socialdemokratiske velfærdsmodels omfordelingspolitik er med til at reducere socioøkonomiske kløfter. 16 Ydermere kan det ’frie’ valg af uddannelse i Danmark, qua den socialdemokratiske velfærdsmodel, ydermere være til at reducere den skarpe differentiering, som Lash behandler i forbindelse med den nye underklasse. Det frie valg af uddannelse kan alt andet lige være medvirkende til, at den danske population i højere grad får muligheden for at indgå i I&K-strukturer. Dette skyldes, som nævnt, at de informationsbehandlende egenskaber kræver uddannelse. At den danske befolkning har et frit uddannelsesvalg kan således modvirke de forfaldstendenser, som Lash ellers ser med den nye underklasse. Anvendelsen af Lashs sondringer om den refleksive modernitet må altså overvejes. Man må ikke forglemme kulturel relativitet, og de teoretiske og analytiske problematikker, dette muligvis vil forårsage. Alligevel mener vi, at teorien er af interesse i dansk kontekst, da målet om social lighed gennem den socialdemokratiske velfærdsmodel ikke nødvendigvis indfries, samt at det frie valg af uddannelse ikke nødvendigvis medfører, at majoriteten af den danske befolkning indgår i I&Kstrukturerne. 17 Teoretiske hypoteser og kausalmodeller (957/868, 924/904, 969/849, 997/900) På baggrund af vores problemformulering og anvendte teori opstilles følgende to teoretiske hypoteser og kausalmodeller. Teoretisk hypotese 1: Adgangen til informations- og kommunikationsstrukturer betinges af uddannelsesniveau På baggrund af Lashs argumentation for, at uddannelsesniveau har signifikant indflydelse på individers muligheder for at indgå i I&K-strukturer, opstilles følgende teoretiske hypotese: Uddannelsesniveau Adgang til informations- og kommunikationstrukturer Vi antager, at individers uddannelsesniveau har indflydelse på deres adgang til I&K-strukturer. Vi forventer, at individer med et højt uddannelsesniveau har en høj grad af adgang til de nonsociale strukturer, mens individer med lavt uddannelsesniveau forventes at have en lav grad af adgang. Dette bygges på Lashs antagelse om, at informationsbehandlende egenskaber forudsætter individer med høj uddannelse, da uddannelse gør individet i stand til at reflektere. Kontrolvariable til hypotese 1: Vi forventer, udover den ovenstående sammenhæng, at der er andre faktorer, der, jf. Lashs beskrivelse af den refleksive modernitet, influerer på individers adgang til I&K-strukturer: Køn: Vi har en formodning om, at køn influerer på individers adgang til nonsociale strukturer. Dette bygger på Lashs argument om, at der forekommer intersektionalitet i forbindelse differentiering under den refleksive modernitet. Selvom differentiering hovedsagligt er defineret ved adgangen til informationsforhold, er de endvidere defineret ved mere pluralistiske karakteristika, herunder køn. Alder: Som køn anvendes alder som en kontrolvariabel, der knytter sig til argumentet om intersektionalitet. Ydermere forventer vi, at internettet er mere udbredt blandt de yngre aldersgrupper, da det er et relativt nyt medie. 18 Erhvervsgruppe: Vi formoder, at individers erhvervsgruppe har indflydelse på deres adgang til I&K-strukturer. Lash beskriver, hvordan individets placering i samfundet ikke længere er defineret ved adgangen til produktionsforhold, men derimod af adgangen til informationsforhold. Det formodes, at erhverv med høj grad af adgang til og omgang med I&K-strukturer har indflydelse på den sammenhæng, vi ønsker at belyse. Adgang til informations- og kommunikationstrukturer Uddannelsesniveau Alder Køn Erhvervsgruppe Figur 2: Kausalmodel 1 19 Teoretisk hypotese 2: Der er korrelation mellem placering i geografiske zoner og uddannelsesniveau På baggrund af Lashs antagelse om, at I&K-strukturer har forskellig tyngde og tæthed i forskellige spatielle zoner, opstilles følgende teoretiske hypotese: Geografisk zone Uddannelsesniveau Vi antager, at der er en sammenhæng mellem individers uddannelsesniveau og den geografiske zone, de befinder sig i. Vi forventer, at individer med et højt uddannelsesniveau kan lokaliseres i de levende og vilde zoner, da den store tæthed og tyngde af I&K-strukturer i storbyerne fordrer et højt refleksivitetsniveau. Modsat forventes individer med et lavt uddannelsesniveau at befinde sig på landet i de døde og tamme zoner, hvor de lettere strømme ikke fordrer det samme refleksivitetsniveau som i storbyerne. Vi forventer altså at kunne lokalisere en sammenhæng mellem zoner og uddannelsesniveau. Vi er opmærksomme på, at vi ikke måler en kausal sammenhæg men en korrelation mellem geografiske zoner og uddannelsesniveau. Hypotesens sammenhæng må altså ikke misforstås således, at individets domicil betinger individets uddannelsesniveau, men at individets domicil korrelerer med dets uddannelsesniveau, jf. Lashs argument om, at tætheden og tyngden af I&Kstrukturer er differentieret geografisk. Kontrolvariable til teoretisk hypotese 2: Vi forventer, at andre faktorer kan spille ind på sammenhængen mellem individers placering i geografiske zoner og deres uddannelsesniveau. Disse opstilles i nedenstående: Køn: Køn anvendes, da vi, som i tilfældet med hypotese 1, formoder, at der findes intersektionalitet i forbindelse med differentiering under den refleksive modernitet. Alder: I tråd med intersektionalitet formoder vi, at alder har indflydelse på individers uddannelsesniveau. Vi formoder ydermere, at alder har en signifikant sammenhæng til uddannelsesniveau, da det følgelig tager tid at fuldføre en uddannelse. Jo ældre individet er, jo højere uddannelsesniveau formodes. 20 Forældres gennemsnitlige uddannelsesniveau: Vi formoder, at forældres uddannelsesniveau spiller en forklarende rolle ift. til eget uddannelsesniveau. Dette bygger på Lashs antydning af social reproduktion i den nye underklasse, hvor socioøkonomiske forhold overleveres fra forældre til barn. Vi har en forventning om, at individer, hvis forældre har et gennemsnitligt højt uddannelsesniveau, selv opnår et højt uddannelsesniveau, mens det omvendte gør sig gældende hos individer, hvis forældre har et gennemsnitligt lavt uddannelsesniveau. Geografisk zone Uddannelsesniveau Køn Alder Forældres gennemsnitlige uddannelseslængde Figur 3: Kausalmodel 2 21 Operationalisering (957/868, 924/904, 969/849, 997/900) I følgende afsnit vil vi operationalisere vores teoretiske begreber til empirisk målbare størrelser. Hypotese 1 Afhængig variabel (Y) Internetforbrug I vores statistiske undersøgelse vil vi undersøge internetforbrug som den hhv. inkluderende eller ekskluderende faktor i de nonsociale strukturer. Computeren er, ifølge Lash, en central informationsmaskine. Computeren vælger vi at operationalisere til ’internetforbrug’, da computere især besidder kommunikative og informative egenskaber ved tilkobling til internettet. Internetforbrug har den fordel, at det måler begge sider af de nonsociale strukturer, såvel information som kommunikation. Et højt forbrug af internet forstår vi derfor som en høj chance for at blive refleksiv vinder. Variablen internetforbrug er en omkodning af variablen netuse. Internetforbrug er kodet som en dummyvariabel indeholdende følgende udfald: y=0 = Lille forbrug: No access at home or work, Never use, Less than once a month, Once a month. y=1= Stort forbrug: Several times a month, Once a week, Several times a week, Every day. Omkodningen er foretaget ud fra Lashs dikotomiske arbejde med refleksive vindere og refleksive tabere for empirisk at kunne måle differentieringen mellem respondenter med hhv. et stort forbrug og et lille. Uafhængige variable (X) Uddannelseslængde Vi ønsker at undersøge, hvorvidt respondenter differentieres ift. deres evne til at reflektere. Vi benytter i denne sammenhæng uddannelsesvariablen som udtryk for de refleksive egenskaber, som respondenter måtte besidde. Lash hævder, at adgangen til I&K-strukturer er bestemt af ens refleksive egenskaber. Evnen til at reflektere opnås gennem uddannelse, hvorfor en respondents 22 uddannelseslængde bliver af central betydning for, hvorvidt de benytter internettet. Derfor må en differentiering i uddannelse nødvendigvis også kunne måle en differentiering i brugen af internet. Samlet set benytter vi altså uddannelseslængde som respondenters evne til at reflektere over sig selv og samfundsmæssige strukturer. Uddannelseslængde er indordnet efter en ratioskala; dvs. en intervalskala med et naturligt nulpunkt – i dette tilfælde ingen uddannelse, dvs. 0 år (Malchow-Møller og Würtz 2010:28). Variablen er en omkodning af den ordinale variabel edlvddk. Uddannelseslængden er inddelt således, at hver uddannelseskategori har fået tildelt minimum antal år for fuldførelse. Udfaldene ses nedenfor: Oprindelig uddannelsesvariabel Uddannelseslængde (omkodet) Ingen skolegang. Børnehaveklasse. 1.-5. 0 år Folkeskole 6.-8. klasse 6 år Folkeskole 9.-10. klasse 10 år ”Gymnasielle uddannelser, studentereksam” og ”Faglig uddannelse. (håndværk, handel, landbrug)” 13 år Kort erhvervsuddannelse. under 1-2 års varighed 14 år Kort videregående uddannelse af op til 2-3 år 15 år Lang videregående uddannelse. Kandidatur 16 år Licentiat og Forskeruddannelse. Ph.d., doktor 18 år Licentiat og Forskeruddannelse. Ph.d., doktor 21 år Tabel 1: Tabel over oprindelige uddannelsesvariable kontra den omkodede uddannelseslængdevariabel Vi får dermed følgende udfald i ratiovariablen Uddannelseslængde: 0, 6, 10, 13, 14, 15, 16, 18 og 21. I vores modelsøgning anvendes disse udfald endvidere som en række dummyer med følgende udfaldsmuligheder: 23 Dummy Udfaldsmuligheder 0 års uddannelse y = 0; respondenten har mere end 0 års uddannelse. y = 1; respondenten har netop 0 års uddannelse. 6 års uddannelse y = 0; respondenten har ikke 6 års uddannelse. y = 1; respondenten har netop 6 års uddannelse. 10 års uddannelse y = 0; respondenten har ikke 10 års uddannelse. y = 1; respondenten har netop 10 års uddannelse. 13 års uddannelse y = 0; respondenten har ikke 13 års uddannelse. y = 1; respondenten har netop 13 års uddannelse. 14 års uddannelse y = 0; respondenten har ikke 14 års uddannelse. y = 1; respondenten har netop 14 års uddannelse. 15 års uddannelse y = 0; respondenten har ikke 15 års uddannelse. y = 1; respondenten har netop 15 års uddannelse. 16 års uddannelse y = 0; respondenten har ikke 16 års uddannelse. y = 1; respondenten har netop 16 års uddannelse. 18 års uddannelse y = 0; respondenten har ikke 18 års uddannelse. y = 1; respondenten har netop 18 års uddannelse. 21 års uddannelse y = 0; respondenten har ikke 21 års uddannelse. y = 1; respondenten har netop 21 års uddannelse. Tabel 2: Tabel over uddannelsesdummy med tilhørende udfaldsmuligheder 24 Omkodningen er foretaget for at få overblik over længden af respondenternes uddannelse, der statistisk giver os mere præcise målbare data. Hypotese 2 Afhængig variabel (Y) Uddannelseslængde Som nævnt antager vi, at der er en sammenhæng mellem individers uddannelsesniveau og den geografiske zone, de befinder sig i. Dette skyldes, ifølge Lash, at tætheden og tyngden af I&Kstrukturer er differentieret på et geografisk plan. Vi forventer således, at individer med forskellige uddannelsesniveauer fordeler sig i de zoner, som de refleksivt er rustet til at indgå i. Uddannelsesniveauet er, som nævnt, det element, der giver individer egenskaber til at reflektere, og dermed adgang til strukturerne. Derfor må en differentiering i uddannelse nødvendigvis også kunne måle en differentiering i geografiske zoner. Vi anvender den omkodede uddannelsesvariabel, der angiver respondentens uddannelse målt i antal år. Da uddannelseslængde i denne forbindelse er den afhængige variabel, kodes den ikke som en række dummyer, men anvendes som en ratioskala. Afhængig variabel (X) Domicil Domicilvariablen er anvendt som empirisk pendant til Lashs opdeling af geografiske zoner. Vi vil med denne variabel måle, hvor respondenterne befinder sig. Udfaldet storby vil karakterisere de levende og vilde zoner; by de levende og tamme samt landet som empirisk korrelat til de døde og tamme zoner. Variablen Domicil har følgende fem udfald: 25 Udfald Storby Forstæder eller udkanten af storby By eller lille by Landsby Gård eller hus på landet Tabel 3: Udfald for domicil Udfaldene omkodes herefter. 1 og 2 samles i kategorien storby, mens udfald 3 er efterladt uberørt, således at vi beholder kategorien by som den er. Udfald 4 og 5 kodes sammen til kategorien landet. Variablen omkodes herefter til 3 dummy-variable, der er konstrueret således: Udfald Dummyværdier Storby y=1: Bor i storby y=0: bor i by eller i landsby By y=1: Bor i by y=0: Bor i storby eller i landsby Landet y=1: Bor i landsby eller på landet y=0: Bor i storby eller by Tabel 4: Udfald for domicil som dummy Vi er opmærksomme på, at Lash arbejder med fire kategorier. Dog bygger Lash sin teori på samfundsforhold, der ikke direkte kan overføres til den by- og infrastruktur, der findes i Danmark. Lash opererer med en adskillelse af storby og forstæder, mens vi har kodet disse sammen. Vi ser nemlig ikke den samme adskillelse af disse kategorier i Danmark, hvor de geografiske og logistiske afstande mellem storbyens centrum og dets forstæder ikke er så store som i eksempelvis USA. Vi 26 finder det derfor mest anvendeligt at operere med tre domicilkategorier, der synes at stemme bedre overens med Danmarks bystruktur. Kontrolvariable til hypotese 1 og hypotese 2 Alder: Vi måler alder vha. variablen, der beskriver aldersfordelingen i stikprøven. Køn: Vi har operationaliseret køn til kategorierne mand og kvinde. Vi omkoder den bernoullifordelte variabel gndr’s labelværdier til 0 og 1. Vi får således en dummyvariabel med hhv. udfaldet kvinde: y=1 og mand: y=0. Såvel alder som køn er særligt statistisk anvendelige som kontrolvariable, da netop disse er uafhængige, da der ikke findes bagvedliggende faktorer, der kan påvirke disse variable. Ydermere har vi anvendt køn og alder med teoretisk fundering i Lashs tanker om den refleksive modernitet, hvor intersektionalitet er af central betydning. Erhvervsgruppe: For at måle respondenters erhvervsmæssige placering, anvender vi vores omkodede variabel erhvervsgruppe. Variablen er en omkodning af variablen iscoco. Iscoco inddeler stikprøven i en række erhverv, der er ordnet efter en ISCO-kode. Det vil sige, at udfaldenes rækkefølge og labelværdier er grupperede i flere erhverv, som ligner hinanden (se bilag 1). Eksempelvis er alle ufaglærte kodet med labelværdier startende med 9. Næste gruppe har alle begyndelsesværdi 8 osv. Næste tal i labelværdien inddeler yderligere grupperne i undergrupper osv. Koderne er endvidere ordnet således, at der er et rangordnet forløb, hvor ufaglært arbejde er nederst og højere lederstillinger øverst. Iscoco indeholder 521 udfald, hvilket i erhvervsgruppe omkodes til 8 udfald i overensstemmelse med ISCO-kodernes første labelværdier. Omkodningen giver et mere overskueligt overblik og er omkodet således: 27 Labelværdier i iscoco Omkodning Labelværdier startende med 9 i iscoco 8 = ”Ufaglært arbejde” Labelværdier startende med 8 i iscoco 7 = ”Industriarbejde” Labelværdier startende med 6 & 7 i iscoco 6 = ”Primær- og sekundærerhverv” Labelværdier startende med 5 i iscoco 5 = ”Serviceerhverv” Labelværdier startende med 4 i iscoco 4 = ”Kontorerhverv og assistent” Labelværdier startende med 3 i iscoco 3 = ”Professionserhverv” Labelværdier startende med 2 i iscoco 2 = ”Leder og akademiker” Labelværdier startende med 1 i iscoco 1 = ”Højere lederstillinger” Tabel 5: Oprindelige erhvervsvariabel og omkodninger Forældres gennemsnitlige uddannelseslængde Variablen er beregnet ud fra variablene edlvfddk (fars uddannelse) og edlvmddk (mors uddannelse). Variablene er ydermere blevet omkodet således, at de følger samme fordeling som variablen Uddannelseslængde. Således fås hhv. respondentens fars og mors uddannelseslængde målt i antal år. Derefter udregnes gennemsnittet af disse værdier relateret til de to variable for hver respondent. Således konstrueres en variabel, der viser, hvilken gennemsnitlig uddannelseslængde målt i antal år respondentens forældre besidder. 28 Empiriske hypoteser (957/868, 924/904, 969/849, 997/900) Da vi nu har redegjort for vores teoretiske hypoteser samt hvordan disse kan applikeres på variable fra kvantitativ data, opstilles nu de empiriske hypoteser, som efterfølgende testes via regression. Empirisk hypotese 1 Uddannelseslængde Internetforbrug I forbindelse med den første teoretiske hypotese opstilles følgende empiriske hypotese: Respondenter med lang uddannelseslængde har et større internetforbrug end respondenter med en lavere uddannelseslængde. De kontrolvariable, vi knyttede til den første teoretiske hypotese, formodes at have følgende indflydelse ved regression: Køn: Der er en gennemsnitlig forskel mellem mænd og kvinders internetforbrug. Alder: Yngre respondenter har et gennemsnitligt større internetforbrug sammenlignet med ældre respondenter. Erhvervsgruppe: Jo højere placering i erhvervsgruppehierarkiet, jo større er respondentens internetforbrug. 29 Empirisk hypotese 2 Domicil Uddannelseslængde I forbindelse med den første teoretiske hypotese opstilles følgende empiriske hypotese: Respondenter, der bor i storbyen, har længere uddannelse end respondenter på landet. De kontrolvariable, vi knyttede til den anden teoretiske hypotese, formodes at have følgende indflydelse ved regression: Køn: Der er en gennemsnitlig forskel mellem mænd og kvinders uddannelseslængde. Alder: Ældre respondenter har gennemsnitligt længere uddannelse sammenlignet med yngre respondenter. Forældres gennemsnitlige uddannelseslængde: Respondenter, hvis forældre har en gennemsnitlig lang uddannelse, har selv en længere uddannelse, sammenlignet med respondenter, hvis forældre har en gennemsnitlig kortere uddannelse. 30 Datapræsentation (924/904) Vores undersøgelse er funderet på data fra ESS5, hvilken dækker over en større multinational survey over Europa. I 2010 var det femte gang, at undersøgelsen blev foretaget og 26 lande deltog. I vores undersøgelse anvender vi kun danske respondenter. SFI Survey har stået for dataindsamlingen i Danmark, hvilken foregik fra 20. september, 2010 til 31. januar, 2011. Data er indsamlet via besøgsinterviews7. Population, stikprøve og analyseudvalg Population Vores population dækker over danskere i alderen 15-94 år. Stikprøve Den danske stikprøve dækker over 1576 personer, der er udtrukket via tilfældig udtrækning i CPRregisteret. Analyseudvalg I analysen arbejdes kun med respondenter, der har givet relevante svar til de variable, der anvendes i vores modelsøgning. Vi får et bortfald på 127 respondenter ift. stikprøven, hvorfor vores analyseudvalg kommer til at udgøre 1449 respondenter. Overvejelser om filter Vi ønsker at arbejde med et konstant analyseudvalg, hvorfor vi gennem hele vores undersøgelse har arbejdet med et filter, der frasorterer respondenter, der ikke har givet relevante svar til samtlige anvendte variable. Vi mister som nævnt 127 af 1576 respondenter, hvilket ikke synes alarmerende. Ved at gennemløbe tabeller over filterets frasorteringer, tegner der sig et billede af en jævn filtrering over alle kategorier, hvorfor vi ikke umiddelbart ser tabet som problematisk. Værd at nævne er Disse oplysninger er hentet fra den danske oplysningsbrochure om ESS5 ”Den Europæiske Samfundsundersøgelse 2010” og fra ESS’s egen hjemmeside. 7 31 måske frafaldet i aldersfordelingen for de yngste respondenter, da disse har et relativt stort fravalg. Mest ekstremt er det for den yngste kategori, 15 år, der mister 11 ud af 17 respondenter (se bilag 2 for yderligere resultater). 32 Variabelpræsentationen (969/849) I følgende præsenteres tabeller og grafik over udfaldene på variable af relevans ift. opgavens problemstilling og dertilhørende hypoteser. Domicil Domicil Udfald (Y) Frekvens Procentandel Kumulerede andel I alt Storby 539 37,20 37,20 910 62,80 100 Ikke-storby 1.449 By 512 35,33 35,33 937 64,67 100 Ikke-by 1.449 Landsby eller land 398 27,47 27,47 Ikke-landsby 1.051 72,53 100 1.449 Total 1.449 100,00 Tabel 6: Udfald for Domicilvariabel Køn Køn Udfald (Y) Frekvens Procentandel Kumulerede andele Mand (reference) 744 51,35 51,35 705 48,65 100 Kvinde Totale analyseudvalg 1.449 100 33 Tabel 7: Udfald for Kønsvariabel 20 10 0 Frekvens 30 40 Alder 20 40 60 Respondentens alder 80 100 Figur 4: Histogram over aldersfordeling Internetforbrug Internetforbrug Frekvens Procentandel Kumuleret andel Lille forbrug 220 15,18 15,18 Stort forbrug 1.229 84,82 100.00 Total 1.449 100.00 Tabel 8: Fordeling over internetforbrug Uddannelseslængde Uddannelseslængde (år) Frekvens Procentandel Kumuleret andel 0 3 0,21 0,21 34 6 129 8,90 9,11 10 167 11,53 20,63 13 485 33,47 54,11 14 90 6,21 60,32 15 138 9,52 69,84 16 307 21,19 91,03 18 113 7,80 98,83 21 17 1,17 100 Tabel Total9: Fordeling over uddannelseslængde 1.449 100 Erhvervsgruppe Erhvervsgruppe Frekvens Procentandel Kumuleret andel Ufaglært arbejde 164 11,32 11,32 Industriarbejde 95 6,56 17,87 Primær- og sekundærerhverv 156 10,7 28,64 Serviceerhverv 268 18,50 47,14 Kontorerhverv og assistent 101 6,97 54,11 Professionserhverv 289 19,94 74,05 Leder og akademiker 240 16,56 90,61 Højere lederstillinger 136 9,39 100 Total 1.449 100 Tabel 10: Fordeling over erhvervsgrupper 35 Forældres uddannelsesgennemsnit Frekvens Forældres uddannelsesgennemsnit (år) Procentandel Kumuleret andel 0 18 1,24 1,24 3 7 0,48 1,73 5 4 0,28 2,00 6 324 22,36 24,36 6,5 324 0,21 24,57 7 1 0,07 24,64 7,5 1 0,07 24,71 8 211 14,56 39,27 9,5 44 3,04 42,31 10 127 8,76 51,07 10,5 11 0,76 51,83 11 21 1,45 53,28 11,5 189 13,04 66,32 12 65 4,49 70,81 12,5 33 2,28 73,08 13 75 5,18 78,26 13,5 8 0,55 78,81 14 43 2,97 81,78 14,5 42 2,90 84,68 15 35 2,42 87,09 15,5 48 3,31 90,41 16 67 4,62 95,03 36 16,5 13 0,90 95,93 17 38 2,62 98,55 17,5 1 0,07 98,68 18 15 1,04 99,65 18,5 3 0,21 99,86 19,5 2 0,14 100 Total 1.449 100 Tabel 11: Fordeling over forældres uddannelsesgennemsnit 37 Repræsentativitetstest (969/849, 997/900) Indledende om repræsentativitetstesten (969/849) Undersøgelsen og analysen af vores teoretiske og empiriske hypoteser fordrer repræsentativitetstest på nogle af de centrale variable vi anvender, herunder køn og alder. Vi undersøger således om middelværdi og fordeling i vores analyseudvalg stemmer overens med populationens middelværdi og fordeling. Da vi arbejder induktivt er det centralt, at det analyseudvalg vi anvender er repræsentativt for populationen; da vi ønsker at gå fra det specifikke, stikprøven, til det generelle, populationen. Repræsentativitetstesten bliver da det initierende grundlag for, at vi kan ytre valide udtalelser ift. vores resultater i forbindelse med modelsøgningen. Z-test på køn (997/900) For at undersøge repræsentativiteten på ESS5’s kønsfordeling foretages en Z-test, hvor stikprøvens middelværdi sammenholdes med populationens middelværdi/den forventede middelværdi. Den forventede middelværdi er udregnet på baggrund af data fra Danmarks Statistisk 8. En datatrækning fra Danmarks statistik viser følgende kønsfordeling: IP's køn Frekvens Fordeling Kumuleret Procent Mænd 2005831 0,493608875 49,36 Kvinder 2057773 0,506391125 100 Total 4063604 1 Tabel 12: Kønsfordeling i Populationen 15-94år. pr.1.jan. 2010 8 Data findes under ’Folketal per 1. januar 2010’ fra www.statistikbanken.dk 38 Herefter foretages en tilsvarende tabulering over vores analyseudvalg: IP's køn Frekvens Fordeling Kumuleret Procent Mand 744 0,513457557 51,35 Kvinde 705 0,486542443 100.00 Total 1449 1 Tabel 13: ESS5’s kønsfordeling, 15-94 år, i vores analyseudvalg Det er middelværdierne for tabel 12 og 13, vi ønsker at sætte i relation til hinanden. Da køn er bernoullifordelt, er andelen af udfald med værdien 1 sat i relation til hinanden, i denne variabel andelen af kvinder. Den sande middelværdi, populationen, bliver således 0,5063, mens den er 0,4865 for vores analyseudvalg, da E(X)=p i en bernoullifordelt variabel. Vi kan nu opstille vores hypoteser: H0: p = p0 H1: p ≠ p0 Da z-testen følger den standardiserede normalfordeling, får vi i en dobbeltsidet hypotese, der med et signifikansniveau på 5 % har to kritiske værdier på ±1,969. Med en dobbeltsidet hypotese ønsker vi altså at placere os i H0-rummet som vist i figuren over den standardiserede normalfordeling. H1 H1 H0 H0 Figur 5: Den standardiserede normalfordeling 9 Det er det interval vores z-værdi skal være indenfor, da vi ønsker at acceptere H0, dvs. at de to middelværdier ligner hinanden. 39 Vi anvender følgende formel til at udregne vores Z-værdi: ̅ √ Dette giver os følgende udregning: √ -1,541181465 Vores z-værdi overstiger ikke vores kritiske værdier, hvorfor vi accepterer H 0, og kan konkludere, at vores analyseudvalg er repræsentativt på køn. Ud fra vores z-værdi udregnes p-værdien, der angiver sandsynligheden for at trække en lignende stikprøve eller en der er mere ekstrem. Denne findes på følgende måde 2·Φ(-1,541181465)10, der giver os en p-værdi=12,36 %. Vores p-værdi overstiger altså signifikansniveauet på 5 %. Vi kan derfor konkludere, at vi med 12,36 % sandsynlighed vil kunne være i stand til trække en stikprøve, der er lig eller mere ekstrem. Homogenitetstest ved aldersfordeling (969/849) Da udfaldsrummet for alder er langt større end kønsfordelingens, er det fordelagtigt at anvende en Chi2-test (χ2-test), da denne tester på fordelinger og ikke middelværdier. I χ2-testen for homogenitet ønsker vi at kunne acceptere H0 i en enkeltsidet hypotese. Vi arbejder med følgende hypoteser: H0: f(xi, yi) = fX(xi) · fY(yi) for I = 1,…, r, j = 1,…, c. 10 Da vi har en dobbeltsidet hypotese multiplicerer vores aflæste p-værdi, så får vores p-værdi for et 5 % signifikansniveau. 40 H1: f(xi, yi) ≠ fX(xi) · fY(yi) for I = 1,…, r, j = 1,…, c. Vi ønsker altså at befinde os i H0-rummet, som vist nedenfor (figur 6), da H0-hypotesen går på, at der er uafhængighed mellem vores to fordelinger fra hhv. analyseudvalget og populationen. Figur 6: H0 og H1 til en χ2-fordeling Data om populationen er fundet vha. nøgletal om den danske befolkning fra Danmarks statistisk. Herved fås en tabel 14 over aldersfordelingen i 10-årsintervaller pr.1. januar 2010: Observeret Frekvens Observeret Fordeling Kumuleret. procent 15 - 24 år 177 0,1221532091 12,21532091 25 - 34 år 144 0,099378882 22,1532091 35 - 44 år 260 0,179434092 40,0966184 45 - 54 år 285 0,196687371 59,7653554 55 - 64 år 258 0,17805383 77,5707384 65 – 74 år 220 0,151828847 92,7536232 75 - 84 år 80 0,05521049 98,2746722 85 - 94 år 25 0,0172532781 100.00 Total 1.449 1 Tabel 14: Aldersfordeling for population 41 En lignende tabel over aldersfordeling er lavet med de observerede frekvenser i analyseudvalget: Observeret Frekvens Observeret Fordeling Kumuleret. procent 15 - 24 år 177 0,1221532091 12,21532091 25 - 34 år 144 0,099378882 22,1532091 35 - 44 år 260 0,179434092 40,0966184 45 - 54 år 285 0,196687371 59,7653554 55 - 64 år 258 0,17805383 77,5707384 65 – 74 år 220 0,151828847 92,7536232 75 - 84 år 80 0,05521049 98,2746722 85 - 94 år 25 0,0172532781 100.00 Total 1.449 1 Tabel 15: Observeret aldersfordeling for analyseudvalg Ved at multiplicere populationens marginale sandsynligheder, givet ved π, for hver alderskategori med vores n, fås de forventede procentvise fordelinger for analyseudvalget under uafhængighed. Analyseudvalgets forventede fordeling under H0 er altså givet ved: πk · n, for k =1,…, πk Formlen giver os følgende forventede frekvenser for aldersfordelingen i analyseudvalget: Forventede frekvenser (F) Årsintervaller 15-24 år 25-34 år 35-44 år 45-54 år 55-64 år 65-74 år Frekvens 213,7080 196,1015 248,6725 243,9232 241,5605 174, 9235 75-84 år 85-94 år 94,9359 35,1748 Tabel 16: Forventede frekvenser for analyseudvalg 42 Vi fandt, som vist, følgende observerede frekvenser for aldersfordelingen i analyseudvalget: Analyseudvalgs observerede frekvenser (O) Årsintervaller 15-24 år 25-34 år 35-44 år 45-54 år 55-64 år 65-74 år 75-84 år 85-94 år Frekvens 177 144 280 285 258 220 25 80 Tabel 17: Observerede frekvenser for analyseudvalget Vi har nu analyseudvalgets forventede frekvenser, F, samt de observerede frekvenser, O. Ved at indføre værdierne i Pearsons formel udregnes de cellebidrag, der skal bruges i X2-testen: Pearsons formel: (F – O)2 / F Vi får følgende cellebidrag: Cellebidrag alder 15-24 år 25-34 år 35-44 år 45-54 år 55-64 år 65-74 år 75-84 år 85-94 år cellebidrag 7,612880124 18,8511832 0,4935097 5,92036345 1,04750841 9,23585171 2,78850072 4,14109165 Tabel 18: Cellebidrag for alder Summen cellebidragene giver en χ2-værdi=50,090899. Et opslag i tabellen over fraktiler for en χ2fordeling med 7 frihedsgrader givet ved: d.f.=(c – 1)· ( r – 1) = 7, og et signifikansniveau på 5 %, og får en kritisk værdi på 14,1. Vores χ2-værdi på 50,090899 er langt større end den kritiske værdi på 14,1. H0 må derfor forkastes og vi konkluderer, at der ikke er homogenitet mellem populationens og analyseudvalgets observerede aldersfordelinger. Vores analyseudvalg er altså ikke repræsentativ på alder. Af cellebidragenes størrelser kan vi endvidere konkludere, at det er intervallerne 25-35 år og 65-74 år, der bidrager mest til den høje χ2-værdi og dermed vores forkastelse af H0. 43 Nonparametrisk analyse (957/868) I det følgende afsnit afdækkes grafiske sammenhænge mellem anvendte primære variable i relation til de hypoteser, der ønskes testet via hhv. lineær og logistisk regression. Formålet med følgende er at skabe overblik over generelle tendenser og sammenhænge, inden den parametriske analyse foretages. Geografisk placering og uddannelseslængde Den første hypotese ønsker at belyse sammenhængen mellem respondenternes geografiske nærmiljø og deres uddannelseslængde målt i antal år. Den generelle sammenhæng mellem de ovenstående faktorer er illustreret som følger: 200 180 160 140 120 100 80 60 40 20 0 storby by landsby eller land 0 6 10 13 14 15 16 18 21 Figur 7: Fordelingen mellem geografiske placering og uddannelseslængde Figuren illustrerer en generel tendens til, at geografisk placering har relation til respondenternes uddannelsesgrad. Eksempelvis ses det, at respondenter fra storbyerne er klart overrepræsenterede ved de lange uddannelser, mens det modsatte ses for respondenter fra landsby og by. For at undersøge om denne sammenhæng er signifikant, foretager vi en χ 2-test for uafhængighed. Denne test giver os en χ2-værdi på 74,2180 (med 16 frihedsgrader). Dette overstiger den kritiske værdi på 26,3 med et signifikansniveau på 5 %, hvorfor vi accepterer, at der ikke er uafhængighed mellem de to variable. 44 Uddannelse og internetforbrug Vi ønsker ydermere at undersøge, om der eksisterer en sammenhæng mellem respondenternes uddannelseslængde samt graden af deres internetforbrug. For at skabe overblik over generelle tendenser og sammenhænge opstilles tabel 19: Uddannelseslængde målt i år Lavt forbrug Stort forbrug Total 0 år 1 2 3 33,33 % 67,66 % 100 % 78 51 129 60,47 % 39,53 % 100 % 22 145 167 13,17 % 86,83 % 100 % 76 409 485 15,67 % 84,33 % 100 % 7 83 90 7,78 % 92,22 % 100 % 12 126 138 8,70 % 91,30 % 100 % 20 287 307 6,51 % 93,49 % 100 % 3 110 113 2,65 % 97,35 % 100 % 1 16 17 5,88 % 94,12 % 100 % 220 1.229 1.449 15,18 % 84,82 % 100 % 6 år 10 år 13 år 14 år 15 år 16 år 18 år 21 år Total Tabel 19: Fordelingen over respondenternes uddannelseslængde og deres internetforbrug 45 Tabellen viser en generel sammenhæng. Det fremgår, at forbruget generelt stiger, når vi sammenligner respondenter med kort uddannelseslængde med dem med lang uddannelseslængde. Vi ønsker at foretage en χ2-test for uafhængighed. Testen giver os en χ2-værdi på 247,9528 (med 8 frihedsgrader), hvilket langt overstiger den kritiske værdi på 15,5 med et signifikansniveau på 5%. Vi accepterer derfor, at der ikke er uafhængighed mellem uddannelseslængde og internetforbrug. 46 Statistisk teori (957/868, 924/904, 969/849, 997/900) I det følgende vil vi belyse teorien bag hhv. lineær og logistisk regression. Afsnittene bygger på Gujarati og Porters ”Essentials of Econometrics” (2010), hvis andet materiale ikke nævnes. Til analysen af empiriske hypotese 2 benyttes multipel lineær regression. Følgende afsnit vil danne ramme om teorien bag. Lineær regression (957/868) Lineær regression bygger på antagelsen om, at sammenhængen mellem de variable, der undersøges kan beskrives lineært. Man ønsker at finde middelværdien af den afhængige variabel Y givet ét eller flere X: E(Y|X1, X2,…,Xk) En regressionslinje fastlægges med et konstantled og en eller flere regressionskoefficienter, som betegner hældningen, dvs. de lægger en linje mellem observationerne. Middelværdien udtrykkes ved population regression form (PRF), således: E(Y|X1,X2,…,Xk) = B1 + B2X2i+…+BkiXki (Gujarati & Porter 2010:33). B1 og B2 angiver modellens parametre. B1 er konstantleddet og angiver skæringspunktet (’intercept’) på y-aksen, dvs. den værdi Y har, når alle de uafhængige variable X er = 0. B2 angiver hældningskoefficienten og fortolkes som ændringen i den forventede værdi af Y, når værdien af X øges med én enhed. B2 måler altså ændringen i Y, hver gang X2 stiger med én enhed, alt imens værdien for X3 holdes konstant . Ligeså måler B3 ændringen i Y, hver gang X3 stiger én enhed og X2 holdes konstant og fremefter. Dette muliggør observation af den isolerede effekt af netop én enkelt uafhængig variabel. Som antaget angiver PRF E(Yi|Xi). Imidlertid kan man forestille sig, at populationen placerer sig enten over eller under middelværdien. For at tage højde for dette, ser vi på følgende udtryk: Yi = B1 + B2Xi + ui 47 (Ibid.:33) B1 + B2Xi angiver modellens systematiske eller forklarende del. ui er fejlleddet, der forstås som en usystematisk variabel, idet dens værdi ikke kan blive kontrolleret eller kendt a priori. Fejlledet måler andelen af variationen i Y, som den uafhængige variabel ikke kan forklare11. I praksis har vi ikke adgang til data for hele populationen. Derfor estimeres B1 og B2 ud fra tilgængelige data på baggrund af en stikprøve. Dette beskrives som sample regression function (SRF) udtrykt ved: Ŷi = b1 + b2X2i (Ibid.:29) Ŷi er et estimat for E(Y|Xi). b1 og b2 er estimater for hhv. B1 og B2. B1 og B2 er konstante, da de angiver populationens sande værdier, mens b1 og b2 er stokastiske, da stikprøver estimerer forskelligt. Som ved populationen placerer stikprøven sig over og under den gennemsnitlige SRF. Derfor estimeres ui med estimatoren ei, forstået som residualleddet: Ŷi = b1 + b2X2i + ei (Ibid.:29) Estimation af PRF kan udledes af method of ordinary least squares (OLS), hvilken vi nu vil se på. Multiple regression, som vi benytter, er i mange henseender en udvidelse af den simple regression, hvor vi forudsiger en variabel på baggrund af flere andre variable. For overskuelighedens skyld vil vi i følgende udrede OLS på baggrund af simpel lineær regression. Method of ordinary least squares (924/904) OLS bygger på ønsket om at minimere de kvadrerede residualer mest muligt for at undgå, at modellen over- eller underestimerer. b1 og b2 er de skøn, der bevirker, at summen af de kvadrerede forskelle mellem hver observation af Y og den estimerede regressionsfunktion bliver mindst mulig (Malchow-Møller & Würtz 2010:388). Følgende minimeringsudledning opstilles: 11 Andele som ikke kan måles kan eksempelvis dække over variable, som ikke eksplicit er inkluderet i modellen, naturlige tilfældigheder i menneskers adfærd, fejlmålinger og lign. 48 Minimize ei2 (Yi b1 b2 X i ) 2 (Gujarati & Porter 2010:34) Princippet bygger på følgende udledning, som estimeres af vores SRF: Yi = b1 + b2 Xi + ei Û ei = Yi - b1 + b2 Xi Û Minimizeå ei2 =å (Yi - b1 - b2 Xi )2 Û ìåY = nb + b å X ï i 1 2 i í ïîåYi Xi = b1 å Xi + b2 å Xi2 (Gujarati & Porter 2010:34f) Via differentialregning får vi følgende for b1 og b2: b2 X Y nX Y X nX i i 2 i 2 b1 Y b2 X (Ibid.:35) Ved anvendelse af OLS gælder to principper: _ 1) Den gennemsnitlige værdi af residualer er altid 0, dvs.: e( e i / n) 2) Summen af residualerne og de forklarende variable er uden samvariation: e i Xi 0 . Da fejlleddet ui er stokastisk, må vi gøre nogle antagelser om ui, for at vurdere om SRF er et godt estimat for PRF. Den simple lineære regressionsmodel antager nogle specifikke forudsætninger for, hvordan fejlleddet generes, hvilke vi nu vil berøre. Antagelser om simpel lineær regression (969/849) Antagelserne bag simpel lineær regression bygger på populationen, da det ønskes at benytte OLSmetoden til at estimere modellens parametre. Antagelserne lyder som følge: 1) Regressionsmodellen skal være lineær i parametrene - dog ikke partout i variablene. Modellen skal således være af følgende form: Yi = B1 + B2Xi + ui 49 2) De forklarende variable, Xi, må ikke samvariere med fejlledet, ui12 3) Som antaget ved OLS-metoden, skal gennemsnittet af u være nul, E(ui|Xi) = 0. 4) Variansen af u bør være konstant, dvs. homoskedastisk, givet ved: var(ui) = σ2. Således må de enkelte Y-værdier placere sig omkring middelværdien med den samme varians, da der ellers vil eksistere heteroskedasticitet. 5) Der må ikke være systematisk korrelation mellem to fejlled, dvs. Covar(ui;uj) = 0, i ≠ j, da der ellers er autokorrelation. 6) Regressionsmodellen bør være korrekt specificeret, dvs. at alle variable, der kan tænkes at bidrage til at forklare variationen i Y, bør inkluderes. 7) ui, må følge en normalfordeling med gennemsnit lig 0 og en varians σ2. Her refereres til den centrale grænseværdisætning 13. Dette er vigtigt for, hvilken slags uafhængig variabel, man kan benytte ved lineær regression. b1 og b2 er lineære funktioner af det normalfordelte fejlled, hvorfor de også må være normalfordelte: b1 ~ N(B1,σ2b1) b2 ~ N(B2,σ2b2) 8) Slutteligt må der ikke forekomme et lineært forhold mellem to forklarende variable i vores model, dvs. multikollinearitet. I tilfælde af et perfekt lineært forhold mellem to forklarende variable, vil det ikke være muligt at estimere dem særegent, og således ikke muligt at undersøge deres individuelle effekt på Y. Best linear unbiased estimators (997/900) Anvendelse af OLS-metoden har stærke teoretiske fordele i tråd med nævnte antagelser. OLSestimatorer har minimum varians i gruppen af lineære estimatorer, dvs. de er best linear unbiased estimators (BLUE). Dette gælder ved følgende egenskaber: 1) b1 og b2 er lineære estimatorer, dvs. de er lineære funktioner af Y. 12 Det antages, at hvis man arbejder med ikke-stokastiske variable, er denne antagelse opfyldt, hvilket således automatisk er gældende for vores model. 13 Den centrale grænseværdisætning lyder på, at uanset, hvilken fordeling observationerne i en simpel tilfældig stikprøve følger, vil stikprøvegennemsnittet approksimativt følge en normalfordeling, hvis stikprøven er af antagelig størrelse (Malchow-Møller & Würtz 2008:123). 50 2) b1 og b2 er unbiased. Gennemgående vil b1 og b2 derfor stemme overens med deres sande værdier, dvs. B1 og B2, E(b1) = B1 og E(b2) = B2 etc. 3) OLS-estimatoren for standardafvigelsen, ô2, er unbiased. Derfor vil ô2 gennemsnitligt stemme overens med sin sande værdi σ2, hvorfor E(ô2) = σ2. Dette sikrer, at modellen er konsistent, dvs. jo flere observationer, vi medtager, jo mere sikkert kan vi udtale os om sammenhængen. 4) b1 og b2 er efficiente estimatorer, hvorfor variansen for b1 er mindst iblandt alle lineære unbiased estimatorer for B1. Dette gælder endvidere for de andre parameterestimater. Lineære værktøjer (957/868) R2 R2 angiver den kombinerede effekt af de uafhængige variable på y, dvs. mængden af total variation i y, der er forklaret af regressionsmodellen. Ved multiple regression er R2 influeret af antallet af uafhængige variable. En vigtig egenskab ved R2 er, at i takt med, at der tilføjes flere forklarende variable til modellen, stiger R2. Dette vil så at sige ’forbedre’ modellen. En R2-værdi på 1 indikerer, at vores uafhængige variable fuldstændigt forklarer variansen i y for vores analyseudvalg. R2 giver altså et overordnet skøn på modellens forklaringskraft. R2 stiger ved alle, selv irrelevante, uafhængige variable, og er derfor ikke et godt værktøj til valg af forklarende variable. For at vurdere vores models forklaringskraft benytter vi os af justeret R2, da denne tager højde for antallet af variable inkluderet i modellen. Dette for, at vi kan drage nytte af at kunne sammenligne to regressioner, der har et divergerende antal forklarende variable. En central begrænsning ved R2 er, at det ikke fortæller os, hvorvidt vores model er signifikant. Det er derfor nødvendigt at benytte supplerende værktøjer til at fortolke vores model. t-test For at undersøge, hvorvidt de partielle regressionskoefficienter er signifikante, dvs. statistisk forskellige fra 0, benytter vi os af t-test. Dette for at undersøge, hvorvidt B2=0, da Yi i dette tilfælde ikke vil ændres, når X2 falder eller stiger. Følgende hypoteser opstilles: H0: B2 = 0 H1: B2 ≠ 0 51 Når vi tester signifikansen af partielle koefficienter, ser vi nærmere på antagelse 7 om, at b2 er normalfordelt. b2 standardiseres til en z-værdi for at kunne finde den kritiske værdi under en standardnormalfordeling. Da vi har stikprøvedata, kender vi ikke den sande standardafvigelse, σ2. Vi benytter i stedet estimatoren se(b2) for estimatoren ô2. Dette resulterer i, at ligningens højre side følger en t-fordeling, hvorfor vi netop anvender t-test: t b2 B2 ~ t n – p, se(b2 ) (Ibid.:68) Frihedsgrader = (p-n) og p angiver antallet af parametre samt konstantleddet i modellen. En tfordeling med mange frihedsgrader 14 minder om standardnormalfordelingen, dog med lidt større sandsynligheder for yderste værdier, hvilket fremkommer som lidt tykkere ’haler’, illustreret nedenfor. Vi vil derfor anvende en standardfordeling til at finde vores kritiske værdier (Malchow&Møller 2010:274f). Figur 8: Standardnormalfordelingen og to t-fordelinger Da vi, jf. H0, tester om B2=0, vil en t-værdi for B2=0 ligge i intervallet mellem de kritiske værdier. Ligger t-værdien ikke i dette interval er B2 ≠0 og H0 forkastes. Som formel kan H0 med α = 0,05 og de kritiske værdier ±1,96, opstilles: 14 Som tommerfingerregel skriver Malchow og Møller, at I tilfælde af, at antallet af frihedsgrader overstiger 50, benyttes fraktilerne fra standardnormalfordelingen (Malchow&Møller 2010:274) 52 (1,96 t 1,96) 0,95 Da t-testen altid tjekker for H0 = 0 kan formlen for t-testen forkortes sålees: t b2 ~ t n – p, se(b2 ) (Gujarati & Porter 2010:105) F-test Siden de enkelte parameterestimater har en individuel signifikant effekt på den afhængige variabel, må ligeledes summen af parameterestimaterne have en signifikant effekt, hvilket t-testen ikke validt kan teste. Til undersøgelse af den samlede signifikans opstilles hypoteserne: H0: B2 = B3 =…=Bk= 0 H1: B2 = B3 =…=Bk ≠ 0 Hvis H0 accepteres, lyder F-testen: R2 F k 1 1 R 2 ~ Fk 1,n k n k (Ibid.:111) n angiver antallet af observationer i stikprøven og k er antal af forklarende variable samt konstantleddet i modellen med (k-1) frihedsgrader i tælleren og (n-k) frihedsgrader i nævneren. Formlen viser, hvordan F og R2 er direkte relateret. At teste for overordnede signifikans af den estimerede multiple regression, er det samme som at teste signifikansen af R2: Jo større R2-værdi, jo større F-værdien. Heraf kan ens slutmodel testes kontra startmodellen, der er med lavere forklaringskraft. Til undersøgelse af uafhængige variables overordnede signifikans betragtes således en F-fordeling. F-test – Restricted Least Squares 53 For at teste, hvorvidt en forklarende variabel eller en gruppe af forklarende variable er relevant i den partikulære model, er restricted least squares (RLS) et nyttigt instrument. Jf. antagelse 8 om multikollinaritet, kan RLS være nyttigt, hvis flere variable kollinerer. Vi ønsker at teste en restringeret model, R2r, mod en urestringeret model, , R2ur, hvor den restringerede model er den såkaldte ’tomme model’, der kun indeholder B1, men altså ingen forklarende variable. Således kan det testes, om modellen opnår bedre forklaringskraft ved inklusion af flere forklarende variable. Testen bruges gavnligt som indledende modelkontrol, da testen er et udmærket værktøj til at teste modeller med en eller flere parameters of interest (POI) (som her gælder den restingerede model) mod modeller med både POI samt kontrolvariable (den urestingerede model i dette tilfælde). Hypoteserne lyder: H0: alle de urestringerede variables parameterestimater er lig 0 H1: mindst ét af parametrene er forskelligt fra 0 Differenceforskellen mellem R2ur– R2r over R2ur er en teststatistik, der følger F-fordelingen: F (R 2 ur R 2 r ) m 1-R 2 ur (n k ) (Ibid.:116) m er antallet af frihedsgrader i tælleren, og (n-k) i nævneren. m er antal parametre, vi udelader fra modellen, og n er antallet af observationen i stikprøven. k er antal parametre inkl. interceptet i R2ur. Hvis teststatistikken overstiger vores kritiske grænser, vil vi afvise H0 og acceptere den restingerede model. Dummyvariable Det kan være brugbart at anvende variable, der ikke er kvantitative og umiddelbart ikke opfylder forudsætningerne for lineær regression, da de ikke kan rangordnes. Eksempler på kvalitative variable er køn og etnicitet. ’Kvantificering’ af disse egenskaber kan med fordel ske ved konstruktion af nonstokastiske binære variable, der betegnes dummyvariable, Di. Di kan antage værdien 1 eller 0, hvor 1 indikerer, at egenskaben er til stede, mens 0 angiver modsat. Dummyvariable kræver, at der vælges en referencekategori, som antager 0, og repræsenterer den 54 gennemsnitlige værdi af dummykategorien. Dummyvariable besidder ingen kontinuert regressionslinje, hvorfor referencen anvendes som en differentiel skæringskoefficient. Dette har den brugbare effekt, at referencen angiver afvigelsen mellem kategorierne. Jo flere dummyvariable, der benyttes i modellen, des mere specificeret kan tolkes på parameterestimaterne. Hermed bliver det intuitivt nemmere at tolke på de andre parameterestimater, da der er en specifik referencekategori at tolke i forhold til. Ved test om dummyen er signifikant forskellig fra referencekategorien benyttes ttesten. Til test om en gruppe dummyer tilfører modellen forklaringskraft anvendes F-test, hvor en urestingeret dummygruppe testes mod en restingeret dummygruppe. Interaktionseffekter Flere forklarende variable kan i samspil være med til at øge modellens forklaringskraft, hvor de forklarende variables effekt på Y ikke blot er additiv, men kan have en multiplikativ synenergisk effekt, således: Yi = B1 + B2X1 + B3X2 + B4(X1*X2) + ui (Ibid.:191) Derfor inddrages et interaktionsled, hvilket er lig produktet af de to interagerende variable. Et eksempel kunne være indkomstforskelle mellem køn: Jo højere uddannelse kvinder får, jo mere vil det udligne indkomstforskelle mellem køn. Grafisk illustreret ved: Figur 9: Model uden interaktion 55 Figur 10: Model med interaktion Polynomiske effekter Der kan endvidere testes for interaktioner i form af polynomiske effekter i modellen. Disse fungerer ved, at diverse grupper i variablen får tillagt forskellig vægt iht. forklaringen af variationen i Y. Alder2 er et eksempel på et andengradspolynonium, der specificerer, at sammenhængen mellem alder og Y er ikke-lineær. En komplikation ved polynomiske effekter er, at der kan opstå multikollinaritet, da de varierende effekter af X er funktionelt relaterede og da ’stjæler’ hinandens forklaringskraft. For at undgå estimeringsproblemer kræves det at tolke på parameterestimatet af højeste orden. Med disse betragtninger vil vi nu berøre logistisk regression, som vi anvender ved hypotese 1. 56 Logistisk regression (957/868, 969/849, 997/900) Regression med binære variable (969/849) Ved estimering af dummyvariable som afhængig variabel måles ikke den gennemsnitlige ændring i Y for hver ændring i X, men den gennemsnitlige ændring i sandsynlighed for Y=1, for hver ændring i X. Da den forventede værdi for Yi givet Xi kun kan antage to udfald, kan vi med en binær variabel fortolke den betingede sandsynlighed for, at Yi=1 givet Xi. E(Yi|Xi) for en regression med en dummyvariabel som afhængig variabel tolkes altså som P(Yi=1|Xi) Estimering af binære variable (969/849) En model med en dummyvariabel som afhængig variabel kan estimeres ved brug af OLS-metoden. Den kaldes Linear probability model (LPM), da den estimerer P(Yi=1|Xi) med funktionel lineær form. Brugen af denne model kan imidlertid volde problemer. Ved estimering med OLS fordrer det, at regressionen overholder de tidligere nævnte antagelser, men dette giver problemer. Da Y er binær betyder det, at fejlledene ikke er normalfordelte, men i stedet følger en binomialfordeling15, samt at fejlledene er heteroskedastiske. LPM har yderligere to problemer, vedrørende dens estimater og den funktionelle form. Et eksempel kunne være en afhængig variabel, hvor at eje hus/ikke-eje hus antager værdierne hhv. 1 og 0, mens familieindkomst er forklarende variabel. Forventeligt vil langt de fleste med lave indkomster have udfaldet 0, mens de fleste med høje indkomster vil have udfaldet 1. Følgende figur illustrerer to alvorlige problemer ved LPM, når den skal estimere dummyvariable: 15 En binomialfordeling er angivet grafisk i bilag 4. 57 Figur 11: LPM Her anspores to problemer: 1) Regressionens funktionelle form estimerer en konstant lineær stigning, hvorfor den eksempelvis ikke kan estimere, at familier med meget høje indkomster vil have nogenlunde samme sandsynlighed for at have hus. Eksempelvis giver grafen ikke grund til at tro, at en familie med syvcifret årlig indkomst vil have højere sandsynlighed for at eje hus, hvis den oplevede en stigning i indkomst. 2) Af den lineære form følger det også, at ens model kan estimere værdier, der ligger over 1 og under 0, selvom disse ikke forekommer (Long 1997:38f). Brug af OLS er altså ikke optimalt ved estimering af binomialt fordelte variable. Vi har derfor brug for en anden estimationsmetode, hvorfor den logistiske regressionsmodel(LRM) vil behandles. Forinden vil vi gennemgå teorien bag odds, som er en central komponent i den logistiske regressionsmodel. Odds (997/900) Til fortolkning af LRM-resultater kan odds med fordel anvendes som sideløbende mål for sandsynlighed. Odds angiver forholdet mellem to sandsynligheder – oftest sandsynlighederne for at givne x’er har udfaldene y=1 eller y=0. Eksempelvis sandsynligheden for at have høj uddannelse(Y=1) eller ikke at have høj uddannelse(Y=0). Mens det gængse sandsynlighedsmål estimeres til at ligge mellem 0 og 1, vil odds ligge mellem 0 og ∞. Udregning af odds foregår således: 58 (Geerdsen 2011a:3) Eksempelvis vil et odds på 1 være udtryk for, at sandsynligheden for y=1 er 0,5 (50%), dvs. lige stor sandsynlighed for, at et givent x antager y=1 eller y=0. En sådan odds-værdi vil givetvis betyde, at der ikke forefindes afhængighed mellem udfaldene. Det vil sige, at odds>1 angiver en højere sandsynlighed for y=1 end y=0, mens odds<1 angiver en lavere sandsynlighed for y=1. Det er centralt, at man ydermere kan tage forholdet mellem to odds, hvilket benævnes oddsratio (OR), eftersom ratio angiver forholdet mellem to tal. Nedenfor ses OR: (Geerdsen 2011b:6) OR-værdier fordeler sig assymetrisk omkring værdien 1, dvs. værdierne ligger mellem 0 og ∞, og fortolker tællerens chance for y=1 i forhold til nævnerens. En nyttig egenskab ved OR er, at den kan anvendes til sammenligning af to gruppers odds. Tager vi igen eksemplet med uddannelse, kan vi se på forholdet mellem køns odds for at have høj uddannelse, hvor kvinder her angives x=1. Et OR=2 vil således angive, at kvinder har dobbelt så store odds for at have høj uddannelse sammenlignet med referencekategorien, mænd 16. Den logistiske regressionsmodel (957/868) Logistisk regression prøver, lig den lineære, at estimere den model, der bedst muligt kan forklare variationen i Y. LRM formår dog at estimere en binær fordelt variabel 17 bedre end ved OLS. LRM adskiller sig på flere vigtige punkter fra OLS. Vi vil gennemgå den matematiske form, estimationsmetoden samt den funktionelle form. Den matematiske form for LRM er givet ved: 16 17 Omvendt vil OR=0,8 betyde, at kvinder har mindre odds for at få høj uddannelse end mænd. I denne opgave vil vi kun berøre logistisk regression der estimerer binære variable, men det skal bemærkes at logistisk regression også kan bruges estimere variable med flere udfald. 59 (Gujarati & Porter 2010:388) Hvor Pi angiver sandsynligheden og e angiver basen af den naturlige logaritme(2,71). Ligningen kan yderligere skrives: , hvor Zi=B1+B2X (Ibid.:388) Ovenstående ligning angiver fordelingsfunktionen for LRM, hvor Zi går fra -∞ til ∞ og Pi går fra 0 til 1. Da vi nu har vist, at Pi=E(Y=1|X i) kan vi altså udlede at sandsynligheden for Y=0 er givet ved: (Ibid.:388) Derfor kan vi nu skrive følgende ligning: (Ibid.:389) Venstre side af ligningen angiver nu oddset for Y=1, mens højre side ikke umiddelbart tolkes nemt. Dette kan dog løses ved at tage den naturlige logaritme af oddset, så ligningen vil se ud som følgende: ( ) (Ibid.:389) 60 Disse beregninger har ganske klare konsekvenser for, hvordan regressionen vil tegne sig grafisk, hvilket følgende to figurer vil illustrere: Figur 12: Odds for eje hus/ikke-eje hus i forhold til familieindkomst Figur 13: LogOdds for eje hus/ikke-eje hus i forhold til familieindkomst Figur 12 er en grafisk fremstilling af ligningen, hvor Y= , mens figur 13 følger Y= ( ). Figur 12 viser, at hældningen ikke er lineær, men følger en S-formet kurve, da den systematiske del af regressionen fungerer som eksponent for e. I figur 13 er hældningen lineær, da den systematiske del følger en lineær form. Ved at tage logaritmen af oddset fås altså en regressionsmodel, der både er lineær i X og i parameterestimaterne. Parameterestimaterne gives dog i logit-værdier, som intuitivt er svære at tolke på. Figur 13 viser, at når et parameterestimat antager en positiv logitværdi, er hældningen gående mod 1, mens negative parameterestimater har en hældning, der er gående 61 mod 0. Det er altså ikke muligt at tolke direkte på logitværdierne, men kun på deres fortegn. Som vi skal se senere, kan man dog sagtens omregne logitværdier til odds og sandsynligheder, hvorved tolkningen bliver noget lettere. Estimation af parameterestimater (957/868) Ved estimering af parameterestimaterne for LRM, følges en noget anderledes procedure end ved OLS. Ved logistisk regression benyttes metoden maximum likelihood, der metodisk søger at finde de parameterestimater, der giver den likelihood, der er tættest på 1. Det vil sige de parameterestimater, der på én gang giver en værdi tæt på 1 for P(Y=1) for de observationer, der rent faktisk har Y=1, samt en værdi tæt på 1 for P(Y=0) for observationer der har Y=0. Proceduren opstilles således: p( y 1) p( y 0) 1 p( y 1) 1 exp(b1 b2 x) 1 exp(b1 b2 x) exp(b1 b2 x) 1 1 exp(b1 b2 x) 1 exp(b1 b2 x) (Geerdsen 2011a:6f) For begge ligninger er det ønskværdigt, at deres resultat er 1, da parameterestimaterne således estimerer sandsynlighederne for hhv. P(Y=1) og P(Y=0) perfekt. Til denne proces bruges likelihood givet ved den simultane sandsynlighed P1(Y)*P2 (Y)*P3(Y)… *Pi(Y) De to ovenstående ligninger angiver henholdsvis P(Y=1) og P(Y=0). Disse bruges til følgende simultane sandsynlighed. exp(b1 b2 x) exp(b1 b2 x) * (1 ) 1 exp(b1 b2 x) y 1 1 exp(b1 b 2 x) y 0 p( y ) (Ibid.:7) Ovenstående viser, at den simultane sandsynlighed for alle observationer med Y=1 og for alle observationer med Y=0 multipliceres, hvorved likelihood fås. Uanset hvilke værdier parameterestimaterne antager fås en likelihood. Den ønskede likelihoodværdi er den værdi, der er tættest muligt på 1. En værdi tæt på 1 betyder, at vores parameterestimaters forudsigelser for sandsynligheder for observationerne med Y=1 og Y=0 stemmer overens med sandsynlighederne, som observationerne rent faktisk har for Y=1 eller Y=0. 62 Essensen i estimationsmetoden for LRM er altså at finde de parameterestimater, der giver en likelihood tættest muligt på 1, hvorfor metoden netop betegnes method of maximum likelihood. Ovenstående ligning kan dog ikke bruges til at regne parameterestimaterne, da den kun angiver, hvornår vi har fundet frem til de bedste parameterestimater. Parameterestimaterne findes ved en ’iterativ proces’, hvor der, groft sagt, indsættes forskellige værdier for parameterestimaterne i ovenstående ligning, for at finde de værdier, der giver højest mulig likelihood. Processen fortsætter indtil der opnås konvergens, dvs. når likelihooden nærmer sig 1, eller når værdien for estimaterne ikke ændrer sig fra et skridt til det næste(Long 1997:54f). Denne beskrivelse dækker på ingen måde kompleksiteten ved denne proces eller de varianter af processen, der kan gøres brug af. Her skal blot nævnes, at vores statistikpakke ligeledes estimerer parameterestimaterne ved iterativ proces 18. Hypotesetest af enkelte parametre (957/868) Maximum likelihood estimatorer er asymptotisk normalfordelt. Det betyder, at når n stiger, bliver fordelingen approksimativt normalfordelt, hvor det er givet for et enkelt parameter (Long 1997:85): (Ibid.:85) Således kan den centrale grænseværdisætning anvendes på modellens parametre, hvorfor deres signifikans kan testes ved en z-test med følgende hypoteser: H0: B=0 H1: B≠0 Teststatistikken udtrykkes: z 18 b b0 b 0 se(b) se(b) Dette er ekspliceret i et ark over stata output fra: http://www.ats.ucla.edu/stat/stata/output/stata_logistic.htm 63 (Ibid.:86) b angiver det parameterestimat, der ønskes testet, b0 angiver den forventede værdi af parameterestimatet under H0 og se(b) angiver parameterestimates standardfejl. Den udregnede zværdi vil placere sig i den standardiserede normalfordeling, hvorfor vi får 2 kritiske værdier på henholdsvis ±1,96 (Geerdsen 2011c:5fff). Den logistiske trekant (969/849) Da LRM angiver hældningen i logitværdier, er de svære at tolke på. Det er dog i høj grad muligt at omregne logitværdier til enten odds eller sandsynligheder, illusteret ved: Figur 14: Den logistiske trekant Figuren viser at for at få oddset for ét parameterestimat skal man tage eksponenten af den givne logitværdi. Yderligere kan odds omregnes til sandsynlighed uden større problemer. 64 Modelsøgning (969/849, 997/900) Vi vil benytte os af forlæns modelsøgning til at finde de modeller, der bedst forklarer de teoretiske sammenhænge, som ønskes belyst i henhold til vores hypoteser. Vi vil starte med en regressionsmodel indeholdende vores primærvariable, hvorefter vores kontrolvariable medtages én efter én for nærmere at betragte, hvilken forklaringskraft de giver. Det skal nævnes, at de resultater, der vil blive præsenteret for vores model er udført vha. statistikpakken STATA. Modelsøgningen er foretaget efter A.C. Harveys kriterier for en god model: 1) Princippet om parsimoni: Man søger den mest simple model, der samtidig giver den største forklaringskraft. 2) Identificerbarhed: Der må kun være et estimat per parameter. 3) ”Goodness of fit”: Vores model skal bedst muligt forklare den variation vi finder i vores afhængige variabel, dvs. at vores justerede R2-værdi er så høj som mulig. 4) Teoretisk konsistens: Vores resultater skal synes, at være i overensstemmelse med vores teoretiske udgangspunkt. Eksempelvis vil vi forvente, at højtuddannede tjener en høj løn. 5) Sidste kriterium omhandler ”forudsigelseskraft” - at vi skal vælge den model, hvor dens teoretiske forudsigelser, refererer til faktisk empiri. (Gujarati & Porter 2010:220). Med ovenstående in mente er følgende modelsøgninger foretaget: 65 Modelsøgning 1 (969/849) Modelsøgning 1 knytter sig til vores første empiriske hypotese: Respondenter med lang uddannelseslængde har et større internetforbrug end respondenter med en lavere uddannelseslængde. For at teste, hvorvidt længden af uddannelse har en signifikant effekt på forbrug af internet, foretages logisk regression i nedenstående modelsøgning. Til fortolkning af resultater anvendes Odds-ratio-værdier som fortolkningsestimater - da de giver en bredere, intuitiv mere præcis og overskuelig ramme for analysen af modelsøgningens resultater. Vores model er foretaget på baggrund af følgende primære variable og kontrolvariable: Primære variable: Uddannelseslængde - målt i antal år (uafhængig variabel angivet som en række dummyer), Internetforbrug (som afhængig variabel udtrykt som to dummyer med kategorierne: Stort forbrug og Lille forbrug). Kontrolvariable: Køn (som dummy), alder, alder2, erhvervsgruppe, interaktion mellem alder og erhverv. Parameter of interest (POI): Vores POI er uddannelseslængde, da det netop er effekten af uddannelseslængden, vi på baggrund af vores sociologiske teori formoder har en relevant forklaringskraft. 66 Chi-værdi for model Intercept Udd 13 Udd 14 Udd 15 Udd 16 Udd 18 Udd 21 Model 1 116,63 Model 2 116,65 Model 3 425,02 Model 4 423,68 Model 5 463.84 Model 6 465.59 0,6731465*** (0,1222763) 1,009835*** (0,1747981) OR: 2,745149*** (0,4798468) 1,799784*** (0,4121369) OR: 6,048341*** (2,492744) 1,678229*** (0,3259161) OR: 5,356061*** (1,745627) 1,990603*** (0,2616024) OR: 7,319949*** (1,914916) 2,928722*** (0,5978091) OR: 18,7037*** (11,18124) 0,6610001*** (0,1436678) 1,011518*** (0,1751237) OR: 2,749772*** (2,749772) 1,797965*** (0,4122883) OR: 6,037351*** (2,489129) 6,128938*** (0,4789898) 0,9142336*** (0,2136116) OR: 2,494863*** (0,5329316) 3,506793*** (0,9209863) 0,8855758*** (0,2166047) OR: 2,42438*** (0,5251322) 5,039931*** (0,9612663) 0,6637947** (0,2249025) OR: 1,942148** (0,4367941) 1,753079*** (0,4539186) OR: 5,772346*** (2,620175) 1,723002*** (0,4649208) OR: 5,601319*** (2,60417) 1,542071*** (0,4708362) OR: 4,674262*** (2,200812) 1,678419*** (0,3259217) OR: 5,357079*** (1,745989) 1,98838*** (0,2619568) OR: 7,303693*** (1,913252) 1,703451*** (0,3583607) OR: 5,492871*** (1,968429) 1,650163*** (0,3636431) OR: 5,207831*** (1,893792) 1,06227** (0,3828387) OR: 2,892932** (1,107526) 1,885076*** (0,2928735) OR: 6,586853*** (1,929115) 1,838412*** (0,2991848) OR: 6,286546*** (1,880839) 1,023369** (0,336525) OR: 2,782553** (0,9363987) 2,930204*** (0,5978863) OR: 18,73145*** (11,19928) 3,171908*** (0,6567999) OR: 23,85296*** (15,66662) 2,099442** (2,099442) OR: 8,161616** (8,471787) 2,102913** (1,038237) OR: 8,18999** (8,503152) 1,038237 (0,1540378) OR: 1,025065 (0,1578988) 3,047167*** (0,6350546) OR: 21,0556*** (13,37146) 2,19404* (1,147561) OR: 8,971388* (10,29521) 2,292172* (1,21411) OR: 9,896411* (12,01533) 2,207875*** (0,6842216) OR: 9,096366*** (6,22393) 1,303645 (1,238624) OR: 3,682696 (4,561474) 3,575972** (1,463864) 0,3795772 (0,3107099) OR: 1,461666 (0,4541542) 1,224251** (0,528266) OR: 3,401618** (1,796959) 0,59259 (0,5198654) OR: 1,808667 (0,9402633) 0,3970714 (0,5757808) OR: 1,487462 (0,856452) 1,278807 (0,9721508) OR: 3,592351 (3,492307) 0,0169303 (1,565908) OR: 1,017074 (1,592645) -0,0943496*** (0,0071698) OR: 0,9099646*** (0,0065242) 0,0055824 (0,0338487) OR: 1,005598 (0,0340382) 0,0078634 (0,0078634) OR: 1,007894 (0,0342478) 0,0081753 (0,0340477) OR: 1,008209 (0,0343272) -0,0008824** (0,0003047) OR: 0,999118** (0,0003044) -0,0009283** (0,0003071) OR: 0,9990721** (0,0003068) -0,2298825*** (0,0422139) OR: 0,7946269*** (0,0335443) -0,0009229** (0,0003078) OR: 0,9990776** (0,0003075) -0,0715719 (0,1265818) OR: 0,9309293 (0,1178387) 0,016346 (0,0123263) OR: 1,01648 (0,0125294) -385.16411 -384.29012 Køn Alder Alder2 Erhvervsgruppe Interaktion ml. erhverv og uddannelse -2Log -558.76947 -558.75655 -404.57075 -400.7437 *: p-værdi<0,1 **, p-værdi<0,05 ***, p-værdi<0.01 Referencekategorier for hhv.: Model 1: respondenter med følgende uddannelseslængde: 0 år, 6 år, 10 år; Model 2: respondenter med kønnet kvinde og følgende uddannelseslængde: 0 år, 6 år, 10 år; Model 3: respondenter med følgende uddannelseslængde: 0 år, 6 år, 10 år.; Model 4: respondenter med følgende uddannelseslængde: 0 år, 6 år, 10 år.; Model 5: respondenter med følgende uddannelseslængde: 0 år, 6 år, 10 år. 67 Model 1: Startmodellen er en simpel logistisk regression med vores primære variable. Der ønskes her testet, hvorvidt der overhovedet eksisterer en signifikant sammenhæng mellem vores POI og internetforbrug. Model 1 viser signifikant sammenhæng mellem variablene i modellen - med en χ2værdi på 116,63; dvs. de uafhængige variable forklarer en signifikant del af variansen i y. Model 2: I model 2 indsættes kontrolvariablen køn. Variablen for køn viser sig dog at være insignifikant, hvorfor den ikke medtages i den efterfølgende model. Model 3: I model 3 indføres alder som kontrolvariabel. Denne variabel viser sig at være signifikant og bidrager i positiv grad til at forklare variansen i y, da χ2-værdien stiger markant til 425,02. Følgelig medtages denne variabel i næste model. Model 4: I følgende indføres aldersvariablen opløftet i anden. Indførselen sker på baggrund af figur 15, der viser den ”fittede” funktion til aldersfordelingen for internetforbrug i analyseudvalget. Eksplorativt ses i figuren ved, at denne ligner et andengradspolynomium med en stigning i uddannelseslængde for de lave alderskategorier og et fald i de høje alderskategorier. Derfor indføres en kvadreret aldersvariabel, der viser sig at være signifikant og ’stjæle’ en del af forklaringskraften fra aldersvariablen, der nu er insignifikant. Derfor vurderer vi, at den kvadrerede aldersvariabel har en større forklaringskraft ift. til internetforbrug og derfor er et bedre mål for alders betydning i modelsøgningen. Figur 15: Alder2 i forhold til internetforbrug 68 Model 5: I model 5 indsættes variablen, der måler respondenternes erhvervsgruppe. Erhverv viser sig at være signifikant og bidrager i yderligere grad til at forklare variansen i y, da modellens χ2værdi stiger til 463,84. Model 5 er altså bedre til at forklare vores uafhængige variabel samt at estimere vores data. Model 6: I model 6 indsættes en interaktion mellem respondenternes erhvervsgruppe og uddannelse, der dog viser sig at være insignifikant, hvorfor den ikke medtages i slutmodellen. På baggrund af ovenstående vælges model 5 som slutmodel, da netop denne har den største χ2værdi, på 463,84, hvorfor den er den umiddelbart mest optimale model til at forklare variansen i y. Nedenfor, i tabel 20, er vist stata-outputtet til den logistiske regression for slutmodellen til anden hypotese: Iteration 0: log likelihood = -617.08322 Iteration 1: log likelihood = -427.78775 Iteration 2: log likelihood = -388.17252 Iteration 3: log likelihood = -385.17553 Iteration 4: log likelihood = -385.16411 Iteration 5: log likelihood = -385.16411 Logistic regression Log likelihood = -385.16411 Antal obsevertioner LR Chi2(9) Prob > Chi2 Pseudo R2 1.449 = 463,84 = 0,0000 = 0,3758 Internetforbrug Odds-ratio Standardfejl z P>|z| 95 % koefficient interval Udd. 13 år Udd. 14 år Udd. 15 år Udd. 16 år Udd. 18 år 1,942148 4,674262 2,892932 2,782553 9,096366 0,4367941 2,200812 1,107526 0,9363987 6,22393 2,95 3,28 2,77 3,04 2,23 0,003 0,001 0,006 0,002 0,001 1,249813 1,857533 1,366046 1,438775 2,379345 3,018004 11,76223 6,126481 5,381385 34,7759 Udd. 21 år Alder Alder2 Erhvervsgruppe 3,682696 1,007894 0,9990721 0,7946269 4,561474 0,0342478 0,0003068 0,0335443 1,05 0,23 -3,02 -5,45 0,293 0,817 0,003 0,000 0,3249732 0,9429564 0,998471 0,7315276 41,73343 1,077304 0,9996737 0,863169 Tabel 20: Stata-output for slutmodel 1 69 Modelkontrol for slutmodel 1 (957/868, 924/904) Efter at have afsluttet vores modelsøgning er vi nået frem til følgende slutmodel: ( ) Modelsøgningen viste, at der forekommer en øgning af χ2-værdien. Dette er dog ikke nok til at bedømme slutmodellen. Vi vil derfor foretage en modelkontrol, der kan vurdere om den urenstingerede model er bedre til at estimere data end den restingerede, og om modellens forudsagte sandsynligheder stemmer overens med de observerede sandsynligheder. Likelihood-ratio test (LR-test) (957/868) Formålet med LR-testen er at teste om forklaringskraften i vores urestingerede model er bedre end hos den restingerede. Vi opstiller hypoteserne: H0: B2=B3=0 H1: B2=B3≠0 Likelihooden (L) er et yderst lille tal, hvorfor det er kompliceret at tolke på dette. Derfor benytter man i stedet Ln(L) eller –Ln(L), der opfører sig noget anderledes end L. Når L er gående fra 0 mod 1, er Ln(L) gående fra -∞ mod 0, mens –Ln(L) er gående fra ∞ mod 0. Hvor vi før ønskede en L så tæt på 1 som muligt, ønskes nu en Ln(L)-værdi, der er så tæt på 0 som muligt. LR-testen er givet ved: G 2 2*ln( Lred ) 2*(ln Lred ln L fuld ) 2ln L fuld 2ln Lred 2ln Lred (2ln L fuld ) L fuld (Geerdsen 2011c:3) Chi værdi for LR-test med 3 frihedsgrader P-værdi 346,78 0,00000 Tabel 21: Udført LR-test 70 G2 følger en χ2-fordeling med frihedsgrader lig antal parametre, der er til forskel mellem vores modeller; 3 parametre i vores tilfælde. Testen giver os en χ2-værdi, som kan holdes op mod vores kritiske værdi. Vi aflæser vores kritiske værdi Φ(df: 3)=0,352, og da vi fra LR-testen gives en χ2værdi på 346,78 kan nulhypotesen forkastes. Altså konkluderes, at vores urestingerede model forklarer signifikant mere end den restingerede model. Grupperet residualanalyse (957/868) Den grupperede residualanalyse tager udgangspunkt i Svend Kreiners fremgangsmåde (2007). Residualanalysen sammenligner de sandsynligheder vores model har beregnet med de observerede frekvenser. Kreiner foreslår, at man ser på grupperede residualer, da individuelle residualer ikke har stor nytteværdi indenfor logistisk regression. Vi bruger derfor grupperesidualet: residual = 1 å(Yi - p ) n i (Kreiner 2007:529) Residualet gives ved gennemsnittet af differencen mellem værdierne i gruppen for den i’te person i gruppen og den teoretiske sandsynlighed for, at en person vil placere sig i gruppen19. Er stikprøven stor nok, vil residualværdierne tilnærmelsesvist være normalfordelte med middelværdien 0 og variansen π(1-π)/n, jf. den centrale grænseværdisætning. Derfor kan vi beregne de standardiserede residualer ved formlen: Zresidualer = n × residual p (1- p ) (Ibid.:530) Ud fra beregnede standardiserede residualer opstilles en tabel, hvor residualværdier, der er større end ±1,96 vil være udtryk for grupper, som vores model estimerer dårligt 20. Vi får, at det kun er 13 19 Dvs. sandsynligheden for f.eks. at placere sig gruppen der har kort videregående uddannelse, der er ansat som leder og er mellem 40 og 94 år. 20 Dette er muligt da vores standardiserede residualer følger den standardiserede normalfordeling, hvor de kritiske værdier er henholdsvis ±1,96. 71 ud af de 160 grupper, der rent faktisk kan estimeres, hvilket tyder på, at vores model estimerer data dårligt (se bilag 5 for resultater). Der er dog, iflg. Kreiner, et centralt problem ved denne analysemetode, da man ofte får et uoverskueligt antal grupper med meget få observationer, som kan gøre tolkningen, ud fra den centrale grænseværdisætning, utroværdig. Det foreslås, at residualanalyse i stedet begrænses til de grupper med relativt mange respondenter. Følgende tabel viser derfor kun residualer for de grupper med minimum 50 respondenter: Grupper med minimum 50 respondenter 13 års uddannelse, erhvervsgruppe "serviceuddannet", 15-39 år gammel 13 års uddannelse, erhvervsgruppe "primær- og sekundærerhverv, 4094 år gammel 13 års uddannelse, erhvervsgruppe "serviceuddannet", 40-94 år gammel 16 års uddannelse, erhvervsgruppe "professionsuddannet", 40-94 år gammel 16 års uddannelse, erhvervsgruppe "leder og akademiker", 40-94 år gammel Standardiserede grupperesidualer 1,144365 -1,32754 -0,35628 -0,73493 0,956511 Tabel 22: Residualer for grupper med min. 50 respondenter Tabellen viser, at alle de standardiserede grupperesidualer ligger indenfor ±1,96. Da grupperne indeholder nok respondenter til, at vores grupperesidualer bliver pålidelige vurderer vi, at vores logistiske model udmærket kan estimere data. Det er ydermere centralt at lave residualanalyse på de variable, der bl.a. grundet insignifikans, ikke blev inkluderet i modellen. I tilfælde af, at vores model har problemer med at estimere grupperne, kan det betyde, at der er udeladt relevante variable. Derfor udføres residualanalyse på variable, der viste sig at være insignifikante, hhv. kønsvariabel og interaktionen mellem uddannelseslængde og beskæftigelse. 72 Køn Køn Standardiserede grupperesidualer Mand -0,2389861 Kvinde 0,0685042 Tabel 23: Grupperesidualer for køn Modellen estimerer begge grupper fint. Det konkluderes, at køn ikke har nogen forklaringskraft ift. internetforbrug. Interaktion mellem job og uddannelse Gruppe Standardiseret grupperesidual 13 39 40 52 78 90 96 112 0,761726 -3,74211 0,990664 0,559214 1,583581 0,439782 -1,29183 0,758097 Tabel 24: Grupperesidualer for interaktion mellem job og uddannelse Tabellen indeholder kun grupper med mindst 50 respondenter, da vi ellers risikerer at blive konfronteret med samme problematik som før. Tabellen viser, at modellen kun fejlestimerer én enkelt gruppe, hvorfor vi vurderer, at denne variabel ikke volder vores model problemer. Vi konkluderer, at det var validt ikke at medtage denne i vores model. 73 Hosmer-Lemeshow test (924/904) For at undersøge, hvorvidt vores slutmodel fitter data, anvender vi Hosmer-Lemeshow testen. Ideen er, at man inddeler data i deciler ud fra de forudsagte værdier for at måle, hvorvidt modellen kan forudsige værdien for hver enkelt gruppe. Hosmer-Lemeshows beregnede værdi approksimativt følger en χ2-fordeling og er givet ved: (Kreiner 2007:533) I formlen summes de kvadrerede differencer mellem den forventede og observerede værdier delt med den forventede værdi. Vi opstiller hypoteserne: H0: De forventede værdier = de observerede(dvs. homogenitet) H1: De forventede værdier ≠ de observerede (dvs. heterogenitet) Vi får, at vores model har en χ2-værdi på 7,19 med 8 frihedsgrader. Vores kritiske værdi er ved 8 frihedsgrader: Z(df=8) = 15,5. Vi kan derfor ikke forkaste H0, hvorfor vores models forventede værdier fitter de observerede værdier godt. Endvidere kan vi i en kontingenstabel visuelt efterteste, at vores models forventede og observerede sandsynligheder er fint kalibreret: 74 Stort internetforbrug Lille internetforbrug (Y=1) (Y=0) Gruppe Observerede Forventede Observerede Forventede “Fitted risc values ” Total 1 40 40,3 105 104,7 0,4971 145 2 92 92,9 53 52,1 0,7513 145 3 122 118,6 23 26,4 0,8745 145 4 126 130,9 19 14,1 0,9271 145 5 141 138,3 6 8,7 0,9516 147 6 139 137,6 4 5,4 0,9689 143 7 142 141,3 3 3,7 0,9784 145 8 142 143,4 4 2,6 0,9854 146 9 145 144,3 1 1,7 0,9917 146 10 140 141,3 2 0,7 0,9986 142 Tabel 25: Udført Hosmer-Lemeshow test Antal observationer = 1449 Antal grupper = 10 Hosmer-Lemeshowχ2(8) = 7,19 Hosmer-Lesmeshow testen viste, at vores slutmodel fitter data godt, hvilket er en force for vores modelkontrol. 75 Modelsøgning 2 (997/900, 924/904) Modelsøgning 2 knytter sig til vores anden hypotese: Respondenter der bor i storbyen har længere uddannelse end respondenter på landet. For at teste, hvorvidt ens geografiske nærmiljø korrelerer med ens uddannelseslængde, foretages statistiske tests med henblik på at finde frem til, hvilke variable, der hhv. forklarer og ikke forklarer en statistisk sammenhæng. Som nævnt i operationaliseringen anvendes en række primære variable og kontrolvariable, som kort præsenteres nedenfor. Primære variable: Uddannelseslængde - målt i antal år (som afhængig variabel), Domicil (som uafhængig variabel udtrykt som tre dummyer). Kontrolvariable: Køn (som dummy), alder, alder2, forældres gennemsnitlige uddannelseslængde. Parameter of interest (POI): Vores POI er domicil, da det jo netop er korrelationen mellem geografisk nærmiljø og uddannelseslængde, der er af interesse. 76 F-værdi Justeret R2 Intercept By Land Model 1 24,32 0,0312 14,10946*** (0,1384579) -0,9805557*** (-0,1983738) -1,408457*** (0,2124448) Køn (kvinde) Model 2 16,24 0,0306 14,0802*** (0,1616897) -0,979088*** (0,1984781) -1,408842*** (0,2125121) 0,0592867 (0,1690649) Alder Alder2 Model 3 19,76 0,0374 14,82366*** (0,2616716) -0,9380042*** (0,1981806) -1,330367*** (0,213154) Model 4 76,01 0,1717 7,765586*** (0,5203342) -1,060414*** (0,1840161) -1,551248*** (0,1982568) Model 5 120,77 0,2926 1,926986** (0,6072715) -0,6995852*** (0,1715931) -1,167135*** (0,1848332) -0,0152615*** (0,0047506) 0,3213433*** (0,0223874) -0,0034318*** (0,0002238) 0,3748629*** (0,0209664) -0,0036587*** (0,0002073) 0,3475714*** (0,0220786) Forældres gennemsnitlige uddannelseslængde *: p-værdi<0,1 **, p-værdi<0,05 ***, p-værdi<0.01 Modelsøgning 2 Model 1: Startmodellen er en simpel lineær regression med vores primære variable. Vi ønsker her at teste, hvorvidt der overhovedet forefindes en sammenhæng mellem vores POI og uddannelseslængde. Model 1 viser, at der signifikant sammenhæng mellem de to variable - med en F-værdi på 24,32 - og at vores POI, med et justeret R2 på 0,0312, i sig selv kan forklare 3,12 % uddannelseslængden. Model 2: I model 2 indsættes kontrolvariablen køn. Variablen for køn viser sig dog at være insignifikant, hvorfor den ikke medtages i den efterfølgende model. Ydermere ses det, at F-værdien falder til 16,24. Model 3: I model 3 indføres alder som kontrolvariabel. Denne variabel viser sig at være signifikant og bidrager i positiv grad til forklaringskraften, estimeret på justeret R 2; da denne stiger til 3,74 %. På baggrund af dette medtages denne variabel. F-værdien på 19,76 er dog mindre end startmodellens. 77 Model 4: Vi vurderer ud fra figur 16, at alder2 bedre estimerer de data, vi ønsker at undersøge, end den isolerede alderseffekt. Endvidere viser indførslen af den kvadredede aldersvariabel sig også at have en særdeles positiv effekt: For det første forbliver alle variable i modellen signifikante, hvilket er centralt i forhold til om vores variables forklaringskraft er signifikant forskellig fra 0; om de applikeres til populationen. For det andet er modellen med et justeret R2 på 0,1717 bedre til at forklare vores uafhængige variabel ift. hidtidige modeller. Model 4 har desuden en markant højere F-værdi (76,01); den er altså bedre til at estimere vores data. Figur 16: Alder2 i forhold til uddannelse Model 5: I model 5 indsættes variablen, der måler respondenternes forældres gennemsnitlige uddannelseslængde. Dette viser sig både at øge værdien for justeret R2 til 0,2926 og F-værdien til 120,77. Ydermere forbliver alle variable i modellen signifikante. Model 5 er altså bedre til at forklare vores uafhængige variabel, samt estimere vores data, hvorfor denne følgelig bliver den endelige slutmodel. 78 Nedenfor i tabel 26 er vist STATA-outputtet til den lineære regression for slutmodellen til hypotese 2: Source SS df MS Antal obsevertioner 1.449 F(5, 1443) = 120,77 Model 4556,20477 5 911,240954 Prob > F = 0,0000 Residual 10887,809 1443 7,54525921 R2 = 0,2950 Jursteret R2 = 0,2926 Root MSE = 2,7469 Total 15444,0138 1448 10,6657554 Uddannelseslængde Koefficient Standard fejl t P>t 95 % koefficient interval 0,1715931 -4,08 0,000 -1,036179 -0,3629816 Tabel -0,69958022 By 26: Stata-output for slutmodel Landet -1,167135 0,1848332 -6,31 0,000 -1,529706 -0,8045649 Alder 0,3748629 0,0209664 17,88 0,000 0,333735 0,4159908 Alder2 -0,0036587 0,0002073 -17,65 0,00 -0,0040654 -0,0032521 Forældres uddannelsesgennemsnit 0,3475714 0,0220786 15,74 0,000 0,3042617 0,3908811 Intercept 1,926986 0,6072715 3,17 0,002 0,7357568 3,118216 79 Slutmodel 2 (924/904) Efter at have benyttet os af forlæns modelsøgning, får vi følgende slutmodel: E(Yuddannelse) = B1 + BdomicilXdomicil + BkvindeXkvinde+ BalderXalder + Balder*alderXalder*alder +Bforældres gennemsnitlige uddannelselængde Xforældres gennemsnitlige uddannelselængde For at teste, hvorvidt vores urestingerede slutmodel forklarer signifikant mere af variationen i Y end vores restingerede startmodel, benytter vi os af F-testen med følgende antagelser: H0: B2=B3=… Bk= 0 ↔ R2 = 0 H1: Mindst én af variablene har indflydelse på y R F 2 ur Rr2 1 R 2 ur m ~F m, n k n k 0,2950 0,0325 F 1 - 0,2950 3 179,08 1449 6 Kritisk værdi = 2,60 Da F-testen tester ’goodness of fit’ og F-værdien er markant højere end vores kritiske værdi, kan vi konkludere, at slutmodellen er signifikant forskellig fra startmodellen. De variable, vi har tilføjet, er således valide. Der vil typisk ikke forefindes nogen ’sand’ model, hvorfor det afgørende er, om vores valgte endelige model kan accepteres af en modelkontrol, hvilket vi nu vil vende blikket mod. 80 Lineær modelkontrol af slutmodel 2 (957/868, 924/904, 969/849, 997/900) Gennem vores modelsøgning har vi søgt at finde frem til den simplest mulige model, der bedst muligt beskriver en lineær sammenhæng mellem domicil og uddannelse. Vi vil i det følgende beskæftige os med den del af den statistiske analyse, der vedrører, hvor godt vores model fitter vores data, dvs. vi skal kontrollere vores model. Modelkontrollen søger at tjekke, hvorvidt vores slutmodel kan siges at opfylde de 8 antagelser, således at vores OLS-estimatorer er BLUE. Modelvalg – residualanalyse (997/900) For at undersøge, hvorvidt vores model er korrekt specificeret og således rammer korrekt for alle grupperne, er det af betydning, om residualerne er tilfældigt fordelt, således, at vi undgår at udtale os uhensigtsmæssigt om nogle grupper. For at undgå problemer med, at residualerne har forskellige varianser, standardiseres de ved division med et estimat for deres standardafvigelser. Følgende vil derfor danne ramme om en modelkontrol på baggrund af de standardiserede residualer. Som udgangspunkt plotter vi de standardiserede residualer mod de værdier, som modellen forudsiger, Ŷ, for at se, om afvigelserne fra modellen er signifikante samt, hvorvidt der synes at være systematik i disse afvigelser. Figuren nedenfor illustrerer et scatterplot med de standardiserede -6 -4 -2 0 2 4 residualer overfor de forudsagte værdier: 5 10 15 20 Linear prediction Figur 17: Scatterplot over standardiserede residualer vs. de forudsagte værdier. 81 Scatterplottet viser, at størstedelen af residualerne ligger inden for vores kritiske værdier på ±1,96, hvorfor vi vurderer, at omtrent 95 % af de standardiserede værdier ligger indenfor, hvad vores model er i stand til at estimere. Den grafiske præsentation viser dog en del outliers, hvor der synes en grad af systematik. Grundet dette ses nærmere på endnu en regression, hvor vi plotter den afhængige variabel, uddannelseslængde, kontra vores standardiserede residualer, for at efterse, hvor -6 -4 -2 0 2 4 der muligvis kan forekomme systematisk fejlestimation. 0 5 10 15 RECODE of edlvddk (Highest level of education, Denmark) 20 Figur 18: Scatterplot over standardiserede residualer kontra forudsagte residualer for Y, uddannelseslængde. Ud fra figur 18 er det særligt værd at bemærke gruppen med 0-5 års uddannelse, da samtlige residualer placerer sig uden for de kritiske værdier. Ydermere bemærkes det, at cirka halvdelen af gruppen med minimum 6 års uddannelse, samt en stor del af gruppen med min. 21 års uddannelse, placerer sig uden for ±1,96. Vi må derfor have in mente, at vi risikerer at fejlestimere angivne grupper. 82 Multikollinaritet (969/849) Vi ønsker så vidt muligt at arbejde med rimelig stabile parameterestimater og ’rene’ standardfejl. I tilfælde af, at der eksisterer et eksakt lineært forhold mellem to variable, vil det ikke være muligt at estimere vores model, da denne indeholder ét særligt parameterestimat for hver af de to variable. Man skelner mellem hhv. perfekt og næsten perfekt multikollinaritet. Da vi allerede har estimeret vores model, vil vi undersøge, om vores model har næsten perfekt multikollinaritet. Denne analyse baserer sig på baggrund af følgende indikatorer: 1) Stor varians og standardfejl på OLS-estimatoren 2) Bredere konfidensintervaller 3) Insignifikante t-værdier 4) Høj R2, på trods af insignifikante t-værdier 5) Små ændringer i data giver store ændringer i parameterestimaterne og de tilhørende standardfejl. 6) Omvendte fortegn på parameterestimaterne, i forhold til hvad vi teoretisk forventede 7) Det bliver sværere at fastslå, hvad den enkelte variabel bidrager med til R 2. (Gujarati & Porter 2010:250fff) Ingen af ovennævnte indikatorer på multikollinaritet er af ekstrem art i vores model. Der vil dog som regel eksistere en grad af korrelation mellem vores variable, hvorfor vi ikke ønsker at bekræfte tilstedeværelsen af multikollinaritet, men undersøge graden af den. I det følgende kontrolleres derfor for graden af multikolinaritet blandt vores uafhængige variable, x, i vores model. For at efterse om nogle af variablene korrelerer i en sådan grad, at det kan skabe multikollinearitet i vores model, benytter vi os af korrelationsmatricen. Til dette anvendes Pearsonskorrelationskoefficienter, der er et standardiseret mål for samvariation, der ligger mellem -1, dvs. perfekt negativt korrelerede og 1, dvs. perfekt positivt korrelerede. De parvise korrelationer er illustreret nedenfor: 83 Storby By Land Alder Alder2 Storby 1,0000 By -0,5689 1,0000 Land -0,4736 -0,4549 1,0000 Alder -0,1031 0,0165 0,0940 1,0000 Alder2 -0,0882 0,0139 0,0806 0,9805 1,0000 Gennemsnit mellem forældres uddannelse -0,1877 -0,0811 -0,1164 -0,4475 -0,4248 Gennemsnit mellem forældres uddannelse 1,0000 Tabel 28: Pearsons korrelationsmatrice Det er nævneværdigt, at vi beskæftiger os med en polynomisk kontrolvariabel i form af alder2. Der vil ofte med polynomiske variable forekomme kollinaritet, da alder 2 er en non-lineær funktion af alder, hvorfor en høj grad af kollinearitet vil være at forvente herimellem. Bortset fra alder og alder2 er der ingen ekstreme udslag, der peger på en høj grad af parvis korrelation. Vi har dog valgt at se nærmere på domicil, da domicildummyerne tenderer mod multikollinaritet. Derfor benyttes variance inflation factor-test (VIF). Vi opstiller alle de uafhængige variable som en funktion af de andre uafhængige variable i såkaldte auxilliary regressions. Via R2-værdierne udregner vi VIF: VIF = 1/(1-R2a) (Ibid.:257) En høj VIF-værdi skyldes en høj R2-værdi, der således påviser en lineær relation. I nedenstående er samlet VIF-værdierne for hver enkelt uafhængig variabel: 84 Variabel VIF 1/VIF Alder 26,86 0,037229 Alder2 26,19 0,038186 Land 1,31 0,765062 By 1,29 0,773987 Forældres gennemsnitlige 1,29 0,775655 uddannelseslængde Gennemsnitlige VIF 11,39 Tabel 29: VIF-værdierne for hver enkelt uafhængig variabel VIF-testen afslørede intet nyt. Bortset fra alder og alder 2, ligger ingen af VIF-værdierne særligt højt. Mht. domicil har dummyen land en lidt højere VIF-værdi, der dog ikke er alarmerende. Endvidere synes tolerance-værdierne at ligge tilstrækkeligt højt til ikke at forårsage komplaktioner. Følgelig vurderes modellen som værende uden særlig grad af multikollinaritet, hvorfor vi vælger at holde os til vores model. Homoskedasticitet (924/904) Ifølge antagelse 4 om homoskedasticitet skal variansen af fejlledende være konstant, dvs. uafhængig af variablenes udfald, illustreret ved . Hvis dette ikke forefalder, vil der eksistere heteroskedasticitet, hvilket resulterer i, at vores t-tests og F-test bliver usikre at tolke på. For at belyse antagelsen om homoskedasticitet plotter vi de kvadrerede residualer mod de forudsagte værdier i et scatterplot: 85 200 150 0 residual2 100 50 5 10 15 20 Linear prediction Figur 19: Scatterplot over de kvadrerede residualer mod de forudsagte værdier Ovenstående giver os et billede af, at der forefindes systematikker ved, hvordan residualerne stiger og falder. Da residualerne ikke ligger konstant omkring Ŷ, eksisterer der tegn på variansheterogenitet. Som eftertest til den visuelle test benyttes White testen, der giver os en mere håndfast test af forudsætningen for homoskedacitet. White testen undersøger, om der eksisterer systematikker i modellens residualer, der har sammenhæng med niveauerne på de uafhængige variable. Testen laves på baggrund af χ2-fordelingen, hvorfor den vil være signifikant, hvis der ikke er homoskedasticitet: H0: B2 = 0 (Homoskedasticitet) H1: B2 ≠ 0 (Heteroskedasticitet) For vores model er χ2-værdien på 133,49. Med 16 frihedsgrader i en χ2-fordeling, har vi en kritisk værdi på 7,96, hvorfor vi ser os nødsaget til at forkaste H 0 og forudsætningen om homoskedasticitet ikke er opfyldt. For at identificere, hvilke variable, der yder det største bidrag til vores heteroscedacitet har vi plottet de kvadrerede residualer mod vores forklarende variable (se bilag 3). I det følgende visualiseres 86 residualfordelingen for variablene alder og domicil, da de umiddelbart forekom at bidrage mest til heteroskedaciteten. Figur 20: Residualer for alder Overordnet fordeler residualerne for alder sig ensartet, da der ikke synes radikale systematiske afvigelser. Dog er vi opmærksomme på, at der er visse tendenser til systematisk afvigelse omkring aldersgrupperne 60-80 år, hvilket kan være en af årsagerne til heteroscedaciteten i vores model. Denne afvigelse er ikke af alarmerende art, hvorfor vi vurderer det som validt at beholde grupperne i modellen. 87 Figur 21: Residualerne fordelt på domicil (1=storby, 2=by, 3=landet) Diagrammet viser, at der er mere varians i fejlledene ved grupperne, der bor i storbys-området (y=1). Ved øjemål er det svært at se, hvorvidt variansen yder et centralt bidrag til den observerede og testede heteroskedacitet. Som supplement til den visuelle test, vil vi derfor gøre nytte af Parks test. Testen regresseres σ2ipå én eller flere af de uafhængige variable. Da vi ikke kender σ2i, benytter vi os af eifor at køre følgende regressionsmodel, hvor vier residualet: lne2i = B1 + B2lnXi + vi Følgende hypoteser opstilles: H0: B2 = 0 (Homoskedasticitet) H1: B2 ≠ 0 (Heteroskedasticitet) 88 Variabel P-værdien F-værdien By 0,4431 0,59 Land 0,1883 1,73 Alder 0,000 54,23 Alder2 0,000 70,77 Forældres gennemsnitlige 0,000 49,85 uddannelseslængde Tabel 30: Resultater for Parks test Parks test viste os, at det særligt er alder, alder 2 og forældres gennemsnitlige uddannelseslængde, der volder problemer. Variansen i deres residualer kan derfor siges at være forklaringskilderne til den overordnede heteroskedacitet. Vi er derfor bevidste om, at der kan opstå visse problemer ved, at vi får efficienteestimatorer og giver misvisende resultater. I et forsøg på at korrigere for heteroskedaciteten udregnes robuste standardfejl. Dette ændrer ikke ved parameterestimaterne, men giver mere plausible og ”rene” standardfejl. Følgende illustrerer de udregnede robuste standardfejl: 89 F-værdi = 115,31 Justeret R2 = 0,2950 Parameterestimat Robust t-værdi P-værdi standardfejl Intercept 1,926986 0,5767902 -4,15 0,000 By -0,6995802 0,1686864 -6,36 0,000 Land -1,167135 0,1836386 17,36 0,000 Alder 0,3748629 0,02131761 -15,75 0,000 Alder2 -0,0036587 0,0002323 15,00 0,000 Forældres 0,3475714 0,0231761 3,34 0,001 gennemsnitlige uddannelseslængde Antal observationer 1.449 Tabel 23: Robuste standardfejl De robuste standardfejl viser, at ingen af de forklarende variable bliver insignifikante -trods den konstaterede heteroskedacitet. Dette tyder på, at graden af heteroskedasticitet ikke er så alarmerende, at den ikke kan afhjælpes af robust estimation og derfor er uden større betydning for vores konklusioner om, hvilke faktorer, der påvirker ens uddannelseslængde. Fejlleddenes normalitet (957/868) Som nævnt er en af antagelserne i den lineære regression, at modellens residualer er normalfordelte. Dette forstået ved, at fejlledende bør være normalfordelte med gennemsnittet 0 og variansen 2, dvs.: (Gujarati & Porter 2010:98) 90 Vi vil nu grafisk undersøge om denne antagelse holder for vores model via et histogram over ,1 ,05 0 Density ,15 ,2 fejlledenes fordeling:. -15 -10 -5 0 5 10 Residuals Figur 22: Histogram over residualer sammenholdt den standardiserede normalfordeling Visuelt kan udledes, at residualerneapproximativt følger en normalfordeling. Enkelte grupper afviger en smule, men samlet set er det ikke alarmerende. Da der er enkelte afvigende grupper, undersøges residualerne nærmere vha. et Q-Q-plot. Dette er et sandsynlighedsplot, med hvilket vi plotter residualernes sandsynlighedsplot mod normalfordelingens sandsynlighedsfordeling, der er anskueliggjort nedenfor: 91 10 5 0 Residuals -5 -10 -15 -10 -5 0 Inverse Normal 5 10 Figur 23: Q-Q-plot over residualernes sandsynlighedsplot vs. normalfordelings sandsynlighedsfordeling Umiddelbart ligger punkterne for residualerne systematisk omkring linjen med en hældning på 1 og en skæring på 0, hvorfor vi ikke finder noget graverende problem ved fejlledenes normalitet. Underspecifikation (957/868) Det antages, at modellen ikke må være underspecificeret, da vores parameterestimater således vil være biased og inkonsistente. For at imødegå dette problem undersøges, hvorvidt der eksisterer en form for systematik ved standardresidualerne for variablen køn; som vi tog ud af vores model grundet insignifikans. Figur 24: Standardiserede residualer for køn 92 Figuren giver os ikke nogen større systematik for øje i fordelingen over mand og kvinde. Der anes visse outliers for begge grupper, men overordnet synes residualerne at fordele sig ganske ensformigt. De enkelte outliers mispryder ikke det overordnede indtryk, hvorfor vi slutter, at modellen ikke er underspecificeret uden at medtage køn. Med henblik på modelkontrollen ændrer vi ikke på vores slutmodel, da denoverodnetoverholder antagelserne om den lineære regressionsmodel. 93 Resultatanalyse (957/868, 924/904, 969/849, 997/900) Hypotese 1 Slutmodellen for den første hypotese ( ) Respondenter med 0-10 års uddannelse (referencekategorien) har større chance for at have et stort internetforbrug end at have et lille internetforbrug Respondenter med 13 års uddannelse har større chance for at have et stort internetforbrug end referencekategorien. Odds-ratio-værdien (Tabel 20) viser os at denne gruppe har 1,94 gange større chance for at have et stort internetforbrug end referencekategorien. Respondenter med 14 års uddannelse har større chance for at have et stort internetforbrug end referencekategorien. Odds-ratio-værdien (Tabel 20) viser os at denne gruppe har 4,67 gange større chance for at have et stort internetforbrug end referencekategorien. Respondenter med 15 års uddannelse har større chance for at have et stort internetforbrug end referencekategorien. Odds-ratio-værdien (Tabel 20) viser os at denne gruppe har 2,89 gange større chance for at have et stort internetforbrug end referencekategorien. Respondenter med 16 års uddannelse har større chance for at have et stort internetforbrug end referencekategorien. Odds-ratio-værdien (Tabel 20) viser os at denne gruppe har 2,78 gange større chance for at have et stort internetforbrug end referencekategorien. Respondenter med 18 års uddannelse har større chance for at have et stort internetforbrug end referencekategorien. Odds-ratio-værdien (Tabel 20) viser os at denne gruppe har 9,10 gange større chance for at have et stort internetforbrug end referencekategorien. 94 Respondenter med 21 års uddannelse har større chance for at have et stort internetforbrug end referencekategorien. Odds-ratio-værdien (Tabel 20) viser os at denne gruppe har 3,68 gange større chance for at have et stort internetforbrug end referencekategorien. Koefficienten for alder viser, at chancen for at have et stort internetforbrug stiger, hver gang respondentens alder stiger med ét år. Odds-ratio-værdien på 1,01 viser dog at chancen øges ganske lidt i forhold til referencekategorien. At den kvadrerede aldersfordeling har vist sig at være signifikant udtrykker dog at, den øgede chance for alder falder for høje aldersværdier. Koefficienten for erhvervsgruppevariablen viser, at jo lavere i hierarkiet respondenterne er placeret, jo lavere er deres chance for at have et stort internetforbrug. Odds-ratio-værdien på 0,80 fortæller, at chancen er 0,20 gange mindre end referencekategoriens chance. Ovenstående sammenhænge præsenteres grafisk i figur 25 1 0,995 0,99 13 år 0,985 14 år 15 år 0,98 16 år 0,975 18 år 21 år 0,97 0,965 0,96 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 93 Figur 25: Sandsynligheden for at have stort internetforbrug fordelt på alder 95 Hypotese 2 Koefficienten for variablen By viser at respondenter boende i byområder gennemsnitligt har 0,6995802 års mindre uddannelse end respondenter boende i storbyer (referencekategorien). Koefficienten for variablen Land viser at respondenter boende i landområder gennemsnitligt har 1,167135 års mindre uddannelse end respondenter boende i storbyer. Koefficienten for alder viser, at respondenterne gennemsnitligt har 0,3748629 års længere uddannelse, for hvert år ældre de er. At den kvadrerede aldersfordeling har vist sig at være signifikant udtrykker dog, at den stigende effekt for alder falder for høje aldersværdier. Koefficienten for forældres gennemsnitlige uddannelseslængde viser, at respondenternes uddannelseslængde gennemsnitligt stiger 0,3475714 år for hver gang deres forældres uddannelse stiger. Ovenstående sammenhænge er præsenteret grafisk i figur 26: 12 10 8 by 6 landsby eller land 4 2 0 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 94 Figur 26: Gennemsnitlig uddannelseslængde udtrykt i zoner fordelt på alder 96 Opsummering af resultatanalyse Ovenstående resultater viser nogle centrale sammenhænge mellem vores afhængige og uafhængige variable. Det er dog centralt at nævne, at det kan være problematisk, at man ikke statistisk er i stand til at tolke på kausalitet. Gujarati og Porter skriver: ”Always keep in mind that regression does not necessarily imply causation. Causality must be justified, or inferred, from the theory that underlies the phenomenon that is tested empirically.”(Gujarati & Porter 2010:22). Følgelig bliver det derfor centralt at anvende den sociologiske teori vi har redegjort for og anvendt i forbindelse med de empiriske hypoteser og operationalisering. Den efterfølgende analyses pointer og konklusioner vil derfor basere sig på såvel statistiske resultater som sociologiske sondringer om det samfundsmæssige. 97 Analyse (957/868, 924/904, 969/849, 997/900) I følgende analyseafsnit sammenholdes resultaterne fra vores statistiske analyse med de teoretiske betragtninger, vi har gjort os. Analyserammen er to undersøgelsesspørgsmål, der står i reference til vores problemstilling. Er det danske samfund differentieret i forhold til adgang til informationsstrukturer? Vores slutmodel vedrørende hypotese 1 viste en generel positiv sammenhæng mellem personers uddannelseslængde og deres internetforbrug. Der kan således meget vel være differentierende forskelle i individers adgang til information og kommunikation. Centralt er det, at samtlige uddannelseslængder - med undtagelse af en enkelt kategori i vores referencekategori - alle havde et stort internetforbrug. Dette viser, at spørgsmålet måske ikke går på, hvem der bruger og ikke bruger internettet, men nærmere, hvem der bruger det mest. Således kan Lashs dikotomiske opstilling af hhv. refleksive tabere og vindere problematiseres, når teorien anvendes i dansk kontekst. Det kan drøftes, hvorvidt det er uddannelseslængde, der har gjort, at man har et stort internetforbrug, eller om det er et stort internetforbrug, der forårsager en lang uddannelse. Dette kan statistikken ikke give os noget svar på, hvorfor det må forblive en teoretisk diskussion. Vigtigst er det, at der tegner sig et billede af en differentiering på baggrund af uddannelsesmæssige ulige adgange til nonsociale strukturer. Vi formodede, at yngre personer havde et gennemsnitligt større internetforbrug sammenlignet med ældre personer. Alder, og særligt alder2, viste sig i vores slutmodel at hæve modellens forklaringskraft signifikant. I henhold til den formodede sammenhæng mellem alder og internetforbrug, viste den sig dog ikke at holde stik, da internetforbruget topper ved personer i midten af 30’erne. Vi anvendte køn iht. til begrebet om intersektionalitet. Køn viste sig dog at være insignifikant, hvorfor vi ikke fik imødegået vores formodning om køn som et differentierende karakteristika. Vi formodede, at jo højere placering i erhvervsgruppehierarkiet, des større internetforbrug. Slutmodellen viste os, at jo lavere placering i hierarkiet, jo lavere er chancen for at benytte 98 internettet. Dette stemmer godt overens med Lashs betragtninger om, at individer i den nye underklasse ikke har lige så stor adgang til og omgang med informationsforhold, sammenlignet med den nye arbejder- og middelklasse. Lashs betragtninger om erhverv viste sig altså ikke at kunne afvises som en I&K differentierende faktor. Hvorvidt kommer den informationelle og kommunikative sociale differentiering til udtryk i geografisk opdelte zoner? Den generelle sammenhæng viste os, at den gennemsnitlige uddannelseslængde er størst for respondenter boende i storbyer, mens den er mindst for respondenter boende på landet. Dette stemmer godt overens med Lashs tanker om I&K-strukturers tyngde og tæthed i forskellige zoner. Da vi betegner storbyer som de levende og vilde zoner; byer som levende og tamme zoner; og landet som de døde og tamme zoner, har vi altså i vores empiri sporet en generel tendens til, at de zoner, der formodes at være beboet af individer med givne refleksive egenskaber rent faktisk også bebos af disse. Det kan altså ikke forkastes, at refleksiv differentiering kan kortlægges. At uddannelsesniveau stiger i takt med alder viser nok snarere en logisk sammenhæng end en differentierende sammenhæng, da det i naturens forstand kræver en vis alder at have en lang uddannelse. At alder imidlertid følger et andengradspolynomium viser dog, at denne udviklings logik aftager ved givent aldersniveau. Dette kan nok snarere tolkes som en historisk udvikling i bredere socioøkonomiske strukturer end strukturer i uddannelsessystemet alene, da der i uddannelsessystemet ikke findes nogen umiddelbare logiske strukturer, der kan forklare dette. Forældres gennemsnitlige uddannelseslængde viser sig at have en positiv indflydelse på uddannelseslængde. Dette går, modsat alder, fint i tråd med Lashs teori om social reproduktion og vores formodning om, at individets uddannelsesniveau afspejler, hvilket uddannelsesniveau individets forældre har. 99 Diskussion (957/868, 924/904, 969/849, 997/900) I forlængelse af ovenstående analyse vil vi nu diskutere relevante spørgsmål i forhold til individets identitetsskabelse og –muligheder i den refleksive modernitet. Forbrug af internet: Kvantitativ eller kvalitativ differentiering? Som nævnt viste det sig, at det ikke var et spørgsmål om, hvem der bruger internettet og hvem der ikke bruger det, men mere et spørgsmål om, hvem der bruger det mest. Det kan således være mere interessant at stille spørgsmålet om selve karakteren af internetforbruget, frem for blot at stille spørgsmålet om adgang dertil. Sidstnævnte spørgsmål får groft sagt belyst de kvantitative sider ved brug af internettet, men man kan argumentere for, at det muligvis vil være mere interessant at stille et spørgsmål, der belyser de kvalitative sider ved internetforbruget. Dette skyldes, at ikke alt internetindhold behøver at fremme refleksivitet eller være et tegn på større refleksive egenskaber. Lash fremhæver, at differentiering sker ift. de refleksive egenskaber, som brugen af information kræver. Internettet har dog efterhånden en yderst alsidig karakter, hvorved det både muliggør aktiviteter af aktiv og passiv refleksiv art. I forhold til et spørgsmål om identitet, kunne man måske forestille sig, at individer, der passivt modtager information fra internettet, i højere grad får deres identitet skabt af internettet. Individer med en aktiv rolle i brugen af internettet bruger derimod internettet som led i en proces, hvor de selv skaber deres identitet. Dette er en nuance af I&Kstrukturerne, som Lash ikke ekspliciterer i sin teori. Geografiske zoner: Differentiering eller distingvering? Vi så, at der eksisterer en geografisk differentiering i det danske samfund målt ved uddannelseslængde. I relation til Lashs teori, kan man diskutere, om der er større potentiale for identitetsudvikling i storbyer end i landområder. Hvor der i storbyen anes fleksible identitetsstrukturer, synes der modsat på landet at eksistere mere rigide identitetsstrukturer. Det kan her diskuteres, hvorvidt identitetsskabelse i samtiden ensidigt skabes og udvikles via refleksive- og informationsbehandlende egenskaber. Findes der andre platforme for identitetsskabelse? 100 Lash definerer klart i sin teori, hvilke individer der er refleksive tabere, og hvor disse befinder sig. Umiddelbart afskriver Lash dog disse individer evnen til at forholde sig til denne status, hvorved de refleksive tabere hos Lash bedst kan betegnes som værende ’cultural dopes’, der lever i uvidenhed om deres egen ugunstige position i samfundet. Det er dog ikke umuligt at tænke sig, at de refleksive tabere i høj grad er i stand til at forholde sig til deres egen status, og hvordan de er blevet sat i den. Som eksempel kan påpeges, at politikere ofte adresserer individer med lav uddannelse og beboere i udkantsområder og taler deres sag. Hvorvidt dette blot er en politisk manøvre for at opnå større vælgertilslutning skal ikke diskuteres her, men det er under alle omstændigheder et tegn på, at de refleksive ’taberes’ evne til at forholde sig til deres egen status i samfundet anerkendes. I forlængelse heraf kan det diskuteres, hvorvidt Lash fokuserer for ensidigt på differentiering og dermed negligerer et aspekt gående på distingvering. At nogle individer ikke anvender diverse informations- og kommunikationsmedier, kan tænkes, i visse tilfælde, at have mere med distingvering end differentiering at gøre. Med fokus på distingvering kommer det manglende forbrug af medier mere til at fremstå som et reflekteret fravalg, end socioøkonomisk determineret. Man kan altså argumentere for, at Lash ikke har øje for eksistensfilosofiske perspektiver, hvor både valg og fravalg anses som aktive elementer i individers eksistensskabelse. Eksklusion fra statsborgerskab? Lash argumenterer for, at borgerskabsrettigheder i den refleksive modernitet skal sættes i relation til adgangen til information og kommunikation. Hermed betones det, at ens adgang får en fundamental betydning for at blive inkluderet i samfundet. Stadig stigende digitalisering af den offentlige sektor; repræsenteret ved eks. NEM-id, ansporer tendenser af en udvikling gående på, at danske borgere i høj grad inciteres til at anvende de nye digitale medier, såsom internettet. En mulig konsekvens heraf er, at man ikke blot ekskluderes individuelt, men institutionelt. Omvendt kan man argumentere for, at digitaliseringen muliggør konstruktionen af det Lash betegner ’elektroniske fællesskaber’. Om dette kan bidrage til øget integration i det samfundsmæssige er dog tvetydigt, da netop Lash skriver, at disse fællesskaber er mere upersonlige og mere distancerede end de fælleskaber, der fandtes i den simple modernitets bureaukratiske institutioner. Man kan i denne forbindelse argumentere for, at det frigjorte refleksive individualiserede individ sættes på spil i disse normaliserede fælleskaber, der snarere individuerer end individualiserer. 101 Konklusion (957/868, 924/904, 969/849, 997/900) Med udgangspunkt i Scott Lashs teori om social differentiering i den refleksive modernitet, udførte vi en empirisk undersøgelse, gående på om der er en sammenhæng mellem individers refleksive egenskaber og deres adgang til information og kommunikation. Endvidere søgte vi, om det var muligt at kortlægge, hvor de refleksive vindere og taber befinder sig, ud fra Lashs antagelse om zoner. Efter grundig gennemgang af vores resultater, kan vi ikke afvise vores hypoteser, da der både fandtes interessante sammenhænge mellem respondenters refleksive egenskaber og deres adgang til information og kommunikation samt en afgrænsning mellem de refleksive vindere og tabere på et geografisk plan. Ved applicering af Lashs teori, må tages forbehold for visse kulturelle og socioøkonomiske forskelle mellem det danske samfund, og de samfund som Lash bygger sin teori på - trods Lashs påstand om en global informationskultur. I denne forbindelse viste det sig, at det i dansk kontekst måske snarere handler om kvaliteten fremfor kvantiteten af information og kommunikation, da der var en generel tendens til, at langt de fleste benytter sig af nonsociale informations- og kommunikationsstrukturer. Lashs ensidige fokus på adgangen til disse strukturer, viste sig altså måske ikke at være fyldestgøreende. Man kan ydermere problematisere Lashs ensidige fokus på differentiering og dermed negligering af et aspekt gående på distingvering. Sidst kan man argumentere for, at kravet om og incitamentet til forbrug af kommunikation og information under den refleksive modernitet skaber normaliserede fælleskaber, der snarere individuerer end individualiserer samt skaber eksklusion på et såvel individuelt som institutionelt niveau. 102 Litteraturliste Litteratur til Social differentiering Bauman, Zygmunt 1991: Modernitet og Holocaust. København: Hans Reitzels Forlag. Bauman, Zygmunt 2000: Flydende modernitet. København: Hans Reitzels Forlag. Bislev, Sven 2009: ”Socialpolitiske modeller”, i Larsen, Jørgen Elm og Møller, Iver Hornemann (red.): Socialpolitik. København: Hans Reitzels Forlag. Bradley, Harriet 2008: Fractured identities – changing patterns of inequality. Cambridge: Polity Press. Hansen, Finn Kenneth 2010: Fattigdom I EU-landene – og dansk fattigdom i europæisk perspektiv. Februar 2010. Casa. Lash, Scott 1997: “Reflexivity and its Doubles” i Beck, Ulrich, Giddens, Anthony og Lash, Scott: Reflexive Modernization. Politics, Tradition and Aesthetics in the Modern Social Order: Stanford University Press. Lash, Scott 2002: Critique of Information. London, Thousand Oaks, New Delhi: SAGE Publications. Phoenix, Ann: “Interrogating intersectionality: Productive ways of theorising multiple positioning” i Kvinder. Køn & Forskning. 2006 nr. 2-3. Litteratur til Videregående kvantitative metoder Guajarati, Damodar N. & Porter, Dawn C. 2010: Essentials of econometrics. New York: McGrawHill. Kreiner, Svend 1999: Statistisk problemløsning: præmisser, teknik og analyse. København: Juridistog Økonomforbundets Forlag. 103 Long, J. Scott 1997: ”Regression Models for Categorial and Limited Dependent Variables”, i Advanced Quantitative Techniques in the Social Sciences. Vol 7. Thousand Oaks, London, New Delhi: SAGE Publications. Malchow-Møller, Nikolaj & Würtz, Allan 2003: Indblik i statistik. København: Gyldendal. Pico Geerdsen, Lars 2011a: Logistiske regressionsnoter del 1. København: Københavns Universitet Pico Geerdsen, Lars 2011b: Logistiske regressionsnoter del 2. København: Københavns Universitet Pico Geerdsen, Lars 2011c: Logistiske regressionsnoter del 3. København: Københavns Universitet Internetsider Danmarks statistik: http://www.statistikbanken.dk – Torsdag d. 12/01 2012 kl. 14:44 Den Store Danske: http://www.denstoredanske.dk/Krop,_psyke_og_sundhed/Psykologi/Analytisk_psykologi/individua tion - Onsdag d. 18/01 2012 kl. 12:36 http://www.denstoredanske.dk/Samfund,_jura_og_politik/Sociologi/Grupper/individualisering?high light=individualisering - Onsdag d. 18/01 2012 kl. 13:05 Kommunikationsforum: http://www.kommunikationsforum.dk/Kristian-Levring-Madsen/blog/det-digitale-skel- Søndag d. 15/01 2012 kl. 15:47 Politiken: http://politiken.dk/debat/signatur/ECE957839/udkantsdanmark-er-det-vilde-vesten/ -Tirsdag d. 10/01 2012 kl. 11:22 University of California: http://www.ats.ucla.edu/stat/stata/output/stata_logistic.htm 104 Bilag Bilag 1: ISCO-kode Armed forces 01 Armed forces 010 Armed forces 0100 Armed forces 1 Legislators, senior officials and managers 11 Legislators and senior officials 111 Legislators and senior government officials 1110 Legislators and senior government officials 114 Senior officials of special-interest organisations 1141 Senior officials of political-party organisations 1142 Senior officials of employers', workers' and other economic-interest organisations 1143 Senior officials of humanitarian and other special-interest organisations 12 Corporate managers 121 Directors and chief executives 1210 Directors and chief executives 122 Production and operations managers 1221 Production and operations managers in agriculture, hunting, forestry and fishing 1222 Production and operations managers in manufacturing 1223 Production and operations managers in construction 1224 Production and operations managers in wholesale and retail trade 1225 Production and operations managers in restaurants and hotels 1226 Production and operations managers in transport, storage and communications 1227 Production and operations managers in business services enterprises 1228 Production and operations managers in personal care, cleaning and related services 1229 Production and operations managers not elsewhere classified 123 Other specialist managers 1231 Finance and administration managers 1232 Personnel and industrial relations managers 1233 Sales and marketing managers 1234 Advertising and public relations managers 1235 Supply and distribution managers 1236 Computing services managers 1237 Research and development managers 1239 Other specialist managers not elsewhere classified 13 Managers of small enterprises 131 Managers of small enterprises 1311 Managers of small enterprises in agriculture, hunting, forestry and fishing 1312 Managers of small enterprises in manufacturing 1313 Managers of small enterprises in construction 1314 Managers of small enterprises in wholesale and retail trade 1315 Managers of small enterprises of restaurants and hotels 1316 Managers of small enterprises in transport, storage and communications 1317 Managers of small enterprises of business services enterprises 1318 Managers of small enterprises in personal care, cleaning and related services 1319 Managers of small enterprises not elsewhere classified 2 Professionals 21 Physical, mathematical and engineering science professionals 211 Physicists, chemists and related professionals 2111 Physicists and astronomers 2112 Meteorologists 2113 Chemists 2114 Geologists and geophysicists 212 Mathematicians, statisticians and related professionals 105 2121 Mathematicians and related professionals 2122 Statisticians 213 Computing professionals 2131 Computer systems designers, analysts and programmers 2139 Computing professionals not elsewhere classified 214 Architects, engineers and related professionals 2141 Architects, town and traffic planners 2142 Civil engineers 2143 Electrical engineers 2144 Electronics and telecommunications engineers 2145 Mechanical engineers 2146 Chemical engineers 2147 Mining engineers, metallurgists and related professionals 2148 Cartographers and surveyors 2149 Architects, engineers and related professionals not elsewhere classified 22 Life science and health professionals 221 Life science professionals 2211 Biologists, botanists, zoologists and related professionals 2212 Pharmacologists, pathologists and related professionals 2213 Agronomists and related professionals 222 Health professionals (except nursing) 2221 Medical doctors 2222 Dentists 2223 Veterinarians 2224 Pharmacists 2229 Health professionals (except nursing) not elsewhere classified 223 Nursing and midwifery professionals 2230 Nursing and midwifery professionals 23 Teaching professionals 231 College, university and higher education teaching professionals 2310 College, university and higher education teaching professionals 232 Secondary education teaching professionals 2320 Secondary education teaching professionals 233 Primary and pre-primary education teaching professionals 2331 Primary education teaching professionals 2332 Pre-primary education teaching professionals 234 Special education teaching professionals 2340 Special education teaching professionals 235 Other teaching professionals 2351 Education methods specialists 2352 School inspectors 2359 Other teaching professionals not elsewhere classified 24 Other professionals 241 Business professionals 2411 Accountants 2412 Personnel and careers professionals 2419 Business professionals not elsewhere classified 242 Legal professionals 2421 Lawyers 2422 Judges 2429 Legal professionals not elsewhere classified 243 Archivists, librarians and related information professionals 2431 Archivists and curators 2432 Librarians and related information professionals 244 Social science and related professionals 2441 Economists 2442 Sociologists, anthropologists and related professionals 2443 Philosophers, historians and political scientists 2444 Philologists, translators and interpreters 2445 Psychologists 2446 Social work professionals 245 Writers and creative or performing artists 2451 Authors, journalists and other writers 2452 Sculptors, painters and related artists 106 2453 Composers, musicians and singers 2454 Choreographers and dancers 2455 Film, stage and related actors and directors 246 Religious professionals 2460 Religious professionals 247 Public service administrative professionals 2470 Public service administrative professionals 3 Technicians and associate professionals 31 Physical and engineering science associate professionals 311 Physical and engineering science technicians 3111 Chemical and physical science technicians 3112 Civil engineering technicians 3113 Electrical engineering technicians 3114 Electronics and telecommunications engineering technicians 3115 Mechanical engineering technicians 3116 Chemical engineering technicians 3117 Mining and metallurgical technicians 3118 Draughtspersons 3119 Physical and engineering science technicians not elsewhere classified 312 Computer associate professionals 3121 Computer assistants 3122 Computer equipment operators 3123 Industrial robot controllers 313 Optical and electronic equipment operators 3131 Photographers and image and sound recording equipment operators 3132 Broadcasting and telecommunications equipment operators 3133 Medical equipment operators 3139 Optical and electronic equipment operators not elsewhere classified 314 Ship and aircraft controllers and technicians 3141 Ships' engineers 3142 Ships' deck officers and pilots 3143 Aircraft pilots and related associate professionals 3144 Air traffic controllers 3145 Air traffic safety technicians 315 Safety and quality inspectors 3151 Building and fire inspectors 3152 Safety, health and quality inspectors 32 Life science and health associate professionals 321 Life science technicians and related associate professionals 3211 Life science technicians 3212 Agronomy and forestry technicians 3213 Farming and forestry advisers 322 Health associate professionals (except nursing) 3221 Medical assistants 3222 Hygienists, health and environmental officers 3223 Dieticians and nutritionists 3224 Optometrists and opticians 3225 Dental assistants 3226 Physiotherapists and related associate professionals 3227 Veterinary assistants 3228 Pharmaceutical assistants 3229 Health associate professionals (except nursing) not elsewhere classified 323 Nursing and midwifery associate professionals 3231 Nursing associate professionals 3232 Midwifery associate professionals 33 Teaching associate professionals 331 Primary education teaching associate professionals 3310 Primary education teaching associate professionals 332 Pre-primary education teaching associate professionals 3320 Pre-primary education teaching associate professionals 333 Special education teaching associate professionals 3330 Special education teaching associate professionals 334 Other teaching associate professionals 3340 Other teaching associate professionals 107 34 Other associate professionals 341 Finance and sales associate professionals 3411 Securities and finance dealers and brokers 3412 Insurance representatives 3413 Estate agents 3414 Travel consultants and organisers 3415 Technical and commercial sales representatives 3416 Buyers 3417 Appraisers, valuers and auctioneers 3419 Finance and sales associate professionals not elsewhere classified 342 Business services agents and trade brokers 3421 Trade brokers 3422 Clearing and forwarding agents 3423 Employment agents and labour contractors 3429 Business services agents and trade brokers not elsewhere classified 343 Administrative associate professionals 3431 Administrative secretaries and related associate professionals 3432 Legal and related business associate professionals 3433 Bookkeepers 3434 Statistical, mathematical and related associate professionals 344 Customs, tax and related government associate professionals 3441 Customs and border inspectors 3442 Government tax and excise officials 3443 Government social benefits officials 3444 Government licensing officials 3449 Customs, tax and related government associate professionals not elsewhere classified 345 Police inspectors and detectives 3450 Police inspectors and detectives 346 Social work associate professionals 3460 Social work associate professionals 347 Artistic, entertainment and sports associate professionals 3471 Decorators and commercial designers 3472 Radio, television and other announcers 3473 Street, night-club and related musicians, singers and dancers 3474 Clowns, magicians, acrobats and related associate professionals 3475 Athletes, sportspersons and related associate professionals 348 Religious associate professionals 3480 Religious associate professionals 4 Clerks 41 Office clerks 411 Secretaries and keyboard-operating clerks 4111 Stenographers and typists 4112 Word-processor and related operators 4113 Data entry operators 4114 Calculating-machine operators 4115 Secretaries 412 Numerical clerks 4121 Accounting and bookkeeping clerks 4122 Statistical and finance clerks 413 Material-recording and transport clerks 4131 Stock clerks 4132 Production clerks 4133 Transport clerks 414 Library, mail and related clerks 4141 Library and filing clerks 4142 Mail carriers and sorting clerks 4143 Coding, proof-reading and related clerks 4144 Scribes and related workers 419 Other office clerks 4190 Other office clerks 42 Customer services clerks 421 Cashiers, tellers and related clerks 4211 Cashiers and ticket clerks 4212 Tellers and other counter clerks 108 4213 Bookmakers and croupiers 4214 Pawnbrokers and money-lenders 4215 Debt-collectors and related workers 422 Client information clerks 4221 Travel agency and related clerks 4222 Receptionists and information clerks 4223 Telephone switchboard operators 5 Service workers and shop and market sales workers 51 Personal and protective services workers 511 Travel attendants and related workers 5111 Travel attendants and travel stewards 5112 Transport conductors 5113 Travel guides 512 Housekeeping and restaurant services workers 5121 Housekeepers and related workers 5122 Cooks 5123 Waiters, waitresses and bartenders 513 Personal care and related workers 5131 Child-care workers 5132 Institution-based personal care workers 5133 Home-based personal care workers 5139 Personal care and related workers not elsewhere classified 514 Other personal services workers 5141 Hairdressers, barbers, beauticians and related workers 5142 Companions and valets 5143 Undertakers and embalmers 5149 Other personal services workers not elsewhere classified 516 Protective services workers 5161 Fire-fighters 5162 Police officers 5163 Prison guards 5169 Protective services workers not elsewhere classified 52 Models, salespersons and demonstrators 521 Fashion and other models 5210 Fashion and other models 522 Shop, stall and market salespersons and demonstrators 5220 Shop, stall and market salespersons and demonstrators 6 Skilled agricultural and fishery workers 61 Skilled agricultural and fishery workers 611 Market gardeners and crop growers 6111 Field crop and vegetable growers 6112 Gardeners, horticultural and nursery growers 612 Animal producers and related workers 6121 Dairy and livestock producers 6122 Poultry producers 6129 Animal producers and related workers not elsewhere classified 613 Crop and animal producers 6130 Crop and animal producers 614 Forestry and related workers 6141 Forestry workers and loggers 6142 Charcoal burners and related workers 615 Fishery workers, hunters and trappers 6151 Aquatic-life cultivation workers 6152 Inland and coastal waters fishery workers 6153 Deep-sea fishery workers 6154 Hunters and trappers 7 Craft and related trades workers 71 Extraction and building trades workers 711 Miners, shotfirers, stone cutters and carvers 7111 Miners and quarry workers 7112 Shotfirers and blasters 7113 Stone splitters, cutters and carvers 712 Building frame and related trades workers 7121 Builders 109 7122 Bricklayers and stonemasons 7123 Concrete placers, concrete finishers and related workers 7124 Carpenters and joiners 7129 Building frame and related trades workers not elsewhere classified 713 Building finishers and related trades workers 7131 Roofers 7132 Floor layers and tile setters 7133 Plasterers 7134 Insulation workers 7135 Glaziers 7136 Plumbers and pipe fitters 7137 Building and related electricians 7139 Building finishers and related trade workers not elsewhere classified 714 Painters, building structure cleaners and related trades workers 7141 Painters and related workers 7143 Building structure cleaners 72 Metal, machinery and related trades workers 721 Metal moulders, welders, sheet-metal workers, structural-metal preparers, and related trades workers 7211 Metal moulders and coremakers 7212 Welders and flamecutters 7213 Sheet-metal workers 7214 Structural-metal preparers and erectors 7215 Riggers and cable splicers 7216 Underwater workers 722 Blacksmiths, tool-makers and related trades workers 7221 Blacksmiths, hammer-smiths and forging-press workers 7222 Tool-makers and related workers 7223 Machine-tool setters and setter-operators 7224 Metal wheel-grinders, polishers and tool sharpeners 723 Machinery mechanics and fitters 7231 Motor vehicle mechanics and fitters 7232 Aircraft engine mechanics and fitters 7233 Agricultural- or industrial-machinery mechanics and fitters 724 Electrical and electronic equipment mechanics and fitters 7241 Electrical mechanics, fitters and servicers 7242 Electronics mecanics, fitters and servicers 7244 Telegraph and telephone installers and servicers 7245 Electrical line installers, repairers and cable jointers 73 Precision, handicraft, printing and related trades workers 731 Precision workers in metal and related materials 7311 Precision-instrument makers and repairers 7312 Musical instrument makers and tuners 7313 Jewellery and precious-metal workers 732 Potters, glass-makers and related trades workers 7321 Abrasive wheel formers, potters and related workers 7322 Glass-makers, cutters, grinders and finishers 7323 Glass engravers and etchers 7324 Glass, ceramics and related decorative painters 733 Handicraft workers in wood, textile, leather and related materials 7331 Handicraft workers in wood and related materials 7332 Handicraft workers in textile, leather and related materials 734 Craft printing and related trades workers 7341 Compositors, typesetters and related workers 7342 Stereotypers and electrotypers 7343 Printing engravers and etchers 7344 Photographic and related workers 7345 Bookbinders and related workers 7346 Silk-screen, block and craft textile printers 74 Other craft and related trades workers 741 Food processing and related trades workers 7411 Butchers, fishmongers and related food preparers 7412 Bakers, pastry-cooks and confectionery makers 7413 Dairy products workers 110 7414 Fruit, vegetable and related preservers 7415 Food and beverage tasters and graders 7416 Tobacco preparers and tobacco products makers 742 Wood treaters, cabinet-makers and related trades workers 7421 Wood treaters 7422 Cabinetmakers and related workers 7423 Woodworking machine setters and setter-operators 7424 Basketry weavers, brush makers and related workers 743 Textile, garment and related trades workers 7431 Fibre preparers 7432 Weavers, knitters and related workers 7433 Tailors, dressmakers and hatters 7434 Furriers and related workers 7435 Textile, leather and related pattern-makers and cutters 7436 Sewers, embroiderers and related workers 7437 Upholsterers and related workers 744 Pelt, leather and shoemaking trades workers 7441 Pelt dressers, tanners and fellmongers 7442 Shoe-makers and related workers 8 Plant and machine operators and assemblers 81 Stationary plant and related operators 811 Mining and mineral-processing-plant operators 8111 Mining plant operators 8112 Mineral-ore- and stone-processing-plant operators 8113 Well drillers and borers and related workers 812 Metal-processing plant operators 8121 Ore and metal furnace operators 8122 Metal melters, casters and rolling-mill operators 8123 Metal-heat-treating-plant operators 8124 Metal drawers and extruders 813 Glass, ceramics and related plant operators 8131 Glass and ceramics kiln and related machine operators 8139 Glass, ceramics and related plant operators not elsewhere classified 814 Wood-processing- and papermaking-plant operators 8141 Wood-processing-plant operators 8142 Paper-pulp plant operators 8143 Papermaking-plant operators 815 Chemical-processing-plant operators 8151 Crushing-, grinding- and chemical-mixing machinery operators 8152 Chemical-heat-treating-plant operators 8153 Chemical-filtering- and separating-equipment operators 8154 Chemical-still and reactor operators (except petroleum and natural gas) 8155 Petroleum- and natural-gas-refining-plant operators 8159 Chemical-processing-plant operators not elsewhere classified 816 Power-production and related plant operators 8161 Power-production plant operators 8162 Steam-engine and boiler operators 8163 Incinerator, water-treatment and related plant operators 817 Industrial robot operators 8170 Industrial robot operators 82 Machine operators and assemblers 821 Metal- and mineral-products machine operators 8211 Machine-tool operators 8212 Cement and other mineral products machine operators 822 Chemical-products machine operators 8221 Pharmaceutical- and toiletry-products machine operators 8222 Ammunition- and explosive-products machine operators 8223 Metal finishing-, plating- and coating-machine operators 8224 Photographic-products machine operators 8229 Chemical-products machine operators not elsewhere classified 823 Rubber- and plastic-products machine operators 8231 Rubber-products machine operators 8232 Plastic-products machine operators 824 Wood-products machine operators 111 8240 Wood-products machine operators 825 Printing-, binding- and paper-products machine operators 8251 Printing-machine operators 8252 Bookbinding-machine operators 8253 Paper-products machine operators 826 Textile-, fur- and leather-products machine operators 8261 Fibre-preparing-, spinning- and winding-machine operators 8262 Weaving- and knitting-machine operators 8263 Sewing-machine operators 8264 Bleaching-, dyeing- and cleaning-machine operators 8265 Fur- and leather-preparing-machine operators 8266 Shoemaking- and related machine operators 8269 Textile-, fur- and leather-products machine operators not elsewhere classified 827 Food and related products machine operators 8271 Meat- and fish-processing-machine operators 8272 Dairy-products machine operators 8273 Grain- and spice-milling-machine operators 8274 Baked-goods, cereal and chocolate-products machine operators 8275 Fruit-, vegetable- and nut-processing-machine operators 8276 Sugar production machine operators 8277 Tea-, coffee-, and cocoa-processing-machine operators 8278 Brewers-, wine and other beverage machine operators 8279 Tobacco production machine operators 828 Assemblers 8281 Mechanical-machinery assemblers 8282 Electrical-equipment assemblers 8283 Electronic-equipment assemblers 8284 Metal-, rubber- and plastic-products assemblers 8285 Wood and related products assemblers 8286 Paperboard, textile and related products assemblers 8287 Composite products assemblers 829 Other machine operators not elsewhere classified 8290 Other machine operators not elsewhere classified 83 Drivers and mobile plant operators 831 Locomotive engine drivers and related workers 8311 Locomotive engine drivers 8312 Railway brakers, signallers and shunters 832 Motor vehicle drivers 8321 Motorcycle drivers 8322 Car, taxi and van drivers 8323 Bus and tram drivers 8324 Heavy truck and lorry drivers 833 Agricultural and other mobile plant operators 8331 Motorised farm and forestry plant operators 8332 Earth-moving and related plant operators 8333 Crane, hoist and related plant operators 8334 Lifting-truck operators 834 Ships' deck crews and related workers 8340 Ships' deck crews and related workers 9 Elementary occupations 91 Sales and services elementary occupations 911 Street vendors and related workers 9111 Street vendors 9113 Door-to-door and telephone salespersons 912 Shoe cleaning and other street services elementary occupations 9120 Shoe cleaning and other street services elementary occupations 913 Domestic and related helpers, cleaners and launderers 9131 Domestic helpers and cleaners 9132 Helpers and cleaners in offices, hotels and other establishments 9133 Hand-launderers and pressers 914 Building caretakers, window and related cleaners 9141 Building caretakers 9142 Vehicle, window and related cleaners 915 Messengers, porters, doorkeepers and related workers 112 9151 Messengers, package and luggage porters and deliverers 9152 Doorkeepers, watchpersons and related workers 9153 Vending-machine money collectors, meter readers and related workers 916 Garbage collectors and related labourers 9161 Garbage collectors 9162 Sweepers and related labourers 92 Agricultural, fishery and related labourers 921 Agricultural, fishery and related labourers 9211 Farm-hands and labourers 9212 Forestry labourers 9213 Fishery, hunting and trapping labourers 93 Labourers in mining, construction, manufacturing and transport 931 Mining and construction labourers 9311 Mining and quarrying labourers 9312 Construction and maintenance labourers: roads, dams and similar constructions 9313 Building construction labourers 932 Manufacturing labourers 9320 Manufacturing labourers 933 Transport labourers and freight handlers 9330 Transport laborers and freight handlers 113 Bilag 2: Bortfaldsanalyse Overvejelser om filter er baaseret på følgende tabeller: Køn Stikprøve Analyseudvalg (filter) Bortfald Procentvist bortfald Mand 809 744 65 51,1811 Kvinde 767 705 62 48,8189 1.576 1.449 127 Total Internetforbrug Ingen adgang hjemme eller på arbejde Stikprøve Analyseudvalg (filter) Bortfald 125 109 16 Bruger aldrig 98 89 9 Mindre end en gang om mdr. 12 11 1 En gang om mdr. 11 11 0 246 220 26 Flere gange om mdr. 25 24 1 En gang om ugen 42 40 2 185 173 12 Hver dag 1.078 992 86 = Stort internetforbrug 1330 1229 101 Total 1.576 1449 127 = Lille internetforbrug Flere gange om ugen Erhverv Stikprøve 100 Procentvist tab 20,47244094 79,52755906 100 Bortfald Analyseudvalg (filter) Armed forces 4 0 4 Legislators, senior government official 1 1 0 36 34 2 Directors and chiefexecutives 114 Managers in manufacturing 12 12 0 Managers in construction 2 2 0 Managers in wholesale and retail trade 4 4 0 Managers in restaurants and hotels 1 1 0 Managers not elsewhereclassified 7 7 0 Finance and administration managers 8 8 0 Personnel and industrial relations mana 4 3 1 14 14 0 Advertising and public relations manage 4 3 1 Supply and distribution managers 3 2 1 Computing services managers 2 2 0 Research and development managers 3 3 0 Oth spec managers not elsewhere classif 1 1 0 Mngr small entagr,hunting,forestry,fis 3 3 0 Mngr small ent wholesale and retail tra 24 24 0 Mngr small ent of restaurants and hotel 1 0 1 Mngr small ent of business serventerpr 1 1 0 Mngr small ent not elsewhere classified 11 11 0 Chemists 1 0 1 Geologists and geophysicists 1 1 0 Mathematicians and related professional 1 1 0 13 12 1 Comp professionals not elsewhere classi 2 2 0 Architects, town and traffic planners 4 4 0 Civil engineers 4 3 1 Electronics, telecommunicationsenginee 1 1 0 Mechanicalengineers 4 4 0 Chemical engineers 1 1 0 Sales and marketing managers Comp systems designers,analysts,program 115 Mining engineers, metall,rel profession 1 1 0 Cartographers and surveyors 1 1 0 Arch, engin,rel prof not elsewhere clas 9 9 0 Agronomists and related professionals 3 3 0 Health professionals (exceptnursing) 2 2 0 15 15 0 Dentists 1 1 0 Veterinarians 2 2 0 Pharmacists 1 1 0 Health prof (not nursing) not elsewcla 3 3 0 Nursing and midwifery professionals 10 10 0 Coll,univ, higher educ teaching prof 12 12 0 Secondaryeducationteaching profession 14 13 1 Primaryeducationteaching professional 49 49 0 Special educationteaching professional 4 4 0 Education methods specialists 1 1 0 Other teaching prof not elsewhere class 4 4 0 Accountants 5 5 0 Personnel and careers professionals 3 3 0 38 38 0 Lawyers 3 3 0 Judges 1 1 0 Librarians,related information prof 2 2 0 Social science and related professional 1 1 0 Philologists, translators and interpret 2 2 0 Psychologists 7 7 0 Social work professionals 1 1 0 Authors, journalists and other writers 8 8 0 Medical doctors Business prof not elsewhere classified 116 Sculptors, painters and related artists 2 2 0 Composers, musicians and singers 4 4 0 Film, stage and related actors and dire 2 1 1 Religious professionals 2 2 0 Chemical and physical science technicia 7 7 0 Civil engineeringtechnicians 1 1 0 Electricalengineeringtechnicians 3 3 0 Electronics,telecomengineeringtechnic 5 5 0 Mechanicalengineeringtechnicians 4 4 0 Draughtspersons 4 4 0 19 18 1 Computer assistants 8 7 1 Computer equipment operators 3 3 0 Photogr,image,sound rec equipment oper 2 2 0 Optical,electrequipmoper not elsew cl 1 1 0 Ships' engineers 2 2 0 Ships' deck officers and pilots 3 3 0 Building and fire inspectors 2 2 0 Safety, health and quality inspectors 2 1 1 Life science technicians 5 5 0 Agronomy and forestrytechnicians 1 1 0 Medical assistants 1 1 0 Hygienists, healthenvironmentaloffice 1 1 0 Dieticians and nutritionists 2 2 0 Optometrists and opticians 2 2 0 Dental assistants 1 1 0 Physiotherapists and rel associate prof 3 3 0 Pharmaceuticalassistants 4 4 0 Phys, engin science techn not elsewcla 117 Health ass prof excpt nursing not else 6 6 0 25 25 0 Primary education teaching associate pr 2 2 0 Pre-primary edu teaching associate prof 26 26 0 Special education teaching associate pr 6 6 0 Otherteachingassociate professionals 1 1 0 Insurance representatives 1 1 0 Estate agents 1 1 0 23 23 0 Buyers 9 9 0 Appraisers, valuers and auctioneers 1 1 0 20 19 1 Clearing and forwarding agents 2 1 1 Employment agents and labour contractor 3 2 1 Administrative associate professionals 3 3 0 Adm secretaries, related associate prof 30 29 1 2 2 0 13 13 0 Government tax and excise officials 1 1 0 Government social benefits officials 1 1 0 Police inspectors and detectives 4 3 1 Social workassociate professionals 10 10 0 Decorators and commercial designers 12 12 0 Radio, television and other announcers 1 1 0 Street,nightclub,relmusicians,singers, 2 2 0 Athletes,sportspers, relatedassociate 7 6 1 Data entry operators 2 2 0 32 32 0 Nursingassociate professionals Technical and commercial sales rep Finance,sales associate prof not else c Legal related business associate prof Bookkeepers Secretaries 118 Accounting and bookkeepingclerks 2 2 0 Statistical and financeclerks 2 2 0 10 10 0 Productionclerks 7 6 1 Transport clerks 4 4 0 Library and filing clerks 2 2 0 Mail carriers and sorting clerks 7 6 1 Coding, proof-reading and related clerk 1 1 0 19 18 1 Cashiers and ticketclerks 2 2 0 Tellers and other counter clerks 3 3 0 Travel agency and related clerks 1 1 0 Receptionists and information clerks 6 6 0 Telephone switchboard operators 4 4 0 Travel attendants and travel stewards 2 2 0 Travel guides 1 1 0 Housekeepers and relatedworkers 1 1 0 Cooks 26 25 1 Waiters, waitresses and bartenders 13 12 1 Child-careworkers 27 26 1 Institution-based personal care workers 45 42 3 Home-based personal care workers 51 46 5 Hairdress,barber,beautician, related wo 8 8 0 Fire-fighters 1 1 0 Police officers 2 2 0 Prisonguards 2 2 0 Protective services workers not else cl 1 1 0 Shop,stall,marketsalespers, demonstrat 102 99 3 Stockclerks Otherofficeclerks 119 Gardeners, horticultural, nurserygrowe 5 4 1 Dairy and livestock producers 4 4 0 Animal prod, related workers not else c 3 3 0 11 11 0 Inland and coastal waters fishery worke 3 3 0 Bricklayers and stonemasons 7 5 2 21 21 0 Build frame, rel trade worker not else 1 1 0 Roofers 1 1 0 Glaziers 1 1 0 Plumbers and pipefitters 8 8 0 Building and relatedelectricians 6 6 0 Painters and relatedworkers 7 7 0 Welders and flamecutters 5 5 0 Underwaterworkers 1 1 0 12 12 0 2 1 1 Machine-tool setters and setter-operato 22 22 0 Metal wheelgrinder, polisher, tool shar 3 2 1 Motor vehicle mechanics and fitters 13 10 3 Aircraft engine mechanics and fitters 1 1 0 Electric mechanic, fitters and servicer 4 4 0 Electronic mecanic, fitters and service 4 4 0 Electric line install,repairer,cablejo 1 1 0 Precision-instrument makers and repaire 3 3 0 Jewellery and precious-metal workers 1 1 0 Bookbinders and relatedworkers 1 1 0 Butchers,fishmongers,related food prepa 5 4 1 Crop and animal producers Carpenters and joiners Blacksmith, hammer-smith,forging-press Tool-makers and related workers 120 Bakers,pastry-cooks,confectionery maker 4 3 1 Dairy products workers 1 1 0 Cabinetmakers and relatedworkers 1 1 0 Woodworking machine setter,setteropera 1 1 0 Tailors, dressmakers and hatters 2 2 0 Pelt dressers, tanners and fellmongers 1 1 0 Well drillers,borers and related worker 1 1 0 Glass,ceramicskiln,related machine ope 1 1 0 Power-production plant operators 1 1 0 Steam-engine and boiler operators 1 1 0 Incinerator,watertreatment,rel plant op 1 1 0 Industrial robot operators 9 9 0 Machine-tool operators 1 1 0 Cement, other mineral prod machine oper 1 0 1 Pharmaceutical,toiletry-prod machine op 4 3 1 Metal finish, plating,coatingmachine op 1 1 0 Chemicalprod, machine operat not else c 1 1 0 Wood-products machine operators 3 3 0 Bookbinding-machine operators 1 1 0 Paper-products machine operators 2 2 0 Weaving- and knitting-machine operators 1 1 0 Sewing-machine operators 7 5 2 Bleaching,dyeing,cleaning-machine opera 1 1 0 Meat, fishprocessmachine operator 3 3 0 Dairy-products machine operators 1 1 0 121 Baked g,cereal,chocolateprod machine op 1 1 0 Electronic-equipment assemblers 5 4 1 Wood and related products assemblers 5 5 0 Locomotiveengine drivers 2 2 0 Car, taxi and van drivers 4 4 0 Bus and tram drivers 6 6 0 18 18 0 Motorised farm, forestry plant operator 1 1 0 Earth-moving and related plant operato 8 7 1 Crane, hoist and related plant operator 1 1 0 Lifting-truck operators 8 7 1 Ships' deck crews and related workers 2 2 0 Door-to-door and telephone salespersons 3 3 0 Domestic helpers and cleaners 5 5 0 63 57 6 1 1 0 18 18 0 Messengers,package,luggage porter, deli 7 7 0 Doorkeepers,watchpersons,relatedworker 1 1 0 Garbage collectors 4 3 1 Sweepers and relatedlabourers 2 2 0 14 12 2 3 3 0 16 16 0 Building constructionlabourers 4 4 0 Manufacturing labourers 7 6 1 Transport laborers and freight handlers 27 26 1 Not applicable 45 Heavy truck and lorry drivers Helper,cleaner in office,hotel,otheres Hand-launderers and pressers Building caretakers Farm-hands and labourers Forestrylabourers Constr,maintenlabour: roads,dams,sim c 122 No answer 13 Total 1.576 Mister 5 erhvervsgrupper Alder Alder Stikprøve Analyseudvalg (filter) Bortfald 15 17 6 11 16 24 12 12 17 26 19 7 18 30 23 7 19 30 24 6 20 16 14 2 21 24 23 1 22 21 21 0 23 18 16 2 24 20 19 1 25 14 12 2 26 16 12 4 27 14 14 0 28 15 14 1 29 12 12 0 30 11 11 0 31 16 14 2 32 15 13 2 33 17 15 2 34 27 27 0 35 36 34 2 36 16 16 0 123 37 26 26 0 38 24 24 0 39 26 25 1 40 26 24 2 41 24 23 1 42 24 23 1 43 32 30 2 44 36 35 1 45 29 28 1 46 37 36 1 47 25 25 0 48 42 39 3 49 29 27 2 50 26 25 1 51 24 23 1 52 32 27 5 53 29 28 1 54 27 27 0 55 23 20 3 56 25 22 3 57 29 28 1 58 29 24 5 59 27 27 0 60 22 20 2 61 31 30 1 62 34 33 1 63 33 32 1 64 23 22 1 124 65 31 31 0 66 28 28 0 67 27 26 1 68 32 29 3 69 23 23 0 70 19 17 2 71 21 20 1 72 14 13 1 73 19 17 2 74 17 16 1 75 9 8 1 76 10 10 0 77 10 10 0 78 8 8 0 79 9 8 1 80 8 7 1 81 8 8 0 82 9 9 0 83 6 5 1 84 7 7 0 85 11 9 2 86 6 4 2 87 6 5 1 88 4 4 0 90 1 0 1 92 1 1 0 93 1 1 0 94 2 1 1 125 Total 1.576 1.449 126 Bilag 3: Standardiserede residualer mod ŷ – test for heteroskedasticitet 127 Bilag 4: Binomial fordeling 128 Bilag 5: Standardiserede grupperesidualer gruppe standardiseret grupperesidual udd0u1 0,6526 udd6u1 -0,78879 udd6u2 0,25057 udd6u3 0,321646 udd6u4 0,333389 udd6u6 0,146305 udd6u7 0,129485 udd10u1 0,51848 udd10u2 -1,92915 udd10u3 0,559989 udd10u4 0,969126 udd10u5 0,181021 udd10u6 0,213827 udd10u8 0,090222 udd13u1 0,733887 udd13u2 0,461619 udd13u3 -5,31168 udd13u4 1,140911 udd13u5 0,350365 udd13u6 0,547999 udd13u7 0,265183 129 udd13u8 0,245066 udd14u1 0,335516 udd14u2 0,433112 udd14u4 0,365569 udd14u5 0,174644 udd14u6 0,227876 udd14u7 0,109354 udd14u8 0,123045 udd15u1 0,168638 udd15u2 0,295452 udd15u3 0,208491 udd15u4 0,196851 udd15u5 0,230819 udd15u6 0,340601 udd15u7 0,137987 udd15u8 -4,87057 udd16u1 0,360568 udd16u2 0,274337 udd16u3 0,28316 udd16u4 -2,19023 udd16u5 0,218076 udd16u6 -1,43882 udd16u7 0,476055 udd16u8 0,191829 udd18u1 0,180283 udd18u6 0,238742 130 udd18u7 0,399928 udd18u8 0,109874 udd21u6 0,060954 udd21u7 0,113836 udd0g1 -0,27306 udd0g3 0,624633 udd6g1 0,170532 udd6g2 -0,07316 udd6g3 2,436294 udd6g4 -1,64606 udd6g5 -0,14146 udd6g6 0,065456 udd6g8 -2,30248 udd10g1 -1,54521 udd10g2 -0,0348 udd10g3 -0,38396 udd10g4 -0,26065 udd10g5 0,67265 udd10g6 1,712647 udd10g7 0,83511 udd10g8 0,069727 udd13g1 0,134783 udd13g2 0,944101 udd13g3 -1,6828 udd13g4 -0,59756 udd13g5 1,724736 131 udd13g6 1,439611 udd13g7 0,655291 udd13g8 -1,32783 udd14g1 0,178766 udd14g2 0,381809 udd14g3 0,599214 udd14g4 0,871487 udd14g5 1,81237 udd14g6 0,218738 udd14g7 0,278462 udd14g8 -1,20189 udd15g1 0,881843 udd15g2 0,299198 udd15g3 -0,08349 udd15g4 -0,99232 udd15g5 0,767796 udd15g6 0,28281 udd15g7 0,170292 udd15g8 -1,07658 udd16g1 0,014625 udd16g2 -2,42881 udd16g3 0,998953 udd16g4 0,337532 udd16g5 -0,44744 udd16g6 -1,07666 udd16g7 0,66726 132 udd16g8 -0,11526 udd18g1 0,226124 udd18g4 0,132971 udd18g5 0,513053 udd18g6 0,047885 udd18g7 -0,16856 udd18g8 0,685308 udd21g6 0,17178 udd21g7 0,005209 133