Att skriva en bok
Transcription
Att skriva en bok
Horst Löfgren Grundläggande statistiska metoder för analys av kvantitativa data Med övningar för programpaketet SPSS PPR • Läromedel för högskolan © Horst Löfgren 3 © Kopieringsförbud Detta verk är skyddat av lagen om upphovsrätt. Kopiering, får endast ske efter tillstånd av författaren. © Författaren och PPR 2014 4 © Horst Löfgren Förord Denna bok vänder sig till alla som behöver kunna olika metoder för beskrivning och analys av data och som helst har tillgång till statistikprogrammet SPSS. Även om boken kan fungera som en allmän bakgrund till statistiska beskrivningar och analyser av data oberoende av statistisk programvara är den i vissa delar inriktad mot SPSS. Även om boken tar upp det mesta från grunden av presenterade statistiska begrepp, beskrivningar och analyser är framställningen relativt kompakt, varför en genomgången nybörjarkurs eller litteratur med långsammare progression är lämplig som bakgrund. Innehållet i boken täcker det mesta av de grundläggande statistiska metoder, som behövs vid analys av data för användare av statistik som hjälpvetenskap, dvs. icke-specialister inom ämnet statistik. Denna bok kan användas av personer med begränsade kunskaper i statistik, men också av dem som vill använda statistisk dataanalys på en mer avancerad nivå. Många studerande inom olika utbildningar har svårigheter att tillgodogöra sig undervisningen i statistik och statistisk dataanalys. Ofta har man en negativ förhandsinställning och denna påverkar givetvis utfallet av undervisningen och lärandet. Många gånger lär sig studerande kursinnehållet i kvantitativa analyser på ett mekaniskt sätt och utan att verkligen förstå vad de gör och varför. Därför är denna bok ett försök till en koncentrerad framställning med tonvikt på förståelse. Det mekaniska räknandet klarar datorn av, om man trycker på rätt knappar. Det har emellertid visat sig att en del av lärandetiden borde ägnas åt att för hand räkna igenom enkla uppgifter för att verkligen förstå vad datorn gör, när den räknar fram ett resultat. När man väl vet vad man gör och varför, kan huvuddelen av lärandetiden ägnas åt förståelse för statistisk beskrivning och analys. Även om man själv inte samlar in egna datafiler för att analysera sina frågeställningar, måste man ha grundläggande kunskaper i statistisk dataanalys för kritiskt kunna läsa artiklar och resultat av forskning som baserar sig på kvantitativa analyser. Samtliga metoder som presenteras i boken finns i analysdelen i programpaketet SPSS. Dock finns ännu mer avancerade analysmetoder i SPSS, som inte presenteras i denna bok. Ett par avsnitt i boken är mycket © Horst Löfgren 5 sällan förekommande i grundböcker, som t.ex. avsnitten om faktoranalys, reliabilitet och index på storleksskillnader. För att resonera om kvalitet i data är det nödvändigt att ha en förståelse för begrepp som validitet och reliabilitet. Därför finns ett kort avsnitt om och förklaring av faktoranalys som en metod att analysera validiteten, dvs. pröva om man verkligen lyckats fånga in det som avsikten med de data som insamlats. Alldeles för många användare av statistisk hypotesprövning har inte förstått skillnaden mellan statistisk signifikans och storleksskillnader. Därför finns i boken avsnitt som förklarar skillnaden mellan säkerhet och storlek i statistiska slutsatser. Dessutom ges olika mått på effektstorlek. Till boken finns en datafil från en verklig undersökning (IEA-Written Composition; data från det svenska stickprovet ”Elever i årskurs 9”), som tidigare kunde hämtas från min webbsida på Internet. Filen finns nu på en CD-skiva som kan erhållas av mig. På denna dataskiva finns också lösningar till bokens övningsuppgifter. CD-skivan innehåller också ett tryckfärdigt manus för hela boken. Boken innehåller fyra kapitel. Det första kapitlet är en kort introduktion till statistikens huvuddelar, beskrivning och inferens, samt en beskrivning av olika typer av mätskalor. Det andra kapitlet behandlar beskrivande statistik. Här presenteras central- och spridningsmått, grafisk representation, korrelation och prediktion. Kapitlet innehåller också något mer avancerade metoder som multipel regressionsanalys, logistisk regressionsanalys, faktoranalys och metoder för reliabilitetsskattning. I kapitel tre presenteras olika parametriska hypotesprövningsmetoder, såväl för ett som för flera stickprov. En väsentlig del av texten behandlar enfaktoriella och flerfaktoriella variansanalyser. Förutom signifikansbestämningar presenteras metoder för bedömning av storleksskillnader i undersökningsresultat. Detta avsnitt är synnerligen väsentligt, för att korrekt kunna tolka undersökningsresultat. Det fjärde kapitlet behandlar icke-parametriska hypotesprövningsmetoder för ett och flera stickprov. I Appendix finns statistiska tabeller och en presentation av övningsfilen med tillhörande övningsuppgifter. Barsebäck våren 2014 Horst Löfgren 6 © Horst Löfgren Innehåll Förord .......................................................................................................... 3 1 Inledning............................................................................................ 11 2 Beskrivande statistik ......................................................................... 14 2.1 Central- och spridningsmått ....................................................... 14 2.2 Grafisk framställning ................................................................. 21 2.3 Sambandsmått - Korrelation ...................................................... 22 2.3.1 Pearson's produkt-moment korrelation ............................ 23 2.3.2 Tolkning av olika värden på korrelationen ...................... 27 2.3.3 Samband mellan variabler på selekterade grupper .......... 29 2.3.4 Linjära och icke-linjära samband .................................... 30 2.3.5 Spearman's rangkorrelation ............................................. 31 2.4 Den standardiserade normalfördelningen; z-poäng ................... 32 2.5 Regression.................................................................................. 33 2.6 Multipel korrelation och multipel regression ............................. 38 2.6.1 Stegvis regressionsanalys ................................................ 41 2.6.2 Ett exempel på linjär multipel regression och stegvis multipel regression .......................................................... 41 2.6.3 Logistisk regressionsanalys ............................................. 45 2.6.4 Användning av s.k. dummy-variabler ............................. 47 2.7 Faktoranalys ............................................................................... 49 2.7.1 Vad är faktoranalys? ........................................................ 49 2.7.2 Extrahering av faktorer - ett förklarande exempel ........... 51 2.7.3 Gemensam varians, specifik varians och felvarians ........ 53 2.7.4 Arbetsgången vid faktoranalys ........................................ 54 2.7.5 Ett praktiskt exempel och förklaring av analysresultatet ................................................................ 55 2.8 Reliabilitet.................................................................................. 59 2.8.1 Beräkning av Cronbach’s alpha ....................................... 61 2.8.2 Ett numeriskt exempel ..................................................... 62 © Horst Löfgren 7 3 Parametriska hypotesprövningsmetoder............................................ 66 3.1 Urvalsmetoder............................................................................ 66 3.2 Sannolikhetsbegreppet ............................................................... 70 3.3 Samplingfördelning ................................................................... 71 3.4 Skattningar ................................................................................. 74 3.5 Hypotesprövning........................................................................ 77 3.6 Hypotesprövning av ett stickprov i förhållande till en population .................................................................................. 84 3.7 Hypotesprövning av en medelvärdes-differens mellan två oberoende stickprov ................................................................... 89 3.8 Hypotesprövning av en medelvärdes-differens mellan två beroende stickprov ..................................................................... 93 3.9 Hypotesprövning av medelvärdes-differenser med hjälp av variansanalys.............................................................................. 95 3.10 Enfaktors ANOVA; oberoende grupper .................................... 97 3.11 Lämpliga index på relationen mellan oberoende och beroende variabel ..................................................................... 103 3.11.1 Omega-kvadrat .............................................................. 103 3.11.2 Eta-kvadrat ................................................................... 104 3.11.3 Effektstorlek ................................................................. 105 3.12 Tvåfaktors ANOVA; oberoende grupper................................. 107 3.13 Enfaktors ANOVA; beroende grupper .................................... 114 2.14 Kovariansanalys, ANCOVA .................................................... 118 4 Icke-parametriska hypotes-prövningsmetoder ................................ 121 4.1 Analys av stickprovsdata i förhållande till populationsdata .... 122 4.1.1 Chi-kvadrat-testet för ett stickprov ................................ 123 4.1.2 Run-testet ....................................................................... 125 4.2 Analys av differensen mellan två oberoende stickprov ........... 127 4.2.1 Chi-kvadrat-testet för två oberoende stickprov ............. 128 4.2.2 2-analys av en 2x2 kontingenstabell............................ 130 4.2.3 Mann-Whitney U-test .................................................... 131 4.2.4 Kolmogorov-Smirnov-testet för två oberoende stickprov ........................................................................ 134 4.2.5 Wald-Wolfowitz Runs ................................................... 136 8 © Horst Löfgren 4.3 Analys av differensen mellan två beroende stickprov ............. 138 4.3.1 McNemar-testet ............................................................. 138 4.3.2 Wilcoxon’s teckenrangtest ............................................ 140 4.4 Några index byggda på 2 ....................................................... 143 4.4.1 Kontingenskoefficienten................................................ 143 4.4.2 Cramérs index ................................................................ 145 4.5 Analys av differenser mellan tre eller flera oberoende stickprov .................................................................................. 145 4.5.1 Chi-kvadrat-testet för tre eller flera oberoende stickprov ........................................................................ 146 4.5.2 Kruskal-Wallis testet ..................................................... 148 4.6 Analys av differensen mellan tre eller flera beroende stickprov .................................................................................. 150 4.6.1 Cochran Q-test ............................................................... 151 4.6.2 Friedman testet .............................................................. 152 Appendix ................................................................................................. 155 Ett förenklat exempel på varianskomponenter i variansanalys ....... 156 Tabeller ............................................................................................ 157 Enkät och övningsuppgifter ............................................................. 173 Index ........................................................................................................ 181 © Horst Löfgren 9 10 © Horst Löfgren 1 Inledning Statistik utnyttjas av många vetenskapliga discipliner och ger oss bl.a. metoder för att sammanställa insamlade data och dra generaliserbara slutsatser. Den statistiska kunskapen hjälper oss i forskningsprocessen med frågor rörande urval, beskrivning, analys, tolkning och presentation av data. I olika typer av undersökningar, både experimentella och icke-experimentella, vill vi på lämpligt sätt kunna beskriva de observationer som insamlats. Med hjälp av de s.k. deskriptiva metoderna kan vi organisera och sammanfatta resultat av observationer. Vi utnyttjar således den deskriptiva statistiken, när vi vill sammanfatta våra observationer genom att t.ex. ange central-, spridnings- och korrelationsmått. Ofta vill vi uttala oss mera generellt om resultat, som erhållits i en undersökning från en mindre grupp. För att kunna dra slutsatser från ett stickprov till en större bakomliggande grupp (population) används den del av statistiken som kallas inferensstatistik. Grunden för de metoder vi utnyttjar för att våga generalisera från observerade data till en population är den s.k. sannolikhetsteorin. Med hjälp av denna sannolikhetsteori kan vi hantera osäkerheten i våra data. Det finns alltid en viss osäkerhet, när man gör prediktioner till andra grupper än den som undersökts. Om vi har data om hela populationen, kan vi direkt beskriva dess egenskaper. Medelvärdet och standardavvikelsen i populationen, dvs. egenskaper i populationen, kallas parametrar och betecknas ofta med grekiska bokstäver. Karakteristika i ett stickprov, t.ex. medelvärde och standardavvikelse betecknas med vanliga (romerska) bokstäver. Dessa från stickprovet beräknade värdena kallas i engelskspråkig litteratur för “statistics“. Population Figur 1.1. © Horst Löfgren Stickprov M; s Beskrivande mått i population och stickprov samt relationen dem emellan 11 Vid insamling av data utnyttjas olika typer av mätinstrument. En mätning kan definieras som tilldelandet av tal på objekt eller händelser i enlighet med vissa regler. Det faktum att tal kan sättas med utgångspunkt från olika regler leder till olika slags skalor och olika slags mätningar. Vi får då ta hänsyn till följande: a) olika regler för att sätta siffervärden, b) skalornas matematiska egenskaper, c) vilka statistiska operationer som kan appliceras på de olika skaltyperna. Det finns två typer av numeriska data om de fenomen vi studerar. Om vi endast räknar antal av den variabel som studeras erhålls frekvenser. Exempelvis räknar vi antalet män och kvinnor i ett observationsmaterial eller antalet elever som väljer olika linjer i gymnasieskolan. Om vi i stället mäter den variabel som studeras erhålls metriska värden, dvs. skalvärden. Exempelvis kan vi mäta längden på en grupp män och kvinnor eller kunskapsprestationer på elever i skolan. En frekvens anger antalet observationer i en viss kategori. Den enklaste formen av "mätning" är klassifikation av data, vilket ger frekvenser i kvalitativt olika kategorier. Vid variabler som kan kvantifieras, dvs. anta olika värden, skiljer vi på kontinuerliga och diskreta sådana. En kontinuerlig variabel kan anta vilket värde som helst inom ett givet intervall (längd, kunskaper), medan en diskret variabel endast kan anta vissa bestämda skalvärden (antal barn per familj). Vi brukar tala om fyra skaltyper: 1. Nominalskala Detta är egentligen ingen skala utan en klassificering av olika objekt eller individer. Vi gör med andra ord ingen egentlig mätning, när vi arbetar med kvalitativa variabler som exempelvis kön, civilstånd och utfall vid slantsingling. 2. Ordinalskala Vid denna mätning av kvantitativa variabler utnyttjas endast rangordningen mellan de tal som tilldelats de olika objekten eller individerna. Om exempelvis elever har erhållit olika antal poäng på ett prov kan vi utnyttja relationerna bättre än och sämre än. Vi kan däremot inte säga något om 12 © Horst Löfgren differensernas relativa storlek. De flesta mätningar av förmågor, kognitiva och icke-kognitiva egenskaper, är av ordinalskaletyp. Som exempel kan nämnas kunskaper, betyg och attityder. 3. Intervallskala Om vi förutom rangordningen mellan mätobjekten kan säga något om intervallernas storlek, exempelvis att avståndet mellan 5 och 10 poäng är lika stort som avståndet mellan 10 och 15 poäng, talar vi om ekvidistanta skalsteg. Här kan vi som ett exempel nämna temperaturskalan enligt Celsius. Differensen mellan +10 grader och +15 grader är lika stor som mellan +20 grader och +25 grader. Eftersom 0 grader inte är någon absolut nollpunkt kan vi emellertid ej säga att +20 grader är dubbelt så varmt som +10 grader. 4. Kvotskala I denna skala kan vi utnyttja alla tre egenskaperna hos talsystemet; ordning, differens och nollpunkt. Det innebär att vi kan tala om kvoter. Ett bra exempel på en sådan här skala är längdskalan. Ett objekt som har en längd av 100 cm är dubbelt så långt som ett av längden 50 cm. Viktskalan är ett annat bra exempel. Detta att vi åsätter våra mätobjekt vissa tal innebär således att vi inte alltid får utnyttja egenskaperna hos dessa tal. Olika statistiska operationer tillåts beroende på skaltyp. Här har man ibland diskuterat, om vi trots sämre skalor inom beteendevetenskaperna (oftast ordinalskala) ska få använda statistiska beräkningar, som egentligen kräver minst intervallskala. Utan att här närmare gå in på dessa problem kan vi konstatera, att vi kanske ibland efter att ha tilldelat våra mätobjekt ett visst tal fortsätter att resonera som om mätningen har talens egenskaper. Man kan alltid räkna med statistiskt avancerade metoder, men det är de bakomliggande psykologiska relationerna, som bestämmer huruvida den statistiska metoden leder till vettiga resultat. Man kan nämligen erhålla olika resultat beroende på om man anser sig ha en ordinal-, intervall- eller kvotskala, trots att det är samma psykologiska egenskaper som ursprungligen mättes. I många fall kan det räcka med att skilja mellan kategorivariabler (nominal) och kontinuerliga variabler. Om man har data från någon observationsvariabel och kan anta att bakomliggande populationsdata är approximativt normalt fördelade, går det bra att använda metoder som egentligen kräver data på intervall- eller kvotskalenivå. © Horst Löfgren 13 2 Beskrivande statistik Man använder sig av beskrivande statistik, när man sammanfattande vill beskriva sina insamlade data. Det kan handla om att beskriva hur data fördelar sig över olika värden, att ange central- och spridningsmått. Man kan också vilja beskriva hur olika mätvariabler förhåller sig till varandra, dvs. hur de samvarierar (korrelerar). Har man flera olika mätvariabler kan man vara intresserad att studera om man utifrån några variabler kan predicera utfallet i en s.k. utfallsvariabel. Man kan också vilja studera, om man kan slå samman olika mätvariabler för att t.ex. bilda summavariabler. För att kunna bilda sådana summavariabler eller index måste vi veta, att det är rimligt att slå samman enskilda mätvariabler. Därför vill vi studera både validitet, dvs. om vi mäter det vi avsåg att mäta och reliabilitet, dvs. hur tillförlitliga våra mätningar är. Det är väsentligt att få mått på kvaliteten i våra data, i synnerhet om vi har konstruerat de begrepp, som vi försöker mäta. Många av de begrepp vi använder oss av och som vi försöker mäta är inte alltid lätta att fånga in. Ofta är de mest intressanta begreppen svårast att operationellt definiera och därmed svåra att komma åt. Dessutom innehåller svåruppmätta variabler ofta ganska stora mätfel. Det finns emellertid lämpliga metoder för att studera både validitet (relevans) och reliabilitet (tillförlitlighet). 2.1 Central- och spridningsmått För att sammanfatta hur insamlade data fördelar sig över olika observationsvärden anger man lämpligen ett mått på centraltendens, dvs. man anger det värde som är mest representativt för det material som insamlats. Dessutom anger man vanligen också hur mätvärdena sprider sig i den variabel som observerats. Det finns tre mått på central tendens, nämligen Typvärde (T), Median (Md) och Medelvärde (M). De engelska termerna är Mode, Median och Mean. Till dessa centralmått hör de tre spridningsmåtten Variationsvidd 14 © Horst Löfgren (V), Kvartilavstånd och Standardavvikelse (s). Motsvarande engelska termer är Range, Interquartile range (IQR) och Standard deviation. Typvärdet är det värde som oftast förekommer i det insamlade materialet, dvs. det värde som har den högsta frekvensen. Tillhörande spridningsmått är variationsvidd, vilket är skillnaden mellan det högsta och det lägsta värdet i fördelningen. Dessa beskrivande mått ger ganska lite information. För nominalskalerade observationsvariabler är typvärdet det enda relevanta mått, som kan anges för att ge information om insamlade data. Medianvärdet används lämpligen vid s.k. sneda fördelningar på ordinal-, intervall- eller kvotskalerade observationsvariabler. Medianvärdet är det värde som den mittersta observationen har. Medianen delar s a s en fördelning i två lika stora delar; 50 % av antalet observationer ligger ovanför respektive nedanför medianen. Tillhörande spridningsmått kallas kvartilavstånd, som är avståndet i x-variabeln mellan den 75 percentilen (P75) och den 25 percentilen (P25). Dessa båda punkter innesluter de mittersta 50 % av observationerna. Divideras kvartilavståndet med två erhålls ett alternativt sätt att uttrycka spridningen på, nämligen kvartilavvikelsen. Observera att avståndet mellan P75 och Md inte är lika stort som avståndet mellan Md och P25 vid sneda fördelningar. Det kan här nämnas att man i forskningsrapporter och artiklar sällan finner att kvartilavstånd eller kvartilavvikelsen använts som mått på variationen i ett material. Figur 2.1. © Horst Löfgren Median och kvartilavstånd 15 Om en fördelning är approximativt normalfördelad och därmed någorlunda symmetrisk används det aritmetiska medelvärdet, vanligen endast kallad medelvärde. Det erhålls genom att summera samtliga observationer och dividera med antalet observationer. xi M = ___ n (formel 2.1) Standardavvikelsen är ett avstånd i mätvariabeln (på x-axeln) så stort att mellan medelvärdet (M) och +1 standardavvikelse (s) ligger ungefär 34 % av alla observationerna i materialet och likaså mellan M och -1s. Mellan minus en standardavvikelse och plus en standardavvikelse ligger således 68 % av samtliga observationer. Mellan M +/- 2s ligger ungefär 95 % av alla observationer. I normalfördelningen ligger 68,3 % av observationerna i intervallet M +/- s och 95,4 % i intervallet M +/- 2s. Eftersom nästa alla observationer ligger mellan -2s och +2s, dvs. inom fyra standardavvikelser blir standardavvikelsen i ett normalfördelat observationsmaterial något mer än en fjärdedel av variationsvidden. Standardavvikelsen i kvadrat kallas för varians. Variansen i en population är lika med den genomsnittliga kvadrerade avvikelsen från medelvärdet. Roten ur detta värde (variansen) är lika med standardavvikelsen. = xi-M)2 ________ N (formel 2.2) Då variansen i ett stickprov tenderar att underestimera variationen i populationen korrigeras formeln vid beräkning av standardavvikelsen i ett stickprov i enlighet med formel 2.3. s= (xi - M)2 ____________ n–1 (formel 2.3) Om vi skriver om formel 2.3 blir det enklare att beräkna standardavvikelsen. 16 © Horst Löfgren s= (x)2 x2 - _____ n ________________ n-1 (formel 2.4) Vid valet av beskrivande mått, t.ex. central- och spridningsmått är fördelningens utseende i observationsmaterialet av stor betydelse. Om mätvärdena är approximativt normalfördelade, dvs. de flesta observationerna ligger i mitten och färre observationer med extrema värden, används aritmetiskt medelvärde och standardavvikelse. Om mätvärden i stället är påtagligt snedfördelade är median och kvartilavvikelse lämpligare mått. Figur 2.2. Medelvärde (M) och standardavvikelse (s) Observera dock att fördelningens utseende oftast avgör valet av beskrivande mått. Ovan angivna sambandsmått baserar sig på att båda de studerade variablerna är av samma skaltyp. Det finns nämligen ett antal av olika sambandsmått för skilda kombinationer av mätskalor. © Horst Löfgren 17 Ruta 2.1. Vanliga beskrivande mått vid olika typer av mätskalor Skaltyp Centralmått Spridningsmått Sambandsmått Nominal Typvärde Ordinal Median Kvartilavvikelse Rangkorrelation Intervall/ Kvot Medelvärde Standardavvikelse Produkt-momentkorrelation Phi, Cramérs V Vi tänker oss att vi ska genomföra en undersökning om rökvanor i en viss grupp. Vilken är den enklaste frågan som kan ställas för att få information om rökning? Om vi ställer frågan ”Röker du” och svarsalternativen är ”Ja” eller ”Nej” erhålls en viss information om rökvanor i gruppen. Informationen är tillräcklig för att åtminstone klassificera individerna i gruppen som rökare eller icke-rökare och vi kan ange frekvensen av svar i respektive grupp. Vi har erhållit data på nominalskalenivå, dvs. en klassificering med kategorierna rökare och icke-rökare. På basis av data kan vi ange typvärdet, dvs. om det finns flest rökare eller flest icke-rökare i gruppen. Som lätt inses är kvalitén i data ganska dålig. I gruppen rökare kan det finns alltifrån feströkare till kedjerökare. Om vi förändrar vår fråga kan vi få mer information. Nu ställer vi en fråga som lyder så här: Hur mycket röker du? Ange med kryss! Inte alls Vid enstaka tillfällen Varje dag ( ) ( ) ( ) Flera gånger om dagen ( ) Denna fråga ger mer information än den föregående. Rimligen borde man ganska väl kunna rangordna respondenterna i fyra grupper. Data ligger på ordinalskalenivå. Visserligen skulle man kunna se på resultatet som fyra kategorier, men det går ju faktisk att till viss del rangordna respondenterna. Rökandegruppen har ju differentierats till tre grupper. Vilken är då den bästa fråga man kan ställa till gruppen för att inte bara rangordna respondenterna utan också säga något avstånden mellan olika 18 © Horst Löfgren svarsalternativ? Om vi endast håller oss till cigarettkonsumtion kan vi ställa följande fråga: Hur många cigaretter röker du i genomsnitt per dag? ___________ cigaretter Nu har vi god information och kan uttala oss om att en viss individ röker dubbelt så mycket som en annan, eller hälften så mycket etc. Eftersom man kan göra detta ligger data på kvotskalenivå, dvs. har en nollpunkt. När man samlar in information bör man sträva efter att få så bra data som möjligt. Om man kan erhålla data på intervall- eller kvotskalenivå så är detta naturligtvis bättre än data på endast ordinalskalenivå eller nominalskalenivå. Effektivare statistiska metoder kan användas om data ligger på en ”högre” nivå. De flesta kvantitativa variabler kan klassificeras som symmetriska eller sneda. I en symmetrisk fördelning kan man dra en vertikal linje genom mittpunkten, så att den ena sidan av fördelningen är en spegelbild av den andra sidan. Fördelningen över data jämförs med normalfördelningen, som är matematiskt bestämd och som har ett visst utseende. Normalfördelningen är perfekt symmetrisk. Figur 2.3. © Horst Löfgren Exempel på olika fördelningar i jämförelse med normalfördelningen 19 För att visa tillvägagångssättet vid beräkning av median, medelvärde och standardavvikelse ges följande exempel: I en grupp individer observerades följande resultat på ett test (här presenterade i ordning från sämsta till bästa resultat): 1,2,2,2,3,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,5,6,6,6,6,6,6,7,7,7,7,8,8,9,9 Redovisa resultatet i en frekvenstabell och beräkna medianvärdet, medelvärdet och standardavvikelsen för gruppen! Eftersom vi i exemplet ovan har 36 observationer blir medianvärdet genom snittet av observation nr 18 och nr 19. Då båda observationerna har värdet 5 blir medianen 5. Kvartilavståndet är 2,5 (P75=6 och P25 ligger mellan 3 och 4, dvs. 3,5) och således kvartilavvikelsen 1,25. För att beräkna medelvärdet och standardavvikelsen används formlerna 2.1 och 2.4. Frekvenstabell Variabelvärde Frekvens Kumulativ Relativ x f frekvens frekvens i % 1 2 3 4 5 6 7 8 9 Totalt 1 3 5 5 8 6 4 2 2 1 4 9 14 22 28 32 34 36 36 100 2,8 8,3 13,9 13,9 22,2 16,7 11,1 5,6 5,6 f .x f . x2 1 6 15 20 40 36 28 16 18 1 12 45 80 200 216 196 128 162 180 1040 fxi 180 M = ____ = ____ = 5,0 n 36 s= 20 fx)2 fx2 - _____ n ___________________ n–1 2 180 ____ 36 ____________________ 1040 = 35 = 2,00 © Horst Löfgren 2.2 Grafisk framställning Det kan många gånger vara lämpligt att åskådliggöra de data som samlats in grafiskt. Olika former av diagram kan till läsaren överföra information om observationsmaterialets utseende. Det finns olika typer av diagram, som då kan användas. Bra diagram är de som överför korrekt information till läsaren. I diagram med en horisontell och en vertikal axel (x- och yaxel) anges vanligtvis mätskalan på den horisontella axeln och frekvensen på den vertikala. Ruta 2.2. Några lämpliga typer av diagram a) Stolpdiagram frekvens x b) Histogram frekvens x c) Frekvenspolygon frekvens x © Horst Löfgren 21 Vid nominalskala, dvs. när man har frekvenser av olika kategorier, används stolpdiagram (stapeldiagram). Höjden i varje stapel anger frekvensen av de olika kategorierna. Stolpdiagram är även lämpligt att använda vid diskreta variabler. Med diskret variabel menas en variabel, som endast kan anta vissa värden. Vid kontinuerliga variabler, dvs. variabler som kan anta ett obegränsat antal värden, används histogram eller frekvenspolygon. Även vid klassindelat material, beroende på stort antal variabelvärden, används dessa båda diagram. Om man sammanbinder klassmittpunkterna i ett histogram och därvid börjar och slutar på x-axeln erhålls en frekvenspolygon. I SPSS kan man ange vilken skalnivå man har på sina mätvärden; nominal, ordinal eller intervall/kvot (de sistnämnda kallas i SPSS för Scale). Man kan dessutom erhålla flera andra typer av diagram. Om man har data på intervall- eller kvotskalenivå (Scale i SPSS) kan man till sitt histogram begära att normalfördelningskurvan läggs in. 2.3 Sambandsmått - Korrelation Det finns flera olika mått på relationer mellan variabler. Valet av sambandsmått beror på typ av skala på respektive variabel. Om vi studerar sambandet mellan två intervall- eller kvotskalerade variabler används Pearson's produkt-moment korrelation. Denna metod används också vid approximativt normala fördelningar, även om de studerade variablerna egentligen endast är på ordinalskalenivå. Om båda variablerna är av ordinalskaletyp används i stället Spearman's rangkorrelation. Skulle båda variablerna vara nominalskalerade, dvs. kategorivariabler används Cramérs index (jfr avsnitt 4.4.2). Om båda variablerna är dikotoma är phikoefficienten det mått man använder för att uttrycka sambandet. För kombinationer av variabler på olika skalnivå finns speciella korrelationskoefficienter. En sådan, som redan här kan nämnas, är eta. Den används för att uttrycka sambandet mellan en kategorivariabel (nominalskala) och en kontinuerlig variabel (jfr avsnitt 3.11.2). En korrelation mellan två variabler säger ingenting om orsak-verkan relationen. Relationen mellan variabler kan mycket väl vara av kausalt slag, men korrelationskoefficienten säger ingenting om den saken. Inom sam- 22 © Horst Löfgren hällsvetenskaperna är det ofta så att kausala relationer är sällsynta. Ofta är de ting vi studerar mycket komplexa och relationerna mellan variabler likaså. Många gånger kan det behövas något beskrivande mått på hur två variabler är relaterade till varandra för en given grupp individer. Vi kan exempelvis vara intresserade att studera sambandet mellan vissa läraregenskaper och elevbeteenden. Många sådana sambandsstudier inom lärarlämplighetsforskningen har genomförts, tyvärr oftast med magert resultat. Finns det, för att nämna ett annat exempel, samband mellan resultat på skolmognadsprov och senare framgång i skolan? Hur är relationen mellan social bakgrund och rekrytering till högre studier? Hur väl kan ett antal prediktorer predicera framgång i högre studier? 2.3.1 Pearson's produkt-moment korrelation Data har insamlats från 12 elitdomare i fotboll. Bl.a. har man registrerat deras längd och vikt. Vi är intresserade att studera sambandet mellan resultaten på dessa båda variabler. Eftersom båda variablerna är typiska kvotskalor, väljer vi Pearson’s produkt-momentkorrelation. Tabell 2.1. Resultat av längd- och viktmätning av 12 elitdomare ____________________________________________________________ Individ Längd Vikt Individ Längd Vikt cm kg cm kg ____________________________________________________________ A 175 80 G 178 73 B 191 75 H 186 90 C 169 64 I 177 71 D 184 78 J 181 81 E 195 85 K 188 78 F 172 63 L 180 70 ____________________________________________________________ Utifrån data som presenteras i Tabell 2.1 kan man göra upp ett s.k. prickdiagram (Scattergram i SPSS). Det innebär att varje individs resultat på de två variablerna inprickas i ett koordinatsystem. © Horst Löfgren 23 195,00 190,00 Längd 185,00 180,00 175,00 170,00 165,00 60,00 65,00 70,00 75,00 80,00 85,00 90,00 Vikt Figur 2.4. Prickdiagram över resultatet på längd och viktmätning Av prickdiagrammet framgår att det finns ett påtagligt samband mellan längd och vikt. Långa personer väger mer och kortvuxna mindre. Dock stämmer inte detta perfekt. Den som väger mest är inte den som är längst. Om ett högt resultat på den ena variabeln korresponderar med ett högt resultat på den andra variabeln, och ett lågt resultat på den ena variabeln korresponderar med ett lågt resultat på den andra variabeln leder detta till ett högt positivt samband. Vi kan visa detta genom att uttrycka varje observation som en avvikelse från sitt gruppmedelvärde (xi - Mx) och (yi My). Om en individ har ett högt värde på båda variablerna, som exempelvis domare E, blir produkten (xE - Mx).(yE - My) hög och positiv. På samma sätt blir produkten hög och positiv om en individ har lågt resultat på båda variablerna (produkten av två negativa tal blir positiv). Om detta gäller för de flesta individerna (högt värde paras med högt och lågt värde paras med 24 © Horst Löfgren lågt) blir summan av alla produkterna (xi - Mx).(yi - My) hög och positiv. Skulle variablerna x och y ha en motsatt relation (högt värde parad med lågt y-värde och vice versa) leder detta till att vi får en negativ och en positiv term, vilket leder till att produkten blir negativ. Summan av produkterna över samtliga individer blir då hög, men negativ. Finns det slutligen inte någon systematisk relation mellan variablerna x och y erhålls ibland positiva avvikelser och ibland negativa avvikelser. Produkterna för dessa avvikelser (xi - Mx).(yi - My) blir då ibland positiva och ibland negativa. Summerar vi över alla individer erhålls en summa nära noll. För att summor i olika sambandsundersökningar ska kunna jämföras måste man ta hänsyn till antalet produkter, dvs. till antalet individer. Därför dividerar vi summan av produkterna med n - 1. Denna genomsnittliga produkt kallas kovariansen av x och y. (xi - Mx)(yi - My) Kovxy = _________________ n-1 (formel 2.5) Eftersom vi nu övergått till observationernas avvikelser från Mx respektive My har vi därmed kommit förbi olägenheten med att variablerna har olika medelvärden. Kovariansen av x och y är således oberoende av variablernas medelvärden. Fortfarande är dock standardavvikelsen för respektive variabel betydelsefull. För att vi ska erhålla ett standardiserat mått på överensstämmelsen mellan två variabler, dividerar vi kovariansen med standardavvikelserna för de båda variablerna. Detta mått på sambandet mellan x och y kallas för Pearson's produkt-moment korrelation (rxy). Kovxy (xi - Mx)(yi - My) / (n - 1) rxy = _______ = __________________________________ (formel 2.6) sx.sy (xi - Mx)2 / (n - 1) . (yi - My)2 / (n - 1) Efter förkortning med (n - 1) erhålls: © Horst Löfgren 25 (xi - Mx)(yi - My) rxy = __________________________ (xi - Mx)2 . (yi - My)2 (formel 2.7) Som exempel på uträkning av rxy väljer vi observationerna från tabell 2.1. För att beräkningarna av rxy ska bli enklare att genomföra kan formel 2.7 transformeras till följande: xy xy - ______ n rxy = ____________________________ (x)2 (x)2 _____ 2 _____ (x2 ) (y ) n n (formel 2.8) Tabell 2.2. Resultat av längd- och viktmätning av 12 elitdomare ____________________________________________________________ Individ Längd (x) Vikt (y) x. y x2 y2 ____________________________________________________________ A 175 80 14000 30625 6400 B 191 75 14325 36481 5625 C 169 64 10816 28561 4096 D 184 78 14352 33856 6084 E 195 85 16575 38025 7225 F 172 63 10836 29584 3969 G 178 73 12994 31684 5329 H 186 90 16740 34596 8100 I 177 71 12567 31329 5041 J 181 81 14661 32761 6561 K 188 78 14664 35344 6084 L 180 70 12600 32400 4900 ____________________________________________________________ Summa 2176 908 165130 395246 69414 ____________________________________________________________ 26 © Horst Löfgren Enligt formel 2.8 erhålls: 2176 . 908 165130 - __________ 12 rxy = ________________________________ = 0,698 21762 9082 (395246 - _____ ) (69414- _____ ) 12 12 Produkt-moment korrelationen mellan de båda variablerna, längd och vikt är för dessa personer 0,70. Korrelationen i kvadrat kallas determinationskoefficient och ger andel gemensam varians i de båda variablerna. Den anger proportion av varians i den ena variabeln, som bestäms av relationen med den andra variabeln. Sålunda är 49 % (0,702) gemensam varians. Figur 2.5. 2.3.2 Andel gemensam varians mellan två variabler (x och y), vars korrelation är 0,70 Tolkning av olika värden på korrelationen Korrelationskoefficienten rxy kan endast anta värden mellan +1,0 och -1,0. Högsta möjliga samband är således +1,0 och även -1,0. Det sistnämnda är ett perfekt negativt, eller omvänt samband (jfr Ruta 2.3). Vad som avses med ett högt respektive lågt samband bör naturligtvis relateras till vilka variabler det gäller och vad som tidigare är kända förhållanden om relationen mellan dessa variabler. Det kan här också påpekas att lineära transformationer av x och/eller y inte kan påverka korrelationens storlek; rxy är ju ett standardiserat mått. © Horst Löfgren 27 Ruta 2.3. Tolkning av några olika värden på rxy 28 © Horst Löfgren 2.3.3 Samband mellan variabler på selekterade grupper Om man studerar samband mellan variabler och där någon av variablerna har begränsad variationsvidd, t.ex. beroende på att det är en selekterad grupp av individer, blir korrelationskoefficienten lägre än om man observerat hela gruppen. Efter nedanstående figur följer ett förklarande exempel. Figur 2.6. Samband mellan ett verbalt begåvningstest och ett allmänt språkfärdighetstest i engelska Exempelvis fann man i några språkfärdighetsstudier, att sambandet mellan ett verbalt begåvningstest och ett antal språkprov på ett främmande språk var måttligt eller till och med ganska lågt i en grupp gymnasieelever. Detta © Horst Löfgren 29 innebär emellertid inte att sambandet mellan begåvningstest och språkfärdighetstest är lågt för alla individer. Ovannämnda resultat erhölls för en selekterad grupp av gymnasieelever på humanistisk linje. Eftersom elever med relativt höga resultat på verbala begåvningstest väljer gymnasieskolans humanistiska linje blir korrelationskoefficienten mellan provresultat och begåvning ganska låg för dessa elever. Förhållandet kan belysas med hjälp av en tänkt sambandsplott (Figur 2.6). 2.3.4 Linjära och icke-linjära samband Produkt-moment korrelationen rxy mäter endast linjära relationer mellan x och y. Om man däremot erhåller en korrelationsplott som inte är avvikelser från en rät linje, talar vi om kurvlinjära samband. Figur 2.7. Exempel på kurvlinjärt samband Om man beräknar rxy på ovanstående, skulle man få ett värde ungefär rxy= 0. Som framgår av figuren finns det emellertid ett påtagligt samband. Låga värden på x har höga värden på y, medelhöga värden på x har låga värden på y och höga värden på x har höga värden på y. Variationer av kurvlinjära samband kan även erhållas på grund av egenskaper hos testet. Test som ger tak eller botteneffekter kan ge sådana här effekter. I situationer av det här slaget måste man använda sig av andra sambandsmått än rxy, t.ex. korrelationskvoten eta-kvadrat. Sammanfattningsvis kan sägas att produkt-moment korrelationer används då man har båda variablerna på lägst intervallskalenivå, dvs. har två approximativt normalfördelade variabler. 30 © Horst Löfgren 2.3.5 Spearman's rangkorrelation I de fall båda mätvariablerna är ordinalskalerade används Spearman's rangkorrelation (rrho). Data kan vara direkt rangordnade eller rangordnade efter de värden som erhållits vid mätningarna. Vi väljer som exempel på beräkning av rangkorrelation data från två olika tentamina för 15 högskolestuderande. 6 d2 rrho = 1 - ________ , där d= differenserna mellan rangtalen (formel 2.9) n ( n2 - 1) Tabell 2.3. Exempel på beräkning av rangkorrelation mellan två provresultat, T1 och T2 ____________________________________________________________ Student T 1 T 2 Rang T1 Rang T2 d d2 ____________________________________________________________ A 20 30 2 1 1 1 B 11 15 12 14 -2 4 C 12 19 11 10,5 0,5 0,25 D 10 19 14 10,5 3,5 12,25 E 18 27 4,5 2 2,5 6,25 F 10 11 14 15 -1 1 G 17 20 6 8 -2 4 H 18 25 4,5 4,5 0 0 I 10 17 14 13 1 1 J 14 20 9 8 1 1 K 16 21 7 6 1 1 L 13 18 10 12 -2 4 M 15 20 8 8 0 0 N 22 25 1 4,5 -3,5 12,25 O 19 26 3 3 0 0 ____________________________________________________________ 0 48 ____________________________________________________________ 6 . 48 ___________ rrho = 1 = 0,91 15 (225 - 1) © Horst Löfgren 31 Vi har sålunda funnit en mycket hög överensstämmelse mellan de två tentamensresultaten. Rangkorrelationen kan variera mellan -1,0 och 1,0. Om man har många s.k. ties, dvs. flera observationer med samma rangtal, bör man använda en viss korrektion för detta. 2.4 Den standardiserade normalfördelningen; z-poäng Med hjälp av olika central- och spridningsmått kan man beskriva utseendet i ett observationsmaterial. Det kan ibland vara nödvändigt att beskriva var i en fördelning som en enskild observation är belägen. Per har på ett test i statistik erhållit 40 poäng, medan Anders på ett annat statistiktest erhållit 30 poäng. Kan man jämföra dessa båda resultat? Om man känner till kursdeltagarnas genomsnittsresultat på de båda testen får man viss information. Är standardavvikelserna också kända har man tillräcklig information för att göra en jämförelse mellan de båda testresultaten. Ett enkelt sätt är att överföra testresultaten till en gemensam skala. Vi gör därför en skaltransformation till z-skalan, vars egenskaper är kända. En z-poäng anger avståndet mellan det erhållna resultatet och gruppens medelvärde uttryckt i standardavvikelseenheter. xi - µ z = ______ Figur 2.8. 32 (formel 2.10) Den standardiserade normalfördelningen z © Horst Löfgren Om Per erhållit 40 poäng på ett test vars medelvärde är 30,0 och standardavvikelse 10,00 blir hans resultat uttryckt i z-poäng 1,0. Antag att Anders erhållit 30 poäng på ett test med medelvärdet 24,0 och standardavvikelsen 5,00. Uttryckt i z-poäng blir det senare resultatet 1,2 vilket är något bättre än Pers resultat. Som framgår av formeln är medelvärdet i z-skalan 0 och standardavvikelsen 1. Man kan således alltid transformera ursprungliga råpoängsresultat till denna standardiserade skala. Resultat uttryckt i z-poäng kallas standardpoäng. Den standardiserade normalfördelningen finns tabellerad i Appendix (Tabell B). Om testpoängen på det test som Per erhållit 40 poäng är normalfördelade, finns i populationen endast 15,9 % som är bättre än Per. 2.5 Regression Om vi känner en individs resultat på variabel x kan vi skatta (eller förutsäga) resultatet på variabel y utifrån kännedom om relationen mellan x och y. Här ges några exempel på frågeställningar för att belysa denna s.k. regressionsskattning. 1 Hur väl kan vi förutsäga studieresultat utifrån resultat på skolmognadstest? 2 Hur väl kan vi predicera framgång i yrket utifrån vissa anlags- och lämplighetstest? 3 Hur väl kan vi skatta en individs resultat på ett hörförståelseprov utifrån data från ett läsförståelseprov? För att kunna skatta (predicera) resultat på y utifrån x måste vi känna till relationen mellan x och y. Den variabel vi skattar kallas beroende variabel, och den variabel vi skattar utifrån kallas oberoende variabel eller prediktor. Relationen mellan x och y erhålls via en sambandsberäkning (rxy). Efter att sambandet är beräknat kan detta senare användas vid regressionsskattningar. Innan vi matematiskt bestämmer skattningen av y utifrån x kan vi belysa innebörden av regression med hjälp av Figur 2.9. © Horst Löfgren 33 Resultatet i Figur 2.8 erhölls i en undersökning i vilken 67 individer deltog. Om vi nu vet förtestresultatet (x) på ytterligare en individ, vad blir då den bästa skattningen av denna individs eftertestresultat (y)? Vilken är den bästa skattningen av y, då vi vet att individ NN erhållit 11 poäng på x? I det här exemplet tänker vi oss att det inte skett någon förbättring av resultaten från förtest till eftertest. Av resultatet ser vi att alla deltagarna inte erhållit samma resultat på för- och eftertestet, trots att ingen förändring skett. Som framgår av resultatet har 4 individer på förtestet erhållit 10 poäng. Dessa fyra har på eftertestet erhållit 10, 11, 12 resp. 13 poäng. Vidare har på förtestet 6 individer erhållit 11 poäng. På eftertestet har dessa erhållit 10, 11, 12 (2 individer), 13 resp. 14 poäng. Genomsnittet av de 6 individer som erhållit 11 poäng på förtestet är således 12 poäng på eftertestet. y regressionslinje x.y; bästa prediktionen från eftertest till förtest Eftertestresultat 16 1 1 1 1 1 1 3 1 1 1 2 4 4 2 1 1 15 14 13 1 1 4 7 4 1 12 1 2 4 4 2 1 11 1 1 2 1 1 10 1 1 1 1 regressionslinje y.x; bästa prediktionen från förtest till eftertest x 10 Figur 2.9. 11 12 13 14 15 16 Förtestresultat Exempel på regressionslinjer och regressionsskattning Om man nu har ytterligare en individ, som vi vet har erhållit 11 poäng på förtestet men som inte var med på eftertestet, så blir den bästa gissningen att denna individ skulle ha erhållit 12 poäng på eftertestet. Det är möjligt att denna gissning inte är korrekt, men mot bakgrund av vad vi vet om resultaten så blir det den bästa prognos man kan göra. Den bästa skattningen måste bli längs linjen som går genom medelvärdet av y på respektive x34 © Horst Löfgren poäng. Denna linje kallas regressionslinjen y.x (utläses y på x) och kan matematiskt bestämmas via den räta linjens ekvation y = a + bx. Observera att enligt regressionsskattningen erhåller individer som har ett lågt resultat på förtestet oftare ett bättre resultat på eftertestet och individer som har ett högt resultat på förtestet erhåller ett sämre resultat på eftertestet. Vad kan detta bero på, dvs. att sådana här s.k. regressionseffekter uppstår? Jo, det beror på att vi inte har helt mätsäkra test. Om man på basis av extremvärden tar ut individer kommer sådana här effekter att uppstå, om det finns reliabilitetsbrister i mätinstrumenten. Detta bör man ha i åtanke om man jämför grupper som uttagits på basis av extremvärden (t.ex. vid experiment som utnyttjar matchningsförfarande). Tabell 2.4. Data för bestämning av regressionslinjen y.x (oberoende variabel är IQ-poäng i åk 8; beroende variabel är matematikpoäng i åk 9) ____________________________________________________________ Individ x y ____________________________________________________________ A 95 33 B 100 31 C 100 35 D 102 38 x = 2165 E 103 41 y = 824 F 105 37 x2 = 235091 G 106 37 y2 = 34442 H 106 39 xy = 89715 I 106 43 sx = 6,198 J 109 40 sy = 5,095 K 110 41 n = 20 L 110 44 rxy = 0,862 M 111 40 rxy2= 0,743 N 112 45 O 112 48 P 114 45 Q 114 49 R 115 47 S 117 43 T 118 48 ____________________________________________________________ © Horst Löfgren 35 I Tabell 2.4 ovan ges ett exempel där regressionslinjen y.x kan beräknas. Den räta linjens ekvation y = a + bx kan nu användas. Linjens lutning bestäms av ”b” och kallas regressionskoefficient, medan ”a” är en additiv konstant, som säger var regressionslinjen korsar y-axeln. Regressionskoefficienten by.x kan beräknas via formel 2.11 eller direkt (utan att ha bestämt rxy) via formel 2.12. Beräkning av regressionslinje och skattningens medelfel: sy by.x = ___ . rxy sx 5,095 (här by.x = _____ . 0,861 ) 6,198 x y xy - ______ n by.x = _______________ (x)2 x2 - _____ n (formel 2.11) (formel 2.12) I exemplet kan by.x beräknas till 0,708. 2165 . 824 89715 - _________ 20 by.x = __________________ = 0,708 21652 ______ 235091 20 Konstanten ”a” beräknas via a = My - bMx, vilket ger 824 2165 a = ____ - 0,708 (_____ ) = - 35,491 20 20 Skattningen av y kan således bestämmas via regressionslinjen y.x enligt yest = 0,708x - 35,491 Med kännedom om x kan nu y bestämmas. Om x=100 blir y=35,309 och om x=110 blir y=42,389. Självfallet kan vi inte säga att denna skattning av 36 © Horst Löfgren y är det sanna värdet av y för denna individ. Vi får alltid räkna med ett visst fel ”e”. yi = a + bxi + ei , varvid ei är skillnaden mellan det sanna y-värdet och det skattade y-värdet. ei = yi – yiest Med ovanstående formler för beräkning av regressionslinjen har vi med hjälp av den s.k. minsta kvadratmetoden minimerat e. Standardavvikelsen i skattningsfelet se kallas skattningens medelfel och kan beräknas med hjälp av formeln: se = (y)2 (1 - r2) ssy __________ , där ssy = (y2 - _____ ) n-2 n (formel 2.13) För stora stickprov (n > 50) kan formeln förenklas till se = sy 1-r2 I detta exempel blir skattningens medelfel: se = 8242 (1-0,743) (34442 - ____ ) 20 _______________________ 18 = 2,655 För att använda ovanstående beräkningar krävs dock att vissa förutsättningar är uppfyllda (se Figur 2.10): 1. Populationsmedelvärdena för y för varje x-värde ska ligga längs en rät linje. 2. För varje x-värde ska y-värdena normalt fördelade. 3. För varje värde på x har dess y-värden variansen 2y.x och denna varians ska vara lika för samtliga x-värden (s.k. homoscedasticitet). © Horst Löfgren 37 Figur 2.10. Förutsättningar för regressionsskattning 2.6 Multipel korrelation och multipel regression Syftet med multipel regression är att kunna skatta en beroende variabel Y utifrån en kombination av de oberoende variablerna X1, X 2, ... Xm. Likaväl som man vid två variabler kan beräkna den univariata estimationen med hjälp av ekvationen Yest= a + bx, kan man vid flera variabler göra en multivariat prediktion av Y. Härvid använder man sig också av minsta kvadratmetoden enligt nedanstående formel: Yest = b0 + b1x1+ b2x2+ ... + bmxm (formel 2.14) Detta är den multipla linjära regressionsekvationen. En produkt-moment korrelation mellan Y och Yest säger hur väl den bästa linjära viktningen av de oberoende X1, X 2, ... Xm predicerar eller korrelerar med den beroende variabeln Y. Detta kallas för den multipla korrelationskoefficienten och skrivs Ry.1,2,..,m. Observera att viktkoefficienterna maximerar korrelationen med Y, vilket också innebär att slumpfel utnyttjas. Om man i en undersökning erhållit en 38 © Horst Löfgren multipel korrelation av en viss storleksordning efter viktning av Xvariablerna, bör man före generalisering av sambandsresultatet göra en s.k. korsvalidering. Detta är speciellt väsentligt om man har relativt få individer i förhållande till antalet X-variabler. Vid korsvalidering kan man utnyttja de vid första undersökningstillfället erhållna viktkoefficienterna på ett nytt stickprov för att kontrollera att den multipla korrelationen inte minskat alltför kraftigt. Självfallet bör den minska något, eftersom slumpen är osystematisk. I en undersökning av elever i årskurs 9 hade man studerat deras föräldrars utbildningsbakgrund, antalet syskon och hur många års utbildning de räknade med efter grundskolan. Nu önskade man ta reda på det multipla sambandet mellan mammans utbildningsbakgrund (X1) samt antalet syskon (X2) och antal förväntade studieår (Y). Ett annat sätt att ställa frågan på är om man utifrån mammans utbildningsbakgrund (X1) samt antalet syskon (X2) kan predicera antal förväntade studieår (Y). Avsnittet rubriceras multipel regression, men kunde också ha rubricerats multipel prediktion. Relationerna mellan variablerna redovisas i nedanstående tabell. Tabell 2.5. Interkorrelationer, medelvärden och standardavvikelser ____________________________________________________________ 1 2 Y M s ____________________________________________________________ X1 Mammans utbildning 1,000 2,923 1,078 X2 Antal syskon -0,509 1,000 2,359 1,227 Y Antal studieår 0,674 -0,489 1,000 4,064 2,116 ____________________________________________________________ Korrelationskoefficienten mellan antalet studieår (Y) och de från mammans utbildningsbakgrund och antalet syskon (X1; X2) predicerade antalet studieår (Yest) är den multipla korrelationen Ry.1,2. Om korrelationerna ry1, ry2 och r12 är kända erhålls den multipla korrelationen enligt följande formel: Ry.1,2 = b1.ry1 + b2.ry2 (formel 2.15) där b1 och b2 erhålls ur ry1 - ry2.r12 b1 = ____________ ; 1 - r212 © Horst Löfgren ry2 - ry1.r12 b2 = ____________ 1 - r212 39 I ovanstående exempel blir värdena på b1 och b2 för prediktion av standardpoängen Y från standardpoängen X1 och X2: 0,674 - (-0,489.-0,509) -0,489 - (0,674.-0,509) ___________________ __________________ b1 = = 0,573; b2= = -0,197 1 - (-0,509)2 1 - (-0,509)2 Att vi här talar om standardpoäng beror på att vi använder korrelationer som ju är standardiserade (jfr formel 2.6). Sålunda blir den bästa skattningen av standardpoängen av Y (zy) utifrån standardpoängen av X1 och X2 (z1 och z2): zyest = 0,573z1 - 0,197z2 Den multipla korrelationen Ry.1,2 erhålls enligt: Ry.1,2 = b1ry1 + b2ry2 = 0,573.0,674 + (-0,197.-0,489) = 0,695 För att erhålla den multipla prediktionsekvationen för råpoäng (ostandardiserade värden) utförs följande operation: sy sy sy sy Yest = (b1___ )X1 + (b2___ ) X2 + (My - b1___ Mx1 - b2___ Mx2) s1 s2 s1 s2 Detta ger följande regressionsekvation: Yest = 1,125X1 - 0,340X2 + 1,578 Som framgår av den multipla korrelationens värde är denna endast aningen högre än det enkla sambandet mellan mammans utbildning och antalet förväntade studieår. Den högsta ökningen av prediktionsförmågan av Y med två oberoende variabler X1 och X2 får man exempelvis om dessa båda oberoende variabler korrelerar positivt med den beroende variabeln, men sinsemellan korrelerar negativt. För att man ska kunna tolka viktkoefficienterna b1 och b2 bör man se på de standardiserade värdena. Viktkoefficienterna i regressionsekvationen för råpoäng blir ju beroende av respektive variabels medelvärde och standardavvikelse. I vårt exempel ovan är det inte så stor skillnad i relationen 40 © Horst Löfgren mellan b1 och b2 för standardiserade respektive ostandardiserade värden, eftersom mätskalorna har ganska lika M och s. I en av resultattabellerna (Coefficients) får man både viktkoefficienterna på råpoäng och standardiserade poäng. I tabellen ges även t-värden och probabilitetsvärden som ger information för tolkningen av resultatet (jfr kap 3). 2.6.1 Stegvis regressionsanalys När det gäller regressionsanalys finns olika möjligheter. Förutom att i regressionsekvationen ta med samtliga prediktorer (X-variabler) kan man ”stega in” variablerna i en viss ordning för att endast ta med de som signifikant bidrar till prediktionen. Om vi utnyttjar det föregående exemplet kommer en stegvis regressionsanalys innebära att den variabel som högst korrelerar med kriterievariabeln stegas in först. Därefter korrigeras övriga prediktorer genom att de rensas från den del av variationen som redan tagits med, när den första variabeln stegats in. Man partialiserar ut den del från övriga variabler, som redan är predicerad i kriterievariabeln. Utifrån de partialkorrelationer som nu är beräknade, stegas den variabel in som nu är högst korrelerad med kriterievariabeln. Nya partialkorrelationer beräknas, dvs. den del som de två första prediktorerna bidragit med partialiseras ut, och den variabel som nu korrelerar högst med Y-variabeln stegas in. När alla variabler som signifikant bidrar till prediktionen finns med, är analysen klar och regressionsekvationen redovisas och likaså den multipla korrelationen. 2.6.2 Ett exempel på linjär multipel regression och stegvis multipel regression Nedan redovisas resultatet av en regressionsanalys i SPSS med data från en av övningsfilerna (IEA9) till boken. I detta exempel är vi intresserade att se om man utifrån föräldrarnas utbildningsbakgrund och elevens betyg i uppsatsskrivning kan predicera antal år av fortsatt utbildning, som eleven tänker sig. Det är mycket tveksamt om man kan använda utbildningsbakgrund som en prediktor med tanke på hur denna är skapad. Hade man i stället haft tillgång till data som säger hur många års utbildning föräldrarna har, skulle det vara mycket bättre, men som ett belysande exempel tillåter vi oss att använda de data som finns insamlade. © Horst Löfgren 41 I den sammanfattade översikten (Model Summary) finns den multipla korrelationen beräknad 0,436. Här finns också den kvadrerade multipla korrelationen, vilken anger proportionen förklarad varians i den beroende variabeln. Utifrån de tre prediktorerna kan vi således predicera 19 % av variansen i variabeln antal förväntade studieår. Eftersom den kvadrerade multipla korrelationen ökar ju fler prediktorer man har i förhållande till antalet observationer, kan man ibland ha anledning att utnyttja den justerade multipla korrelationen (i det här fallet 0,179). Om man t.ex. vill jämföra resultat från olika undersökningar med olika antal prediktorer kan det justerade värdet vara att föredra. Det är s.a.s. ett mer återhållsamt värde som inte överskattar den multipla korrelationen. Observera dock att man alltid måste ha betydligt fler observationer än antalet prediktorvariabler i en multipel regressionsanalys. Ett bra riktvärde är att ha 10 gånger så många observationer som antalet variabler i analysen. Om man har alltför få observationer får mätfelen, som också viktas in, alltför stor betydelse och man får en överskattning av den multipla korrelationen. ANOVA-tabellen visar att de tre prediktorerna tillsammans högst signifikant bidrar till prediktionen av kriterievariabeln. Om F-testet inte skulle vara signifikant, innebär det att den multipla korrelationen inte säkert är skild ifrån 0. I den nedersta tablån (Coefficients) ges den multipla regressionsekvationen för råpoäng och de standardiserade betavikterna (Beta). De två högra kolumnerna säger hur signifikant bidraget är från de tre oberoende variablerna. Betyget i uppsatsskrivning bidrar mest till prediktionen. Även pappans utbildning bidrar signifikant till prediktionen. Däremot bidrar ej mammas utbildning signifikant till prediktionen av kriterievariabeln ”Antal år av fortsatt utbildning”. Observera dock att inte endast skaleringen av föräldrarnas utbildning är tveksam utan även att vi har ett mycket stort bortfall som gör att stickprovet knappast längre är representativt för populationen. Ungdomarna i denna studie kanske inte vill svara på frågor om föräldrautbildning, men framför allt är det nog så, att det faktiskt många som inte vet vilken utbildning föräldrarna har. Innebörden av t-värden, ANOVA, F-kvot och probabilitetsvärden presenteras i kapitel 3. 42 © Horst Löfgren Model Summary Model 1 R ,436a R Square ,190 Adjusted R Square ,179 St d. Error of the Estimate 1,895 a. Predictors: (Constant), BETYG PÅ UPPSATSEN, MODERNS UTBILDNING, FADERNS UTBILDNING ANOVAb Model 1 Regression Residual Total Sum of Squares 179,489 764,704 944,194 df 3 213 216 Mean Square 59,830 3,590 F 16,665 Sig. ,000a a. Predictors: (Const ant ), BETYG PÅ UPPSATSEN, MODERNS UTBILDNING, FADERNS UTBILDNING b. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING Coeffici entsa Model 1 (Constant) MODERNS UTBILDNING FADERNS UTBILDNING BETYG PÅ UPPSATSEN Unstandardized Coef f icients Std. B Error 1,443 ,473 Standardized Coef f icients Beta t 3,051 Sig. ,003 ,075 ,083 ,066 ,902 ,368 ,222 ,075 ,216 2,948 ,004 ,648 ,133 ,305 4,856 ,000 a. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING I de följande resultattablåerna visas resultatet av en stegvis multipel regression på samma data (Method: Stepwise i stället för Enter i SPSS). Eftersom betyget i uppsatsskrivning korrelerar högst med den beroende variabeln stegas denna in först. Därefter kontrolleras om det bland de öv© Horst Löfgren 43 riga variablerna (i detta fall pappans och mammans utbildning) finns något som ytterligare kan bidra till prediktionen av den beroende variabeln, dvs. utöver vad den första variabeln redan har bidragit med. För detta använder programmet partialkorrelationsberäkningar. Som framgår av resultatet finns något mer att ta in utöver betyget i uppsatsskrivning. Således stegas pappans utbildning in i steg 2 och därmed är analysen klar, eftersom den tredje variabeln inte signifikant bidrar till prediktionen. I den sista resultattablån ges vikterna för regressionsekvationen, både viktkoefficienterna för råvärden och de standardiserade betavärdena. Model Summary Model 1 2 R ,356a ,432b R Square ,126 ,187 Adjusted R Square ,122 ,179 St d. Error of the Estimate 1,959 1,894 a. Predictors: (Constant), BETYG PÅ UPPSATSEN b. Predictors: (Constant), BETYG PÅ UPPSATSEN, FADERNS UTBILDNING ANOVAc Model 1 2 Regression Residual Total Regression Residual Total Sum of Squares 119,435 824,758 944,194 176,568 767,626 944,194 df 1 215 216 2 214 216 Mean Square 119,435 3,836 88,284 3,587 F 31,135 Sig. ,000a 24,612 ,000b a. Predictors: (Const ant ), BETYG PÅ UPPSATSEN b. Predictors: (Const ant ), BETYG PÅ UPPSATSEN, FADERNS UTBILDNING c. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING 44 © Horst Löfgren Excluded Vari ablesc Model 1 2 Beta In MODERNS UTBILDNING ,177 FADERNS UTBILDNING ,250 MODERNS UTBILDNING ,066 a a b Part ial Correlation Collinearity St at ist ics Tolerance t Sig. 2,785 ,006 ,187 ,974 3,991 ,000 ,263 ,966 ,902 ,368 ,062 ,714 a. Predictors in t he Model: (Constant), BETY G PÅ UPPSATSEN b. Predictors in t he Model: (Constant), BETY G PÅ UPPSATSEN, FADERNS UTBILDNING c. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING 2.6.3 Logistisk regressionsanalys Logistisk regression är en parallellteknik till linjär regression. Med båda dessa metoder undersöker man relationen mellan en eller flera oberoende variabler (prediktorvariabler) och en beroende variabel (utfallsvariabel). Om den beroende variabeln är nominalskalerad används logistisk regression. I flesta fall är den beroende variabeln dikotom, dvs. har två möjliga värden (0 och 1), men metoden kan också användas om kategorivariabeln har fler än två värden. De oberoende variablerna kan vara av olika typ, både nominalskalerade och kontinuerliga. För att man ska anpassa en logistisk regressionsmodell till data krävs att vissa förutsättningar ska vara uppfyllda. Bland annat ska det finnas en linjär relation mellan oberoende och beroende variabler, dvs. ju högre skalvärde på en oberoende variabel desto högre ska sannolikheten vara för att den beroende variabeln har skalvärdet 1 (eller lägre, dvs. skalvärdet 0, om relationen är negativ). Vidare ska alla observationerna vara oberoende. © Horst Löfgren 45 I en studie av ungdomar i årskurs 9 fick eleverna svar på om man ibland skrev ner något bara för att man tyckte det var roligt att skriva. Svarsalternativen var ”Ja” eller ”Nej”. Bland data som samlades in fanns också elevernas betyg i uppsatsskrivning, deras attityder till skrivning, självskattning av skrivförmågan och hur många timmar man vanligen tittade på TV på skoldagar. Den modell som prövas i nedanstående exempel är om man utifrån de fyra oberoende variablerna kan predicera elevernas svar på frågan om nöjesskrivning. Resultatet av en logistisk analys med SPSS visas nedan. Som framgår av resultatet erhålls ett inte särskilt högt multipelt samband. Även om man utifrån de valda oberoende variablerna inte särskilt väl kan predicera om elever skriver för sitt nöjes skull, finns ändå signifikanta relationer. Attityder till skrivning är den variabel som bäst predicerar nöjesskrivning. Självskattning av skrivförmågan är också signifikant relaterad till nöjesskrivning, likaså TV-tittande om än negativt. Hur bra betyg man har i uppsatsskrivning bidrar inte signifikant till prediktionen. Model Summary St ep 1 -2 Log Cox & Snell likelihood R Square 524,681a ,096 Nagelkerke R Square ,139 a. Estimation terminat ed at iteration number 4 because parameter est imat es changed by less than ,001. Variables in the Equation Sta ep 1 v 22 v 16 v 18 v 14 Constant B ,083 ,560 ,351 -,192 -1,717 S. E. ,122 ,137 ,156 ,096 ,560 Wald ,465 16,731 5,059 3,952 9,401 df 1 1 1 1 1 Sig. ,495 ,000 ,024 ,047 ,002 Exp(B) 1,087 1,751 1,420 ,826 ,180 a. Variable(s) entered on step 1: v 22, v 16, v 18, v 14. 46 © Horst Löfgren 2.6.4 Användning av s.k. dummy-variabler För att få fördjupad förståelse av hur olika nivåer i en oberoende variabel bidrar till prediktionen av en beroende variabel kan det vara av värde att omkonstruera den oberoende variabeln till en eller flera s.k. dummyvariabler. Även om det i övningsfilen kanske inte finns något riktigt bra exempel på en regressionsanalys med dummy-variabler, kan vi ändå genom ett exempel belysa hur man går tillväga. I vårt exempel vill se om vi utifrån föräldrars utbildning och det erhållna betyget på uppsatsskrivning kan predicera hur många års utbildning på heltid eleven framöver beräknar att de ska genomgå. Möjligen skulle man kunna kalla denna beroende variabel för utbildningsaspiration. Det är ett rimligt antagande att denna kan prediceras utifrån föräldrars utbildningsbakgrund och resultat på ett språkligt prov. Vi börjar med att omkoda variablerna moderns och faderns utbildningsbakgrund. Det kan vara lämpligt att låta kategorierna 1-4 erhålla värde 1 (låg utbildning), kategori 5 erhålla värdet 2 och kategori 6 erhålla värdet 3 (hög utbildning). Efter denna omkodning kan man slå samman moderns och faderns utbildning och därvid erhålla en ny variabel med variationsvidden 2-6. Denna omkodas i sin tur så, att värdet 2 blir 1 (lågutbildade), 3-4 blir 2 och 4-5 blir 3 (högutbildade). Som tidigare nämnts finns det tyvärr ett mycket stort bortfall i variablerna moderns och faderns utbildning, varför det ursprungliga stickprovet nu knappast längre är ett representativt urval av svenska grundskoleelever. Efter dessa omkodningar finns nu ungefär 50 % i grupp 1, 27 % i grupp 2 och 22 % i grupp 3. För att bilda dummy-variabler av denna nya ordinalskalerade variabel med tre grupper krävs ytterligare en omkodning. Variabeln ska nu omkodas så, att vi får två grupper men med behållen informationen från de tre grupperna. Man kan välja vilken som helst av de tre grupperna som referensvariabel, men förslagsvis använder vi den lågutbildade gruppen som referensgrupp. Dummy-variablerna, som då blir en färre än den ursprungliga med tre grupper, ska endast ha värdet 0 eller 1. Om vi skapar en variabel i vilken vi ger medelutbildade värdet 1 och de båda övriga (låg- och högutbildade) värdet 0 samt en variabel i vilken vi ger högutbildade värdet 1 och de båda andra värdet 0, har vi skapat två variabler, som innehåller all den information, som vi hade i variabeln med de tre grupperna. Nu är det dags att utföra en multipel regressionsanalys inkluderande de båda dummy-variablerna. Resultatet av analysen med SPSS visas nedan. © Horst Löfgren 47 Model Summary Model 1 R ,455a R Square ,207 Adjusted R Square ,196 St d. Error of the Estimate 1,874 a. Predictors: (Constant), dumH, BETYG PÅ UPPSATSEN, dumM Coeffici entsa Model 1 (Constant) BETYG PÅ UPPSATSEN dumM dumH Unstandardized Coef f icients Std. B Error 2,055 ,449 Standardized Coef f icients Beta t 4,573 Sig. ,000 ,625 ,133 ,295 4,692 ,000 ,493 1,579 ,299 ,339 ,106 ,307 1,650 4,657 ,100 ,000 a. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNI NG Visserligen kan endast 20 % av ”antal år av fortsatt utbildning” prediceras från de oberoende variablerna. Som framgår av tabellen ovan ger medelhög föräldrautbildning inget signifikant bidrag till prediktionen men väl om man har föräldrar med hög utbildning. Om man endast hade använt den sammanslagna variabeln på föräldrars utbildning, som hade värden mellan 2 och 6, hade man endast kunnat predicera ca 1 % mer, dvs. obetydligt bättre. Här får vi en bättre förståelse för hur föräldrautbildning är relaterad till den beroende variabeln. Av regressionsekvationen framgår hur många ytterligare år av utbildning eleverna i grupperna medel- och hög föräldrautbildning tänker sig i förhållande till gruppen med lågutbildade föräldrar (som ju vi valde som referensgrupp). Yest = 2,055 + 0,625X1 + 0,493X2 + 1,579X3 I genomsnitt tänker sig elever gå 0,493 år längre i utbildning än elever med lågutbildade föräldrar och elever med högutbildade föräld48 © Horst Löfgren rar tänker sig 1,579 års längre utbildning. Genom att bilda dummyvariabler får vi en tilläggsinformation utan att förlora nämnvärt i prediktionen av den beroende variabeln. Ännu är det lite krångligt att bilda dessa dummy-variabler i SPSS, men det kanske kan vara värt besväret. 2.7 Faktoranalys 2.7.1 Vad är faktoranalys? Faktoranalys är en grupp statistiska metoder, som försöker identifiera några hypotetiska variabler, som kan förklara utfallet i ett större antal observerade variabler. I många undersökningssammanhang har man behov av att på olika sätt reducera sin stora mängd av insamlade variabler till ett mindre antal variabler utan att förlora alltför mycket information. De flesta teorier eller hypotetiska förklaringsmodeller inom beteendevetenskaperna är uttryckta i termer av teoretiska eller hypotetiska begrepp, konstruktioner eller s.k. latenta variabler, vilka inte är direkt observerbara och mätbara. Ofta har man emellertid ett antal indikatorer, som kan användas för att representera den latenta variabeln. När man använder begreppet ”mätmodell” avser man hur bra de valda indikatorerna, dvs. de manifesta variablerna, fungerar som mätinstrument för den latenta variabeln. Om vi exempelvis har studerat arbetsmiljön inom en större organisation och därvid låtit ett stort antal anställda besvara 50 frågor om hur de ser på sin arbetssituation, kan det vara lämpligt att försöka komma åt det som ligger bakom deras svar, dvs. reducera antalet frågor på något lämpligt sätt. Det är knappast troligt att dessa 50 frågor mäter 50 helt olika aspekter av arbetsmiljön. Det är tvärtom sannolikt så, att man med hjälp av ett antal frågor försökt att få information om några olika faktorer, som är betydelsefulla inom det övergripande området ”arbetsmiljön”. Det kan t.ex. handla om att man ställt vissa frågor för att få reda på hur de anställda ser på den fysiska miljön och andra frågor för att s a s fånga in synpunkter på den psykosociala miljön. Troligen har man en uppdelning i ytterligare delaspekter förutom dessa huvudgrupper av fysisk och social miljö. Inom den © Horst Löfgren 49 psykosociala delen har kanske avsikten varit att försöka studera relationerna mellan de anställda, mellan de anställda och chefen, atmosfären i arbetsenheten, upplevd psykisk påfrestning etc. Om undersökningen är välplanerad har man konstruerat frågor som ska täcka in olika aspekter av arbetsmiljön. För att få bra tillförlitlighet inom respektive ”mätområde” har man ställt mer än en fråga. Det blir då kanske inte så intressant att utnyttja de erhållna mätvärdena på varje fråga och redovisa varje fråga separat. Eftersom det, trots att man kanske gjort bra frågor, ändå finns vissa mätfel (respondenterna kanske har förstått frågorna något olika eller inte besvarat alla frågorna lika noggrant) hade det kanske varit bättre om man kunde bilda vissa index, dvs. slå samman svaren på frågor som mäter delar av samma område. En utgångspunkt är att studera korrelationerna mellan samtliga mätvariabler, men det blir svårt för att inte säga omöjligt, att få en uppfattning hur de olika variablerna hänger ihop. Man kan möjligen se att vissa variabler har högre samband med varandra än med andra. Den faktoranalytiska ansatsen är till för att se om de erhållna korrelationerna kan förklaras av ett mindre antal hypotetiska (latenta) variabler. I vissa situationer har man kanske konstruerat ett antal frågor utan att ha delat in det område de avser mäta i några olika delområden. Det är kanske inte att rekommendera, att man inte riktigt vet vad man avser att mäta annat än i huvuddrag. Det är kanske också så att man har andra mätvariabler förutom svaren på arbetsmiljöenkäten och att man vill relatera samtliga variabler till varandra, dvs. se hur alla insamlade variabler hänger ihop. Om man nu använder en analysmetod som kan reducera alla mätvariablerna till ett mindre antal dimensioner utan att man förlorar alltför mycket information, skulle det vara ett sätt att få reda på vad insamlade variabler mäter. Man skulle på detta sätt kunna få en djupare förståelse för insamlade data, dvs. få en validering av instrumentet. Detta sätt att analysera sina mätinstrument sker således i ett explorativt syfte. Mycket ofta har används faktoranalys just i detta syfte inom samhällsvetenskaperna (exploratory factor analysis). En annan situation i vilken man kan använda faktoranalys är om man vill pröva ett antagande om hur mätvariablerna hänger ihop. Man kan ha utgått ifrån antagandet att det finns några få underliggande dimensioner, som kan förklara utfallet i data och att vissa frågor hör till olika, på förhand bestämda dimensioner. Detta sätt att pröva hypoteser om förhållandet mellan latenta och manifesta variabler kallas hypotesprövande faktoranalys (con50 © Horst Löfgren firmatory factor analysis). Man prövar således om antalet faktorer stämmer med den plan man hade vid konstruktionen av frågorna i den arbetsmiljöenkät man konstruerat. Detta blir då ett sätt att validera mätinstrumentet, dvs. se om olika grupper av frågor verkligen mäter de olika aspekterna av arbetsmiljön som de var avsedda att mäta. Om planeringen av den nämnda arbetsmiljöstudien var så att de 50 frågorna skulle mäta 6 olika delaspekter av arbetsmiljön borde faktoranalysen ge ett resultat som kan tolkas så, att frågorna grupperar sig i 6 olika områden. En och annan fråga kanske inte faller ut som förväntat. Med facit i hand kanske man kan förstå varför vissa frågor inte visade sig vara så bra. Det kan dels bero på frågans konstruktion, men kanske också på att den undersökta gruppen har svarat på något extremt sätt. Faktoranalys antar att observerade variabler kan uttryckas som en linjär kombination av underliggande hypotetiska faktorer. Den bakomliggande faktorn är orsak till samvariationen mellan de observerade variablerna. I exemplet ovan om arbetsmiljön antar vi att ett antal frågor, som handlar om relationerna mellan de anställda inom en arbetsenhet kan förklaras av en underliggande faktor, som skulle kunna benämnas ”gruppsamverkan”. Frågorna kan vara olika mycket relaterade till faktorn. Man säger att frågorna har olika laddningar i faktorn, dvs. korrelerar olika mycket med faktorn. Även om en faktor är en s.k. latent variabel, en konstruktion, får den sin tolkning av de frågor som har högst laddningar i faktorn. 2.7.2 Extrahering av faktorer - ett förklarande exempel Tänk Dig en diskus. Den består av ett stort antal ”delar” och är cirkelformad. En diskus är ganska flat, om än något tjockare kring mitten. Om man nu skulle vilja reducera alla diskusens olika delar till ett antal mindre komponenter, hur skulle detta kunna ske? Om vi skulle skicka igenom en pil, lägga in en principalkomponent (en vektor i ett koordinatsystem), i denna diskus på ett sådant sätt att pilen kom så nära som möjligt diskusens alla olika delar, hur kommer den då att läggas in? Den måste naturligtvis gå igenom mittpunkten och läggas in i det ”flata planet”. Om diskusen är helt rund och lika tjock i mitten och tunnare utåt kanterna kan man lägga in denna komponent någonstans från kanten och igenom mitten. Denna komponent genom ”svärmen av atomer” ligger nu så nära som möjligt disku- © Horst Löfgren 51 sens alla beståndsdelar, dvs. varje punkts kvadrerade avstånd från komponenten är så liten som möjligt. Visserligen ligger en hel del delar av diskusen ganska långt ifrån den komponent som lagts in, men totalt sett ligger komponenten så nära som möjligt diskusens alla delar. p2 p1 p3 . Om vi nu skulle lägga in ytterligare en principalkomponent, som är vinkelrät (ortogonal) mot den första och som fångar upp det mesta av det som inte redan har fångats upp av den första, hur ska den läggas in? Möjligen kunde man föreslå att den skulle gå igenom mittpunkten uppifrån och ner. Den nya komponenten kommer visserligen att i flesta fall ligga nära andra delar än den första, men ändå inte ligga särskilt nära mer än delarna i mitten. Bättre måste vara att lägga in den i samma plan som den första, men vinkelrät mot denna. Den borde, om diskusen fortfarande är perfekt symmetrisk och rund, ligga lika nära de flesta av diskusens olika delar som den första. Dessa två första komponenter fångar s a s in lika stora delar av allt som finns. Om man nu vill lägga in en tredje komponent, som är vinkelrät mot de två första men som fångar in så mycket som möjligt, hur ska den läggas in? Ja, nu kommer den att läggas in genom mittpunkten på det tjockaste stället, dvs. uppifrån och ner. På det här sättet försöker en dimensionsanalys att lägga komponenter, som är okorrelerade med varandra och som fångar upp så många av diskusens delar som möjligt. Vi klarar av att tänka oss tre dimensioner, men sedan blir det svårt. Skulle diskusen inte vara rund utan oval, finns det endast ett sätt att lägga in den första komponenten och denna kommer att fånga in en större andel av variansen än vad den nästkommande kommer att göra. Allt eftersom man lägger in komponenter i olika plan (vektorer enligt figuren ovan) kommer de att fånga in mindre och mindre av den totala variansen. Lägger man in lika många komponenter som antalet mätvariabler har man visserligen fångat in all varians, men då har man inte reducerat antalet variabler. 52 © Horst Löfgren I en faktoranalys kan man extrahera lika många faktorer som det finns variabler. Eftersom vi är intresserade att reducera mängden manifesta variabler (uppmätta variabler) vill vi endast använda så många faktorer att vi fångat upp den delen av variansen, som tillräckligt väl beskriver den totala informationen. Om ett begränsat antal faktorer fångar upp 70-75 % av den totala variansen kan detta anses vara ett bra resultat. 2.7.3 Gemensam varians, specifik varians och felvarians Om man har ett antal frågor som mäter området ”gruppsamverkan” kommer dessa frågor att samvariera, dvs. korrelera med varandra. För varje fråga (variabel) finns således en del som den har gemensamt med en eller flera andra frågor. En del av informationen (variansen) är specifik för just denna fråga och en del, förhoppningsvis en mindre del, är felvarians. Eftersom alla sådana här mätinstrument inte är perfekt reliabla måste en del av variansen bero på mätfel. Om vi nu beaktar samtliga frågor i enkäten skulle vi kunna beskriva den totala variansen enligt nedanstående figur. En del av den totala variansen är således gemensam för åtminstone två frågor. Varje fråga har en unik del, varav en del är specifik och resten är mätfel. En komponentanalys kan sägas vara variansorienterad medan andra faktoranalysmetoder är kovariansorienterad. Det förstnämnda innebär att hela variansen analyseras, medan det sistnämnda innebär att endast den gemensamma variansen analyseras. Gemensam del Gemensam varians Unik del Specifik varians Felvarians Total varians Figur 2.11. Varianskomponenter I en komponentanalys omstrukturerar man en variabelmängd. Från de ursprungliga variablerna försöker man finna ett färre antal nya, okorrelerade variabler som kan förklara maximal varians i de ursprungliga variablerna. I © Horst Löfgren 53 faktoranalys försöker vi endast komma åt de ursprungliga variablernas gemensamma varians. Eftersom man i dessa dimensionsanalyser ofta utgår ifrån en korrelationsmatris (standardiserade variabler med variansen=1) blir den totala variansen i vårt exempel med arbetsmiljöenkäten 50, eftersom vi har 50 variabler. 2.7.4 Arbetsgången vid faktoranalys Man använder således faktoranalysmetoder huvudsakligen antingen i explorativt syfte eller för att pröva ett antagande om att utfallet i mätvariablerna kan förklaras av ett fåtal underliggande latenta variabler. I båda fallen kan man tala om tre steg i analysen: 1 framtagning av en kovariansmatris (ofta en korrelationsmatris), 2 extraherandet av initiala faktorer enligt någon vald metod, 3 rotering av faktorerna för att finna en tolkbar lösning. Det finns olika metoder för att extrahera faktorer, men avsikten är att bestämma ett minimiantal faktorer som tillräckligt väl kan reproducera den ursprungliga korrelationsmatrisen av de manifesta variablerna. En metod som ofta förekommer som standard är principalkomponentmetoden (Principal Component Analysis). Metoden innebär en linjär transformation av de ursprungliga mätvariablerna till ett betydligt mindre antal okorrelerade latenta variabler (komponenter). Den första faktorn (komponenten) svarar för så mycket varians som möjligt, den andra för så mycket som möjligt av vad som finns kvar sedan den första faktorn extraherats, den tredje för vad som finns kvar när väl de två första faktorerna extraherats etc. Det finns olika tumregler för hur många faktorer som ska extraheras. En regel som tidigare är nämnd säger att ca 70 % av den totala variansen bör fångas in av de extraherade faktorerna. En annan tumregel är att ta ut samtliga faktorer som har ett egenvärde ≥ 1,0, förutsatt att man utgår ifrån korrelationsmatrisen. Med egenvärde (eigenvalue) menas hur stor varians en faktor har, dvs. hur mycket som en faktor fångar upp av variansen i de ursprungliga variablerna. Efter extraheringen av lämpligt antal faktorer genomförs en s.k. rotering (transformation) för att finna en enkel struktur, dvs. en tolkbar lösning. Det 54 © Horst Löfgren innebär att axlarna roteras utan att den gemensamma variansen i varje fråga förändras (kommunaliteterna). Man behåller således antalet faktorer och kommunaliterna för varje mätvariabel intakt. Även här finns olika metoder för att rotera faktorerna. De två huvudgrupperna av metoder är ”orthogonal” rotering och ”oblique”. Den sistnämnda använder inte restriktionen att faktorerna ska vara vinkelräta mot varandra. För den som inte är väl insatt i skillnaderna mellan roteringsmetoder rekommenderas orthogonal rotering enligt varimax-metoden. Metoden innebär att man för en faktor roterar för att få en så stor variation i laddningarna som möjligt, dvs. får så många höga respektive låga laddningar i faktorn. Helst vill man erhålla ett resultat i vilket en enskild mätvariabel har en hög laddning i en faktor och låga laddningar i alla andra (simple structure). Om man har två alltför lika påståenden bland sina mätvariabler kan dessa falla ut som en egen faktor, en s.k. parfaktor. Detta är inte bra, för då kanske man kan luras att tro att det rör sig om en kvalitativt skild faktor från de övriga i mätområdet. För att erhålla ett stabilt resultat i en faktoranalys bör antalet mätobjekt (individer) vara stort i förhållande till antalet variabler. Om man har 20 gånger så många mätobjekt som antalet variabler är stabiliteten i utfallet god. 2.7.5 Ett praktiskt exempel och förklaring av analysresultatet I en undersökning deltog 541 elever ur grundskolans årskurs 9. Kompletta svar finns från 211 elever. De fick besvara några frågor om deras föräldrars utbildningsbakgrund samt förekomsten av vissa typer av samtal och diskussioner i hemmet. Mammans och pappans utbildningsbakgrund kan ses som ett mått på socioekonomisk status. Utbildning är en ofta använd indikator på social bakgrund. De övriga fyra frågorna var tänkta att säga något om en annan aspekt av den sociala bakgrunden. Möjligen skulle man kunna tala om ”hemkultur”. För att pröva om mätinstrumentet verkligen mätte två olika aspekter av den sociala bakgrunden genomfördes en faktoranalys av dessa sammanlagt 6 indikatorer. Som förväntat erhölls två faktorer med egenvärdet större än 1,0. Extraheringsmetod var principalkomponentmetoden och roteringen gjordes enligt en varimax-metod. Av den totala variansen fångades 68 % in av de två faktorerna, ett resultat som © Horst Löfgren 55 stämmer ganska bra med det tidigare nämnda kriteriet att ca 70 % bör fångas in. Av de slutligen erhållna estimaten av kommunaliterna framgår att ingen av mätvariablerna är unik i sammanhanget. Värdena ligger mellan 0,55 och 0,77. Kommunaliterna säger hur mycket av variansen i mätvariabeln som har fångats upp av de båda faktorerna. Den tredje tabellen visar den oroterade matrisen och denna är ej lätt att tolka och behövs egentligen inte om mer än en faktor extraherats. I det här fallet har vi erhållit två faktorer och därför går vi till den roterade matrisen för att kunna tolka utfallet av analysen. Som framgår av de roterade faktorerna återfinns de två måtten på föräldrarnas utbildningsbakgrund i en faktor och de övriga fyra måtten på ”hemkultur” i en annan faktor. Eftersom vi utnyttjat en optionsmöjlighet i SPSS har variablerna lagts i ordning så att det blir lättare att se vilka variabler som mest bidrar till tolkningen av faktorn. I det här faller har vi dessutom undertryckt värden som är mindre än 0,30, varför tabellen blir ännu lättare att läsa. Ibland kan det vara värdefullt för tolkningen att ändå se laddningarna, dvs. korrelationerna, mellan variablerna och faktorerna, även om de är låga. Denna tabell har också lagts in för att visa hur det totala utfallet blev. Kvadrerar man och summerar samtliga laddningar i en faktor erhålls variansen för faktorn (2,51 resp. 1,57 i de roterade faktorerna). Vi kan således konstatera att vi genom dessa 6 indikatorer mäter två olika aspekter av den sociala bakgrunden. Mätinstrumentet har fungerat som avsikten var. Efter att ha konstaterat att instrumentet har validitet borde man, om man avser att bilda en summavariabel (index) av de i faktorn ingående indikatorena, skatta mätsäkerheten i detta index, lämpligen med hjälp av Cronbach’s alpha-koefficient (se avsnitt 2.8). Istället för att bilda en enkel summapoäng av mätvariablerna kan man använda erhållen faktorpoäng för varje individ i fortsatta beräkningar. Som tidigare nämnts är de faktorer som extraheras okorrelerade. Roteringen med varimax är en orthogonal metod, men de erhållna faktorerna blir ej längre okorrelerade. I exemplet nedan finns ett samband mellan faktor 1 och faktor 2 på 0,319. Det finns således ett visst samband mellan faktorerna ”föräldrarnas utbildningsbakgrund” och ”hemkultur”, vilket är högst rimligt. Nedan följer ett utdrag ur resultatet av en faktoranalys genomförd med programmet SPSS. I beställningen av analysen har angetts att endast faktorer med egenvärde ≥1,0 ska extraheras för att därefter roteras. Observera att tabellen ”Total Variance Explained” är något justerad pga. platsbrist. 56 © Horst Löfgren Factor Analysis Communal iti es MODERNS UTBI LDNING FADERNS UTBI LDNING ARBETE OC H SKOLA FAMI LJEANGELÄGENHETER PLANERAR TILLSAMMANS DISKUTERAR ALLMÄNNA TI NG Init ial 1, 000 1, 000 1, 000 1, 000 1, 000 1, 000 Extraction ,770 ,760 ,624 ,763 ,611 ,548 Extraction Met hod: Principal Component Analy sis. Total Variance Explained Component 1 2 3 4 5 6 Initial Eigenv alues % of CumulaTotal Variance tiv e % 2,783 46,376 46,376 1,293 21,556 67,932 ,629 10,481 78,414 ,537 8,945 87,359 ,423 7,048 94,406 ,336 5,594 100,000 Rotation Sums of Squared Loadings % of CumulaTotal Variance tiv e % 2,509 41,814 41,814 1,567 26,119 67,932 Extraction Met hod: Principal Component Analy sis. Component Matrixa Component FAMI LJEANGELÄGENHETER ARBETE OCH SKOLA PLANERAR TILLSAMMANS DISKUTERAR ALLMÄNNA TING FADERNS UTBILDNING MODERNS UTBI LDNING 1 ,805 ,754 ,747 ,731 ,453 ,517 2 -,339 ,745 ,709 Extract ion Method: Principal Component Analy sis. a. 2 components extracted. © Horst Löfgren 57 Rotated Component Matriax Component 1 2 ,872 ,782 ,774 ,709 ,867 ,862 FAMI LJEANGELÄGENH ETER ARBETE OCH SKOLA PLANER AR TILLSAMMANS DISKUTERAR ALLMÄNNA TING FADERNS U TBI LDNI NG MODERNS UTBI LDNI NG Extraction Met hod: Princ ipal Component Analy sis. Rot ation Met hod: Varimax with Kaiser Normalizat ion. a. Rot ation conv erged in 3 iterations. Rotated Component Matrixa Component 1 2 ,872 ,039 ,782 ,110 ,774 ,112 FAMI LJEANGELÄGENHETER ARBETE OCH SKOLA PLANERAR TILLSAMMANS DISKUTERAR ALLMÄNNA TING FADERNS UTBILDNING MODERNS UTBI LDNING ,709 ,213 ,090 ,164 ,867 ,862 Extraction Method: Principal Component Analy sis. Rotation Met hod: Varimax with Kaiser Normalization. a. Rotation conv erged in 3 iterations. Component Transformation Matrix Component 1 2 1 ,903 -,429 2 ,429 ,903 Extraction Method: Principal Component Analy sis. Rotation Met hod: Varimax wit h Kaiser Normalization. 58 © Horst Löfgren 2.8 Reliabilitet Om jag ställer mig på en gammal våg för att kontrollera min vikt, kan den kanske visa något olika värden vid olika mättillfällen, trots att jag väger mig med bara minuters mellanrum. Om vägningarna är gjorda inom en så kort tidsperiod att jag inte ändrat vikt, skulle man kunna anta att medelvärdet av de olika mätningarna är en bra skattning av min sanna vikt. Detta gäller dock endast om det inte finns systematiska fel vid vägningen, t.ex. att vågen på grund av feljustering hela tiden visar ett kilo för mycket. Det systematiska felet benämns även med de engelska termerna ”bias” och ”accuracy”. Den skillnad som finns mellan vikten vid ett mättillfälle och medelvärdet för viktmätningarna är storleken av mätfelet vid detta mättillfälle. Låt oss nu anta att jag väger mig ett antal gånger på en annan och kanske modernare våg och att spridningen av mätvärden nu är betydligt mindre än vid den gamla vågen. Detta innebär då att den nya vågen är mera mätsäker, dvs. har högre reliabilitet. Om vi nu går över till att mäta andra ting än sådana relativt enkla saker som att mäta vikt, kan det bli mer problematiskt att konstruera mätsäkra skalor. Via olika test eller enkäter försöker vi mäta människors förmågor, attityder eller andra ting, där vi inte har så välutvecklade instrument. I ett frågeformulär om stress ställs ett antal frågor som kanske kan summeras till ett hyggligt mått på stress. Förutom att ställa frågor om frågornas validitet, dvs. om de verkligen mäter det vi har definierat som stress, bör vi också ställa frågan om hur säkert vi mäter stress. Validitetsproblematiken kan vi bl.a. studera med hjälp av faktoranalys. För att uttala oss om mätsäkerheten måste vi finna ett sätt att skatta denna. Utgångspunkten för nästan alla reliabilitetsteorier är att erhållet värde på ett test (t) är lika med det sanna värdet (T) plus ett mätfel (e). t = T + e (test score = True score + error) Om man har perfekt reliabilitet, dvs. inga mätfel, blir således t = T. Mätfelen kan självfallet anta både positiva och negativa värden och i regel antas att medelvärdet för mätfelen är noll. Reliabiliteten kan definieras som den kvadrerade korrelationen mellan t och T. Om denna korrelation är lika med 1,0 innebär detta en perfekt reliabilitet. Skulle korrelationen vara noll är mätningen helt slumpmässig. © Horst Löfgren 59 För att bestämma reliabiliteten måste vi korrelera t med T, trots att vi endast har tillgång till t-värden. Man skulle kunna skatta korrelationen om man har tillräckligt mycket information om relationen mellan ett antal observerade variabler (testresultat eller testuppgifter). Ur detta resonemang har utvecklats olika reliabilitetsteorier och olika sätt att skatta reliabiliteten. I klassisk reliabilitetsteori utgår man ifrån begreppet ”parallella mätinstrument”, dvs. instrument som mäter samma egenskap på samma sätt. Sådana instrument är således utbytbara och ska ge samma resultat. För att instrument ska kunna betraktas som parallella måste flera antaganden gälla. Mätfelen för alla mätobjekt med samma T-värde ska i genomsnitt vara noll, mätfelen ska vara lika över hela skalan, mätinstrumentet ska ge mätfel som är oberoende av varandra och mätinstrumentet ska mäta samma egenskap. Under dessa förutsättningar kan man beräkna mätsäkerheten. Om man har tillgång till två parallella mätinstrument, kan man använda mätresultat från dessa för att skatta reliabiliteten. Korrelationen mellan mätresultaten blir då ett mått på mätsäkerheten. Emellertid kan det vara svårt att konstruera två parallella test och därför väljer man vanligtvis annan metod. Självfallet skulle det vara enklare, om man kunde skatta reliabiliteten utifrån ett mättillfälle med ett enda mätinstrument. Den s.k. ”split-half-metoden” är ett sätt att ett enda mätinstrument och dela upp den i två delar för att med hjälp av sambandet mellan dessa två delar skatta reliabiliteten. Om man korrelerar resultatet över observationer på dessa halvor (r12) för att därefter applicera den s.k. Spearman-Brown’s formel erhålls ett bra mått på reliabiliteten. r(1+2) = 2. r12 ______________ 1 + r12 (formel 2.16) Det finns olika sätt att dela upp testet i två halvor. Gör man det för hand, kan det vara lämpligt att först rangordna testuppgifterna efter lösningsfrekvens (svårighetsgrad) för att därefter dela upp testet i udda och jämna uppgifter. De udda respektive jämna uppgifterna utgör då de två halvorna. Att man uppjusterar med Spearman-Brown’s formel beror på att testet halverats i längd i förhållande till hela testet. Det gör själfallet ingenting om man har ett udda antal testuppgifter för hela testet. 60 © Horst Löfgren Ibland använder man den s.k. retest-metoden, vilket innebär att man mäter två gånger med samma test och reliabiliteten blir då skattad utifrån korrelationen mellan de två mättillfällena. Nackdelen är ju att mätningarna måste komma relativt nära i tid och då kan respondenterna reagera på att få samma sak en gång till, och dessutom kan man få minneseffekter. Om det går en längre tid mellan mätningarna har kanske respondenterna förändrat sig i något väsentligt avseende. Risken vid test-retest-metoden är att mätsäkerheten blir sammanblandad med stabilitet över tid. En metod som numera ofta används är att beräkna homogenitetskoefficient, den s.k. alpha-koefficienten. Denna koefficient går under namnet Kuder-Richardson’s formel om uppgifter utvärderas binärt (t.ex. rätt – fel). Av olika reliabilitetsskattningsmetoder är Cronbach’s alpha, som den också kallas, att föredra. Den innebär att man ställer variansen för de enskilda uppgifterna i relation till totalvariansen för testet. Om man försöker mäta ett och samma område (begrepp, dimension) med flera testuppgifter (frågor, påståenden) är denna metod lämplig. Skulle man emellertid mäta flera olika dimensioner med ett antal testuppgifter kan alpha-koefficienten indikera en lägre mätsäkerhet. Metoden bygger på att uppgifterna hänger ihop, dvs. mäter en och samma dimension, om än till viss del olika delar av denna dimension. Alpha-koefficienten kallas också ibland homogenitetskoefficient och beräknas på följande sätt: n 2 alpha = ________ ( 1 - _________ ) n–1 2tot n = antalet uppgifter i testet (formel 2.17) I SPSS finns möjlighet att via ”Scale” få ett mått på reliabilitet, både den här presenterade split-half-koefficienten och alpha-koefficienten. 2.8.1 Beräkning av Cronbach’s alpha I en studie av elever i årskurs 9 hade man samlat in data om vad vi kan kalla för hemkulturförhållanden (jfr exemplet i avsnitt 2.7). Frågor ställdes om hur ofta barn och vuxna i familjen gör saker tillsammans. De sex frågorna, som av en faktoranalys visade sig mäta en och samma dimension, handlade om vad som händer på arbetet och i skolan, familjeangelägenheter, vad man planerar tillsammans, diskussion av allmänna angelägenheter, © Horst Löfgren 61 diskussion om någon bok samt diskussion om något TV- eller radioprogram. Från beskrivande analys kan vi erhålla standardavvikelserna och därmed varianserna (standardavvikelserna i kvadrat) för varje enskild fråga. Efter att ha summerat de sex frågorna till en summapoäng kan man erhålla variansen för hela testet. Observera att man endast kan ta med de elever som har svarat på alla sex frågorna. Varianserna för de sex frågorna och totaltestet är 1.67, 1.82, 1.49, 1.89, 1.05, 1.77 och 28.68. Eftersom n = 6 erhålls följande alpha-koefficient: 6 9,69 alpha = __________ ( 1 ) = 0,79 6–1 28,68 Den erhållna koefficienten 0,79 visar att reliabiliteten är ganska god, speciellt med tanke på att vi endast har sex frågor, och att det handlar om ett område, som inte är alldeles enkelt att mäta. Som mått på den dimension som skulle mätas fungerar summavariabeln utmärkt, när det gäller att jämföra grupper, t.ex. skillnaden mellan pojkar och flickor. När det gäller att uttala sig om enskilda individer krävs högre reliabilitet för att man ska vara rimligt säker. En split-half korrelation skulle i detta fall ge 0,56, dvs. reliabilitetsvärdet 0,72 efter korrigering med Spearman-Brown’s formel. Att dela upp sex uppgifter i två halvor ger ju endast tre uppgifter i varje och det är väldigt få för att använda denna metod. 2.8.2 Ett numeriskt exempel Låt oss ta ett enkelt exempel och med hjälp av varianser skatta mätsäkerheten. I exemplet kommer vi endast att visa data från 10 observationer. Normalt har man ju betydligt fler observationer, när man vill undersöka validitet och reliabilitet. Tio personer har genomfört två test, ett verbalt test och ett för att mäta logisk slutledningsförmåga. Det verbala testet består av endast fyra uppgifter (V1-V4). Svaren på dessa uppgifter har bedömts i en femgradig betygsskala. Testet på logisk slutledningsförmåga består av åtta uppgifter L1-L8. På dessa kan man endast få rätt eller fel på varje uppgift. 62 © Horst Löfgren Tabell 2.6. Testresultat för de 10 individerna på det verbala testet ____________________________________________________________ Ind. V1 V2 V3 V4 V-totalsumma ____________________________________________________________ A 2 3 3 2 10 B 2 1 1 3 7 C 4 3 4 3 14 D 3 5 3 4 15 E 3 2 3 3 11 F 4 5 5 5 19 G 3 3 2 3 11 H 2 3 2 2 9 I 1 1 2 1 5 J 4 5 4 4 17 s 1,03 1,52 1,20 1,16 4,42 s2 1,07 2,32 1,43 1,33 = 6,15 19,51 ____________________________________________________________ Cronbach’s alpha på detta test ger: alpha = n _______ n–1 (1- 2 _________ 2tot ); 4 6,15 ( 1 - ________ ) = 0,91 3 19,51 _____ Reliabiliteten på det verbala testet är således mycket god. De fyra uppgifterna är mycket homogena, dvs. har mycket gemensam varians. Låt oss även analysera testet avseende logisk slutledningsförmåga, där varje uppgift bedöms som rätt eller fel (Tabell 2.7). © Horst Löfgren 63 Tabell 2.7. Testresultat för de 10 individerna på det logiska testet ____________________________________________________________ Ind. L1 L2 L3 L4 L5 L6 L7 L8 L-totalsumma ____________________________________________________________ A B C D E F G H I J 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 0 1 1 0 0 1 0 0 1 1 1 1 1 0 0 1 1 0 0 0 1 1 0 1 0 1 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 5 3 6 6 5 8 5 4 1 7 p 1,00 0,90 0,80 0,70 0,60 0,50 0,30 0,20 q 0,00 0,10 0,20 0,30 0,40 0,50 0,70 0,80 p.q 0,00 0,09 0,16 0,21 0,24 0,25 0,21 0,16 = 1,32 4,00 ____________________________________________________________ Variansen vid en binär kodning (rätt eller fel) är p . q, där p = sannolikheten att svara korrekt och q = 1 – p (dvs. sannolikheten att svara fel). Summan av de åtta varianserna är 1,32. För summavariabeln, dvs. det sammanlagda resultatet på testet, blir variansen 4,00. Om vi nu beräknar reliabiliteten på testet av logisk slutledningsförmåga erhålls följande (enligt Kuder-Richarson’s formel, ofta benämnd KR20): alpha = n _________ n–1 ( 1- . p q _________ 2tot ); 8 _______ 7 1,32 ( 1 - _________ ) = 0,77 4,00 Om man skulle beräkna en split-half koefficient på testet logisk slutledningsförmåga delar man lämpligen de åtta uppgifterna enligt nedan. Uppgifter ligger redan efter lösningsfrekvens i tabellen och det går att direkt dela testet i två delar. Skulle man strikt ta alla udda uppgifter i den ena 64 © Horst Löfgren gruppen och alla jämna i den andra gruppen skulle den sistnämnda gruppen få något högre resultat. För att ungefärligen nå samma medelvärde på de två halvorna kan man dela upp testet enligt ”abba-sättet”. Detta innebär att uppgifterna L1, L4, L5 och L8 bildar den ena halvan och L2, L3, L6 och L7 den andra. De 10 respondenterna får då följande resultat på de två halvorna, benämnda del 1 och del 2: Tabell 2.8. Testresultat för de 10 individerna på de två testhalvorna ____________________________________________________________ Ind. L1 L2 L3 L4 L5 L6 L7 L8 del 1 del 2 ____________________________________________________________ A 1 1 1 1 0 1 0 0 2 3 B 1 1 0 1 0 0 0 0 2 1 C 1 1 1 1 1 0 1 0 3 3 D 1 1 1 1 1 0 0 1 4 2 E 1 1 1 0 1 1 0 0 2 3 F 1 1 1 1 1 1 1 1 4 4 G 1 1 1 1 1 0 0 0 3 2 H 1 1 1 0 0 1 0 0 1 3 I 1 0 0 0 0 0 0 0 1 0 J 1 1 1 1 1 1 1 0 3 4 En produktmomentkorrelation på de två testhalvorna ger r = 0,446, vilket efter Spearman-Brown’s korrektion ger 0,62. Detta är en dålig mätsäkerhet och en åtgärd som kan rekommenderas är att förlänga testet, dvs. lägga till fler uppgifter. Det finns en formel för vad man kan förvänta att få för reliabilitet, om man förlänger testet. En fördubbling av antalet uppgifter skulle kunna förväntas öka reliabiliteten till 0,77. Relny = © Horst Löfgren n . relgammal 1 + relgammal ; där n = antalet gånger testet förlängs 65 3 Parametriska hypotesprövningsmetoder För de parametriska hypotesprövningsmetoderna gäller att vissa förutsättningar bör vara uppfyllda. Sålunda förutsätts att observationerna i stickprovet kommer från en specificerad i regel normalfördelad observationsvariabel, och att mätskalan är intervall- eller kvotskalerad. Vid analys av differenser mellan små stickprov förutsätts också, att mätvariabelns varians är lika i de bakomliggande populationerna. Många gånger i beteendevetenskapliga sammanhang har man dock data på endast ordinalskalenivå. Om stickprovet inte är alltför litet och data synes vara approximativt normalfördelade används ofta parametriska metoder. Man kan visa att dessa metoder i flesta fall är robusta mot avvikelser i ovan nämnda förutsättningar. Fysiska mätningar är ofta normalfördelade (längd, vikt). Däremot vet vi sällan något om mätningar av psykiska förmågor (kunskap, intelligens, färdighet). Vid den sistnämnda typen av mätningar har man ingen given skala, utan man konstruerar en skala och standardiserar den med normalfördelningen som bas. Vi har sålunda sett till att det vi försöker mäta, genom valet av uppgifter, ger värden som är approximativt normalfördelade. Det är i många forskningssammanhang lämpligt, bl.a. för den statistiska analysen, att normalstandardisera de variabler som studeras. 3.1 Urvalsmetoder De vanligaste slumpmässiga urvalsmetoderna är obundet slumpmässigt urval (OSU), systematiskt urval, stratifierat urval och klusterurval. Det kanske mest vanliga urvalet, åtminstone i beteendevetenskapliga sammanhang, är dock det icke-slumpmässiga urvalet, det s.k. tillfälliga urvalet. 66 © Horst Löfgren Om ett stickprov är slumpmässigt draget ur en viss definierad population innebär detta att stickprovet representerar populationen. Data från stickprovet kan således generaliseras till den definierade populationen. Vid statistisk inferens förutsätts i regel obundet slumpmässigt urval. I undersökningar där man av olika skäl tvingats använda ett ickeslumpmässigt urval, måste man kunna argumentera för att undersökningsgruppen är representativ för någon bakomliggande population, annars blir den statistiska hypotesprövningen meningslös. 1. Obundet slumpmässigt urval (OSU) Obundet slumpmässigt urval är ett bra sätt att erhålla representativitet. Tillvägagångssättet är följande: a) populationen definieras b) populationens individer numreras 1, 2, 3, ....., N c) stickprovets storlek bestäms d) urvalet görs med hjälp av en slumptalstabell, lotter eller dylikt 2. Systematiskt urval Ett sätt att slippa lotta ut samtliga individer till stickprovet är att välja var k:te individ efter att slumpmässigt ha valt den första. a) populationen definieras ( antag att N = 450) b) stickprovets storlek bestäms (exempelvis n = 30) c) kvoten N/n beräknas (r = N/n = 450/30 = 15) d) slumpmässigt väljs ett tal mellan 1 och r (antag att vi erhåller 8) e) det systematiska stickprovet blir då individ nr 8, 8+r, 8+2r, .... 8+29r (dvs. individ nr 8, 23, 38, ....., 428, 443) Det systematiska urvalet fungerar bra, såvida det inte föreligger någon periodicitet i populationen. Ett av de klassiska exemplen på ett misslyckat systematiskt urval är hämtad från en osann historia ur militärlivet. Vid en repetitionsövning vintertid klagade repgubbarna på att det var för © Horst Löfgren 67 kallt i barackerna. Plutonchefen, som ansåg sig statistiskt kunnig, utförde då en stickprovsundersökning. Han utnyttjade då ett systematiskt urval. Barack A: S1 S2 S3 S4 S5 Kamin S6 Barack B: S1 S2 S3 S4 S5 Kamin S6 Barack C: S1 S2 S3 S4 S5 Kamin S6 ...................................................................... Barack O: S1 S2 S3 S4 S5 Kamin S6 S= sängplats Figur 3.1. N= 150; n= 15 S7 S8 S9 S10 S7 S8 S9 S10 S7 S8 S9 S10 S7 S8 S9 S10 r=150/15 = 10 Sängarnas placering i förhållande till kaminen i barackerna Slumpmässigt drogs nummer 5, och urvalet kom således att bestå av individ nr 5, 15, 25, ... 135 och 145. De som kom med i stickprovet fick besvara en enkel enkät med huvudfrågan om de frös eller ej på nätterna. Svaren blev väldigt lika, nämligen att det var något för varmt i barackerna för att kunna sova gott (alla i stickprovet låg ju intill en kamin). Plutonchefen ansåg sig därmed ha visat, att det ingalunda var för kallt i barackerna och gav omedelbart order om att minska på eldningen i kaminerna. 3. Stratifierat urval Om populationen kan delas in i ett antal homogena undergrupper, som sinsemellan är olika i sin sammansättning med hänsyn till undersökningsvariabeln, kan man använda stratifierat urval. Det kan vara ett bra sätt att garantera att alla undergrupperna blir representerade i stickprovet. Man kan ibland välja proportionellt stratifierat urval, vilket innebär att delgrupperna blir representerade efter sin storlek. a) populationen definieras, b) de olika delgrupperna (strata) avgränsas genom en eller flera för undersökningen viktiga klassifikationer, c) ur varje strata dras ett slumpmässigt urval av önskad storlek med hjälp av OSU eller systematiskt urval. 68 © Horst Löfgren 4. Klusterurval Vid stora populationer kan det ibland vara praktiskt att använda klusterurval. Populationen delas då in i ett antal heterogena enheter (kluster), som sinsemellan bör vara lika. Klusterurvalet sker ofta som ett tvåstegsurval. a) b) c) d) e) f) populationen definieras, urvalsenheterna (klusterna) bestäms, antalet kluster som ska ingå bestäms, de i urvalet ingående klustren dras genom OSU, antalet individer som ska ingå ur varje kluster bestäms, individerna dras genom OSU ur respektive kluster. I nedanstående tabell jämförs stratifierat urval och klusterurval. Tabellen tjänar också som riktlinje för när man bör välja den ena eller den andra urvalsmetoden. Tabell 3.1. Jämförelse mellan stratifierat urval och klusterurval vad gäller hur mätobjekten ska vara Strata Kluster Mellan olika lika Inom homogena heterogena 5. Tillfälligt urval Ofta tvingas man i praktiken använda ett icke-slumpmässigt urval. Det kan vara av tids- eller kostnadsmässiga skäl eller helt enkelt därför att det är det enda sättet som är praktiskt möjligt. Vi kan kalla detta för ett tillfälligt urval. Med goda kontrollmöjligheter kan vi kanske våga påstå, att urvalet är representativt för en viss population. a) b) c) d) populationen definieras, stickprovets storlek bestäms, individer väljs i enlighet med vad som är praktiskt möjligt, urvalsgrupperna kontrolleras ur representativitetssynpunkt på ett antal väsentliga variabler. © Horst Löfgren 69 3.2 Sannolikhetsbegreppet Man hör ofta folk ironisera över den hjälp statistiken erbjuder. Vi har väl alla hört uttrycket att det finns tre slags lögner; lögn, förbannad lögn och statistik. Ibland försöker man bevisa saker och ting med statistik. Skulle förutsägelser ej slå in säger kritikerna att statistiken ljuger. Låt oss slå fast att man inte kan bevisa något med statistik, utan endast visa att något gäller med en viss grad av sannolikhet. Eftersom man med hjälp av inferensstatistik drar slutsatser med en viss grad av sannolikhet, dvs. tar en viss risk för felslut, kan man ej påstå att statistiken ljuger. I det här sammanhanget är det två lagar, som man måste känna till för att kunna beräkna sannolikheter, nämligen additionssatsen (för varandra uteslutande händelser) och multiplikationssatsen (för oberoende händelser). Antag att vi kastar ett mynt. Två händelser kan då inträffa. Antingen erhålls ”krona” eller ”klave”. Vi utgår ifrån att myntet är symmetriskt, och att det ej kan ställa sig på kant. Om du håller på utfallet ”klave”, kallas detta utfall för ”ett gynnsamt fall”. Sannolikheten att erhålla klave (pklave) är då 0,5. antalet gynnsamma fall 1 pklave = ____________________ = ___ antalet möjliga fall 2 Sannolikheten att erhålla ”krona” är givetvis också 0,5. Om man summerar sannolikheterna för varandra uteslutande händelser erhåller man p=1 (p=sannolikhet efter engelskans ”probability”). Om vi kastar tärning, hur stor är chansen att erhålla en ”sexa”? Eftersom det finns 6 möjliga fall erhålls psexa=1/6. Sannolikheten att erhålla en ”etta” är lika stor (1/6), om nu tärningen inte är falsk. 1. Additionssatsen för varandra uteslutande händelser Om reglerna för Fia-spel säger att man måste slå en sexa eller en etta för att få börja spelet, hur stor är då chansen att få endera av detta vid kast med tärning? Eftersom petta och psexa båda är 1/6, och man måste erhålla det ena eller det andra, blir chansen en på tre att lyckas. petta + psexa = 1/6 + 1/6 = 2/6 = 1/3 70 © Horst Löfgren 2. Multiplikationssatsen för oberoende händelser Hur stor är chansen att du vinner två gånger i rad vid myntkast? Låt oss säga att du håller på klave. Chansen att vinna första gången är 1/2 och andra gången lika stor. Du måste emellertid vinna båda gångerna. Det finns således endast ett gynnsamt fall, men hur många möjliga utfall finns det? krona - krona krona - klave klave - krona klave - klave x Kryssmarkeringen står för det gynnsamma fallet med vinst två gånger i rad. Eftersom det finns fyra möjliga händelser blir sannolikheten 1/4. Med hjälp av multiplikationssatsen erhåller du lätt sannolikheten för detta utfall: p= 1/2 .1/2 = 1/4 Antag att du spelar roulette, där chansen är lika stor för samtliga nummer att falla ut (0-36). Det finns således 1/37 chans att vinna om man sätter på nummer, dvs. man vinner i ungefär tre fall av hundra. Statistikern skulle ha gjort prognosen, att du vid ditt nästa spel kommer att förlora. Observera då att statistikern tar en viss risk i sin prognos. Risken är ungefär 3 %. Låt oss leka med tanken att du faktiskt vann, när du satte jetongen på ditt lyckonummer. Ljuger statistiken? 3.3 Samplingfördelning I ett föregående avsnitt redogjordes för några olika sätt att ta ut ett stickprov ur en population. När vi väl har vårt stickprov, kan vi beskriva det genom beräkning av vissa index. Ofta ger medelvärdet och standardavvikelsen en god bild av hur stickprovet fördelningsmässigt ser ut. Låt oss fortsätta resonemanget med ett konkret exempel i tankarna. Antag att vi genomför ett begåvningstest på ett stickprov ur populationen ”elever i årskurs 6”. Vi transformerar erhållna råvärden till den kända IQ-skalan (µ=100; =15). Låt oss ta ett stickprov omfattande 25 elever. Vad får vi © Horst Löfgren 71 för medelvärde i denna grupp? Ja, om det är ett slumpmässigt urval ur populationen, borde vi få ett värde i närheten av 100. Du inser säkert att vi slumpmässigt kan få ett något för högt eller något för lågt värde beroende på om slumpen har gett oss för många högpresterande eller för många lågpresterande elever i stickprovet. Låt oss nu välja ett nytt stickprov och beräkna medelvärdet för detta nya stickprov. Vid nya stickprovsdragningar kommer vi att få något varierande medelvärden. I Tabell 3.2 redovisas några tänkbara medelvärdesresultat i de olika stickproven. Tabell 3.2. Tänkbara medelvärden i slumpmässiga stickprov ur en population med µ=100 och s=15 ____________________________________________________________ Stickprov nr Medelvärde Stickprov nr Medelvärde ____________________________________________________________ 1 93,6 11 100,5 2 95,2 12 100,8 3 96,1 13 101,7 4 97,4 14 102,0 5 98,5 15 102,5 6 98,9 16 103,1 7 99,3 17 103,5 8 99,6 18 104,3 9 100,1 19 105,2 10 100,2 20 105,6 ____________________________________________________________ Om vi markerar resultaten på IQ-skalan, kan vi därefter rita ett diagram över hur utfallet av stickprovsmedelvärden blev. x x x x x x x xxxxxxxx xx x x x x x x x ____________________________________________________________ 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 Figur 3.2. Några tänkbara medelvärden i slumpmässiga stickprov Om vi tänker oss ett mycket stort antal stickprovsmedelvärden (M), skulle dessa nästan alltid fördela sig symmetriskt kring populationsmedelvärdet 72 © Horst Löfgren (µ). Du inser säkerligen att vi oftare finner att medelvärdena ligger nära populationsmedelvärdet (i detta fall µ=100) och mera sällan längre bort från populationsmedelvärdet. Ibland ger slumpen oss alldeles för bra elever, ibland alldeles för dåliga elever, men oftast ger slumpen oss en normal och representativ elevgrupp. Om vi i stället skulle ha tagit ut större stickprov, exempelvis 100 elever, inser du säkert att slumpavvikelser från medelvärdet 100 blir mindre. Ju fler individer som finns med i stickprovet desto ”säkrare” urval. Enstaka, om än kraftigt avvikande individer, får mindre betydelse för gruppens medelvärde vid stora stickprov. Ritar vi upp fördelningen för ett stort antal stickprovsmedelvärden, egentligen ett oändligt antal, erhålls följande fördelning: Figur 3.3. Samplingfördelningen med +/- 1 medelfel Denna fördelning, som i regel kan antas ha normalfördelningens egenskaper, kallas för samplingfördelning. Medelvärdet i denna fördelning är, som framgår av figuren, lika med populationsmedelvärdet (µ). Medelvärdet i samplingfördelningen betecknas µM. Standardavvikelsen i denna fördelning är av central betydelse för inferensstatistiken. Denna standardavvikelse kan användas som ett mått på felet, som slumpen ger oss vid stickprovsdragning. Ibland får vi ett medelvärde som är högre än populationsmedelvärdet, ibland får vi ett värde som är lägre. Hur ofta, uttryckt i procent får vi ett medelvärde som ligger mellan -1M och +1M? Som du kanske erinrar Dig ligger ungefär 68 % av samtliga observationer mellan -1 och +1 i normalfördelningen. Således får vi ett medelvärde i vårt stickprov, som i ungefär 2 fall av 3 ligger mellan µ - M och µ + M. M kallas för medelfelet, dvs. det fel man får räkna med att erhålla vid stickprovsdragning. Eftersom 2 fall av 3 får betraktas som något för osäkert väljer vi i stället att ta två gånger medelfelet. © Horst Löfgren 73 Medelfelet är kärnan i inferensstatistiken och går i regel lätt att ungefär beräkna för såväl ett som flera stickprov. För ett stickprov är medelfelet lika med standardavvikelsen dividerat med kvadratroten ur antalet observationer. M = ____ n Figur 3.4. (formel 3.1) Samplingfördelningen med +/- 2.medelfelet Enligt normalfördelningen hamnar ungefär 95 % av samtliga observationer mellan µ-2 och µ+2. 3.4 Skattningar Med skattning avser vi att antingen med kännedom om populationsparametrarna göra en skattning av karaktäristika i stickprovet eller med kännedom om stickprovskaraktäristika göra en skattning av populationsparametrarna. Parameter används här i betydelsen egenskaper i populationen. µ och är parametrar i populationen; M och s är karaktäristika i stickprovet. Eftersom den sistnämnda skattningstypen ovan är det mest vanliga kommer vi i det följande att helt koncentrera oss på detta fall. Jämför med att vi oftast gör stickprovsundersökningar och önskar generalisera resultaten till den bakomliggande populationen. Låt oss ta ett exempel! 74 © Horst Löfgren Antag att vi inom en större internationell undersökning önskar mäta svenska elevers matematikkunskaper vid grundskolans avslutning. Ett prov ges till ett slumpmässigt urval ur populationen omfattande 2500 ungdomar elever i årskurs 9. I detta stickprov erhåller vi M=24,0 och s=6,00. Hur många poäng har då svenska elever, dvs. vad blir populationsmedelvärdet? Eftersom vi av praktiska skäl inte kan undersöka mer än detta stickprov, måste vi med utgångspunkt i dessa data göra en skattning av populationsmedelvärdet. Enligt tidigare resonemang kan vi, beroende på slumpen i urvalet av individer i stickprovet, ha erhållit ett medelvärde (M) som något avviker från populationsmedelvärdet (µ). Därför ger vi ett intervall kring det erhållna medelvärdet (M) och påstår att detta intervall täcker µ med en viss grad av säkerhet. Ju större intervall desto större sannolikhet att µ täcks av intervallets gränser. För att veta hur stort intervall vi ska ta kring M, dvs. hur mycket vi ska addera respektive subtrahera från M, måste vi dels bestämma säkerhetsnivån, dels ta hjälp av det tidigare beskrivna medelfelet. Eftersom vi nu inte vet standardavvikelsen i populationen (måste vi skatta denna med hjälp av den erhållna standardavvikelsen i stickprovet. Vi kan således beräkna medelfelet genom att dividera standardavvikelsen i stickprovet med antalet observationer i stickprovet. s M = ____ n (formel 3.2) Vi kan konstatera att M minskar vid ökning av stickprovsstorleken. Det är lätt att förstå att så blir fallet. Vad kan slumpen ställa till med vid ett litet stickprov? Jo, en extremt bra individ kan råka komma med, och denne individ höjer då medelvärdet. Om vi har många observationer medför detta att enstaka extrema individer så att säga försvinner i mängden. Vi hade beräknat M=24.0 och s=6,00 i vårt stickprov. Medelfelet blir då 0,12. M = 6,00/2500 =0,12 Om vi nöjer oss med att ta M +/- M, dvs. 24,0 +/- 0,12 är chansen 68 % att µ ligger inom detta intervall. Om vi ökar intervallet till M +/- 2M, dvs. två gånger medelfelet, ökar också sannolikheten att täcka in µ. Sannolikheten blir nu ungefär 95 %. Det troliga är dock att µ ligger någonstans i närheten av M och inte i intervallets extremvärden. För att täcka in µ med en viss bestämd grad av säkerhet multipliceras medelfelet med ett värde, som kan erhållas ur en t-fördelningstabell (se Appendix, Tabell A). Denna t-fördelningen är en familj av t-fördelningar som är specificerade av anta© Horst Löfgren 75 let frihetsgrader, dvs. t-fördelningarna ser lite olika ut beroende på antalet observationer i stickprovet. Med antalet frihetsgrader menas antalet värden som är fria att variera, när man beräknat ett beskrivande mått, t.ex. när man vet medelvärdet (jfr avsnitt 4.1.1). Utifrån t-fördelningen kan man erhålla ett värde som medelfelet ska multipliceras med för att täcka in populationsmedelvärdet med en viss grad av säkerhet. I stället för att ta 2 gånger medelfelet så kan vi ur t-fördelningen få reda på vad medelfelet ska multipliceras med för att ge ett intervall som med exakt 95 % sannolikhet täcker in populationsmedelvärdet. Ett sådant intervall kallas för konfidensintervall. M - tp. M < µ < M + tp. M (formel 3.3) tp = värde ur t-fördelningen på den valda sannolikhetsnivån p I vårt exempel ovan erhålls värdet 1,96 ur t-tabellen (Tabell A i Appendix). Eftersom antalet observationer i stickprovet är 2500 och frihetsgraderna således 2499 får man gå på det värdet som gäller för ”oändligt många” observationer. De s.k. kritiska värdena för stora stickprov på olika sannolikhetsnivåer i t-fördelningen är identiska med de kritiska värdena i z-fördelningen (Tabell B). 24,0 - 1,96 . 0,12 < µ < 24,0 + 1,96 . 0,12 Populationsmedelvärdet ligger således med 95 % säkerhet inom intervallet 24,0 +/- 0,2352. Skulle vi vilja vara ännu säkrare på att täcka in populationsmedelvärdet kan vi i stället välja ett 99,9 % konfidensintervall, dvs. multiplicera medelfelet med 3,29. Vi erhåller då att populationsmedelvärdet avrundat ligger mellan 23,6 och 24,4. Om vi vid en experimentell undersökning vill undersöka effekter av en ny medicin, kan vi arrangera undersökningen enligt någon kontrollgruppsdesign. Vi tänker oss att vi slumpmässigt har valt ut en undersökningsgrupp (stickprov) och slumpmässigt fördelat individerna till respektive experiment- och kontrollgrupp. Under förutsättning att fördelningen till respektive åtgärdsgrupp skett slumpmässigt kan vi utgå ifrån att grupperna är lika från början (inom slumpens ram). 76 © Horst Löfgren Design: Endast eftermätning med kontrollgrupp Grupp 1 (experimentgrupp): Grupp 2 (kontrollgrupp): X1 X2 O O X1 = den nya medicinen X2 = den tidigare använda medicinen O = observation eller mätning av åtgärdseffekter För att jämföra de båda metoderna är även här medelfelet av central betydelse. I detta fall måste vi beräkna medelfelet för differensen mellan behandlingsgrupperna (=stickproven). Analogt med fallet för ett stickprov blir differensen mellan stickprovsmedelvärdena här inte exakt lika för varje stickprovspar vid upprepade stickprovsdragningar. Medelfelet för differenser kan beräknas med hjälp av en formel, som presenteras senare. Även i detta fall kan vi erhålla en skattning av populationsdifferensen på en vald sannolikhetsnivå genom att multiplicera medelfelet med ett värde motsvarande den valda sannolikhetsnivån. 3.5 Hypotesprövning Låt oss som en inledning till detta avsnitt leka ett slag för att visa att även du har ”en inbyggd hypotesprövningsmekanism” inom Dig. Du och jag spelar krona och klave med ett av mina mynt. För att göra det hela lite mer spännande sätter vi 10 kronor i insats för varje spel. Du håller hela tiden på ”klave” och jag på ”krona”. Spelet kan börja. Vid första kastet vinner ”krona”. Jag får 10 kronor av Dig. Har du någon kommentar? Nej, förmodligen inte. Du räknar kanske med att vinna nästa gång. Sannolikheten för vinst är ju 50 % (p=1/2). Nytt spel, nya insatser och jag vann igen. Har du någon kommentar? Nej, förmodligen inte. Vi spelar en tredje gång, och jag vinner återigen. Har du någon kommentar? Ja, du kanske muttrar något om otur. Vi fortsätter och jag kan tänka mig följande situationer med efterföljande kommentarer: © Horst Löfgren 77 Antal Antal ”krona”, Din förlust Dina kommentarer spel dvs. vinst för mig ____________________________________________________________ 4 4 40:- Det var som ... Jag har en väldig otur 5 5 50:- Tusan också, kan verkligen slumpen skoja så eller ....? 6 6 60:- Nej, du. Det här är något skumt. Är myntet verkligen OK? 7 7 70:- Du fuskar väl inte? Men OK, en sista gång 8 8 80:- Du FUSKAR, din skurk! Hit med pengarna som du lurat av mig! Om vi skulle se på ovanstående exempel med statistikerns ögon, startar spelet under förutsättningen att myntet är korrekt, och att jag spelar ärligt. Vi har då följande nollhypotes och mothypotes: H0 : pkrona = pklave = 1/2 H1 : pkrona pklave 1/2 Mothypotesen är i detta fall tvåsidig, dvs. vi har ej riktat den genom att ange större än (>) eller mindre än (<). Ur din synpunkt hade det varit naturligare med en ensidig mothypotes, för du hade väl aldrig reagerat kritiskt om klave hela tiden hade fallit ut. Enligt H0 bör vi vinna lika många gånger var, såvida slumpen inte nu ser till att den ene eller den andre vinner något oftare. Under de fyra första spelen med fyra förluster för Dig i rad, ansåg du att man inte kunde förkasta H0. Förlusterna tillskrevs slumpen. Du trodde att du hade otur. Efter 5-6 kast började du att ifrågasätta H0, och efter 7 förluster i rad förkastade du H0. Om du nu har en viss respekt för mig och inte vågar riskera att felaktigt beskylla mig för fusk, kanske du till och med sträcker Dig till 8 kast, innan du tar steget fullt ut, dvs. förkastar H0 för att i stället tro att H1 gäller. Observera dock att du inte är 100 % säker, när du förkastar H0. Jag kan ju genom slumpens hjälp ha haft en sådan tur. Det finns alltid en viss 78 © Horst Löfgren osäkerhet i beslut, som baserar sig på en sådan här statistisk hypotesprövning. Antingen kan man felaktigt förkasta H0 (slumpen var den faktiska orsaken till det osannolika resultatet) eller felaktigt acceptera H0 (tro att det var otur och därför förlora pengar). Så här i efterhand kan jag erkänna att myntet var preparerat. Under de sex första kasten gjorde du således det felaktiga beslutet att acceptera H0, trots att den var falsk. Utifrån den här slantsinglingsleken kan vi bygga upp ett enkelt statistiskt test. Vi använder samma hypoteser som i det föregående, dvs. H0 : pkrona = 1/2 H1 : pkrona 1/2 Om vi kastar en gång, hur stor blir då sannolikheten att jag vinner, dvs. att ”krona” kommer upp? Eftersom det finns två möjliga fall blir sannolikheten 1/2. Kastar vi två gånger, hur stor blir då sannolikheten för mig att erhålla respektive 0, 1 och 2 vinster? Följande utfall är möjliga: krona krona klave klave krona klave krona klave Sannolikhetsvärdena blir således: pingen krona = 1/4 2 pen krona = /4 ptvå kronor = 1/4 På samma sätt kan vi beräkna sannolikheterna för respektive 0, 1, 2 och 3 vinster på 3 kast, sannolikheterna för respektive 0, 1, 2, 3 och 4 vinster på 4 kast osv. kr kr kr kl kr kr kl kr © Horst Löfgren kr kl kr kr kr kl kl kl kl kr kl kl kl kl kr kl pingen krona pen krona ptvå kronor ptre kronor = 1/ 8 = 3/ 8 3 = /8 1 = /8 79 Tabell 3.3. Sannolikheter vid slantsingling för vinst (krona) ____________________________________________________________ Antal Antal kast vinster 1 2 3 4 5 6 7 8 9 10 ____________________________________________________________ 0 1/2 1/4 1/8 1/16 1/32 1/64 1/128 1/256 1/512 1/1024 1 1/2 2/4 3/8 4/16 5/32 6/64 7/128 8/256 9/512 10/1024 1/ 3/ 6/ 10/ 15/ 21/ 28 36 45/ 2 4 8 16 32 64 128 /256 /512 1024 1/8 4/ 10/ 20/ 35/ 56/ 84/ 124/ 3 16 32 64 128 256 512 1024 1/ 5/ 15/ 35/ 70/ 126/ 210/ 4 16 32 64 128 256 512 1024 1/ 6/ 21/ 56/ 126/ 252/ 5 32 64 128 256 512 1024 1/ 7/ 28/ 84/ 210/ 6 64 128 256 512 1024 1/ 8/ 36/ 124/ 7 128 256 512 1024 1/ 9/ 45/ 8 256 512 1024 1/ 10/ 9 512 1024 1/ 10 1024 ____________________________________________________________ Självfallet behöver man inte sätta upp samtliga antalet möjliga fall för att beräkna sannolikheterna som i Tabell 3.3, utan här finns ett system. Kan du finna detta system? När vi nu gjort upp denna sannolikhetstabell kan vi leka lite med påhittade händelser. Hur stor är sannolikheten att erhålla 6 vinster av 6 möjliga? Av värdet i sjätte raden och sjätte kolumnen finner vi att sannolikheten är 1/64, dvs. mellan 1 % och 2 %. Sannolikheten att vinna 7 gånger av 7 möjliga blir 1/128, dvs. något under 1 %. Jag vet inte var din signifikansnivå ligger, dvs. var du förkastar H0, men man kan pröva sin nollhypotes på olika nivåer. Här följer några exempel på vanliga signifikansnivåer: 20% -nivån (20 % risk att felaktigt förkasta H0) 5% -nivån (5 % risk att felaktigt förkasta H0) 1% -nivån (1 % risk att felaktigt förkasta H0) 0,1% -nivån (0,1 % risk att felaktigt förkasta H0) 80 © Horst Löfgren Figur 3.5. -risk och -risk vid konstanthållande av antalet observationer vid tvåsidig prövning Som du säkert förstår är det besvärligt att svara på frågan om på vilken nivå man ska testa sin nollhypotes (jfr Figur 3.5). Väljer vi 20%-nivån är risken att felaktigt förkasta H0 ganska stor, men risken att felaktigt acceptera H0 är då ganska liten. Om vi i stället väljer 1%-nivån blir risken att felaktigt förkasta H0 mindre, men risken att felaktigt acceptera H0 blir större. Svaret på frågan om vilken nivå man ska testa på får besvaras av Dig. Vilken risk är du beredd att ta? Tycker du att det är obehagligare att anklaga mig för fusk än att förlora pengar, då väljer du kanske 1%-nivån. Om du är ekonomisk bör du i stället välja en högre signifikansnivå, förslagsvis 20%-nivån. Risken att felaktigt förkasta H0 kallas för -risk, och risken att felaktigt behålla H0 kallas för -risk. Om vi bestämmer oss för att testa på 1%-nivån kan detta således uttryckas =0,01. Låt oss återvända till sannolikhetstabellen och beräkna sannolikheten att vid 5 kast erhålla minst 3 vinster (dvs. 3, 4 eller 5 vinster). Vi adderar sannolikheterna och erhåller: © Horst Löfgren 81 p3 = 10/32 p4 = 5/32 p5 = 1/32 p3,4,5 = 10/32 + 5/32 + 1/32 = 16/32 = 1/2 Chansen att erhålla minst 3 vinster av 5 är således 50 %. Då blir självfallet sannolikheten att erhålla antingen 0, 1 eller 2 vinster också 1/2. Vi kan sammanfatta de fyra möjliga kombinationerna av beslut och verkligt förhållande på följande sätt: Verkligt förhållande: H0 gäller H1 gäller H0 förkastas Typ I-fel (sannolikhet = ) Korrekt beslut (sannolikhet = 1- ) H0 förkastas ej Korrekt beslut Typ II-fel Beslut: (sannolikhet = 1- ) (sannolikhet = ) Från beräkning av sannolikheter kan vi nu övergå till hypotesprövning. Antag att vi spelar 10 gånger. Om H0 gäller bör vi vinna ungefär hälften av gångerna var. Slumpen ser kanske till att det inte blir 5 mot 5, utan kanske i stället 6/4 eller 7/3. Det kan självfallet också gå åt motsatt håll, t.ex. 4/6 eller 3/7. Låt oss säga att jag vann 8 gånger och du 2 gånger. Testa din nollhypotes med =0,05! H0: pkrona = pklave = 1/2 H1: pkrona pklave 1/2 Signifikansnivå: =0,05 För att klargöra arbetsgången kan vi grafiskt visa utfallet på följande sätt: H1 gäller H0 gäller H1 gäller Kritiskt Kritiskt värde B värde A ___________________________________________x____x___________ 0/10 82 1/9 2/8 3/7 4/6 5/5 6/4 7/3 8/2 9/1 10/0 © Horst Löfgren Antingen gäller H0 eller H1. Vi måste därför bestämma ett kritiskt värde för det observerade resultatet, så att summan av sannolikheterna till höger (på denna figur) blir 0,025. Observera att vi genomför en tvåsidig prövning, varför vi får 0,025 i båda svansarna. Om vi lägger vårt kritiska värde (A) mellan 8/2 och 9/1 erhålls p = 10/1024 + 1/1024 = 11/1024, dvs. ungefär 1 %. Lägger vi i stället vårt kritiska värde (B) mellan 7/3 och 8/2 erhålls p = 45/1024 + 10/1024 + 1/1024 = 56/1024, dvs. något mer än 5 %. Vilket kritiskt värde ska vi använda? Eftersom vi vill testa på 5%-nivån, dvs. p 0,025 i högra svansen, inser vi att det kritiska värdet ligger någonstans mellan 8/2 och 9/1. Nu kommer slutklämmen. Vi har observerat 8 vinster mot 2, och vi har bestämt oss för att behålla H0, om slumpen kan ha åstadkommit de uppkomna resultaten i fler än 5 fall på 100 (>5 %). Ska vi behålla eller förkasta H0? Då vi håller på vår förutbestämda -risk, kan vi i detta fall inte förkasta H0. Nu inser du säkert också varför man ibland varit kritisk mot detta ”antingen eller testande”, när det egentligen rör sig om en kontinuerlig övergång från H0 till H1. När man som i detta fall råkar hamna till vänster om det kritiska värdet, accepteras H0. Om man i stället råkar hamna på eller något till höger om det kritiska värdet förkastas H0 i stället. Observera att fler observationer leder till säkrare resultat. Här kan vi också påpeka att man egentligen inte bör säga att H0 accepteras. Man prövar om H0 kan förkastas eller ej. Man prövar inte om H0 kan accepteras. Kan man inte förkasta H0, är det bättre att säga att man behåller H0 tills vidare. Det som vi här har visat med hjälp av slantsinglingsleken är ett enkelt statistiskt test. Sannolikheterna i Tabell 3.3 kan erhållas ur binomialfördelningen och vi kan kalla testet för binomialtestet. Detta test finns också i SPSS under icke-parametriska test. För att direkt vid testkvantiteten ange huruvida ett observerat värde är signifikant eller ej kan man via en stjärnkonvention ange signifikansnivån. Följande stjärnmarkeringar brukar användas: Signifikant på nivån () 5 % (0,05) 1 % (0,01) 0,1 % (0,001) ej signifikant © Horst Löfgren stjärnmarkering probabilitetsmarkering * ** *** (-) p<0,05 eller 0,01< p < 0,05 p<0,01 eller 0,001< p < 0,01 p<0,001 p> 83 3.6 Hypotesprövning av ett stickprov i förhållande till en population Vi utgår ifrån ett exempel och tänker oss att en skolklass har genomgått ett standardprov i matematik för årskurs 9. För detta prov finns således normer gällande för hela landet. I den aktuella klassen erhölls en betygsfördelning som visas nedan. Det framgår att klassen erhållit ett betygsgenomsnitt som något överstiger det teoretiska värdet 3,0. Kan dessa elever vara dragna ur en population med medelvärdet 3,0, eller är skillnaden så stor att man knappast kan anta att detta är en slumpmässig avvikelse? För att besvara denna fråga ställer vi upp följande nollhypotes och mothypotes: H0: Det föreligger ingen skillnad mellan medelvärdet för denna klass och riksgenomsnittet (µ=3,0). H1: Det föreligger en skillnad mellan medelvärdet för denna klass och riksgenomsnittet (µ3,0). Tabell 3.4. Betygsresultat i en skolklass ____________________________________________________________ Betyg Antal elever (x) (f) f.x f.x2 ____________________________________________________________ 1 1 1 1 2 5 10 20 3 9 27 81 4 8 32 128 5 2 10 50 ____________________________________________________________ 25 80 280 ____________________________________________________________ M= 84 fx ______ N = 80 _____ 25 = 3,2 © Horst Löfgren s= (fx)2 fx2 - ______ n _______________________ n-1 = 1,00 Nollhypotesen kan vi kalla för "ingen skillnad-hypotesen", eftersom man alltid prövar just detta förhållande. Den skillnad som faktiskt har observerats kan kanske ligga inom vad vi betraktar som slumpskillnad. Mothypotesen är oftast vår undersökningshypotes, dvs. vi önskar oftast förkasta H0 för att i stället tro att H1 gäller. Observera att vi alltid prövar om H0 kan förkastas eller ej på en viss vald signifikansnivå. Antingen kan vi förkasta H0, eller så har vi misslyckats med att förkasta H0. Om vi nu erinrar oss samplingfördelningen (avsnitt 3.3), kan vi uttrycka den observerade differensen mellan vårt klassmedelvärde (M) och populationens medelvärde (µ) i förhållande till medelfelet, dvs. till standardavvikelsen i felfördelningen. Finner vi det erhållna medelvärde 3,2 inom området +/- M, vet vi att denna differens inträffar av en ren slump ungefär 2 gånger av 3 (ca 68 %). Hamnar medelvärdet just utanför vågar vi knappast förkasta H0. Detta inträffar ju ungefär 1 gång på 3 (ca 32 %). Väljer vi den vanliga signifikansnivån 5% (=0,05), måste vi i stället se om vårt medelvärde hamnar inom området +/- 2M. Om vårt medelvärde hamnar utanför detta intervall, anser vi att H0 bör förkastas. Visserligen tar vi en viss risk att göra ett felaktigt beslut (5 %), men vi hoppas att slumpen inte skojade med oss just i vårt fall. Vi kan komplettera våra hypoteser ovan med att ange den signifikansnivå på vilken vi prövar H0. Signifikansnivå: =0,05 (Vi erinrar oss att är risken att felaktigt förkasta H0) För att kunna pröva vår hypotes måste vi beräkna medelfelet M. Detta medelfel kan vi skatta på följande sätt: s M= ____ n (formel 3.2) Medelfelet kan således skattas med hjälp av standardavvikelsen i stickprovet och antalet observationer i stickprovet. © Horst Löfgren 85 Som tidigare nämnts ska vi nu jämföra den observerade differensen mellan stickprovets och populationens medelvärde i förhållande till medelfelet, dvs. den avvikelse som slumpen kan åstadkomma. M-µ t = _______ s / n (formel 3.4) Detta ger oss ett värde med en känd fördelning, och denna fördelning är tabellerad. Vi kan nu ur tabell utläsa sannolikheten att erhålla detta värde av en ren slump. Den fördelning som man relaterar sina observationer till är t-fördelningen för gällande frihetsgrad. Vid stora stickprov närmar sig tfördelningen z-fördelningen (=normalfördelningen). Vid prövning av ett stickprovs medelvärde blir antalet frihetsgrader fg=n-1. I vårt exempel har vi 25 observationer och ska använda t-fördelningen. Innan vi gör våra beräkningar ska vi fastställa det kritiska värdet, det värde från och med H0 ska förkastas. Vid signifikansnivån 5% för fg=n-1, dvs. 24 blir det kritiska värdet +/- 2,06 (se Tabell A i Appendix). Vi använder i detta exempel och i de följande endast s.k. tvåsidig prövning, dvs. vår mothypotes säger inte något om differensens riktning. För att klargöra när man ska förkasta H0 eller ej inför vi följande belysande figur: Om nu H0 gäller, dvs. ingen skillnad mellan medelvärdet i vår klass och populationsmedelvärdet blir enligt formel 2.4 t=0. Ju större differens desto mindre sannolikhet att slumpen kan tillskrivas den observerade skillnaden. Om |t|< 2,06 anser vi att H0 ej kan förkastas, eftersom en sådan differens inträffar av en ren slump mer än 5 gånger av 100. Vid |t| 2,06 tror vi inte att slumpen har orsakat differensen, även om så kan ha varit fallet (risken 5 %). Därför förkastar vi H0. Vi sammanfattar beräkningarna i Ruta 3.1. 86 © Horst Löfgren Ruta 3.1. Prövning av hypotes med hjälp av t-testet Population: årskurs 9 Stickprov: n=25 µ= 3,0 (egentligen känner vi ej medelvärdet för populationen men sätter det till det teoretiska 3,0) M= 3,2 s= 1,00 H0: Det föreligger ingen skillnad mellan medelvärdet för denna klass och riksgenomsnittet (µ=3,0). H1: Det föreligger en skillnad mellan medelvärdet för denna klass och riksgenomsnittet (µ3,0). Signifikansnivå: =0,05 Kritiskt värde för fg=24 (n-1): +/- 2,06 M-µ t = _______ fg = n - 1 (formel 3.4) ; s / n 3,2 - 3,0 t = _________ = 1,00 1,00/ 25 H0 kan ej förkastas (p > 0,05) Slutsats: Det observerade klassmedelvärdet 3,2 är ej signifikant skilt från det teoretiska värdet 3,0. Låt oss nu anta att vi erhållit samma medelvärde 3,2 och samma standardavvikelse men på ett betydligt större antal observationer, exempelvis 100 elever. Skiljer sig nu detta medelvärde ifrån riksgenomsnittet 3,0? Hypo© Horst Löfgren 87 tesformuleringarna och beräkningssättet är nu desamma som i det föregående exemplet. Ruta 3.2. Prövning av hypotes angående ett stickprov med hjälp av ttestet Population: µ= 3,0 Stickprov: n=100 M= 3,2; s= 1,00 H0: Det föreligger ingen skillnad mellan medelvärdet för dessa elever och riksgenomsnittet (µ=3,0). H1: Det föreligger en skillnad mellan medelvärdet för dessa elever och riksgenomsnittet (µ3,0). Signifikansnivå: =0,05; Kritiskt värde för fg=60 (eg. 99): +/- 2,00 M-µ t = _______ s / n 3,2 - 3,0 . fg = n - 1 (formel 3.4); t = __________ = 2,00* 1,00/ 100 Eftersom vi har hamnat precis på det kritiska värdet kan vi förkasta H0 (p= 0,05). Slutsats: Det observerade medelvärdet 3,2 är signifikant skilt från det teoretiska värdet 3,0. 88 © Horst Löfgren I Tabell A finns inget kritiskt värde för just 99 frihetsgrader. Då får man ta det som ligger närmast (fg=120) eller om man s a s vill vara försiktig så tar man det som ligger närmast under (fg=60). Det kritiska värdet för t med fg=60 är +/- 2,00 (egentligen skulle det vara något lite lägre). Om vi nu jämför slutsatserna i Ruta 3.1 och 3.2 finner vi att H0 accepterades i första fallet men förkastades i andra fallet, trots att vi hade samma medelvärde och samma standardavvikelse. Olikheten består i att vi i Ruta 3.2 har ett större stickprov. Medelfelet blir i det sistnämnda exemplet mycket mindre. En signifikant skillnad innebär en säkerställd skillnad, men det behöver ej betyda att skillnaden är stor. För att uttala sig om skillnadens storlek behöver vi ett annat mått som presenteras senare. 3.7 Hypotesprövning av en medelvärdesdifferens mellan två oberoende stickprov Låt oss anta att vi vill pröva två olika undervisningsmetoder i matematik på elever i årskurs 4. Den ena metoden kallas ”discovery-metoden” och karaktäriseras av att eleverna får lösa olika uppgifter för att själva komma på en regel. Den andra metoden kallas ”regelmetoden” och innebär att en regel presenteras före ett antal tillämpningsuppgifter. Vi väljer att utföra undersökningen i Lunds kommun. Populationen till vilken vi önskar generalisera våra slutsatser blir således samtliga elever i årskurs 4 inom denna kommun. Om vi hade haft tid och råd skulle vi kunnat slumpmässigt dela populationen i två grupper, som därefter behandlades med de två metoderna. En eventuell skillnad mellan grupperna på mätvariabeln (eftertestet) hade man då inte behövt statistiskt signifikanspröva. Gör man en totalundersökning av populationen behövs inga statistiska prövningar för att generalisera. Vi känner då redan hur resultatet blir för populationen. I praktiken gör man sällan totalundersökningar, utan man väljer i stället att utföra undersökningar på ett mindre antal elever för att därefter statistiskt pröva, om resultaten kan generaliseras till den bakomliggande populationen. Låt oss i detta exempel säga att vi genomför undersökningen på ett slumpmässigt urval av 220 elever, jämt fördelade på de två undersökningsgrup- © Horst Löfgren 89 perna. Beroende på ett visst bortfall har vi fått in data från 110 respektive 105 elever. Vi kan här nämna att det i praktiken ofta är svårt att göra ett slumpmässigt individurval ur populationen. Man får vanligen nöja sig med ett gruppurval, t.ex. av skolor och klasser. Om individurvalet baserar sig på ett gruppurval är det tveksamt att analysera data som om man hade oberoende observationer. Skulle grupptillhörigheten antas ha betydelse för individresultatet borde detta beaktas. Låt oss i det här fallet anta att vi verkligen slumpmässigt kan ta ut två grupper, utan att detta förfarande av eleverna alltför mycket uppfattas som ett s.k. laboratoriemässigt undervisningsförsök. Alltför strikt genomförd sampling kan ge felkällor, som kan leda till generaliseringssvårigheter. I praktiken får man göra avvägningar mellan vad som ur statistisk synpunkt är idealt och vad som ger mest ur pedagogisk-psykologisk tolkningssynpunkt. Vi börjar den statistiska analysen med att ställa upp nollhypotes och mothypotes samt välja signifikansnivå: Det föreligger ingen skillnad i eftertestresultaten mellan de två jämförda grupperna. H0: µ1 = µ2 (=µ) Det föreligger en skillnad i eftertestresultaten mellan de två jämförda grupperna. H0: µ1 µ2 Signifikansnivå: =0,05 Observera att då vi här talar om skillnader mellan metoder (eller grupper) avser vi endast skillnader i den observerade variabeln. Det gäller att välja bra utvärderingsvariabler! Likaväl som man vid ett stickprov kan skatta medelfelet, dvs. standardavvikelsen i samplingfördelningen, kan man även göra så för differensen mellan stickprov. Om man studerar medelvärdesdifferensen i två slumpmässigt dragna stickprov ur samma population och upprepar stickprovsdragningen ett antal gånger, erhåller man ibland en positiv differens, ibland en negativ och ibland ingen differens alls. Medelvärdet för dessa differenser efter ett stort antal jämförelser närmar sig noll om H0 gäller. Samplingfördelningen för medelvärdesdifferensen ser likadan ut som den som tidigare presenterats i Figur 3.4. 90 © Horst Löfgren Medelfelet för differensen beräknas på följande sätt: Mdiff = (n1-1).s12 + (n2-1).s22 ___________________ n1 + n2 - 2 1 1 ( __ + __ ) n1 n2 (formel 3.5) För att pröva om medelvärden från två oberoende stickprov kan anses vara lika, dvs. om stickproven kan anses vara dragna från samma population används följande formel: M1 - M2 - (µ1 - µ2) t= (n1-1).s12 + (n2-1).s22 1 1 ___________________ ( ___ + ___ ) n1 + n2 - 2 n1 n2 (formel 3.6) fg=(n1-1) + (n2-1) Utan att diskutera eventuella felkällor, som kan ha inverkat på resultatet kan vi från statistisk utgångspunkt dra slutsatsen, att de två behandlingsmetoderna givit olika resultat. Vi vågar åtminstone generalisera detta resultat till populationen ”elever i årskurs 4 i Lunds kommun”. Observera dock att vi tar en viss risk att slutsatsen är fel, men risken är mindre än 5 %. Här kan vi återknyta till avsnitt 3.4 och ta ut ett konfidensintervall på den valda nivån = 0,05, dvs. ett 95% konfidensintervall. Utifrån erhållna data kan vi dra slutsatsen att resultatskillnaden i populationen ligger inom detta intervall. I enlighet med formel 3.3 erhåller vi i detta fall följande: Mdiff - tp. M < µdiff < Mdiff + tp. M -2,0 - 1,96 . 0,75 < µdiff < -2,0 + 1,96 . 0,75; dvs. -3,47 < µdiff < -0,53 Eftersom intervallet inte täcker in en differens på 0,00, dvs. ingen differens mellan de två grupperna, drar man slutsatsen att det finns en signifikant skillnad. I SPSS får man direkt det erhållna t-värdet för differensen, signifikansangivelse för att nollhypotesen gäller och ett 95% konfidensintervall kring den erhållna skillnaden. © Horst Löfgren 91 Ruta 3.3. Prövning av hypotes av två oberoende stickprov med hjälp av t-testet för två oberoende grupper Stickprov 1 (”discovery”-metod) Stickprov 2 (regel-metod) M1= 25,0; s1 = 5,00; n1 = 110 M2= 27,0; s2= 6,00; n2= 105 Det föreligger ingen skillnad mellan de två metoderna vad avser resultat på eftertestet. H0: µ1=µ2 (= µ) Det föreligger en skillnad mellan de två metoderna vad avser resultat på eftertestet. H1: µ1µ2 Kritiskt värde: (= 0,05; 213 frihetsgrader) +/- 1,96 25,0 - 27,0 - 2,0 t = _____________________________________ = _____ = - 2,67* 0,75 109.5,002 + 104.6,002 1 1 ____________________ ( ___ + ____ ) 110 + 105 -2 110 105 H1 H0 H1 obs.v krit.v. krit.v ___x___x____________________________x_______________ t= högt neg t=0 t =högt pos Slutsats: H0 förkastas (p < 0,05) 92 © Horst Löfgren 3.8 Hypotesprövning av en medelvärdesdifferens mellan två beroende stickprov Som tidigare nämnts blir det ett beroendeförhållande mellan två stickprov vid repeterad mätning, dvs. när man mäter samma individer två gånger (exempelvis före och efter en åtgärdsfas), eller när man matchar individer. Det sistnämnda används då man vill öka precisionen i ett experiment, dvs. för att nå tillförlitliga resultat med ett fåtal individer i stickprovet. Först matchar man efter någon eller några betydelsefulla variabler, dvs. skapar individpar som är så lika som möjligt, för att därefter slumpmässigt fördela individerna i samma par till olika grupper. För analys av beroende stickprov använder vi oss av t-analys av differenser enligt formeln: Mdiff -µdiff tdiff = ___________ sdiff / n fg = n - 1 (formel 3.7) Mdiff = medelvärdet för differenserna mellan de parvisa individerna sdiff = standardavvikelsen för differenserna n = antalet parvisa observationer Som exempel väljer vi en undersökning, i vilken man ville studera effekterna av två olika sätt att lära in nya glosor i tyska för elever i årskurs 7 (se Tabell 3.5). Ur populationen ”tyskläsande elever i årskurs 7 i rektorsområde H” utvaldes slumpmässigt 30 elever. Om nu eleverna i detta utvalda rektorsområde är representativa för en större bakomliggande grupp elever kan man kanske efter undersökningen diskutera en vidare generalisering. Eleverna matchades parvis efter kön och resultat på ett ordkunskapstest före försöket. Parmedlemmarna i de 15 paren fördelades slumpmässigt till de två experimentgrupperna. Efter inlärningsperioden testades eleverna på ett ordkunskapsprov för att utvärdera effekterna av de två olika inlärningssätten. Innan vi kan pröva om resultaten skiljer sig i de båda grupperna, måste vi beräkna medelvärdet (Mdiff) och standardavvikelsen (sdiff) för de parvisa observationerna. © Horst Löfgren 93 Tabell 3.5. Resultat av eftertestet ____________________________________________________________ Elevpar Experimentgrupp 1 Experimentgrupp 2 diff diff2 ____________________________________________________________ A 25 19 6 36 B 32 30 2 4 C 13 14 -1 1 D 27 24 3 9 E 31 25 6 36 F 23 18 5 25 G 35 31 4 16 H 30 23 7 49 I 20 20 0 0 J 32 27 5 25 K 24 21 3 9 L 18 21 -3 9 M 23 23 0 0 N 28 24 4 16 O 20 22 -2 4 39 39 Mdiff = ___ = 2,6 15 239 2 239 - 39 /15 sdiff = ____________ = 3,14 14 När vi väl beräknat Mdiff (=2,6) och sdiff (=3,14) kan vi pröva nollhypotesen att det inte finns någon skillnad mellan grupperna, dvs. µdiff=0. Hypotesprövningen genomförs på samma sätt som den tidigare genomgångna t-analysen för ett stickprov. Prövningen visar att vi erhållit en signifikant skillnad mellan de två metoderna på 1%-nivån (p < 0,01). I Ruta 3.4 ges en sammanfattning av hypotesprövning för beroende observationer. Skulle man ange ett konfidensintervall inom vilket populationsdifferensen skulle finnas på den valda signifikansnivån, dvs. ett 99% konfidensintervall, erhålls följande: 3,21 – 2,98 . 0,81 < µdiff < 3,21 + 2,98 . 0,81; dvs. 5,62 < µdiff < 0,80 94 © Horst Löfgren Ruta 3.4. Prövning av hypotes av två beroende stickprov med hjälp av t-testet Mdiff= 2,6; sdiff= 3,14 Det föreligger ingen skillnad mellan de två metoderna (grupperna) vad avser resultat på eftertestet. H0 : µdiff = 0 Det föreligger en skillnad mellan de två metoderna (grupperna) vad avser resultat på eftertestet. H1 : µdiff 0 Kritiskt värde: (= 0,01; 14 frihetsgrader) +/- 2,98 Mdiff -µdiff tdiff = ___________ fg = n - 1 ; sdiff/ n H1 H0 2,6 tdiff = ________ = 3,21** 3,14/ 15 H1 krit. v. krit. v. obs. v. _____x_____________________________x_____x____ t = högt neg. Slutsats: 3.9 t=0 t = högt pos. H0 förkastas (p<0,01, eller som man också kan skriva 0,01> p >0,001) Hypotesprövning av medelvärdesdifferenser med hjälp av variansanalys Variansanalys, vanligen kallad ANOVA (efter det engelska namnet Analysis of varians), är en mycket användbar parametrisk hypotesprövningsmetod. Den kan användas när man jämför två eller flera uppsättningar av data © Horst Löfgren 95 (grupper). Både beroende grupper (vid repeterad mätning eller matchning) och oberoende grupper kan analyseras med ANOVA. Här nöjer vi oss med att presentera enfaktors och tvåfaktors variansanalys för oberoende grupper och enfaktors variansanalys för beroende grupper. Utöver dessa finns flera varianter av flerfaktors variansanalytiska undersökningsuppläggningar. När experimentella undersökningar utvecklades försökte man skapa situationer, i vilka man höll alla faktorer under kontroll och endast varierade den, som var av huvudintresse. Med variansanalytisk teknik kan man samtidigt analysera mer än en oberoende variabel. Man behöver således inte helt begränsa verkligheten för att kunna ha experimentell kontroll. Om man samtidigt analyserar flera oberoende variabler kan man på ett mer fullständigt sätt förklara relationer mellan variabler. Förutom huvudfaktorer kan man vid flerfaktoriella undersökningsuppläggningar erhålla s.k. samspelseffekter, dvs. få reda på olika oberoende variablers interaktion. Variansanalys är således en statistisk teknik för att jämföra två eller flera grupper och man jämför om det finns någon medelvärdesskillnad mellan dem. Liksom vid t-testet används resultat från studerade stickprov för att pröva hypoteser om populationer. Det är sålunda som i tidigare presenterade statistiska hypotesprövningsmetoder, att det förutsätts att stickprovet är representativt för populationen. Om stickprovet ej är slumpmässigt draget ur populationen måste man ta hänsyn till detta vid resonemang om generalisering. Variansanalys förutsätter att de jämförda gruppernas bakomliggande populationer har samma varians, och att mätvärdena i dessa populationer är normalt fördelade. Det F-test som används i variansanalys har dock visat sig robust mot avvikelser i dessa nämnda förutsättningar. I SPSS finns som option möjlighet att pröva om jämförelsegrupperna kan antas ha lika varianser i populationen. Vid t-test för två oberoende stickprov ges ett t-värde automatiskt, både för fallet med lika varianser för olika. De oberoende variablerna, vars effekter på mätvariabeln ska analyseras, kallas för faktorer. De olika värdena i den oberoende variabeln, oftast några få, kallas nivåer. 96 © Horst Löfgren 3.10 Enfaktors ANOVA; oberoende grupper I en enfaktors ANOVA studeras endast en oberoende variabel, och man undersöker om de olika grupperna (nivåerna) skiljer sig så mycket att stickproven inte kan anses vara dragna ur en och samma population. Antag en undersökning i vilken man studerar barns prestationer i enkla additionsuppgifter under fyra olika temperaturbetingelser. I detta exempel låter vi barnen arbeta i 30 minuter i ett klassrum med respektive 20 o, 23o, 26o och 29o. Om vi nu slumpmässigt har tagit ut exempelvis 40 barn och slumpmässigt fördelat dem på de fyra betingelserna, har vi därmed en strikt experimentell undersökningsuppläggning. Eftersom det är olika barn i de olika grupperna är detta ett exempel på oberoende grupper. Skulle vi ha låtit samma barn få arbeta under alla de fyra betingelserna, skulle vi istället ha erhållit beroende grupper. Ett beroendeförhållande i mätvärdena uppstår, som tidigare nämnts, vid två tillfällen, nämligen vid repeterad mätning och vid matchning av individer i grupperna. Den oberoende variabel som studeras är arbetstemperatur. Denna variabel har 4 nivåer (20o, 23o, 26o och 29o). Den beroende variabeln (effektvariabeln, mätvariabeln) är prestationer i räkning och mäts med ett additionstest. Eftersom man här har valt fyra bestämda temperaturbetingelser ur den kontinuerliga variabeln temperatur kallas detta för en fix modell. Om man från en oberoende variabel slumpmässig väljer ut ett antal nivåer, som sedan studeras kallas detta för en stokastisk modell. I flesta fall används fixa modeller, och vi drar slutsatser om de studerade nivåerna och endast om dessa utvalda. A a1 G1 Figur 3.6. © Horst Löfgren faktor A= temperaturbetingelser a2 a3 a4 a1= 20o a2= 23o G2 G3 G4 a3= 26o a4= 29o Undersökningsdesign, enfaktors ANOVA 97 Om vi parvis skulle ha prövat medelvärdena mot varandra, skulle vi behöva utföra sex t-test. Variansanalysen tillåter oss att samtidigt jämföra de fyra medelvärdena. De 40 barnen presterar olika bra på additionstestet. Med hjälp av olika varianskomponenter ska vi försöka tolka resultatet så bra som möjligt. Varför får de 40 eleverna olika resultat? Den troligen största anledningen till resultatolikheter är att barn är olika bra på sådana här test. Barn har olika bakgrund, förmågor, kunskaper, attityder m.m., och därför finns det individuella skillnader. En del av variationen mellan de 40 barnen kan bero på behandlingen, dvs. de olika temperaturbetingelserna. En del av variationen kan sålunda vara betingad av olikheter i den oberoende variabeln. Det är denna effekt av den oberoende variabeln, som är den mest intressanta i den här undersökningen. Slutligen kan en del av resultaten också bero på mätfel, dvs. brister i mätinstrumentet. Ett sådant här test har dock troligen hög reliabilitet. Om vi väljer ut två barn, exempelvis ett barn ur grupp 1 och ett barn ur grupp 3, varför skiljer sig deras resultat? Det kan bero på att de har fått olika behandlingar (20o mot 26o), det kan också bero på att dessa individer är olika oavsett temperaturbetingelser. Dessutom kan det bero på mätfel, dvs. slumpen. Om vi i stället väljer ut två barn ur samma grupp så kan en skillnad i resultaten dem emellan inte bero på olika behandlingar, men väl på individuella olikheter och mätfel. Den totala variationen i hela undersökningsgruppen kan således delas upp i variation mellan grupper och variation inom grupper. Den sistnämnda variationen kan delas upp i individuella skillnader och mätfel.1 SSM SSI SST SST = Total varians (SS kommer från engelskans term för kvadratsumma, Sum of Squares) SSM = Mellangruppsvarians SSI = Inomgruppsvarians SST = SSM + SSI Figur 3.7. 1 Varianskomponenter Ett mycket förenklat exempel på variansanalys ges i appendix, s. 154 98 © Horst Löfgren Undersökningens frågeställning kan uttryckas på följande sätt: Hur mycket av den totala variationen beror på olika behandlingar? Ju större kvoten SSM/SST är desto mer beror på olikheter i behandlingen, dvs. temperaturbetingelser. Kvoten SSM/SST är således ett storleksmått på behandlingseffekten. Om vi nu statistiskt ska pröva skillnaderna mellan grupperna ställer vi upp följande nollhypotes: H0: µ1=µ2=µ3=µ4 (=µ) Nollhypotesen säger att de bakomliggande medelvärdena (populationsmedelvärdena) för de olika grupperna är lika, dvs. ett och samma medelvärde µ. Mothypotesen är att det finns en skillnad någonstans mellan grupperna, dvs. endera av nedanstående 26 fall föreligger: H1: µ1<µ2=µ3=µ4 µ1=µ2>µ3=µ4 µ1=µ2>µ3>µ4 m fl andra mothypotesalternativ Att förkasta H0 innebär således att åtminstone en av de 26 möjliga H1fallen är sann. När vi beräknat den genomsnittliga variansen mellan och inom grupper jämförs dessa båda variationsorsaker. Vi bildar en F-kvot, som kan beskrivas på följande sätt: behandlingseffekt + individuella skillnader + mätfel F = ____________________________________________ individuella skillnader + mätfel Om H0 gäller finns ingen skillnad mellan grupperna, dvs. ingen behandlingseffekt. Av formeln ovan inser vi, att F-kvoten då blir nära 1. Skulle det finnas en behandlingseffekt blir F-kvoten större än 1, eventuellt så stor att H0 måste förkastas. Liksom det finns t-fördelningar för olika frihetsgrader så finns det en F-fördelning för olika frihetsgrader för den F-kvot som beräknas. De kritiska värdena för olika frihetsgrader i täljare respektive nämnare samt för olika signifikansnivåer finns tabellerade (Tabell C). Den genomsnittliga variansen mellan grupper erhålls genom att dividera SSM med antalet frihetsgrader (antalet grupper - 1), och den genomsnittliga variansen inom grupper erhålls genom att dividera SSI med dess antal © Horst Löfgren 99 frihetsgrader ({antalet individer i gruppen -1} multiplicerat med antalet grupper). I det tidigare presenterade exemplet har följande data erhållits (Tabell 3.6). Som synes har en elev i respektive grupp 3 och grupp 4 fallit bort på grund av frånvaro. Tabell 3.6. Antal rätt på respektive barn i fyra temperaturgrupper ____________________________________________________________ Temperaturgrupper Grupp 1 20o 46 75 67 59 51 47 56 63 54 35 Grupp 2 23o 72 64 58 46 51 57 42 45 55 50 Grupp 3 26o 53 37 54 28 53 47 49 32 41 -- Grupp 4 29o 52 48 66 38 44 44 40 25 42 -- Summa Kolumnssummor tk: 553 540 394 399 1886 2 Kvadratsummor x :31767 29924 18002 18669 98362 Antal observationer nk: 10 10 9 9 38 Medelvärden M: 55,3 54,0 43,8 44,3 49,6 ____________________________________________________________ Förberedande beräkningar och beräkning av varianskomponenter: Beräkna följande summor: T X2 N tk x2 nk 100 = = = = = = samtliga barns resultat kvadraterna på samtliga barns resultat antalet barn totalt barnens resultat i respektive grupp kvadraterna på barnens resultat i respektive grupp antalet barn i respektive grupp © Horst Löfgren Beräkning av varianskomponenter 1. Totalkvadratsumma (SST): SST = X2 - T2/N X2 = 98362 T2/N = 18862/38 = 93605,16 SST= 98362 - 93605,16= 4756,84 2. Mellangruppskvadratsumma (SSM): SSM=tk2/nr - T2/N tk2/nk = 5532/10+ 5402/10+ 3942/9+ 3992/9 = 94678,34 T2/N = 93605,16 SSM= 94678,34 - 93605,16 = 1073,18 3. Inomgruppskvadratsumma: SSI=X2 - tk2/nr X2 = 98362 tk2/nk = 94678,34 SSI= 98362 - 94678,34 = 3683,66 4. Kontroll av beräkningar Enligt Figur 3.7 är SST = SSM + SSI. Vi kan nu kontrollera genom att använda resultaten av punkterna 1, 2 och 3 ovan. 4756,84 = 1073,18 + 3683,66 Utifrån erhållna kvadratsummor kan medelkvadratsummor beräknas genom att dividera med respektive antal frihetsgrader enligt Tabell 3.7. I exemplet ovan har kvadratsummor beräknats och medelkvadratsummorna erhålls enligt följande: SST = 4756,84 SSM = 1073,18 SSI = 3683,66 MSM = 1073,18/3 = 357,73 MSI = 3683,66/34 = 108,34 © Horst Löfgren 101 Den erhållna F-kvoten blir då: F = 357,73/108,34 = 3,30 för fg 3/34 Tabell 3.7. Beräkning av medelkvadratsummor och varianskvot ____________________________________________________________ Variationsorsak KvadratFrihetsMedelkvadrat- Varianskvot summa grader summa SS fg MS F ____________________________________________________________ Mellan grupper SSM k-1 MSM=SSM/k-1 F=MSM/MSI Inom grupper SSI N-k MSI=SSI/N-k ____________________________________________________________ Totalt SST N-1 ____________________________________________________________ Tabell 3.8. ANOVA-tabell ____________________________________________________________ Variationsorsak SS fg MS F p ____________________________________________________________ Mellan grupper 1073,18 3 357,73 3,30 < 0,05 Inom grupper 3683,66 34 108,34 ____________________________________________________________ Totalt 4756,84 37 ____________________________________________________________ Eftersom det kritiska värdet för =0,05 är 2,92 (fg 3/30) måste H0 förkastas. Åtminstone en av de alternativa mothypoteserna är sann. Den signifikanta F-kvoten ger endast upplysning om att det finns en signifikant skillnad, men inte mellan vilka grupper som skillnaden är säkerställd. När man i sin analys har mera än två grupper, kan man gå vidare och parvis pröva skillnader mellan gruppmedelvärden. För dessa s.k. kontrastanalyser (Post Hoc) finns olika metoder, t.ex. LSD, Scheffe och Bonferroni. Av resultattablåer erhåller man information mellan vilka grupper som det finns signifikant skillnad enligt det test man önskar använda. I dessa kontrastanalyser 102 © Horst Löfgren skärps det kritiska värdet för den enskilda parjämförelsen, detta för att inte råka ut för det s.k. massignifikansproblemet. Om gör väldigt många jämförelser på t.ex. 5%-nivån kommer självfallet några att bli signifikanta. Av 100 jämförelser borde rimligen ungefär 5 % bli signifikanta. 3.11 Lämpliga index på relationen mellan oberoende och beroende variabel En erhållen signifikant skillnad mellan jämförda grupper behöver inte innebära att skillnaden är stor. Vid stora stickprov kommer även små skillnader att bli statistiskt säkerställda. Förutom signifikansangivelse är det lämpligt att ange något mått på storleken i erhållna gruppskillnader. Tyvärr är det fortfarande alltför sällan som sådana storleksmått används. Nedan beskrivs några lämpliga mått på relationen mellan den oberoende och den beroende variabeln i analyser där parametriska metoder har använts. 3.11.1 Omega-kvadrat Sambandet mellan den oberoende variabeln och mätvariabeln i en fix variansanalytisk modell kan skattas med hjälp av 2-koefficienten. Kvadratroten ur detta index är jämförbar med en korrelationskoefficient. SSM - (k-1)MSI 2est= ________________ MSI + SST (formel 3.8a) För en enfaktors ANOVA blir detta identiskt med: (k-1)(F-1) 2est= _____________ (k-1)(F-1) + N (formel 3.8b) Om man har genomfört ett t-test för jämförelse mellan stickprov ur två populationer kan man skatta omega-kvadrat med hjälp av följande formel: © Horst Löfgren 103 t2-1 2est = _____________ t2 + n1 +n2 -1 3.11.2 (formel 3.9) Eta-kvadrat Eta är känt under namnet korrelationskvot (correlation ratio) och är ett lämpligt mått för att beskriva relationen mellan två variabler med ickelinjära regressionslinjer. För att ange relationen mellan en oberoende variabel (nominalskalerad) och en beroende variabel (intervall- eller kvotskalerad) i en undersökning kan detta mått användas. Eta2 är då den delen av den totala variansen, som kan prediceras utifrån den oberoende variabeln. SSM eta2 = ______ SST (formel 3.10) Eta2 används för att ange hur mycket av den totala variansen, som i en undersökning förklaras av den oberoende variabeln. Det skattade omegakvadratvärdet anger sambandet mellan den oberoende och den beroende variabeln. Det finns inga konventioner för tolkningen av storleken på 2 och eta2. Bedömningen av vad som ska anses vara en stor skillnad mellan jämförda grupper blir självfallet relaterat till vad man har anledning att vänta sig. I många experimentella undersökningar kan man förslagsvis använda följande gränser för tolkningen av 2 och eta2: 0,00 - 0,04 0,05 - 0,09 0,10 - liten skillnad medelstor skillnad stor skillnad Eftersom 2 och eta2 är mått på relationen mellan oberoende och beroende variabel kan man i stället tala om svag, påtaglig och stark relation. I resultattablåerna för variansanalys (ANOVA) och kovariansanalys (ANCOVA) erhåller man detta mått på effektstorlek via ”Options”. Dessutom kan man begära att få ett mått på ”power”. Med power avses ett tests förmåga att finna en sann skillnad, dvs. förkasta nollhypotesen, när det är korrekt att förkasta den. I Figur 3.5 visades de två typer av fel, som man 104 © Horst Löfgren riskerar att göra vid en statistisk hypotesprövning. Risken att felaktigt behålla nollhypotesen kallas Typ II-fel och sannolikheten för detta fel är Vid konstanthållande av antalet observationer i en undersökning kommer -risken att öka om -risken minskas. Om man prövar en hypotes på 1%-nivån kommer således –felet att vara större än om man testar på 5%nivån. Den möjlighet man har att minska risken att felaktigt behålla nollhypotesen är att öka stickprovsstorleken, dvs. ha fler observationer i studien. Det är här som man har nytta av att få veta värdet på det statistiska testets power, som är benämningen på sannolikheten 1- Om man har tillräckligt stora stickprov blir –felet = 0 och power således 1,00. Det skulle således vara möjligt att räkna ut hur stora stickprov man behöver för att vara säker att det är ett korrekt beslut, om nollhypotesen förkastas. Det vanligaste sättet att planera undersökningar är emellertid att man tar till i överkant, dvs. har så många observationer i sina urval att man erhåller säkra slutsatser. Här kan också nämnas att statistiska test är olika bra på att finna signifikanta skillnader. Icke-parametriska metoder är ofta sämre än parametriska metoder. 3.11.3 Effektstorlek Effektstorlek (ES) är en familj av mått som används för att beskriva storleken i skillnader mellan behandlingsgrupper. Till skillnad från signifikansvärden är påverkas inte dessa storleksmått av stickprovsstorlek. I s.k. metaanalyser, dvs. kunskapsöversikter, fanns ett behov av att uttrycka skillnaden mellan behandlingsgrupper i ett standardiserat mått, detta för att kunna jämföra resultatet av olika undersökningar. När man önskar ett mått på storleken av effekter använder man vanligen endera av följande: 1. Den standardiserade skillnaden mellan två medelvärden. 2. Sambandet mellan den oberoende behandlingsvariabeln och den beroende utfallsvariabeln. I metaanalyser där man haft experiment- och kontrollgrupp har man använt den enkla formeln: ME – MK sK © Horst Löfgren 105 Man beräknar således medelvärdesdifferensen mellan experiment- och kontrollgrupp och dividerar med standardavvikelsen för kontrollgruppen. Egentligen spelar det ingen roll om man dividerar med standardavvikelsen för experimentgruppen eller kontrollgruppen under förutsättning att varianserna i de båda grupperna är någorlunda lika. För säkerhets skull kan det rekommenderas att använda den sammanvägda standardavvikelsen, dvs. sE2 + sK2 ________ 2 Om man jämför utfallet i två grupper där grupperna inte är lika stora kan man vikta ihop standaravvikelserna enligt följande: (n1-1) .s12 + (n2-1).s22 ___________________ n1 + n2 - 2 Det mått man på detta sätt erhåller på differensens storlek ger då indikation på om man ska betrakta skillnaden som lite eller stor. Självfallet måste man ta i betraktande vad man det är man jämför, dvs. den oberoende variabeln. I experimentella undersökningar, där man då studerar effekten av en insatt åtgärd kan man betrakta ES ≤ 0,3 som små skillnader, ES ca 0,5 som måttliga skillnader och ES ≥ 0,7 som stora skillnader. Om man i en artikel får reda på t-värdet för den statistiska skillnaden mellan två stickprov kan man enkelt beräkna ES för att kontrollera att signifikansen också innebär en betydelse skillnad. Som tidigare sagts kan man ju erhålla statistisk signifikans trots att skillnaden är minimal, om man bara har tillräckligt stora stickprov. Den formel man kan använda för skattningen av effektstorlek är: ES= 2t/√df Dvs. effektstorleken erhålles genom att ta 2 gånger t-värdet dividerat med kvadratroten ur antalet frihetsgrader. Antalet frihetsgrader är som bekant summan av antalet observationer i de båda grupperna minus 2. Om gruppstorleken är olika i de båda grupperna bör man använda: ES= t(n1 +n2)/√df . n1 . n2 106 © Horst Löfgren Man kan också erhålla ES via korrelationen mellan den oberoende och den beroende variabeln: ES= 2r/√(1-r2) Om man har en design med beroende gruppen (matchade grupper eller upprepad mätning) kan man med fördel ange ett effektstorleksmått genom att ta medelvärdesdifferensen dividerat med standardavvikelsen för den ena gruppen (obs. ej standardavvikelsen för differenserna). 3.12 Tvåfaktors ANOVA; oberoende grupper När vi genom forskning söker ny kunskap gäller det ofta att kunna förklara variationen i en beroende variabel. Ofta kompliceras verkligheten av att många olika variabler är betydelsefulla för den utfallsvariabel, som man vill finna förklaring till. Flera oberoende variabler, kanske också en viss kombination av dessa kan vara betydelsefull för utfallet i den beroende variabeln. Flerfaktoriella uppläggningar och variansanalytisk bearbetning ger oss möjlighet att samtidigt studera mer än en oberoende variabel. Denna typ av uppläggningar öppnar speciella möjligheter. Inte nog med att man kan studera effekter av olika oberoende variabler (s.k. huvudeffekter), utan en sådan uppläggning ger oss också möjlighet att studera samspel (s.k. interaktionseffekter) mellan de oberoende variablerna. Det sistnämnda innebär att det kanske är en viss kombination av oberoende variabler, som är av betydelse för resultatet (variationen) i den beroende variabeln. Nedan följer ett exempel på en tvåfaktoriell uppläggning. Vid en hälsoundersökning på ett större företag konstaterades att en stor del av de anställda led av övervikt och brister i den allmänna konditionen. Företagsläkaren var intresserad att pröva några åtgärder för att se, om det gick att relativt snabbt åstadkomma en viktminskning och en förbättring av de anställdas kondition och allmäntillstånd. Ett slumpmässigt urval av de anställda i åldern 35-50 år tillfrågades, om de ville delta i ett viktminskningsprogram. Samtliga 36 tillfrågade personer, lika antal män och kvinnor, accepterade att delta. Undersökningsgruppen © Horst Löfgren 107 fördelades slumpmässigt till tre undergrupper. Den första undergruppen fick ett motionsprogram på schemalagda timmar, den andra ett dietprogram och den tredje gruppen en kombination av både fysisk motion och regler för kostintag. Efter 5 månader utvärderades de olika åtgärdsprogrammen. Bland annat registrerades viktminskningen i kilo för deltagarna. I Figur 3.9 presenteras undersökningens uppläggning. Eftersom det finns två nivåer i faktorn kön (män och kvinnor) och tre nivåer i faktorn åtgärdsprogram (motion, diet och motion + diet) kallas denna typ av undersökningsuppläggning en 2 x 3 faktoriell uppläggning. Det är dessutom oberoende grupper, eftersom vi har olika individer i de sex grupperna. B b1 b2 b3 a1 G1 G2 G3 a2 G4 G5 G6 A: kön B: åtgärdsprogram a1 = män b1 = motion a2 = kvinnor b2 = diet b3 = motion + diet A Figur 3.8. Undersökningsdesign Utfallsvariabeln i den här delen av undersökningen är viktminskning. De 36 deltagarna har en viss total variation i dessa värden. En del av denna variation kan vara relaterad till åtgärdsprogram, en del till olikheter mellan män och kvinnor, och en del kan kanske vara relaterad till en kombination av kön och åtgärd. Den största delen av viktminskningsvariationen mellan deltagarna beror troligen på att individer är olika eller på andra faktorer som ej är kontrollerade i undersökningen. SSA SSB SSAB SSI SST Figur 3.9. 108 Variansdelar i viktminskningen © Horst Löfgren I stället för SSI används ibland SSres eller ”error”. SSI är en residual eller felterm i den meningen att man inte kan tolka denna varians som orsakad av någon av de oberoende variablerna. Tabell 3.9. Viktminskning i kg efter 5 månader (negativt tecken innebär viktökning) ____________________________________________________________ Faktor B (åtgärdsprogram) Faktor A b1 b2 b3 (kön) (motion) (diet) (motion+diet) Radsummor ____________________________________________________________ a1 (män) 2 3 6 4 2 8 3 3 7 -1 3 3 0 4 4 3 5 5 _______________________ tc = 11 20 33 tr = 64 M = 1,83,3 5,5 ____________________________________________________________ a2 (kvinnor) 2 4 7 -1 3 3 3 6 6 2 4 8 -2 2 9 0 4 7 _________________________ tc = 4 23 40 tr = 67 M= 0,7 3,8 6,7 Kolumnsummor tk = 15 Kvadratsummor x2 = 61 43 73 169 487 T = 131 X2 = 717 Vi ska nu pröva huvudeffekterna, dvs. om det finns någon skillnad i resultat mellan män och kvinnor (SSA) samt mellan de tre åtgärdsprogrammen (SSB). Samtidigt ska vi också pröva, om det finns någon interaktionsef© Horst Löfgren 109 fekt, dvs. om det finns ett samband mellan åtgärd och kön (SSAB). Ett sådant samband kan yttra sig i att kvinnor vinner mest på en åtgärd medan män vinner mest på en annan. Hur stor del av den totala variansen som är relaterad till individuella skillnader oberoende av grupptillhörighet och till mätfel ligger i den del som i figuren kallas SSI. För faktor A prövas hypotesen om de bakomliggande medelvärdena (populationsmedelvärdena) för män och kvinnor är lika, dvs. ingen skillnad mellan kön vad avser viktminskning (=0,05). H0: µmän = µkvinnor (=µ) H1: µmän µkvinnor För faktor B prövas hypotesen om det finns någon skillnad mellan de tre åtgärdsprogrammen (=0,05). H0: µmotion = µdiet = µmotion+diet (=µ) H1: µmotion µdiet µmotion+diet (eller någon alternativ mothypotes) Interaktionseffekten (AB) prövas på följande sätt (=0,05): H0: Det finns ingen interaktion (inget samband) mellan faktor A och B H1: Det finns en interaktion (ett samband) mellan faktor A och B Förberedande beräkningar och beräkning av varianskomponenter: Beräkna följande summor: T X2 N tr tk tc nr nk nc 110 = = = = = = = = = samtliga individers resultat kvadraterna på samtliga individers resultat totalantalet individer samtliga resultat i respektive nivå (rad) i faktor A samtliga resultat i respektive nivå (kolumn) i faktor B samtliga resultat i respektive cell antalet i respektive nivå i faktor A antalet i respektive nivå i faktor B antalet i respektive cell © Horst Löfgren Beräkning av varianskomponenter: 1. Totalkvadratsumma (SST): SST=X2 - T2/N X2 = 717 T2/N = 1312/36 = 476,69 SST= 717 - 476,69 = 240,31 2. Radkvadratsumma (SSA): SSmellan rader= tr2/n - T2/N tr2/nr= 642/18 +672/18 = 476,94 T2/N = 476,69 SSmellan rader= 476,94 - 476,69 =0,25 3. Kolumnkvadratsumma (SSB): SSmellan kolumner= tk2/n - T2/N tk2/nk= 152/12 + 432/12 +732/12 = 616,92 T2/N= 476,69 SSmellan kolumner= 616,92 - 476,69 = 140,22 4. Interaktionskvadratsumma: SSAB=tc2/nc - T2/N - SSA - SSB tc2/nc= 112/6 + 202/6 + 332/6 + 42/6 + 232/6 + 402/6 = 625,83 T2/N = 476,69 SSA = 0,25 SSB = 140,22 SSAB= 625,83 - 476,69 - 0,25 -140,22 = 8,67 5. Inomcellskvadratsumma SSI=X2 - tc2/nc X2 = 717 tc2/nc = 625,83 SSI=717 - 625,83 = 91,17 © Horst Löfgren 111 Som framgår av Figur 3.9 gäller att SST = SSA + SSB + SSAB + SSI. Beräkningen av varianskomponenterna kan nu kontrolleras. 240,31 = 0,25 + 140,22 + 8,67 + 91,17 Om varianssummorna divideras med respektive antal frihetsgrader erhålls medelkvadratsummorna. Till respektive kvadratsumma hör följande antal frihetsgrader: SST SSA SSB SSAB SSI - N-1, där N = totalantalet observationer (r-1), där r = antalet rader (k-1), där k = antalet kolumner (r-1)(k-1) (nc-1), där nc = antal observationer i cellen Medelkvadratsummor: MSA = 0,25/1 = 0,25 MSAB= 8,67/2 = 4,33 MSI = 91,17/30 = 3,04 M Av Tabell 3.10 framgår att det finns en signifikant skillnad och den finns mellan åtgärdsprogram. Av eta2-värdet framgår att denna skillnad mellan de tre åtgärderna är mycket stor (jämför p 3.11.2) . Tabell 3.10. ANOVA-tabell ____________________________________________________________ Variationsorsak SS fg MS F p eta2 ____________________________________________________________ Mellan kön 0,25 1 0,25 0,08 > 0,05 Mellan åtgärder 140,22 2 70,11 23,07 < 0,001 0,58 Interaktion 8,67 2 4,33 1,43 > 0,05 Inom grupper 91,17 30 3,04 ____________________________________________________________ Totalt 240,31 35 ____________________________________________________________ 112 © Horst Löfgren Ofta är det lämpligt att åskådliggöra resultatet genom att rita ett s.k. medelvärdesdiagram. De olika gruppmedelvärdena finns beräknade i Tabell 3.9. Av diagrammet syns tydligt den stora B-effekten, motion+diet (b3) ligger klart högst. Det syns också att skillnaden mellan män och kvinnor totalt över de tre åtgärderna är mycket liten. Om linjerna i diagrammet är parallella indikerar detta att det inte föreligger någon interaktion mellan de båda faktorerna, i detta fall mellan kön och åtgärdsprogram. Visserligen är linjerna här ej helt parallella, de t o m korsar varandra, men detta är inom gränsen för vad slumpen kan ha åstadkommit. Som vid enfaktors ANOVA med mer än två grupper (två nivåer i faktorn) kan man här göra en kontrastanalys (post hoc) för faktorn åtgärdsprogram. Det finns tre parvisa jämförelser som kan göras (b1 - b2, b1 - b3 och b2 b3). Kontrastanalyser görs med hjälp av tidigare nämnda speciella metoder. Viktmins kning i kg 7 o 6 x 5 4 o x 3 2 1 o = kvinnor x = män x o 0 motion diet motion + diet Figur 3.10. Medelvärdesdiagram © Horst Löfgren 113 3.13 Enfaktors ANOVA; beroende grupper Ett beroendeförhållande mellan uppsättningar av data (grupper) erhålls, som tidigare nämnts, vid repeterad mätning och vid matchning. I och med att man kan utnyttja informationen om att samma individer finns (eller vid matchning liknande individer) i de olika grupperna, leder detta till att mer av den totala variansen kan förklaras. Följden blir att felvariansen blir mindre, vilket innebär att precisionen i analysen blir bättre. Vi tänker oss en undersökning i vilken man samlat in data från en grupp på 10 personer före och efter en viss åtgärd. Sammanlagt från de båda mättillfällena har vi 20 resultat. Vad beror olikheter i resultat på? En del av den totala variansen beror på att de 10 deltagarna är olika. Summerar man deras resultat på för- och efterprovet kommer vi förmodligen att få lite olika värden, kanske till och med 10 olika resultat. Individer presterar skilda resultat av många olika skäl, som vi i denna undersökning inte har någon kontroll över. Jämför vi samma individer på för- och eftertest kan även dessa resultat skilja sig. En del kan bero på den åtgärd, som satts in mellan för- och eftertest. Troligen finns emellertid en liten del kvar, som ej förklaras av åtgärden. Det finns med andra ord kvar en residual, som vi ej kan förklara annat än som mätfel. Eftersom det är samma individer som jämförs borde ju resultaten bli lika så när som den del, som beror på den insatta åtgärden. Den del som vi inte kan förklara, residualen, är det vi kallar felvariansen i analysen (”error”). SSmb SSib SSM SSres SST SSmb = SSib = SSM = SSres = SST = SS mellan block av individer SS inom block av individer SS mellan grupper (åtgärder) SS residual SS total Figur 3.11. Varianskomponenter i enfaktors ANOVA, beroende grupper 114 © Horst Löfgren Med block av individer avses de mätresultat som ingår för respektive individ. I det här fallet är det samma individ som mäts tre gånger, men i en uppläggning med matchade grupper är det egentligen tre olika individer som ingår i blocket. Den mest intressanta frågan i undersökningen är hur mycket av den totala variationen som är relaterad till SSM. Divideras kvadratsummorna med respektive antal frihetsgrader erhålls medelkvadratsummor. Respektive varianskomponenter har följande antal frihetsgrader (k=antal grupper, n=antal observationer i gruppen): SSmb - n-1 SSib - n(k-1) SSM - k-1 SSres - (n-1)(k-1) SST - N-1 Om man endast ska studera två beroende grupper kan i stället för variansanalys använda det tidigare genomgångna tdiff-testet. Om man har fler än två grupper måste man använda variansanalys. Därför övergår vi till ett exempel med data från tre olika tillfällen. Ett slumpmässigt urval av sex sjuksköterskestuderande deltog i ett experiment, i vilket man studerade effekten av vissa droger på deltagarnas reaktionstid. Man använde tre olika droger och deltagarna fick reagera på en serie standardiserade uppgifter. Deltagarna hade före försöket under normala förhållanden tränat på dessa uppgifter. Varje försöksperson fick vid olika tillfällen de tre drogerna och deras reaktionstider registrerades. Eftersom samma individer observeras i de tre grupperna, dvs. beroende grupper, anges detta med att i de tre cellerna skriva G1. A a1 a2 a3 G1 G2 G3 Figur 3.12. © Horst Löfgren A = drog a1 = drog 1 a2 = drog 2 a3 = drog 3 Undersökningsdesign 115 De sex deltagarna fick drogerna i slumpmässig ordning för att inte ordningsföljden skulle vara avgörande för resultatet. Mellan testtillfällena gick tillräckligt lång tid för att deltagarna skulle vara avgiftade. Reaktionstider redovisas i Tabell 3.11. Kan man av insamlade data dra slutsatsen, att de tre drogerna orsakar olika reaktionstider? H0: Det finns ingen skillnad i reaktionstid mellan de tre tillfällena H1: Det finns en skillnad i reaktionstid mellan de tre tillfällena Signifikansnivå: =0,01 Tabell 3.13. Reaktionstid vid tre olika droger ____________________________________________________________ Deltagare Drog 1 Drog 2 Drog 3 Radsumma (tr) ____________________________________________________________ A 24 18 28 70 B 26 17 31 74 C 20 15 25 60 D 22 16 26 64 E 25 20 27 72 F 23 21 20 64 ____________________________________________________________ Kolumnsummor tk 140 107 157 T= 404 2 2 Kvadratsummor x 3290 1935 4175 X = 9400 Medelvärden M 23,3 17,8 26,2 ____________________________________________________________ Förberedande beräkningar och beräkning av varianskomponenter: Beräkna följande summor: T X2 N tr tk n 116 = = = = = = samtliga resultat kvadraterna på samtliga resultat totalantalet observationer summaresultat för respektive individ (rad) summaresultat för respektive behandling (kolumn) antalet i respektive behandlingsgrupp © Horst Löfgren Beräkning av varianskomponenter: 1. Totalkvadratsumma: SST= X2 - T2/N X2 = 9400 T2/N = 4042/18 = 9067,56 SST = 9400 - 9067,56 = 332,44 2. Kvadratsumma mellan block av individer (SSmb): SSmb= tr2/k - T2/N tr2/k = 702/3 +742/3 +602/3 +642/3 +722/3 +642/3 = 9117,33 T2/N = 9067,56 SSmb= 9117,33 - 9067,56 =49,78 3. Kvadratsumma mellan grupper (tillfällen, åtgärder): SSM= tk2/n - T2/N tk2/n = 1402/6 + 1072/6 + 1572/6 = 9117,33 T2/N = 9067,56 SSM= 9117,33 - 9067,56 = 215,44 4. Kvadratsumma för residualen (SSres): SSres= SST - SSmb - SSM SST = 332,44 SSmb = 49,78 SSM = 215,44 SSres= 332,44 - 49,77 - 215,44 = 67,22 Som framgår av Figur 3.12 gäller att SST= SSmb + SSM + SSres. Beräkningen av varianskomponenterna kan nu kontrolleras. 332,44 = 49,78 + 215,44 + 67,22 Kvadratsummorna divideras med respektive antal frihetsgrader för att få medelkvadratsummorna. © Horst Löfgren 117 Medelkvadratsummor: MSmb = 49,78/5 = 9,95 MSM = 215,44/2 = 107,72 MSres = 67,22/10 = 6,72 F-kvoten erhålls genom MSM/MSres, dvs. 107,72/6,72, vilket ger F=16,03. Det finns en signifikant skillnad i reaktionstid mellan de tre tillfällena. Av värdet på eta2 framgår, att denna skillnad mellan de tre åtgärderna är mycket stor. Tabell 3.12. ANOVA-tabell ____________________________________________________________ Variationsorsak SS fg MS F p eta2 ____________________________________________________________ Mellan block av individer 49,77 5 9,96 Mellan grupper (åtgärder) 215,44 2 107,72 16,03 < 0,01 0,65 Residual 67,22 10 6,72 ____________________________________________________________ Totalt 332,44 17 ____________________________________________________________ 2.14 Kovariansanalys, ANCOVA Kovariansanalys är en variansanalys, där den beroende variabeln är så att säga rensad från inverkan av en eller flera andra variabler, s.k. kovariater. Den fråga man ställer är om det finns någon effekt utöver den som kan prediceras från kovariaterna. Självfallet måste det finnas rimliga samband mellan kovariaterna och den beroende variabeln, annars finns ju inget att justera för. Dessutom är förutsättningen den att relationen mellan den beroende variabeln och kovariaten är lika för jämförelsegrupperna. Det får således inte finnas något samspel mellan faktorn och kovariaten. I en studie av 149 elever i årskurs 3 var man intresserad att studera eventuella skillnader mellan två olika sätt att lära barnen engelska. Man hade 118 © Horst Löfgren konstruerat olika typer av språkfärdighetstest; läsförståelse, hörförståelse, skrivprov, ordkunskapsprov och grammatikprov. Man kunde inte genomföra ett s.k. sant experiment, dvs. eleverna kunde inte slumpmässigt fördelas på de två metodgrupperna utan man fick ta klasserna som de var. Eftersom påverkansförsöket var upplagt enligt en kvasiexperimentell design (icke-slumpmässig fördelning till metodgrupperna) fanns anledning att pröva om möjligen det fanns andra variabler som kunde vara orsak till eventuella skillnader på eftertestet. Det kunde ju tänkas att den ena gruppen hade bättre förkunskaper, var mer begåvad eller andra väsentliga skillnader. I exemplet nedan studerar vi endast resultatet på ett läsförståelsetest som beroende variabel, men vill använda resultaten från ett intelligenstest som kovariat. Den hypotes man vill pröva är således om det finns några skillnader mellan de två sätten att lära sig engelska sedan man korrigerat för gruppskillnader i begåvning. I tabellen nedan redovisas resultatet både av variansanalys och kovariansanalys. Tabell 3.13. Resultat från språkmetodförsöket ____________________________________________________________ ANOVA Variationsorsak SS fg MS F p eta2 ____________________________________________________________ Mellan grupper 384,23 1 384,23 30,54 <0,001 0,17 Inom grupper 1849,49 147 ____________________________________________________________ Total 2233,72 148 ____________________________________________________________ ANCOVA Variationsorsak SS fg MS F p eta2 ____________________________________________________________ Mellan grupper 342,89 1 342,89 31,96 <0,001 0,15 Inom grupper 1566,27 146 ____________________________________________________________ Total 1909,16 147 ____________________________________________________________ © Horst Löfgren 119 Medelvärden Metod a1 Metod a2 a1 + a 2 Läsförståelse (ber var) 20,18 16,92 18,28 Begåvning (kovariat) 111,05 109,57 110,19 Av resultatet framgår att justeringen via kovariansanalys har haft en ganska lite inverkan. Eta-kvadrat minskar från 0,17 till 0,15 och det är obetydligt. Eta-kvadrat i en ANOVA beräknas som vanligt, dvs. SSmellan/SStot vilket ger 384,23/2233,72. Eta-kvadrat i ANCOVA beräknas genom att ta den nya varianssumman (efter rensning av begåvningsinflytande) dividerat med den tidigare erhållna totalvariansen, dvs. 342,89/2233,72. Effektskillnaden mellan de båda lärandemetoderna minskar något och det brukar den göra om man justerar för inflytande från en i sammanhanget relevant variabel, åtminstone kan den inte öka. I detta exempel kan man dra slutsatsen att metod a1 är bäst oavsett begåvningsnivå. Observera att man förlorar en frihetsgrad för varje kovariat man använder. 120 © Horst Löfgren 4 Icke-parametriska hypotesprövningsmetoder Som vi tidigare nämnt kräver de parametriska metoderna att vissa förutsättningar är uppfyllda ifråga om skalnivå och mätvariabelns fördelning i populationen. Sålunda krävs att observationerna i stickprovet härrör från en normalfördelad observationsvariabel, att mätskalan ligger på lägst intervallskalenivå samt vid analys av mer än ett stickprov, att mätvariabelns varians är lika i de bakomliggande populationerna. Även om vi ofta använder oss av parametriska metoder, trots att förutsättningarna inte alltid är helt uppfyllda, ska vi här presentera några alternativa metoder, nämligen de icke-parametriska. Mycket ofta ligger våra psykologiska skalor på ordinalskalenivå och dessutom är det ofta så, att vi ej vet något om den bakomliggande fördelningens utseende. De icke-parametriska metoderna kallas ibland också fördelningsfria. Egentligen är ingetdera av namnen heltäckande korrekta för de test som finns. Några icke-parametriska metoder utnyttjar populationsparametern vid hypotesprövningen och andra kräver att vissa förutsättningar rörande fördelningen är uppfyllda. De icke-parametriska metoder, som här ska presenteras kan efter skaltyp indelas i frekvenstest och rangtest. Fördelarna med de icke-parametriska metoderna är således att de är baserade på färre förutsättningar i jämförelse med de parametriska metoderna. Dessutom är de icke-parametriska metoderna ofta enkla att förstå och beräkningarna enkla att utföra. I synnerhet är dessa metoder lämpliga vid små stickprov. En nackdel är att det för de icke-parametriska testen är svårare att finna index på effekternas storlek. I nedanstående ruta ges en översikt över de hypotesprövande metoder som hittills tagits upp eller som kommer att diskuteras i det följande. © Horst Löfgren 121 Ruta 4.1. Exempel på hypotesprövningsmetoder för ett eller flera stickprov vid olika typer av mätskalor Ett stickprov Skaltyp Nominalskala 2-testet (frekvensskala) Ordinalskala (rangskala) 2-testet Cochran´s Q-test Run-testet; MannWilcoxon’s KruskalOne Sample Whitney; teckenrang- Wallis Sign test Kolmogo- test; rovPaired Sign Smirnov; Test WaldWolfowitz Runs Friedman Intervallt-test eller kvotskala 4.1 Två stickprov Tre eller flera stickprov oberoende beroende oberoende beroende 2-testet McNemar t-test tdiff-test ANOVA ANOVA ANOVA ANOVA Analys av stickprovsdata i förhållande till populationsdata Dessa analyser svarar på frågan om ett valt stickprov kan tänkas tillhöra en viss population. De icke-parametriska analyser, som här tas upp är av typen ”goodness-of-fit”, dvs. svarar på frågan om en observerad fördelning endast slumpmässigt avviker från en teoretisk eller en under H0 förväntad fördelning. Endast de mest vanligt förekommande testen ur Ruta 4.1 presenteras här. 122 © Horst Löfgren 4.1.1 Chi-kvadrat-testet för ett stickprov Chi-kvadrat-testet (2) för ett stickprov kan användas vid analys av data på nominalskalenivå, då populationen består av två eller flera klasser. Exempel på sådana klassifikationsvariabler är kön, civilstånd, socialgruppstillhörighet, boendeform och linjetillhörighet i gymnasieskolan. 2-testet är av typen “goodness-of-fit“ och används för att jämföra en viss observerad fördelning med en under nollhypotensen förväntad. Utgångspunkten är ett antal observationer i två eller flera kategorier. Från totalantalet observationer beräknas de förväntade frekvenserna under H0 (dvs. om nollhypotesen gäller) för varje kategori. Med hjälp av 2-testet prövas om de observerade frekvenserna endast slumpmässigt avviker från de förväntade eller om nollhypotesen måste förkastas. Nollhypotesen testas med: (Oi - Ei)2 2= ________ ; där E bör vara 5 (formel 4.1) Ei Oi = antal observationer i den i:te kategorin Ei = förväntat antal observationer i den i:te kategorin under H0 = summan av de ”k” kategorierna De kritiska värdena för olika frihetsgrader finns tabellerade (Tabell D). För olika frihetsgrader har 2 olika samplingfördelningar. Antalet frihetsgrader visar hur många observationer, som kan variera efter att man bestämt antalet observationer i vissa kategorier. Om vi exempelvis har sammanlagt 30 observationer i två kategorier och observerat 18 i den ena, måste den andra med nödvändighet innehålla 12 observationer. I detta fallet blir således antalet frihetsgrader fg=1. En kategori är således fri att variera. När vi vet antalet i denna kategori, så vet vi antalet i den andra, eftersom summan ska bli 30. Om vi istället haft fem kategorier med sammanlagt 30 observationer blir fg = k-1, dvs. 4. Man kan variera frekvenserna i fyra av de fem kategorierna. Frekvensen i den sista kategorin är bestämd i och med att vi känner frekvenserna i de övriga. För 2-testet finns kravet att de förväntade värdena (Ei) bör vara 5. Om så inte är fallet slår man helst samman kategorier så att kravet uppfylls. I likhet med de tidigare avsnitten i denna bok exemplifieras varje presenterad statistisk bearbetningsmetod med ett exempel. I det här fallet tänker vi © Horst Löfgren 123 oss en marknadsundersökning i vilken 100 kunder i en butik fick välja mellan fyra olika mjölkförpackningar. Den frågeställning som ska prövas är om man på basis av en sådan undersökning av en grupp slumpmässigt utvalda kunder kan våga uttala sig mera generellt om preferensolikheter vad gäller mjölkförpackningar. Följande resultat erhölls: Tabell 4.1. Resultat av marknadsundersökning Förpackning Antal val A B C D 18 30 40 12 H0: De fyra olika alternativen är lika populära, dvs. i populationen skulle man ha erhållit lika antal frekvenser (f1 = f2 = f3 = f4) H1: De fyra olika alternativen är olika populära (åtminstone några frekvenser är olika) Signifikansnivå: = 0,01 Det kritiska värdet för 2 med 3 frihetsgrader är på denna signifikansnivå 11,34 (Tabell D). Om avvikelserna mellan de observerade frekvenserna och de under H0 givna når upp till 11,34 eller mer måste nollhypotesen förkastas. ____________________________________________________________ Observerade frekvenser: Förväntade frekvenser: paket A B C D paket A B C D ____________________________________________________________ 18 30 40 12 25 25 25 25 ____________________________________________________________ 2 = (O - E)2 (18-25)2 __________ ___________ E 124 = 25 (30-25)2 + ___________ 25 (40-25)2 + ___________ 25 (12-25)2 + = 18,72*** 25 ___________ © Horst Löfgren Eftersom vi observerat en större avvikelse mellan de fyra valbara alternativen att paketera mjölk än vad slumpen rimligen kan ha åstadkommit förkastas H0 (p<0,01). H0 hade också förkastats om vi valt =0,001 (p<0,001). Vi drar slutsatsen att de fyra alternativen är olika populära bland konsumenterna. 4.1.2 Run-testet Det finns flera metoder att bedöma slumpmässigheten i ett stickprov på grundval av den ordningsföljd som observationerna har registrerats. Om observationer samlas in i slumpmässig ordning borde materialet inte innehålla ett speciellt mönster. Om man t.ex. samlat in enkätdata från skolelever borde pojkars och flickors svar komma i slumpmässig ordning. Om flickornas svar kommer först och därefter alla pojkarnas, har enkäterna tydligen först sorterats. Om varannan enkät är från en pojke och varannan från en flicka, kommer de ej heller i slumpmässig ordning utan verkar också vara sorterade. Eftersom det i SPSS finns en metod, som grundar sig på s.k. “runs“, Wald-Wolfowitz Runs för två oberoende stickprov, presenteras här en metod för att pröva slumpmässigheten i ett material med avseende på en dikotom eller dikotomiserad egenskap. Denna metod, det s.k. run-testet, att studera en slumpmässig ordningsföljd belyses bäst med hjälp av ett exempel. Vid en lunchrast på en skola observerades de 25 första eleverna i matkön. Man observerade den dikotoma variabeln kön. I matkön stod dessa 25 elever i följande ordning (P=pojke, F=flicka): PPP F PPP FF PPPPP FFFF P FFFFFF © Horst Löfgren 125 I denna kö finns åtta stycken s.k. “runs“, dvs. åtta grupper av samma kön. I två av “grupperna“ finns visserligen endast en elev. I den första finns tre pojkar, i den andra endast en flicka, i den tredje tre pojkar osv. Det totala antalet “runs“ är ett bra mått på slumpmässigheten i ett material. Verkar flickor och pojkar i detta exempel komma i slumpmässig ordning eller finns det någon systematik i materialet? Om det finns få “runs“, så kan man anta att ordningsföljden inte är slumpmässig. Likaså gäller om det finns väldigt många “runs“. Om varannan i kön är pojke och varannan flicka så är ordningsföljden systematisk. H0: Ordningsföljden vad gäller kön är slumpmässig H1: Ordningsföljden vad gäller kön är ej slumpmässig Signifikansnivå: =0,05 I matkön fanns 12 pojkar (n1=12) och 13 flickor (n2=13). Det kritiska värdet enligt Tabell H blir 8 respektive 19. Observera att Tabell H innehåller två kritiska värden, både för få och för många “runs“ tyder på att ordningsföljden inte är slumpmässig. Vi kan här observera att kön innehåller 8 “runs“. Om kön innehåller 8 eller 19 “runs“ finns troligen någon systematik i ordningsföljden. Vi måste därför förkasta nollhypotesen och drar slutsatsen att ordningsföljden vad gäller kön inte är slumpmässig. Om n1 och n2 är tillräckligt stora (>20) blir antalet “runs“ (R) approximativt normalfördelat enligt nedanstående formel: z= 2 n1n2 R - ______ + 1 - 0,5 n1+n2 (formel 4.2) 2 n1n2 (2 n1n2 - n1 - n2) (n1+n2)2 ( n1+n2 - 1) Även numeriska observationer kan behandlas på liknande sätt om man dikotomiserar den studerade variabeln. Man kan ange observationer över respektive under medianen. Observationer exakt på medianen utesluts. Vid en tentamen i statistik med fri skrivningstid registrerades i vilken ordning de 40 tentanderna lämnade in sina skrivningar. Den förste lämnade in sin skrivning efter 2,5 timmar och den siste först efter 6 timmar. Efter att skrivningen blivit rättad kunde man på ett enkelt sätt studera om skrivningsresultat var relaterat till inlämningstid. För att nu kunna använda 126 © Horst Löfgren “run“-testet anges resultatet för varje tentand som över (Ö) eller under (U) medianen. Följande resultat erhölls: ÖÖ U ÖÖÖÖ UU ÖÖÖÖ UUU ÖÖÖ UU ÖÖ UUUU ÖÖÖ UUUU ÖÖ UUUU H0: Utnyttjad skrivningstid är ej relaterad till tentamensresultat H1: Utnyttjad skrivningstid är relaterad till tentamensresultat Signifikansnivå: =0,05 Kritiskt värde: z= +/- 1,96 Vi har här funnit 14 “runs“ och kan pröva nollhypotesen med z-testet. Enligt formel 4.2 erhålls: z= 2 n1n2 R - ______ + 1 - 0,5 n1+n2 2 n1n2 (2 n1n2 - n1 - n2) (n1+n2)2 ( n1+n2 - 1) 14 - 2 . 20 . 20 + 1 - 0,5 20 + 20 = -2,08* . . . . 2 20 20 (2 20 20 -20 -20) (20 + 20)2 (20 + 20 - 1) Vi kan således förkasta nollhypotesen och dra slutsatsen att inlämningen inte har skett i slumpmässig ordning i förhållande till skrivresultat (p<0,05). 4.2 Analys av differensen mellan två oberoende stickprov I detta avsnitt ska vi ta upp några icke-parametriska metoder, som kan vara lämpliga vid analys av skillnader mellan två oberoende stickprov. En vanlig situation är att vi ur en viss population har dragit två stickprov, som behandlas på olika sätt (experiment- och kontrollgrupp), varefter vi prövar om en eventuell differens på ett efterprov är signifikant eller ej. Det kan också handla om en deskriptiv studie, i vilken man vill pröva om det finns några säkerställda skillnader. © Horst Löfgren 127 4.2.1 Chi-kvadrat-testet för två oberoende stickprov 2-testet kan användas på en nominalskalerad observationsvariabel för att pröva skillnaden mellan två oberoende stickprov. Tillvägagångssättet är analogt med fallet för ett stickprov. Vi har ett antal observationer i de två stickproven fördelade på två eller flera rader (r) . Nollhypotesen testas med nedanstående formel: (Oij - Eij)2 2= ________ fg= r-1 (formel 4.3) Eij Oij = antal observationer i den i:te raden av den j:te kolumnen Eij = förväntat antal observationer i den i:te raden av den j:te kolumnen = summan av de ”k” raderna och de två kolumnerna De förväntade värdena under H0 för varje cell (Eij) erhålls genom att multiplicera radsumman med kolumnsumman, för att därefter dividera denna produkt med totalantalet observationer. De förväntade värdena (Eij) bör vara 5. Passagerare på en flygsträcka i Smokeland fick under en viss vecka besvara en enkät rörande vissa trivsel- och serviceförbättrande åtgärder, som flygbolaget planerade att införa. För att få ett någorlunda representativt urval delades enkäten ut till samtliga resenärer vid ett antal slumpmässigt valda avgångar. En av frågorna gällde om rökning skulle totalförbjudas på denna tre timmar långa flygsträcka. Respondenterna fick också ange om de var rökare eller ej. Följande antal erhölls för de olika alternativen: Tabell 4.2a. Enkätresultat rörande rökning på en viss flygsträcka Observerade värden Rökare Icke-rökare Rökning borde totalförbjudas Rökning kunde tillåtas som nu Ingen bestämd uppfattning 40 140 20 560 160 80 600 300 100 Totalt 200 800 1000 128 Summa © Horst Löfgren Det finns tydligen en majoritet för att man borde förbjuda rökning på sträckan, men har passagerarnas åsikt samband med om de är rökare eller ej? H0: Det föreligger inget samband mellan inställning och tobaksvanor H1: Det föreligger ett samband mellan inställning och tobaksvanor Signifikansnivå: = 0,001 Kritiskt värde (Tabell D) för 2 (2 frihetsgrader): 13,82 Utifrån ovan observerade värden beräknas de under H0 förväntade värdena. För att beräkna den förväntade frekvensen i rad 1 och kolumn 1, under förutsättning att det inte finns något samband mellan inställning och tobaksvanor, multipliceras radsumman med kolumnsumman, varefter man dividerar med totalsumman, dvs. 600 . 200 / 1000 = 120. Tabell 4.2b. Teoretiska resultat om inget samband finns mellan de båda studerade variablerna Teoretiska värden (om H0 gäller) Rökare Icke-rökare Summa Rökning borde totalförbjudas Rökning kunde tillåtas som nu Ingen bestämd uppfattning 120 60 20 480 240 80 600 300 100 Totalt 200 800 1000 (40-120)2 (560-480)2 (140-60)2 (160-240)2 (20-20)2 2 = ____________ + _____________ + ____________ + _____________ + _____________ + 120 480 60 240 20 + 2 (80-80) ___________ = 200,0*** 80 H0 H1 Kr. v. Obs. v. _______________________x______________________x__________ 2= 0 © Horst Löfgren 13,82 200,0 2= högt 129 Som redan framgår av de observerade värdena finns det ett tydligt samband mellan de två studerade variablerna. 2-värdet är självfallet signifikant, varför H0 måste förkastats (p<0,001). Här är ett bra exempel på att en signifikansanalys bör åtföljas av ett mått på storleken i relationen mellan de studerade variablerna. Lämpliga index vid 2-analyser presenteras senare (avsnitt 4.4). 4.2.2 2-analys av en 2x2 kontingenstabell Då man vill testa nollhypotesen för observationsvariabler, som endast innehåller två kategorier bör man övergå till en alternativ beräkning av 2värdet, vilken ger en bättre approximation till 2-fördelningen. Detta kan ses som ett specialfall av 2-analys vid oberoende stickprov. Observationer från två dikotoma eller dikotomiserade variabler kan sättas upp i en s.k. fyrfältstabell. Variabel 1 1 2 Summa 1 A B A+B 2 C D C+D A+C B+D Variabel 2 Summa N (|AD-BC| N N )2 2 2 = _____________________ (A+B)(C+D)(A+C)(B+D) fg = 1 (formel 4.4) Vid en simskola ville man pröva en ny metod för simundervisning. Därför uttogs slumpmässigt två grupper av elever, som fick olika undervisning. Efter kursens slut studerades simkunnigheten som ett mått på undervisningsmetodens effektivitet. Kan man våga påstå att metoderna är olika effektiva? 130 © Horst Löfgren Tabell 4.3. Resultat av simundervisning Metod A Antal simkunniga Antal ej simkuniga Metod B 35 5 25 15 H0: Det föreligger inget samband mellan simkunnighet och metod H1: Det föreligger ett samband mellan simkunnighet och metod Signifikansnivå: = 0,05 Kritiskt värde (Tabell D) för 2 (fg = 1): 3,84 80 2 ) 2 2 2 = _____________________ = ______________________ = 5,40* (A+B)(C+D)(A+C)(B+D) 60 . 30 . 40 . 40 N (|AD-BC| - H0 N )2 80 ( 35.15 – 25.5 - H1 Kr. v. Obs. v. _______________________x___________x_______________ 2= 0 3,84 5,40 2= högt Sannolikheten att i ett stickprov erhålla ett 2-värde på 5,40, trots att det i populationen inte finns någon skillnad mellan de båda metoderna (dvs. 2=0) är mindre än 5 % (p< 0,05). Vi förkastar därför H0 och drar slutsatsen att de två simundervisningsmetoderna leder till olika resultat. 4.2.3 Mann-Whitney U-test Mann-Whitney är ett mycket effektivt test som kan användas vid två oberoende stickprov då observationsvariabeln är ordinalskalerad. Antag att vi exempelvis har två stickprov, som erhållit olika behandlingar (experimentoch kontrollgrupp). Vi prövar nollhypotesen att de båda stickproven är hämtade ur samma bakomliggande population. Det finns ytterligare några © Horst Löfgren 131 icke-parametriska test, som har samma användningsområde som MannWhitney U-test., t.ex. Kolmogorov-Smirnov och Wald-Wolfowitz Runs. Mann-Whitney testet baseras på förhållandet att om det finns en verklig skillnad mellan två jämförda grupper, borde mätresultaten i det ena stickprovet oftare vara högre än i det andra stickprovet. Om då de två stickproven kombineras och mätresultaten läggs i rangordning från det lägsta till det högsta, borde mätresultat från den ena gruppen mestadels ligga i den ena svansen och den andra gruppens mätresultat i den andra svansen. Skulle det inte finnas någon skillnad mellan grupperna kommer de rangordnade mätresultaten att ligga i blandad ordning. Vi benämner antalet observationer i det första stickprovet n1 och antalet observationer i det andra stickprovet för n2. Därefter kombineras de båda stickproven, och de n1+n2 observationerna rangordnas. Varje individ i det första stickprovet får en poäng för varje individ, som “besegras“ i det andra stickprovet. Det totala antalet poäng för det första stickprovet kallas U1. På liknande sätt beräknas poängen för det andra stickprovet U2. Det minsta av dessa två värden kallas Mann-Whitney U. För att erhålla det s.k. förarbeviset i en kurs i båtvett ville man pröva ett nytt självinstruerande studiematerial. De 15 kursdeltagarna under vinterkursen i Segelstad delades slumpmässigt i två grupper, varefter den ena gruppen fick det nya materialet medan den andra gruppen fick konventionell undervisning. Man betraktade därvid kursdeltagarna i Segelstad som ett stickprov ur den grupp, som går motsvarande kurser på andra platser i landet. Tabell 4.4. Provresultat efter kurs i båtvett ____________________________________________________________ Experimentgrupp (n1=8) Kontrollgrupp (n2=6) (Självinstruerande studiematerial) (Konventionell undervisning) ____________________________________________________________ 24, 15, 18, 21, 26, 12, 28, 13 16, 8, 11, 14, 9, 15 ____________________________________________________________ Kan man av ovanstående data dra slutsatsen att det förligger en skillnad mellan metoderna? H0: Det föreligger ingen skillnad mellan de båda metoderna H1: Det föreligger en skillnad mellan de båda metoderna Signifikansnivå: = 0,05 132 © Horst Löfgren Kritiskt värde (enligt Tabell F): 8 Slår vi samman de båda grupperna och placerar resultaten i en lång rad efter prestation erhålls nedanstående. För att särskilja grupperna har resultaten i grupp 1 placerats något ovanför resultaten i grupp 2. Observera att två deltagare har samma resultat (15 rätt på efterprovet). 28 26 24 21 18 16 15 15 14 13 12 11 9 8 I grupp 1 har de första fem deltagarna bättre resultat än samtliga i grupp 2. Den deltagare i grupp 1 som har resultatet 15 har bättre resultat än fyra deltagare från grupp 2 samt delar placering med en i grupp 2. Denne deltagare erhåller sålunda 4,5 p. Följande U-poäng erhålls i de två grupperna: Grupp 1: U1 = 6 + 6 + 6 + 6 + 6 + 4,5 + 3 +3 = 40,5 Grupp 1: U2 = 3 + 2,5 + 2 = 7,5 Det minsta av dessa summor kallas U. I det här fallet blir U=7,5. Ett ofta snabbare sätt att beräkna U är genom att först rangordna i det sammanslagna materialet för att därefter summera rangtalen (R) för respektive grupp (R). U1 och U2 beräknas som följer: n1(n1+1) U1= n1.n2 + ________ - R1 och 2 (formel 4.5a) n2(n2+1) U2 = n1.n2 + ________ - R2 2 (formel 4.5b) I det här fallet erhålls: U1= 8.6 + 8(8+1)/2 - (1+2+3+4+5+7,5+10+11) = 40,5 U2= 8.6 + 6(6+1)/2 - (6+7,5+9+12+13+14) = 7,5 U blir självfallet detsamma som vid det första beräkningssättet 7,5. I Tabell F finns de kritiska värdena för detta test på 10%, 5% och 1%-nivån. Observera att ju lägre värde på U desto större skillnad är det mellan grupperna. Det innebär att H0 förkastas om det observerade värdet är lägre än det kritiska. I det här fallet förkastas H0 (p<0,05), och vi drar slutsatsen att de båda inlärningssätten ger olika resultat. © Horst Löfgren 133 H0 H1 Kr.v. Obs.v. _____________x__x_______________ U= högt 8 7,5 U=0 För stora stickprov (n1 och n2 >8 observationer) blir U approximativt normalfördelad och kan därför prövas med hjälp av z-testet. Om man endast har ett fåtal “ties“ blir denna z-formel som följer: n1.n2 U - _______ 2 z = __________________________ (formel 4.6) . n1 n2( n1 + n2 + 1) 12 I SPSS-programmet ges förutom resultatet på Mann-Whitney-testet också resultatet av Wilcoxon´s test, vilket är en variant. Båda ger samma resultat och i förekommande fall lika z-värdesapproximation. 4.2.4 Kolmogorov-Smirnov-testet för två oberoende stickprov För att jämföra resultaten (fördelningarna) från två oberoende stickprov, dvs. pröva om dessa stickprov kan antas komma från en och samma population, kan även Kolmogorov-Smirnov-testet användas. Man beräknar i detta fall den kumulativa frekvensen för de båda stickproven och bildar Dmax, dvs. använder den maximala differensen mellan de kumulativa fördelningarna som mått på likheten i stickproven. Om fördelningarna i de båda stickproven är någorlunda lika blir differenserna i de kumulativa fördelningarna små. Kritiska värden för olika signifikansnivåer erhållls i Tabell G. Vid stora stickprov (n1 och n2 >40) kan de kritiska värdena beräknas. Exempelvis blir det kritiska värdet för =0,05 som följer: 134 © Horst Löfgren n1 + n 2 ______ n1 . n2 Kr. v. (=0,05) = 1,36 (formel 4.7) På ett prov i statistik omfattande 8 uppgifter jämfördes två grupper med olika gymnasial utbildningsbakgrund. Tabell 4.5a. Provresultat i statistik Antal rätt (x) 0 1 2 3 4 5 6 7 8 Grupp 1 (f) Grupp 2 (f) 1 1 2 5 5 0 1 0 0 0 1 2 1 2 3 4 1 1 Kan man av ovanstående resultat påvisa en skillnad mellan gruppernas resultat? H0: Det föreligger ingen skillnad mellan de båda grupperna H1: Det föreligger en skillnad mellan de båda grupperna Signifikansnivå:= 0,05 Kritiskt värde (enligt Tabell G): 8 Efter beräkning av de kumulativa frekvenserna erhålls följande differenser och maximala differens: © Horst Löfgren 135 Tabell 4.5b. Provresultat i statistik, kumulativa frekvenser ___________________________________________________________ Antal rätt Grupp 1 Grupp 2 Diffkum (x) (f) (fkum) (f) (fkum) ____________________________________________________________ 0 1 1 0 0 1 1 1 2 1 1 1 2 2 4 2 3 1 3 5 9 1 4 5 4 5 14 2 6 8 =Dmax (8/15=0,533) 5 0 14 3 9 5 6 1 15 4 13 2 7 0 15 1 14 1 8 0 15 1 15 0 ____________________________________________________________ Eftersom Dmax är lika med det kritiska värdet förkastas nollhypotesen (p<0,05). Vi har således påvisat en skillnad mellan de båda grupperna. 4.2.5 Wald-Wolfowitz Runs Detta test används för att pröva om två oberoende stickprov kan ha dragits från samma bakomliggande population. Med tillräckligt stora stickprov kan man pröva skillnader mellan stickproven vad gäller central tendens, variation och i övrigt vad gäller fördelningarnas utseende. Data förutsätts vara på lägst ordinalskalenivå. Tillvägagångssättet är mycket likt det tidigare presenterade “run“-testet för ett stickprov. Data från de båda stickproven rangordnas efter sammanslagning. Därefter bestäms antalet “runs“, dvs. sekvenser av mätvärden tillhörande samma grupp. Kritiska värden för vald signifikansnivå erhålls ur Tabell H. I en undersökning studerades pojkars och flickors inställning till påföljder av olika brott. Följande summaresultat erhölls på några frågor om inställning till butikssnatteri (högt värde innebär högre grad av fördömanden och krav på straffpåföljd). Kan man av resultatet påvisa någon skillnad i inställningen mellan flickor och pojkar? 136 © Horst Löfgren Tabell 4.6. Inställning till butikssnatteri; summaresultat ____________________________________________________________ Flickor Pojkar ____________________________________________________________ 5 7 13 5 13 6 10 8 14 8 9 4 15 5 11 4 10 12 13 3 ____________________________________________________________ H0: Det föreligger ingen skillnad mellan de båda grupperna H1: Det föreligger en skillnad mellan de båda grupperna Signifikansnivå: = 0,05 Kritiskt värde (enligt Tabell H): 6 Efter rangordning av det sammanslagna materialet erhålls: pojkar: 3 4 4 5 flickor: 56788 5 12 9 10 10 11 13 13 13 14 15 Antalet “runs“ blir således 6. Då det kritiska värdet på 5%-nivån är just 6, måste vi förkasta H0 (p<0,05). Det finns således en systematisk skillnad mellan flickor och pojkar vad gäller inställning till brott och straff i detta sammanhang. För stora stickprov (n1 och n2 >20) är antalet “runs“ (RWW) approximativt normalfördelat enligt formel 4.8. Denna formel är identisk med den som tidigare presenterats i samband med Run-testet för ett stickprov (avsnitt 4.1.2). © Horst Löfgren 137 2 n1n2 RWW - ______ + 1 n1+n2 - 0,5 z= (formel 4.8) 2 n1n2 (2 n1n2 - n1 - n2) (n1+n2)2 ( n1+n2 - 1) 4.3 Analys av differensen mellan två beroende stickprov En vanlig situation är att vi utsätter en och samma grupp individer för repeterad mätning med mellankommande behandling (förprov - påverkan efterprov). En annan likaledes vanlig situation är att vi utsätter två matchade grupper av individer för olika behandlingar (experiment- och kontrollgrupp) för att studera eventuella differenser på ett efterprov. I dessa båda fall av undersökningar studerar vi ett slumpmässigt urval av en definierad population. För att kunna generalisera erhållna resultat till bakomliggande population kan vi använda oss av några icke-parametriska metoder. Observera att vi i detta avsnitt analyserar observationer från beroende stickprov. Det kan synas underligt att man säger sig ha två stickprov vid repeterad mätning av en och samma grupp. Det man avser är att man har två uppsättningar av mätvärden. 4.3.1 McNemar-testet McNemar-testet är ett test som kan användas vid repeterad mätning, t.ex. i situationer då man vill studera förändringar med hjälp av en binär observationsvariabel. För att studera en förändring med denna metod sätter vi upp resultaten i en fyrfältstabell av mätvärden. 138 © Horst Löfgren Efter k1 k2 k2 A B k1 C D Före En individ i cell A har förändrat sig i ena riktningen (från kategori 2 till kategori 1), och en individ i cell D har förändrats sig i motsatt riktning. Individerna i cellerna B och C är oförändrade. Om förändringen inte gått i någon bestämd riktning erhålls de förväntade värdena ½ (A+D) i cell A och ½ (A+D) i cell D. Denna nollhypotes kan testas med hjälp av 2-formeln, som då den appliceras på cellerna A och D ger följande: (O-E)2 2 = ______ E5 (formel 4.9) E Detta uttryck kan förenklas och efter kontinuitetskorrektion erhålls: (|A-D| -1)2 2 = _________ fg = 1 (formel 4.10) A+D Observera att vi här endast undersöker de individer, som visat en förändring. Vi kan ta följande exempel som visar tillvägagångssättet. Ett studieförbund genomförde en kurs i invandrarkunskap. Före och efter kursen insamlades deltagarnas åsikter om flyktingmottagning i den egna kommunen. Man registrerade om de var positiva eller negativa till en ökad mottagning. Det är knappast troligt att kursdeltagarna är att betrakta som ett representativt stickprov av kommuninvånarna, men vi kanske kan betrakta dem som ett stickprov av personer som söker sig till sådana här kurser. Följande resultat erhölls i den här gruppen som bestod av 20 deltagare: Efter pos neg neg 9 3 pos 11 17 Före © Horst Löfgren 139 Kan man av ovanstående dra slutsatsen att det föreligger en systematisk förändring i inställningen till flyktingmottagning? H0: Det föreligger ingen systematisk påverkanseffekt H1: Det föreligger en systematisk påverkanseffekt Signifikansnivå: = 0,05 Kritiskt värde för 1 frihetsgrad: 3,84 ( 9 – 17 - 1)2 2 = _________________ = 1,88 (-) 9 + 17 H0 kan ej förkastas (p>0,05). Man kan således inte dra slutsatsen att kursdeltagare förändrar sina åsikter på ett statistiskt signifikant sätt. 4.3.2 Wilcoxon’s teckenrangtest Wilcoxon’s teckenrangtest är ett effektivt test, som används vid beroende observationer på en ordinalskalerad variabel. Testet utnyttjar inte endast differensernas riktning, utan tar även hänsyn till differensernas storlek. Det enklare s.k. teckentestet (Sign Test) använder endast differensernas riktning, dvs. + och -. Detta test finns också i SPSS, men presenteras inte närmare här. Differensen mellan de parvisa observationerna beräknas. Därefter rangordnas differenserna oberoende av tecken, och den minsta differensen erhåller rangtal 1. Om differensen är 0 stryks observationsparet (s.k. “ties“). Slutligen utsätts plus- och minustecken för differenserna vid rangtalen, varefter den lägsta summan av rangtalen med samma tecken beräknas (T). Om nollhypotesen gäller blir det väntade värdet av T lika med hälften av den totala rangsumman. De kritiska värdena på T under H0 återfinnes i Tabell E. Antalet nolldifferenser (“ties“) bör ej vara för många. Vid stora värden på n (n=antalet parvisa observationer) blir T approximativt normalfördelat, och nollhypotesen kan prövas med följande formel: T - µT T - n(n+1)/4 z = ______ = _____________ T n(n+1)(2n+1) 24 140 (formel 4.11) © Horst Löfgren För att visa tillvägagångssättet väljer vi följande exempel. Ett slumpmässigt urval av vuxenstuderande arbetade under en termin med ett nytt självinstruerande material. Före kursens början och efter avslutad kurs fick de studerande besvara ett attitydformulär. Resultatet på attitydskalan uttryckt i summapoäng framgår av nedanstående. Låg poäng innebär en negativ inställning till ämnet. Kan man av nedanstående data dra slutsatsen att eleverna systematiskt förändrat sin inställning? H0= Det föreligger ingen skillnad mellan attityderna före och efter försöket H1= Det föreligger en skillnad mellan attityderna före och efter försöket Signifikansnivå: = 0,05 Kritiskt värde (Tabell E) för n = 26: T= 98 Tabell 4.7. Resultat av attitydmätning ____________________________________________________________ Elev Före Efter Elev Före Efter ____________________________________________________________ A 10 12 O 10 13 B 15 11 P 10 22 C 24 26 Q 20 17 D 14 18 R 12 16 E 17 20 S 11 18 F 15 15 T 15 20 G 18 21 U 17 21 H 6 14 V 19 20 I 20 21 X 15 8 J 21 20 Y 12 17 K 21 16 Z 18 13 L 10 10 Å 10 16 M 20 22 Ä 11 18 N 24 16 Ö 6 20 ____________________________________________________________ © Horst Löfgren 141 ____________________________________________________________ Elev Före Efter diff rang Elev Före Efter diff rang ____________________________________________________________ A 10 12 -2 -5,0 O 10 13 -3 -8,5 B 15 11 4 12,5 P 10 22 -12 -26,0 C 24 26 -2 -5,0 Q 20 17 3 8,5 D 14 18 -4 -12,5 R 12 16 -4 -12,5 E 17 20 -3 -8,5 S 11 18 -7 -22,0 F 15 15 0 --T 15 20 -5 -16,5 G 18 21 -3 -8,5 U 17 21 -4 -12,5 H 6 14 -8 -24,5 V 19 20 -1 -2,0 I 20 21 -1 -2,0 X 15 8 7 22,0 J 21 20 1 2,0 Y 12 17 -5 -16,5 K 21 16 5 16,5 Z 18 13 6 16,5 L 10 10 0 --Å 10 16 -6 -19,5 M 20 22 -2 -5,0 Ä 11 18 -7 -22,0 N 24 16 8 24,5 Ö 6 12 -6 -19,5 ____________________________________________________________ Summan av rangtalen med samma tecken beräknas. T är den lägsta summan av rangtalen och blir här 102,5. Eftersom vi har 26 differenser > 0 blir n=26. H0 H1 Obs.v Kr.v _______________x_______x_______________________ T=hög 102,5 98 T= 0 H0 kan ej förkastas (p > 0,05) Man kan således inte påvisa någon skillnad mellan attityderna före och efter den självinstruerande undervisningen. 142 © Horst Löfgren 4.4 Några index byggda på 2 Under denna rubrik ska vi ta upp två index som är vanligt förekommande, kontingenskoefficienten och Cramérs index. För frekvensdata uppställda i en r x k-tabell kan ett beräknat 2-värde s a s översättas till en korrelationskoefficient. Ett erhållet 2-värde på exempelvis 24,5 tolkas genom att man jämför med ett kritiskt värde för en viss vald signifikansnivå. Om vi överför det observerade värdet till en korrelationskoefficient blir resultatet lättare att tolka. Vi är mer bekanta med innebörden av ett sådant standardiserat mått som en korrelationskoefficient. Problemet med 2-test liksom vid andra vanliga hypotesprövningsmetoder är att antalet observationer är avgörande för om en viss differens ska betraktas som säkerställd eller ej. Vid stora n-tal blir medelfelet mindre, vilket leder till att även en liten skillnad kan bli signifikant. 4.4.1 Kontingenskoefficienten En kontingenskoefficient (C) för data uttryckta i en tabell med r rader och k kolumner beräknas utifrån ett 2-värde och antalet observationer (N), som ingår i analysen. 2 C = ______ N + 2 (formel 4.12) I en undersökning samlade man via en enkät in föräldrars och barns inställning till betyg i grundskolan. Resultatet av undersökningen presenteras i Tabell 4.8. Av analysen drar vi slutsatsen att det inte finns något signifikant samband mellan socialgruppstillhörighet och inställning då det gäller barnen, men väl då det gäller deras föräldrar. Denna slutsats drar vi, trots att vi här konstruerat data där elever och deras föräldrar har precis samma uppfattning. Den relativa fördelningen av svar är exakt densamma. Skillnaden är att föräldrarna är dubbelt så många som eleverna. Sambandet mellan variablerna för barn- respektive föräldragruppen måste självfallet bli lika högt, men tydligen har 2-metoden för låg känslighet för att skillnaden ska bli säkerställd för barngruppen. © Horst Löfgren 143 Tabell 4.8. Barn och föräldrars inställning till betyg ____________________________________________________________ Barn: Föräldrar: SocialInställning SocialInställning grupp neg ? pos summa grupp neg ? pos summa ____________________________________________________________ 1 3 2 15 20 1 6 4 30 40 2 10 10 20 40 2 20 20 40 80 3 12 13 15 40 3 24 26 30 80 ____________________________________________________________ Summa 25 25 50 100 Summa 50 50 100 200 ____________________________________________________________ 2= 7,65 (p>0,05) 2= 15,3 (p<0,05) För att göra jämförelser mellan grupper avseende samband mellan variabler måste vi överföra erhållna 2-värden till något korrelationsmått, t.ex. kontingenskoefficienten “C“. 7,65 Cbarn = _________ = 0,27 100 + 7,65 15,3 Cföräldrar = _________ = 0,27 200 + 15,3 Av kontingenskoefficienterna framgår att sambandet mellan de studerade variablerna i de båda grupperna är lika stort. Det lägsta värde C kan anta är 0,00. Kontingenskoefficienten är alltid positiv, vilket är naturligt med hänsyn till att data är på ordinalskalenivå. Det högsta möjliga värdet på C är emellertid beroende på ursprungstabellens storlek. När tabellen har lika många rader som kolumner kan Cmax beräknas med hjälp av följande formel: r -1 _____ (formel 4.13) r r = antal rader (eller kolumner) Cmax = För en 2x2-tabell blir Cmax således 0,707 och för en 3x3-tabell 0,816. Att Cmax på detta sätt varierar med tabellens storlek medför att olika konting144 © Horst Löfgren enskoefficienter inte blir direkt jämförbara, såvida de inte baseras på tabeller av lika storlek. 4.4.2 Cramérs index I stället för att använda kontingenskoefficienten kan man i samma situationer lämpligen i stället utnyttja Cramérs index (CV). Den har fördelen att inte ha olika max-värden för tabeller av olika storlek. Cramérs index varierar alltid mellan 0,00 och 1,00. Cramérs V = 2 ______ N.(s-1) (formel 4.14) N= stickprovsstorleken; s= minsta antalet av rader och/eller kolumner Om vi applicerar Cramérs index på samma data som i det tidigare exemplet erhålls följande: CV= 7,65 _______ = 0,20 100 . 2 CV= 15,3 ______ = 0,20 200 . 2 Som tidigare nämnts är phi ett sambandsmått som används då man har två nominalskalerade observationsvariabler. För att beräkna sambandet mellan två variabler i en kontingenstabell kan man således använda phi. I en s.k. fyrfältstabell, i vilken man har observationer från två dikotoma eller dikotomiserade variabler är phi-koefficienten identisk med Cramérs V. 4.5 Analys av differenser mellan tre eller flera oberoende stickprov I översikten för hypotesprövningsmetoder (Ruta 4.1) angavs några möjligheter att jämföra tre eller flera stickprov, både oberoende och beroende, för observationer på olika skalnivåer. I detta avsnitt ska vi presentera de ickeparametriska metoder, som kan appliceras på nominal- och ordinal- © Horst Löfgren 145 skalenivå. Liksom tidigare undersöks huruvida man kan dra slutsatsen att stickproven härrör ur samma bakomliggande population. 4.5.1 Chi-kvadrat-testet för tre eller flera oberoende stickprov Vi kan här använda samma test, som utnyttjades för två oberoende stickprov, nämligen 2-testet. Formeln är densamma som tidigare med undantag av att vi nu summerar över k stickprov i stället för endast 2 stickprov. (Oij-Eij)2 2 fg = (r-l) (k-l) (formel 4.15) = ________ Eij r= antal rader; k= antal kolumner Vi använder följande exempel: I ett kvasiexperiment med tre experimentgrupper önskade man kontrollera vissa bakgrundsvariabler. Sålunda studerade man socialgruppstillhörighet för att se huruvida man kunde betrakta grupperna som slumpmässigt lika avseende denna variabel. Tabell 4.9a. Erhållna resultat av socialgruppsjämförelse mellan de tre studerade grupperna ____________________________________________________________ Observerade frekvenser (O): Socialgrupp I II III Summa ____________________________________________________________ Experiment- 1 14 21 15 50 grupp 2 8 17 25 50 3 5 25 20 50 ____________________________________________________________ Summa 27 63 60 150 ____________________________________________________________ Parentetiskt kan här nämnas att ett experiment i vilket man inte slumpmässigt kan fördela individerna till olika jämförelsegrupper kallas vanligen för kvasiexperiment. Eftersom jämförelsegrupperna inte är lika inom 146 © Horst Löfgren slumpens ram måste man kontrollera, om de kan anses vara lika i utgångsskedet. Utifrån ovan observerade värden beräknas de under H0 förväntade värdena. För att beräkna den förväntade frekvensen i rad 1 och kolumn 1, under förutsättning att det inte finns något samband mellan de båda variablerna, multipliceras radsumman med kolumnsumman, varefter man dividerar med totalsumman, dvs. 50 . 27/ 150 = 9. Tabell 4.9b. Förväntade resultat om det inte finns skillnader mellan grupperna ____________________________________________________________ Förväntade värden (E): Socialgrupp I II III Summa ____________________________________________________________ Experiment- 1 9 21 20 50 grupp 2 9 21 20 50 3 9 21 20 50 ____________________________________________________________ Summa 27 63 60 150 ____________________________________________________________ Enligt formel för 2 (4.15) erhålls: 2 (14-9)2 = __________ 9 + (21-21)2 (15-20)2 (8-9)2 (17-21)2 (25-20)2 + + ____________ + ________ + ___________ + ___________ + 21 20 9 21 20 ___________ (5-9)2 (25-21)2 _________ ____________ 9 + 21 (20-20)2 + ___________ = 8,69 20 Eftersom vi i det här fallet vill undersöka om grupperna initialt är lika, bör vi välja en signifikansnivå där -risken är hög. Det är bättre att felaktigt förkasta H0 än att gå vidare i studien och felaktigt anta att grupperna är © Horst Löfgren 147 lika. Kanske kan 10%-nivån eller rent av 20%-nivån vara en lämplig signifikansnivå. H0: Det finns inget samband mellan experimentgrupp och socialgruppstillhörighet H1: Det finns ett samband mellan experimentgrupp och socialgruppstillhörighet Det kritiska värdet för 4 frihetsgrader på 10%-nivån är 7,78 och på 20%nivån 5,99, varför nollhypotesen i detta fall förkastas (p<0,10). Vi drar slutsatsen att grupperna inte kan betraktas vara dragna ur samma population. Visserligen hade nollhypotesen inte kunnat förkastas, om -risken hade bestämts till 5 %, men eftersom det här var fråga om en kontroll av initialskillnader är = 0,20 mera lämplig. Med hjälp av Cramér’s index kan vi beräkna sambandet mellan experimentgrupp och socialgruppstillhörighet (jfr avsnitt 4.4.2). I detta fallet blir sambandet 0,17. Det är visserligen inte något starkare samband, men för att vara på den säkra sidan vill vi ej betrakta grupperna som lika vad avser socialgruppstillhörighet. 4.5.2 Kruskal-Wallis testet För data på ordinalskalenivå finns några olika möjligheter. Ett av de mera effektiva testen är Kruskal-Wallis testet eller som det ibland också kallas H-testet. Detta är ett effektivt test och används då man har flera oberoende grupper som ska jämföras. Samtliga observationer rangordnas över alla grupper, och därefter studeras om rangsummorna för de olika grupperna ungefärligen blir lika med hänsyn till antalet individer i grupperna. Om nollhypotesen gäller och sålunda stickproven kommer från samma bakomliggande population bör rangsummorna bli ganska lika. Hypotesen kan prövas med följande formel (om nj >5): 12 Rj2 H = _______ ___ - 3(n+1) n(n+1) nj (formel 4.16) Rj2 = summan av rangtalen i kvadrat för den j:te gruppen nj = antalet individer i den j:te gruppen 148 © Horst Löfgren H är 2-fördelad med k-1 frihetsgrader (k=antal grupper). Om det finns många “ties“ kan man justera för dessa. Ett exempel får belysa tillvägagångssättet av detta H-test. I en undersökning av ett nytt läkemedel ingick att testa detta på försöksdjur. Efter injicering av ett bestämt virus fick tre olika grupper av försöksdjur olika behandlingar. Efter försöksperiodens slut bedömdes effekterna i en sju-gradig skala. Bedömaren kände ej till försöksdjurens grupptillhörighet. Följande resultat erhölls vid bedömningen efter påverkansperioden: Tabell 4.10a. Resultat av bedömningar av effekter ____________________________________________________________ Grupp 1 Grupp 2 Grupp 3 ____________________________________________________________ 3 1 5 1 5 6 2 1 7 3 4 5 4 2 7 2 6 6 ____________________________________________________________ n1=6 n2=6 n3=6 ____________________________________________________________ Kan man av ovanstående resultat dra slutsatsen att de tre behandlingarna leder till olika resultat? H0: Det finns ingen skillnad i mellan de tre grupperna (de kan även efter medicinering betraktas tillhöra samma bakomliggande population) H1: Det finns en skillnad mellan de tre grupperna Signifikansnivå: =0,05 Eftersom vi här har tre grupper blir antalet frihetsgrader 2. Det kritiska värdet för den valda signifikansnivån blir enligt Tabell D lika med 5,99. Efter rangordning erhålls nedanstående värden. © Horst Löfgren 149 Tabell 4.10b. Rangtal av bedömningar ____________________________________________________________ Grupp 1 Grupp 2 Grupp 3 ____________________________________________________________ 7,5 2,0 12,0 2,0 12,0 15,0 5,0 2,0 17,5 7,5 9,5 12,0 9,5 5,0 17,5 5,0 15,0 15,0 ____________________________________________________________ 36,5 45,5 89,0 ____________________________________________________________ 12 36,52 45,52 892 H = ________ ( _____ + _____ + ____ ) - 3(18+1) = 9,22** 18(18+1) 6 6 6 Då det kritiska värdet enligt 2-fördelningen på 5%-nivån för 2 frihetsgrader är 5,99 måste nollhypotesen förkastas, och vi drar slutsatsen att de tre medicineringarna är olika effektiva (p<0,01). 4.6 Analys av differensen mellan tre eller flera beroende stickprov Som tidigare flera gånger har nämnts erhålls beroende stickprov antingen genom repeterad mätning, dvs. samma grupp individer utsätts för flera mätningar och dessa mättillfällen jämförs med varandra, eller genom matchning varvid olika grupper av individer jämförs vid ett och samma testtillfälle. 150 © Horst Löfgren 4.6.1 Cochran Q-test Vid analys av två beroende stickprov kan man använda McNemar-testet. Då vi har fler än två stickprov eller uppsättningar av beroende mätvärden, väljer vi en vidareutveckling av McNemar-testet, nämligen Cochran Qtest. Detta test kan användas när data är på nominalskalenivå eller vid diktomiserad ordinalskala. Data uttryckta i en dikotom skala kan endast anta endera av två värden, t.ex. ja - nej, rätt - fel eller positiv - negativ. Data sammanställs i en tabell innehållande r rader och k kolumner. Den nollhypotes som prövas är om frekvenserna är slumpmässigt lika i de olika kolumnerna. Ett Q-värde beräknas, vilket är approximativt 2-fördelat med k-1 frihetsgrader. (k-1) {k.Gj2 - (Gj)2} Q = _______________________________ K .Li - Li2 (formel 4.17) Gj = antal ja-svar (frekvensen i den ena dikotomin) i den j:te gruppen Li = antal ja-svar i den i:te raden Vid ett försök med självinstruerande material i matematik lät man eleverna vid tre tillfällen ange huruvida de var positiva eller negativa till läromedlet (Tabell 4.11). H0: Det finns ingen skillnad mellan de tre mättillfällena H1: Det finns en skillnad mellan de tre mättillfällena Signifikansnivå: =0,05 (3-1) {3.(122 + 82 + 62) - 262} Q= ________________________________________ = 7,0* 3.26 - 62 Då det kritiska värdet enligt 2-fördelningen på 5%-nivån för 2 frihetsgrader är 5,99, kan nollhypotesen förkastas (p<0,05), och vi drar slutsatsen att inställningen till läromedlet har förändrats under den tid de arbetat med materialet. © Horst Löfgren 151 Tabell 4.11. Resultat av attitydmätning vid tre olika mättillfällen (1= positiv inställning; 0= negativ inställning) ____________________________________________________________ Mättillfälle: Elev efter 1 mån efter 2 mån efter 3 mån L L2 ____________________________________________________________ A 1 1 1 3 9 B 1 0 0 1 1 C 1 1 0 2 4 D 0 0 0 0 0 E 1 1 1 3 9 F 1 1 1 3 9 G 1 0 0 1 1 H 0 1 1 2 4 I 1 1 1 3 9 J 1 1 0 2 4 K 1 0 0 1 1 L 0 0 0 0 0 M 1 1 1 3 9 N 1 0 0 1 1 O 1 0 0 1 1 ____________________________________________________________ Summa 12 8 6 26 62 ____________________________________________________________ 4.6.2 Friedman testet Vid analys av data på ordinalskalenivå finns olika testmöjligheter vid tre eller flera beroende stickprov. Här presenteras det mest vanliga, nämligen Friedman testet eller som det ibland kallas Friedman’s två-vägs variansanalys. Efter att data insamlats sätts observationsvärdenas upp i en “två-vägs“tabell, där raderna representerar olika individer och kolumnerna olika situationer. Man rangordnar mätvärdena inom varje rad, dvs. man rangordnar individens (eller de matchade individernas) mätresultat i de k situationerna. Testet undersöker huruvida det finns någon skillnad mellan de k situationerna. Om det inte finns någon skillnad borde rangsummorna för de k situationerna bli ungefärligen lika stora. En stor variation mellan rang152 © Horst Löfgren summorna leder således till att nollhypotesen måste förkastas. Vid förkastande av nollhypotesen kan man gå vidare för att parvis undersöka mellan vilka tillfällen skillnader finns. Vi väljer ett exempel från en undersökning i vilken ett urval av studenter fick genomgå fyra olika tentamensformer, nämligen individuell muntlig, individuell skriftlig, grupptentamen och s.k. hemmatentamen (individuell men med tillgång till hjälpmedel). Efter genomförd tentamen fick studenterna i en 5-gradig skala bedöma hur de hade upplevt tentamen. Vi får här anta att de olika inlärningsmomenten är jämförbara eller i varje fall inte har påverkat upplevelserna av själva tentamensformen. Tabell 4.12a. Resultat av attityd till tentamensform ____________________________________________________________ Tentamensform Tentamensform Student I II III IV Student I II III IV ____________________________________________________________ A 1 1 5 1 I 1 1 5 2 B 2 2 4 3 J 3 3 3 3 C 2 1 5 1 K 1 2 4 2 D 1 4 4 4 L 2 1 3 3 E 1 2 4 3 M 2 3 4 2 F 1 2 4 2 N 4 3 2 3 G 1 1 5 2 O 5 4 1 3 H 2 2 3 3 ____________________________________________________________ Kan man på basis av ovanstående data dra slutsatsen att studenter har olika inställning till de fyra skilda tentamensformerna? H0: Det finns ingen skillnad i inställningen till de olika tentamensformerna H1: Det finns en skillnad i inställningen till de olika tentamensformerna Signifikansnivå: =0,05 Nu ska man rangordna bedömningarna för varje student. Student A har bedömt tentamensformerna I, II och IV lika, medan tentamensform 3 fått ett högre värde. De tre förstnämnda ska dela på rangplatserna 1, 2 och 3, vilket innebär att de får genomsnittet av dessa, dvs. rangtal 2. Tentamens- © Horst Löfgren 153 form III får rang 4. Efter rangordning av studenternas inbördes bedömningar erhålls följande: Tabell 4.12b. Resultat efter rangordning ____________________________________________________________ Tentamensform, rangtal Tentamensform, rangtal Student I II III IV Student I II III IV ____________________________________________________________ A 2 2 4 2 I 1,5 1,5 4 3 B 1,5 1,5 4 3 J 2,5 2,5 2,5 2,5 C 3 1,5 4 1,5 K 1 2,5 4 2,5 D 1 3 3 3 L 2 1 3,5 3,5 E 1 2 4 3 M 1,5 3 4 1,5 F 1 2,5 4 2,5 N 4 2,5 1 2,5 G 1,5 1,5 4 3 O 4 3 1 2 ____________________________ H 1,5 1,5 3,5 3,5 Rj 29 31,5 50,5 39 ____________________________________________________________ Vid ej alltför små stickprov (nj>9) kan visas att Friedman-testet är approximativt 2-fördelat med k-1 frihetsgrader enligt följande formel: 12 2F = _______ (Rj)2 - 3n (k+1) nk (k+1) (formel 4.18) n = antalet rader (individer) k = antalet kolumner (mättillfällen) Rj = rangsumma för kolumn j Med de ovan erhållna data erhålls: 12 2F = ______ (292+31,52+50,52+392) - 3.15.5 = 11,18* 15.4.5 Då det kritiska värdet enligt 2-fördelningen på 5%-nivån för 3 frihetsgrader är 7,81, måste nollhypotesen förkastas (p=0,05), och vi drar slutsatsen att de fyra tentamensformerna är olika populära. Om man nu vill, kan man gå vidare och parvis studera skillnader mellan tentamensformer. 154 © Horst Löfgren Appendix © Horst Löfgren 155 Ett förenklat exempel på varianskomponenter i variansanalys För att förstå hur de olika variansdelarna beräknas, dvs. SST (den totala kvadratsumman), SSM (kvadratsumman mellan grupper) och SSI (kvadratsumman inom grupper) ges här ett mycket förenklat exempel. I exemplet finns tre grupper med endast två observationer i varje grupp. Egentligen går det inte att använda variansanalys på så små grupper – resultatet kommer att bli mycket underligt – men för att förstå varifrån de olika variansdelarna kommer kan exemplet fungera. I analyser av en större mängd data och där medelvärden inte är heltalssiffror används en förenklad beräkningsmodell enligt exemplet på s. 95 ff. Nedan presenteras design med data inskrivna för resp. grupp. A a1 a2 a3 G1 G2 G3 1, 3 2, 4 3, 5 Totalmedelvärde = (1+3+2+4+3+5)/6 = 18/6 = 3,0 Medelvärden för de tre grupperna: M1 = (1+3)/2 = 2,0; M2 = (2+4)/2 = 3,0; M3 = (3+5)/2 = 4,0 Eftersom SST (Sum of Squares total) är summan av de kvadrerade avvikelserna från totalmedelvärdet för varje observation erhålls: SST = (1-3)2 + (3-3)2 + (2-3)2 + (4-3)2 + (3-3)2 + (5-3)2 = 10 SSM är summan av differenserna mellan gruppmedelvärdena och totalmedelvärdet. Eftersom det finns två observationer i varje grupp multipliceras avvikelserna med 2. SSM = 2(2-3)2 + 2(3-3)2 + 2(4-3)2 = 4 SSI är summan av de kvadrerade avvikelserna inom grupperna SSI = (1-2)2 + (3-2)2 + (2-3)2 + (4-3)2 + (3-4)2 + (5-4)2 = 6 Anova-tabell (jfr s. 94 ff.) Variationsorsak SS mellan grupper 4,0 inom grupper 6,0 total 156 10,0 df 2 3 MS 2,0 2,0 F 2,0/2,0=1,0 p >0,05 5 © Horst Löfgren Tabeller Tabell A: t-fördelningen ____________________________________________________________ Kritiska värden (+/-) Kritiska värden (+/-) vid tvåsidig mothypotes vid ensidig mothypotes ____________________________________________________________ FrihetsSannolikhet p % () Sannolikhet p % () Grader 20 10 5 1 0,1 10 5 1 0,1 ____________________________________________________________ 5 1,48 2,01 2,57 4,03 6,87 1,48 2,01 3,37 5,89 6 1,44 1,94 2,45 3,71 5,96 1,44 1,94 3,14 5,21 7 1,42 1,90 2,36 3,50 5,41 1,42 1,90 3,00 4,79 8 1,40 1,86 2,31 3,36 5,04 1,40 1,86 2,90 4,50 9 1,38 1,83 2,26 3,25 4,78 1,38 1,83 2,82 4,30 10 1,37 1,81 2,23 3,17 4,59 1,37 1,81 2,76 4,14 11 1,36 1,80 2,20 3,11 4,44 1,36 1,80 2,72 4,03 12 1,36 1,78 2,18 3,06 4,32 1,36 1,78 2,68 3,93 13 1,35 1,77 2,16 3,01 4,22 1,35 1,77 2,65 3,85 14 1,34 1,76 2,14 2,98 4,14 1,34 1,76 2,62 3,79 15 1,34 1,75 2,13 2,95 4,07 1,34 1,75 2,60 3,73 16 1,34 1,75 2,12 2,92 4,02 1,34 1,75 2,58 3,69 17 1,33 1,74 2,11 2,90 3,97 1,33 1,74 2,57 3,65 18 1,33 1,73 2,10 2,88 3,92 1,33 1,73 2,55 3,61 19 1,33 1,73 2,09 2,86 3,88 1,33 1,73 2,54 3,58 20 1,32 1,72 2,09 2,84 3,85 1,32 1,72 2,53 3,55 25 1,32 1,71 2,06 2,79 3,73 1,32 1,71 2,48 3,45 30 1,31 1,70 2,04 2,75 3,65 1,31 1,70 2,46 3,38 40 1,30 1,68 2,02 2,70 3,55 1,30 1,68 2,42 3,31 60 1,30 1,67 2,00 2,66 3,46 1,30 1,67 2,39 3,23 120 1,29 1,66 1,98 2,62 3,37 1,29 1,66 2,36 3,16 1,28 1,64 1,96 2,58 3,29 1,28 1,64 2,33 3,09 ____________________________________________________________ © Horst Löfgren 157 Tabell B: z-fördelningen ____________________________________________________________ Kritiska värden (+/-) Kritiska värden (+/-) vid tvåsidig mothypotes vid ensidig mothypotes ____________________________________________________________ Sannolikhet p % () Sannolikhet p % () 20 10 5 1 0,1 10 5 1 0,1 ____________________________________________________________ 1,28 1,64 1,96 2,58 3,29 1,28 1,64 2,33 3,09 z-fördelningen (den standardiserade normalfördelningen): Andel i % av fördelningen som ligger till vänster om ett visst z-värde. ____________________________________________________________ z andel i % z andel i % z andel i % z andel i % ____________________________________________________________ -3,0 0,1 -1,4 8,1 +0,2 57,9 +1,8 96,4 -2,9 0,2 -1,3 9,7 +0,3 61,8 +1,9 97,1 -2,8 0,3 -1,2 11,5 +0,4 65,5 +2,0 97,7 -2,7 0,4 -1,1 13,6 +0,5 69,1 +2,1 98,2 -2,6 0,5 -1,0 15,9 +0,6 72,6 +2,2 98,6 -2,5 0,6 -0,9 18,4 +0,7 75,8 +2,3 98,9 -2,4 0,8 -0,8 21,2 +0,8 78,8 +2,4 99,2 -2,3 1,1 -0,7 24,2 +0,9 81,6 +2,5 99,4 -2,2 1,4 -0,6 27,4 +1,0 84,1 +2,6 99,5 -2,1 1,8 -0,5 30,9 +1,1 86,4 +2,7 99,6 -2,0 2,3 -0,4 34,5 +1,2 88,5 +2,8 99,7 -1,9 2,9 -0,3 38,2 +1,3 90,3 +2,9 99,8 -1,8 3,6 -0,2 42,1 +1,4 91,9 +3,0 99,9 -1,7 4,5 -0,1 46,0 +1,5 93,3 -1,6 5,5 0 50,0 +1,6 94,5 -1,5 6,7 +0,1 54,0 +1,7 95,5 ____________________________________________________________ 158 © Horst Löfgren Tabell C: F-fördelningen ____________________________________________________________ Kritiska värden för tvåsidig mothypotes Sannolikhet p %: första raden =0,10, andra raden=0,05, tredje raden =0,01, fjärde raden =0,001 fgt= antalet frihetsgrader i täljaren; fgn= antalet frihetsgrader i nämnaren ____________________________________________________________ fgt fgn p % 1 2 3 4 5 6 ____________________________________________________________ 5 10 5 1 0,1 4,06 6,61 16,3 47,2 3,78 3,62 5,79 5,41 13,3 12,1 37,1 33,2 3,52 5,19 11,4 31,1 3,45 5,05 11,0 29,7 3,40 4,95 10,7 28,8 6 3,78 5,99 13,7 35,5 3,46 3,29 5,14 4,76 10,9 9,78 27,0 23,7 3,18 4,53 9,15 21,9 3,11 4,39 8,75 20,8 3,05 4,28 8,47 20,0 7 3,59 5,59 12,2 29,2 3,26 3,07 4,74 4,35 9,55 8,45 21,7 18,8 2,96 4,12 7,85 17,2 2,88 3,97 7,46 16,2 2,83 3,87 7,19 15,5 8 3,46 5,32 11,3 25,4 3,11 2,92 4,46 4,07 8,65 7,59 18,5 15,8 2,81 3,84 7,01 14,4 2,73 3,69 6,63 13,5 2,67 3,58 6,37 12,9 9 3,36 5,12 10,6 22,9 3,01 2,81 4,26 3,86 8,02 6,99 16,4 13,9 2,69 3,63 6,42 12,6 2,61 3,48 6,06 11,7 6,55 3,37 5,80 11,1 © Horst Löfgren 159 ____________________________________________________________ fgt fgn p % 1 2 3 4 5 6 ____________________________________________________________ 10 10 5 1 0,1 3,28 4,96 10,0 21,0 2,92 2,73 4,10 3,71 7,56 6,55 14,9 12,6 2,61 3,48 5,99 11,3 2,52 3,33 5,64 10,5 2,46 3,22 5,39 9,92 11 3,23 4,84 9,65 19,7 2,86 2,66 3,98 3,59 7,21 6,22 13,8 11,6 2,54 3,36 5,67 10,3 2,45 3,20 5,32 9,58 2,39 3,09 5,07 9,05 12 3,18 4,75 9,33 18,6 2,81 2,61 3,89 3,49 6,93 5,95 13,0 10,8 2,48 3,26 5,41 9,63 2,39 3,11 5,06 8,89 2,33 3,00 4,82 8,38 15 3,07 4,54 8,68 16,6 2,70 3,68 6,36 11,3 2,49 3,29 5,42 9,34 2,36 3,06 4,89 8,25 2,27 2,90 4,56 7,57 2,21 2,79 4,32 7,09 20 2,97 4,35 8,10 14,8 2,59 3,49 5,85 9,95 2,38 3,10 4,94 8,10 2,25 2,87 4,43 7,10 2,16 2,71 4,10 6,46 2,09 2,60 3,87 6,02 30 2,88 4,17 7,56 13,3 2,49 3,32 5,39 8,77 2,28 2,92 4,51 7,05 2,14 2,69 4,02 6,12 2,05 2,53 3,70 5,53 1,98 2,42 3,47 5,12 40 2,84 2,44 2,23 2,09 2,00 1,93 4,08 3,23 2,84 2,61 2,45 2,34 7,31 5,18 4,31 3,83 3,51 3,29 12,6 8,25 6,60 5,70 5,13 4,73 ____________________________________________________________ 160 © Horst Löfgren ____________________________________________________________ fgt fgn p % 1 2 3 4 5 6 ____________________________________________________________ 60 10 5 1 0,1 2,79 4,00 7,08 12,0 2,39 3,15 4,98 7,76 2,18 2,76 4,13 6,17 2,04 2,53 3,65 5,31 1,95 2,37 3,34 4,76 1,87 2,25 3,12 4,37 120 2,75 3,92 6,85 11,4 2,35 3,07 4,79 7,32 2,13 2,68 3,95 5,79 1,99 2,45 3,48 4,95 1,90 2,29 3,17 4,42 1,82 2,18 2,96 4,04 2,71 2,30 2,08 1,94 1,85 1,77 3,84 3,00 2,60 2,37 2,21 2,10 6,63 4,61 3,78 3,32 3,02 2,80 10,8 6,91 5,42 4,62 4,10 3,74 ___________________________________________________________ ____________________________________________________________ fgt fgn p % 7 8 10 12 20 ____________________________________________________________ 5 6 10 5 1 0,1 3,37 4,88 10,5 28,2 3,34 3,30 4,82 4,74 10,3 10,1 27,6 26,9 3,27 4,68 9,89 26,4 3,21 4,56 9,55 25,4 3,10 4,36 9,02 23,8 3,01 4,21 8,26 19,5 2,98 2,94 4,15 4,06 8,10 7,87 19,0 18,4 2,90 4,00 7,72 18,0 2,84 3,87 7,40 17,1 2,72 3,67 6,88 15,7 7 2,78 2,75 2,70 2,67 2,59 2,47 3,79 3,73 3,64 3,57 3,44 3,23 6,99 6,84 6,62 6,47 6,16 5,65 15,0 14,6 14,1 13,7 12,9 11,7 ____________________________________________________________ © Horst Löfgren 161 ____________________________________________________________ fgt fgn p % 7 8 10 12 20 ____________________________________________________________ 8 2,62 3,50 6,18 12,4 2,59 2,54 3,44 3,35 6,03 5,81 12,0 11,5 2,50 3,28 5,67 11,2 2,42 3,15 5,36 10,5 2,29 2,93 4,86 9,34 9 2,51 3,29 5,61 10,7 2,47 3,23 5,47 10,4 2,42 3,14 5,26 9,89 2,38 3,07 5,11 9,57 2,30 2,94 4,81 8,90 2,16 2,71 4,31 7,81 10 2,41 3,14 5,20 9,52 2,38 3,07 5,06 9,20 2,32 2,98 4,85 8,75 2,28 2,91 4,71 8,44 2,20 2,77 4,41 7,80 2,06 2,54 3,91 6,76 11 2,34 3,01 4,89 8,66 2,30 2,95 4,74 8,35 2,25 2,85 4,54 7,92 2,21 2,79 4,40 7,62 2,12 2,65 4,10 7,01 1,97 2,40 3,60 6,00 12 2,28 2,91 4,64 8,00 2,24 2,85 4,50 7,71 2,19 2,75 4,30 7,29 2,15 2,69 4,16 7,01 2,06 2,54 3,86 6,40 1,90 2,30 3,36 5,42 15 2,16 2,71 4,14 6,74 2,12 2,64 4,00 6,47 2,06 2,54 3,80 6,08 2,02 2,48 3,67 5,81 1,92 2,33 3,37 5,25 1,76 2,07 2,87 4,31 20 2,04 2,51 3,70 5,69 2,00 2,45 3,56 5,44 1,94 2,35 3,37 5,08 1,89 2,28 3,23 4,82 1,79 2,12 2,94 4,29 1,61 1,84 2,42 3,38 162 © Horst Löfgren ____________________________________________________________ fgt fgn p % 7 8 10 12 20 ____________________________________________________________ 30 1,93 2,33 3,30 4,82 1,88 2,27 3,17 4,58 1,82 2,16 2,98 4,24 1,77 2,09 2,84 4,00 1,67 1,93 2,55 3,49 1,46 1,62 2,01 2,59 40 1,87 2,25 3,12 4,44 1,83 2,18 2,99 4,21 1,76 2,08 2,80 3,87 1,71 2,00 2,66 3,64 1,61 1,84 2,37 3,15 1,38 1,51 1,80 2,23 60 1,82 2,17 2,95 4,09 1,77 2,10 2,82 3,87 1,71 1,99 2,63 3,54 1,66 1,92 2,50 3,31 1,54 1,75 2,20 2,83 1,29 1,39 1,60 1,89 120 1,77 2,09 2,79 3,77 1,72 2,02 2,66 3,55 1,65 1,91 2,47 3,24 1,60 1,83 2,34 3,02 1,48 1,66 2,03 2,53 1,19 1,25 1,38 1,54 1,72 1,67 1,60 1,55 1,42 1,00 2,01 1,94 1,83 1,75 1,57 1,00 2,64 2,51 2,32 2,18 1,88 1,00 3,47 3,27 2,96 2,74 2,27 1,00 ____________________________________________________________ © Horst Löfgren 163 Tabell D: 2-fördelningen ____________________________________________________________ Kritiska värden vid tvåsidig mothypotes: ____________________________________________________________ FrihetsSannolikhet p % Grader 20 10 5 1 0,1 ____________________________________________________________ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 164 1,64 3,22 4,64 5,99 7,29 8,56 9,80 11,03 12,24 13,44 14,63 15,81 16,99 18,15 19,31 20,47 21,62 22,76 23,90 25,04 26,17 27,30 28,43 29,55 30,68 31,80 32,91 34,03 35,14 36,25 47,27 58,16 2,71 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,62 30,81 32,01 33,20 34,38 35,56 36,74 37,92 39,09 40,26 51,81 63,17 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 55,76 67,51 6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 63,69 76,15 10,83 13,82 16,27 18,47 20,52 22,46 24,32 26,13 27,88 29,59 31,26 32,91 34,53 36,12 37,70 39,25 40,79 42,31 43,82 45,32 46,80 48,27 49,73 51,18 52,62 54,05 55,48 56,89 58,30 59,70 73,40 86,66 © Horst Löfgren ____________________________________________________________ FrihetsSannolikhet p % Grader 20 10 5 1 0,1 ____________________________________________________________ 60 68,97 74,40 79,08 88,38 99,61 70 79,72 85,53 90,53 100,43 112,32 80 90,41 96,58 101,88 112,33 124,84 90 101,05 107,57 113,15 124,12 137,21 100 111,67 118,50 124,34 135,81 149,45 150 164,35 172,58 179,58 193,21 209,26 200 216,61 226,02 233,99 249,45 267,54 ____________________________________________________________ © Horst Löfgren 165 Tabell E: Kritiska värden för Wilcoxon's teckenrangtest ____________________________________________________________ Sannolikhet p % Sannolikhet p % vid tvåsidig mothypotes vid ensidig mothypotes ____________________________________________________________ n 10 5 1 0,1 5 1 ____________________________________________________________ 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 166 2 3 5 8 10 13 17 21 25 30 35 41 47 53 60 67 75 83 91 100 110 119 130 140 151 163 175 187 0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 58 65 73 81 89 98 107 116 126 137 147 159 170 0 1 3 5 7 9 12 15 19 23 27 32 37 42 48 54 61 68 75 83 91 100 109 118 128 138 0 1 2 4 6 8 11 14 18 21 25 30 35 40 45 51 57 64 71 78 86 94 102 2 3 5 8 10 13 17 21 25 30 35 31 47 53 60 67 67 83 91 100 110 119 130 140 151 163 175 187 0 1 3 5 7 9 12 15 19 23 27 32 37 43 49 55 62 69 76 84 92 101 110 120 130 140 151 © Horst Löfgren ____________________________________________________________ Sannolikhet p % Sannolikhet p % vid tvåsidig mothypotes vid ensidig mothypotes ____________________________________________________________ n 10 5 1 0,1 5 1 ____________________________________________________________ 34 200 182 148 111 200 162 35 213 195 159 120 213 173 36 227 208 171 130 227 185 37 241 221 182 140 241 198 38 256 235 194 150 256 211 39 271 249 207 161 271 224 40 286 264 220 172 286 238 41 302 279 233 183 302 252 42 319 294 247 195 319 266 43 336 310 261 207 336 281 44 353 327 276 220 353 296 45 371 343 291 233 371 312 46 389 361 307 246 389 328 47 407 378 322 260 407 345 48 426 396 339 274 426 362 49 446 415 355 289 446 379 50 466 434 373 304 466 397 ____________________________________________________________ © Horst Löfgren 167 Tabell F: Kritiska värden för Mann-Whitney vid tvåsidig mothypotes ____________________________________________________________ Sannolikhet p %: första raden =0,10, andra raden=0,05, tredje raden =0,01 ____________________________________________________________ n2 p % n1 2 3 4 5 6 7 8 9 10 ____________________________________________________________ 2 10 0 0 0 1 1 1 5 0 0 0 1 3 10 5 1 - 0 - 0 - 1 0 - 2 1 - 2 1 - 3 2 - 3 2 0 4 3 0 4 10 5 1 - 0 - 1 0 - 2 1 - 3 2 0 4 3 0 5 4 1 6 4 1 7 5 2 5 10 5 1 0 - 1 0 - 2 1 - 4 2 0 5 3 1 6 5 1 7 6 2 8 7 3 11 8 4 6 10 5 1 0 - 2 1 - 4 2 1 6 3 1 8 5 2 11 6 3 13 8 4 15 10 5 17 11 6 7 10 5 1 0 - 2 1 - 4 3 0 6 5 1 8 6 3 11 8 4 13 10 6 15 12 7 17 14 9 8 10 5 1 1 0 - 3 2 - 5 4 1 8 6 2 10 7 4 13 10 6 15 13 7 18 15 9 20 17 11 9 10 5 1 1 0 - 3 2 0 6 4 1 9 7 3 12 10 5 15 12 7 18 15 9 21 17 11 24 20 13 168 © Horst Löfgren Tabell G: Kritiska värden (Dmax) för KolmogorovSmirnov-testet för två stickprov ____________________________________________________________ Sannolikhet p % Sannolikhet p % vid tvåsidig mothypotes vid ensidig mothypotes n 5 1 5 1 ____________________________________________________________ 5 5 5 4 5 6 5 6 5 6 7 6 6 5 6 8 6 7 5 6 9 6 7 6 7 10 7 8 6 7 11 7 8 6 8 12 7 8 6 8 13 7 9 7 8 14 8 9 7 8 15 8 9 7 9 16 8 10 7 9 17 8 10 8 9 18 9 10 8 10 19 9 10 8 10 20 9 11 8 10 25 10 12 9 11 30 11 13 10 12 35 12 14 11 13 ____________________________________________________________ För stora stickprov gäller följande kritiska värden: ____________________________________________________________ tvåsidigt test ensidigt test ____________________________________________________________ 0,10 0,05 0,01 0,001 n1+n2 1,36 n1+n2 1,63 n1+n2 1,95 n1+n2 1,22 n1+n2 1,22 n1+n2 1,52 n1+n2 1,86 n1+n2 1,07 ____________________________________________________________ © Horst Löfgren 169 Tabell H: Kritiska värden för Run-testet för =0,05 Antal “runs“ färre eller lika med nedan angivna kritiska värden är signifikanta på 5%-nivån ____________________________________________________________ n2 2 3 4 5 6 7 8 9 10 n1 ____________________________________________________________ 3 2 2 2 2 2 4 2 2 2 3 3 3 5 2 2 3 3 3 3 3 6 2 2 3 3 3 3 4 4 7 2 2 3 3 3 4 4 5 8 2 3 3 3 4 4 5 5 9 2 3 3 4 4 5 5 5 10 2 3 3 4 5 5 5 6 11 2 3 4 4 5 5 6 6 12 2 2 3 4 4 5 6 6 7 13 2 2 3 4 5 5 6 6 7 14 2 2 3 4 5 5 6 7 7 15 2 3 3 4 5 6 6 7 7 16 2 3 4 4 5 6 6 7 8 17 2 3 4 4 5 6 7 7 8 18 2 3 4 5 5 6 7 8 8 19 2 3 4 5 6 6 7 8 8 20 2 3 4 5 6 6 7 8 9 ____________________________________________________________ ____________________________________________________________ n2 11 12 13 14 15 16 17 18 19 20 n1 ____________________________________________________________ 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 3 3 3 3 3 3 4 3 3 3 3 3 4 4 4 4 4 5 4 4 4 4 4 4 4 5 5 5 6 4 4 5 5 5 5 5 5 6 6 7 5 5 5 5 6 6 6 6 6 6 170 © Horst Löfgren ____________________________________________________________ n2 11 12 13 14 15 16 17 18 19 20 n1 ____________________________________________________________ 8 9 10 11 12 13 14 15 16 17 18 19 20 5 6 6 7 7 7 8 8 8 9 9 9 9 6 6 7 7 7 8 8 8 9 9 9 10 10 6 6 7 7 8 8 9 9 9 10 10 10 10 6 7 7 8 8 9 9 9 10 10 10 11 11 6 7 7 8 8 9 9 10 10 11 11 11 12 6 7 8 8 9 9 10 10 11 11 11 12 12 7 7 8 9 9 10 10 11 11 11 12 12 13 7 8 8 9 9 10 10 11 11 12 12 13 13 7 8 8 9 10 10 11 11 12 12 13 13 13 7 8 9 9 10 10 11 12 12 13 13 13 14 ____________________________________________________________ Antal “runs“ fler eller lika med nedan angivna kritiska värden är signifikanta på 5%-nivån ____________________________________________________________ n2 4 5 6 7 8 9 10 11 12 n1 ____________________________________________________________ 4 9 9 5 9 10 10 11 11 6 9 10 11 12 12 13 13 13 13 7 11 12 13 14 14 15 15 16 8 11 12 13 14 14 15 15 16 9 13 14 14 15 16 16 16 10 13 14 15 16 16 17 17 11 13 14 15 16 17 17 18 12 13 14 16 16 17 18 19 13 15 16 17 18 19 19 14 15 16 17 18 19 20 15 15 16 18 18 19 20 16 17 18 19 20 21 © Horst Löfgren 171 ____________________________________________________________ n2 4 5 6 7 8 9 10 11 12 n1 ____________________________________________________________ 17 18 19 20 - - - - 17 17 17 17 18 18 18 18 19 19 20 20 20 20 21 21 21 21 22 22 ____________________________________________________________ ____________________________________________________________ n2 13 14 15 16 17 18 19 20 n1 ____________________________________________________________ 7 8 9 10 11 12 13 14 15 16 17 18 19 20 15 16 17 18 19 19 20 20 21 21 22 22 23 23 15 16 17 18 19 20 20 21 22 22 23 23 23 24 15 16 18 18 19 20 21 22 22 23 24 24 24 25 17 18 19 20 21 21 22 23 23 25 25 25 25 17 18 19 20 21 22 23 23 24 25 25 26 26 17 18 19 20 21 22 23 24 25 26 26 26 27 17 18 20 21 22 23 23 24 25 26 26 27 27 17 18 20 21 22 23 24 25 25 27 27 27 28 ____________________________________________________________ 172 © Horst Löfgren Enkät och övningsuppgifter Nedan följer ett utdrag ur en elevenkät från ett internationellt projekt ”IEA -Written Composition”. I Sverige har enkäten besvarats av 546 elever, slumpmässigt valda ur grundskolans årskurs 9. Den datafil som finns att tillgå baserar sig således på verkliga data. Observera dock att det finns internt bortfall på en del variabler, i vissa fall så stort att det kan få konsekvenser för möjligheten att dra korrekta slutsatser. Filen kan hämtas ner från min webbsida på Internet. Sök på http://fmweb.mah.se/perslista/ och sök i databasen efter Horst Löfgren. Klicka därefter på egen webbplats, gå till länken och ladda ner filen IEA9Sv.sav. Datafil: IEA9Sv.DAT Kolumn nr Siffrorna inom parentes visar vilket variabelvärde som skrivits in i filen. Vid internt bortfall (Missing) finns inget variabelvärde utan en speciell markering. 1. Är du pojke eller flicka? (1) Pojke (2) Flicka 2. Vilken är den högsta utbildning som din mor har (eller den som är i din mors ställe)? (1) Folkskola (2) Yrkesskola/lärlingsskola/1-årig handelsskola (3) Realskola/enhetsskola/grundskola (4) Flickskola/folkhögskola/fackskola (5) Gymnasium (6) Högskola eller universitet (-) Vet ej 3. Vilken är den högsta utbildning som din far har (eller den som är i din fars ställe)? (1) Folkskola (2) Yrkesskola/lärlingsskola/1-årig handelsskola (3) Realskola/enhetsskola/grundskola (4) Flickskola/folkhögskola/fackskola (5) Gymnasium (6) Högskola eller universitet (-) Vet ej © Horst Löfgren 173 4-9. 4. 5. 6. 7. Hur ofta gör barn och vuxna i din familj följande saker tillsammans? Talar tillsammans om vad som händer på arbetet och i skolan Talar tillsammans om familjeangelägenheter, t.ex. om hushållet, släkten, ekonomin Gör upp planer tillsammans, t.ex. för veckohelg eller semester, och diskuterar olika alternativ Diskuterar allmänna angelägenheter, t.ex. moral, religion, politik Högst en eller två gånger om året Flera gånger om året En eller två gånger i månaden En eller Varje två gånger eller i veckan nästan varje dag (1) (2) (3) (4) (5) (1) (2) (3) (4) (5) (1) (2) (3) (4) (5) (1) (2) (3) (4) (5) 8. Diskuterar en bok som någon av er har läst (1) (2) (3) (4) (5) 9. Diskuterar TV- eller radioprogram (1) (2) (3) (4) (5) 10. När detta året har gått, hur många fler års utbildning på heltid räknar du med? Du ska räkna in studieår efter gymnasieskolan, om sådana ingår i dina planer. 1 2 3 4 5 6 7 8 9 10 eller mer ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 174 © Horst Löfgren 11. Ungefär hur lång tid på dagen använder du hemma till att göra läxor i alla ämnen? (1) (2) (3) (4) (5) Ingen tid alls Ca 1/2 timme Ca I timme Ca 1 1/2 timme Ca 2 timmar eller längre 12. Ungefär hur många timmar i veckan använder du till att läsa böcker, artiklar och dylikt, som du fått i uppgift att läsa av dina lärare? (1) (2) (3) (4) (5) Ingen tid alls Ca 2 timmar Ca 4 timmar Ca 6 timmar Ca 8 timmar eller längre tid 13. Ungefär hur många timmar i veckan använder du till skriftliga hemuppgifter i olika ämnen? _________ timmar i veckan 14. Hur många timmar brukar du titta på TV under en skoldag? (1) (2) (3) (4) (5) Tittar inte alls Ca 1 timme eller kortare tid Ca 2 timmar Ca 3 timmar Ca 4 timmar eller längre tid 15. Hur många timmar brukar du titta på TV under en dag då du inte går i skolan? (1) Tittar inte alls (2) Ca I timme eller kortare (3) Ca 2 timmar (4) Ca 3 timmar (5) Ca 4 timmar eller längre tid © Horst Löfgren 175 16. Att skriva tycker jag är (5) Mycket roligt (4) Roligt (3) Varken roligt eller tråkigt (2) Tråkigt (1) Mycket tråkigt 17. Många unga människor tycker om att skriva för sitt eget nöjes skull. Kryssa för allt det som du tycker om att skriva. Du kan alltså välja mer än ett svar. (Här fanns många situationer, varav endast en finns med här.) ( ) Skriva berättelser (1=nej, 2=ja) 18. Hur tycker du själv att du kan skriva? (4) (3) (2) (1) Jag är bra på att skriva Jag är ganska bra på att skriva Jag är ganska dålig på att skriva Jag är inte alls bra på att skriva 19. Hur rolig eller tråkig fann du uppgiften? (1) Tråkig (2) Ganska tråkig (3) Varken rolig eller tråkig (4) Ganska rolig (5) Rolig 20-21. Många unga människor tycker om att skriva för sitt eget nöjes skull. Kryssa för allt det som du tycker om att skriva. Du kan alltså välja mer än ett svar. 20. ( ) Skriva dagbok (1=ja; 2=nej) 21. ( ) Brevväxla regelbundet med en vän (l=ja; 2=nej) 22-25. Betyg på uppsats nr 6 (beskrivande, berättande) 22. 23. 24. 25. 176 Allmän bedömning (1-5) Innehåll (1-5) Disposition (1-5) Stil och språkriktighet (1-5) © Horst Löfgren Övningsuppgifter Uppgift 1-19 ska besvaras med hjälp av datafilen IEA9Sv 1. Beskriv betygsresultat på uppsatsskrivning (v22) a) för totalgruppen b) för pojkar och flickor separat 2. Visa med hjälp av lämpligt diagram resultatet för totalgruppen. Ge argument för valt diagram. 3. Du ska presentera utfallet av svaren på ”attityder till skrivning” (v16) för en grupp åhörare. Gör lämpliga beräkningar och presentera resultatet. 4. Beskriv sambandet mellan TV-tittande på vardagar (v14) och resultat på uppsatsprovet (v22) samt tolka resultatet. 5. Visa i en interkorrelationstabell sambanden mellan uppsatsskrivning (v22), antal timmars läxläsning per dag (v11), antal timmar per vecka till skriftliga hemuppgifter (v13) och självskattning av skrivförmågan (v18). Kommentera tabellen. 6. Hur många pojkar resp. flickor skriver berättelser för sitt eget nöjes skull (v17)? 7. Finns det något samband mellan kön och skriva berättelser för sitt eget nöjes skull? (Ledtråd: Observera att det här rör sig om kategorivariabler.) 8. Du vill predicera resultaten på uppsatsskrivning (v22) utifrån kön (v1), antal timmar per vecka till skriftliga hemuppgifter (v13) och attityder till skrivning (v16). a) Vilka variabler är oberoende resp. beroende? b) Är det möjligt att predicera resultaten i uppsatsskrivning utifrån de valda variablerna och i så fall hur mycket? c) Vilken variabel är den bästa resp. sämsta prediktorn? d) Hur stor del av variansen i variabel 22 kan prediceras utifrån de tre prediktorerna? © Horst Löfgren 177 9. Finns någon signifikant skillnad mellan pojkar och flickor vad gäller uppsatsresultat (v22)? a) Formulera den hypotes som ska prövas! b) Identifiera de variabler som ingår (ober, ber, skalnivå)! c) Vilka statistiska test kan användas för prövning av nollhypotesen? d) Utför prövningen med hjälp av t-test och variansanalys och tolka resultaten! e) T-testet ger ett t-värde och ANOVA ett F-värde. Hur förhåller sig t och F till varandra? 10. Hur många pojkar resp. flickor skriver dagböcker? Ange både frekvens och i procent. a) Finns någon signifikant relation mellan kön och dagboksskrivande? b) Formulera hypoteserna (noll- och mothypotes). c) Ange variabeltyp! d) Testa hypotesen! e) Om du finner en signifikant relation bör man ange ett storleksmått på relationen. Vilket mått är lämpligt i detta sammanhang? 11. Eleverna har gjort en självskattning hur bra de är på uppsatsskrivning (v18). Pröva om det också finns en verklig skillnad (v22) mellan dem som skattar sig i de fyra kategorierna ”bra”, ”ganska bra”, ”ganska dålig” och ”inte alls bra”. a) Ange hypotes! b) Ange typ av variabler! c) Pröva hypotesen! d) Om det finns en signifikant skillnad, bör du ange ett storleksmått på denna skillnad, vilket? Vad säger detta storleksmått? 12. Använd Pearson Corr för att erhålla sambandet mellan v18 och v22. Jämför resultatet med utfallet av analysen i uppgift 11! 13. Pröva om det finns en skillnad mellan pojkar och flickor vad gäller attityder till skrivning (v16). Presentera resultatet av analysen! 178 © Horst Löfgren 14. Finns någon skillnad i uppsatsresultat (v22) mellan grupper som lägger ner olika mycket tid på läxor (v11)? Presentera resultatet av analysen! 15. Pröva i en och samma analys skillnaden mellan pojkar och flickor på uppsatsresultat (v22) och mellan grupper som lägger ner olika mycket tid på läxor (v11)! Pröva också samtidigt eventuella samspelseffekter! a) Ange samtliga hypoteser som prövas! b) Presentera resultaten! 16. Bilda en ny variabel genom att summera de två frågorna om TVtittande (v14 och v15). Kalla denna variabel TVSUM. Gör en klassindelning av denna nya variabel genom att ge 0-5 timmar värdet 1, 6-7 timmar värdet 2 och mer än 8 timmar värdet 3. Pröva därefter om det finns skillnader mellan dessa tre grupper vad gäller resultatet på uppsatsskrivning (v22) och presentera resultaten. 17. Försök med hjälp av faktoranalys att få grepp om vad instrumentet försöker fånga in för områden (v2 tom v25). Försök att tolka utfallet. a) Finns någon faktor som kan tolkas som hemkulturförhållanden? b) Finns någon attitydfaktor? c) Mäter variablerna 23 (innehåll), 24 (disposition) och 25 (stil och språkriktighet) olika delar av förmågan? 18. Är det möjligt att använda summapoäng som är rimligt mätsäkra vad gäller variablerna 4-9, variablerna 14-15 och variablerna 11-13? 19. Antag att mätvariabeln (den beroende variabeln) i uppgift 13 och 16 är sådan, att du endast vill använda en icke-parametrisk metod. Lös uppgiften med lämpligt test och jämför med erhållet resultat med den parametriska metoden. © Horst Löfgren 179 20. I en undersökning studerades två olika inlärningssätt i matematik. På ett efterföljande test erhölls följande resultat (observera att du i denna övningsuppgift måste bygga upp egna datafiler, olika filer för a och b): Grupp 1 Grupp 2 1 3 4 4 6 6 6 7 7 7 7 8 8 9 10 0 3 5 5 6 6 7 7 8 8 8 9 9 10 11 a) Pröva om det finns någon signifikant skillnad i resultat mellan de två metoderna, om eleverna har blivit parvis matchade. b) Pröva om det finns någon signifikant skillnad i resultat mellan de två metoderna, om eleverna inte blivit parvis matchade utan är oberoende observationer. 21. Beräkna ett storleksmått på det speciella förklaringsexemplet på s. 154. Skriv gärna in data i en ny datafil och gör beräkningarna med hjälp av SPSS. Förklara varför man erhåller en icke-signifikant skillnad (p=0,465) men samtidigt visar ett storleksmått på mycket stora skillnader mellan grupperna. 180 © Horst Löfgren Index alpha-koefficient 59 -risk 79 additionssatsen 68 ANOVA 93 ANCOVA 116 ß-risk 79 beskrivande statistik 12 Chi-kvadrat-testet 121 Cochran Q-test 149 Cramérs index 143 Cronbach´s alpha 59 deskriptiv statistik 9 dummy-variabler 45 effektstorlek 103 egenvärde 52 enfaktors ANOVA 95 eta-kvadrat 102 faktor (oberoende variabel) 94 faktoranalys 47 fix modell 95 F-kvot 97 frekvenspolygon 20 frekvenstabell 19 Friedman testet 150 histogram 20 hypotetiska begrepp 47 hypotetiska variabler 47 © Horst Löfgren icke-parametriska metoder 119 inferensstatistik 9 intervallskala 11 klusterurval 67 Kolmogorov-Smirnov testet 132 komponent 50 konfidensintervall 74 kontingenskoefficient 141 kontingenstabell 128 kovarians 23 kovariansanalys 116 korrelation 21 korrelationskvot 102 Kruskal-Wallis testet 146 kurvlinjärt samband 28 kvartilavvikelse 13 kvotskala 11 latent variabel 47 linjärt samband 28 Mann-Whitney U-test 129 matchning 94 McNemar-testet 136 medelfel 71 medelvärde 12 medelvärdesdiagram 111 medianvärde 13 mothypotes 76 multipel korrelation 36 multipel regression 36 multiplikationssatsen 69 mätmodell 47 181 nollhypotes 76 nominalskala 10 normalfördelning 14 obundet slumpmässigt urval 64 omega-kvadrat 101 ordinalskala 10 t-test 85 tillfälligt urval 67 tvåfaktors ANOVA 105 typ l-fel 80 typ lI-fel 80 typvärde 13 urvalsmetoder 64 population 9 prickdiagram 22 principalkomponent 50 produkt-moment korrelation 21 rangkorrelation 29 regression 31 regressionsskattning 32 regressionslinje 32 reliabilitet 57 repeterad mätning 91 rotering 52 run-testet 123 varians 14 variansanalys 93 varianskomponenter 96 variationsvidd 13 Wald-Wolfowitz Runs 134 Wilcoxon’s teckenrangtest 138 z-poäng 30 samplingfördelning 69 sannolikhet 68 signifikansnivå 78 skalvärden 10 skattningar 72 Spearman’s rangkorrelation 29 split-half-reliabilitet 58 standardavvikelse 14 standardpoäng 31 stegvis regressionsanalys 39 stickprov 9 stokastisk modell 95 stolpdiagram 20 stratifierat urval 66 systematiskt urval 65 180 © Horst Löfgren