Att skriva en bok

Transcription

Att skriva en bok
Horst Löfgren
Grundläggande statistiska metoder
för analys av kvantitativa data
Med övningar för programpaketet SPSS
PPR • Läromedel för högskolan
© Horst Löfgren
3
©
Kopieringsförbud
Detta verk är skyddat av lagen om upphovsrätt. Kopiering, får endast ske
efter tillstånd av författaren.
© Författaren och PPR 2014
4
© Horst Löfgren
Förord
Denna bok vänder sig till alla som behöver kunna olika metoder för beskrivning och analys av data och som helst har tillgång till statistikprogrammet SPSS. Även om boken kan fungera som en allmän bakgrund till
statistiska beskrivningar och analyser av data oberoende av statistisk programvara är den i vissa delar inriktad mot SPSS.
Även om boken tar upp det mesta från grunden av presenterade statistiska begrepp, beskrivningar och analyser är framställningen relativt kompakt, varför en genomgången nybörjarkurs eller litteratur med långsammare progression är lämplig som bakgrund. Innehållet i boken täcker det
mesta av de grundläggande statistiska metoder, som behövs vid analys av
data för användare av statistik som hjälpvetenskap, dvs. icke-specialister
inom ämnet statistik.
Denna bok kan användas av personer med begränsade kunskaper i statistik, men också av dem som vill använda statistisk dataanalys på en mer
avancerad nivå. Många studerande inom olika utbildningar har svårigheter
att tillgodogöra sig undervisningen i statistik och statistisk dataanalys. Ofta
har man en negativ förhandsinställning och denna påverkar givetvis utfallet av undervisningen och lärandet. Många gånger lär sig studerande kursinnehållet i kvantitativa analyser på ett mekaniskt sätt och utan att verkligen förstå vad de gör och varför. Därför är denna bok ett försök till en koncentrerad framställning med tonvikt på förståelse. Det mekaniska räknandet klarar datorn av, om man trycker på rätt knappar. Det har emellertid
visat sig att en del av lärandetiden borde ägnas åt att för hand räkna igenom enkla uppgifter för att verkligen förstå vad datorn gör, när den räknar
fram ett resultat. När man väl vet vad man gör och varför, kan huvuddelen
av lärandetiden ägnas åt förståelse för statistisk beskrivning och analys.
Även om man själv inte samlar in egna datafiler för att analysera sina
frågeställningar, måste man ha grundläggande kunskaper i statistisk dataanalys för kritiskt kunna läsa artiklar och resultat av forskning som baserar
sig på kvantitativa analyser.
Samtliga metoder som presenteras i boken finns i analysdelen i programpaketet SPSS. Dock finns ännu mer avancerade analysmetoder i
SPSS, som inte presenteras i denna bok. Ett par avsnitt i boken är mycket
© Horst Löfgren
5
sällan förekommande i grundböcker, som t.ex. avsnitten om faktoranalys,
reliabilitet och index på storleksskillnader. För att resonera om kvalitet i
data är det nödvändigt att ha en förståelse för begrepp som validitet och
reliabilitet. Därför finns ett kort avsnitt om och förklaring av faktoranalys
som en metod att analysera validiteten, dvs. pröva om man verkligen lyckats fånga in det som avsikten med de data som insamlats.
Alldeles för många användare av statistisk hypotesprövning har inte
förstått skillnaden mellan statistisk signifikans och storleksskillnader. Därför finns i boken avsnitt som förklarar skillnaden mellan säkerhet och storlek i statistiska slutsatser. Dessutom ges olika mått på effektstorlek.
Till boken finns en datafil från en verklig undersökning (IEA-Written
Composition; data från det svenska stickprovet ”Elever i årskurs 9”), som
tidigare kunde hämtas från min webbsida på Internet. Filen finns nu på en
CD-skiva som kan erhållas av mig. På denna dataskiva finns också lösningar till bokens övningsuppgifter. CD-skivan innehåller också ett tryckfärdigt manus för hela boken.
Boken innehåller fyra kapitel. Det första kapitlet är en kort introduktion
till statistikens huvuddelar, beskrivning och inferens, samt en beskrivning
av olika typer av mätskalor. Det andra kapitlet behandlar beskrivande statistik. Här presenteras central- och spridningsmått, grafisk representation,
korrelation och prediktion. Kapitlet innehåller också något mer avancerade
metoder som multipel regressionsanalys, logistisk regressionsanalys, faktoranalys och metoder för reliabilitetsskattning. I kapitel tre presenteras
olika parametriska hypotesprövningsmetoder, såväl för ett som för flera
stickprov. En väsentlig del av texten behandlar enfaktoriella och flerfaktoriella variansanalyser. Förutom signifikansbestämningar presenteras
metoder för bedömning av storleksskillnader i undersökningsresultat.
Detta avsnitt är synnerligen väsentligt, för att korrekt kunna tolka undersökningsresultat. Det fjärde kapitlet behandlar icke-parametriska hypotesprövningsmetoder för ett och flera stickprov.
I Appendix finns statistiska tabeller och en presentation av övningsfilen
med tillhörande övningsuppgifter.
Barsebäck våren 2014
Horst Löfgren
6
© Horst Löfgren
Innehåll
Förord .......................................................................................................... 3
1
Inledning............................................................................................ 11
2
Beskrivande statistik ......................................................................... 14
2.1 Central- och spridningsmått ....................................................... 14
2.2 Grafisk framställning ................................................................. 21
2.3 Sambandsmått - Korrelation ...................................................... 22
2.3.1 Pearson's produkt-moment korrelation ............................ 23
2.3.2 Tolkning av olika värden på korrelationen ...................... 27
2.3.3 Samband mellan variabler på selekterade grupper .......... 29
2.3.4 Linjära och icke-linjära samband .................................... 30
2.3.5 Spearman's rangkorrelation ............................................. 31
2.4 Den standardiserade normalfördelningen; z-poäng ................... 32
2.5 Regression.................................................................................. 33
2.6 Multipel korrelation och multipel regression ............................. 38
2.6.1 Stegvis regressionsanalys ................................................ 41
2.6.2 Ett exempel på linjär multipel regression och stegvis
multipel regression .......................................................... 41
2.6.3 Logistisk regressionsanalys ............................................. 45
2.6.4 Användning av s.k. dummy-variabler ............................. 47
2.7 Faktoranalys ............................................................................... 49
2.7.1 Vad är faktoranalys? ........................................................ 49
2.7.2 Extrahering av faktorer - ett förklarande exempel ........... 51
2.7.3 Gemensam varians, specifik varians och felvarians ........ 53
2.7.4 Arbetsgången vid faktoranalys ........................................ 54
2.7.5 Ett praktiskt exempel och förklaring av
analysresultatet ................................................................ 55
2.8 Reliabilitet.................................................................................. 59
2.8.1 Beräkning av Cronbach’s alpha ....................................... 61
2.8.2 Ett numeriskt exempel ..................................................... 62
© Horst Löfgren
7
3
Parametriska hypotesprövningsmetoder............................................ 66
3.1 Urvalsmetoder............................................................................ 66
3.2 Sannolikhetsbegreppet ............................................................... 70
3.3 Samplingfördelning ................................................................... 71
3.4 Skattningar ................................................................................. 74
3.5 Hypotesprövning........................................................................ 77
3.6 Hypotesprövning av ett stickprov i förhållande till en
population .................................................................................. 84
3.7 Hypotesprövning av en medelvärdes-differens mellan två
oberoende stickprov ................................................................... 89
3.8 Hypotesprövning av en medelvärdes-differens mellan två
beroende stickprov ..................................................................... 93
3.9 Hypotesprövning av medelvärdes-differenser med hjälp av
variansanalys.............................................................................. 95
3.10 Enfaktors ANOVA; oberoende grupper .................................... 97
3.11 Lämpliga index på relationen mellan oberoende och
beroende variabel ..................................................................... 103
3.11.1 Omega-kvadrat .............................................................. 103
3.11.2 Eta-kvadrat ................................................................... 104
3.11.3 Effektstorlek ................................................................. 105
3.12 Tvåfaktors ANOVA; oberoende grupper................................. 107
3.13 Enfaktors ANOVA; beroende grupper .................................... 114
2.14 Kovariansanalys, ANCOVA .................................................... 118
4
Icke-parametriska hypotes-prövningsmetoder ................................ 121
4.1 Analys av stickprovsdata i förhållande till populationsdata .... 122
4.1.1 Chi-kvadrat-testet för ett stickprov ................................ 123
4.1.2 Run-testet ....................................................................... 125
4.2 Analys av differensen mellan två oberoende stickprov ........... 127
4.2.1 Chi-kvadrat-testet för två oberoende stickprov ............. 128
4.2.2 2-analys av en 2x2 kontingenstabell............................ 130
4.2.3 Mann-Whitney U-test .................................................... 131
4.2.4 Kolmogorov-Smirnov-testet för två oberoende
stickprov ........................................................................ 134
4.2.5 Wald-Wolfowitz Runs ................................................... 136
8
© Horst Löfgren
4.3 Analys av differensen mellan två beroende stickprov ............. 138
4.3.1 McNemar-testet ............................................................. 138
4.3.2 Wilcoxon’s teckenrangtest ............................................ 140
4.4 Några index byggda på 2 ....................................................... 143
4.4.1 Kontingenskoefficienten................................................ 143
4.4.2 Cramérs index ................................................................ 145
4.5 Analys av differenser mellan tre eller flera oberoende
stickprov .................................................................................. 145
4.5.1 Chi-kvadrat-testet för tre eller flera oberoende
stickprov ........................................................................ 146
4.5.2 Kruskal-Wallis testet ..................................................... 148
4.6 Analys av differensen mellan tre eller flera beroende
stickprov .................................................................................. 150
4.6.1 Cochran Q-test ............................................................... 151
4.6.2 Friedman testet .............................................................. 152
Appendix ................................................................................................. 155
Ett förenklat exempel på varianskomponenter i variansanalys ....... 156
Tabeller ............................................................................................ 157
Enkät och övningsuppgifter ............................................................. 173
Index ........................................................................................................ 181
© Horst Löfgren
9
10
© Horst Löfgren
1
Inledning
Statistik utnyttjas av många vetenskapliga discipliner och ger oss bl.a.
metoder för att sammanställa insamlade data och dra generaliserbara slutsatser. Den statistiska kunskapen hjälper oss i forskningsprocessen med
frågor rörande urval, beskrivning, analys, tolkning och presentation av
data.
I olika typer av undersökningar, både experimentella och icke-experimentella, vill vi på lämpligt sätt kunna beskriva de observationer som insamlats. Med hjälp av de s.k. deskriptiva metoderna kan vi organisera och
sammanfatta resultat av observationer. Vi utnyttjar således den deskriptiva
statistiken, när vi vill sammanfatta våra observationer genom att t.ex. ange
central-, spridnings- och korrelationsmått.
Ofta vill vi uttala oss mera generellt om resultat, som erhållits i en undersökning från en mindre grupp. För att kunna dra slutsatser från ett stickprov till en större bakomliggande grupp (population) används den del av
statistiken som kallas inferensstatistik. Grunden för de metoder vi utnyttjar
för att våga generalisera från observerade data till en population är den s.k.
sannolikhetsteorin. Med hjälp av denna sannolikhetsteori kan vi hantera
osäkerheten i våra data. Det finns alltid en viss osäkerhet, när man gör
prediktioner till andra grupper än den som undersökts.
Om vi har data om hela populationen, kan vi direkt beskriva dess egenskaper. Medelvärdet och standardavvikelsen i populationen, dvs. egenskaper i populationen, kallas parametrar och betecknas ofta med grekiska
bokstäver. Karakteristika i ett stickprov, t.ex. medelvärde och standardavvikelse betecknas med vanliga (romerska) bokstäver. Dessa från stickprovet beräknade värdena kallas i engelskspråkig litteratur för “statistics“.
Population

Figur 1.1.
© Horst Löfgren
Stickprov
M; s
Beskrivande mått i population och stickprov samt relationen
dem emellan
11
Vid insamling av data utnyttjas olika typer av mätinstrument. En mätning
kan definieras som tilldelandet av tal på objekt eller händelser i enlighet
med vissa regler. Det faktum att tal kan sättas med utgångspunkt från olika
regler leder till olika slags skalor och olika slags mätningar. Vi får då ta
hänsyn till följande:
a) olika regler för att sätta siffervärden,
b) skalornas matematiska egenskaper,
c) vilka statistiska operationer som kan appliceras på de olika skaltyperna.
Det finns två typer av numeriska data om de fenomen vi studerar. Om vi
endast räknar antal av den variabel som studeras erhålls frekvenser. Exempelvis räknar vi antalet män och kvinnor i ett observationsmaterial eller
antalet elever som väljer olika linjer i gymnasieskolan. Om vi i stället mäter den variabel som studeras erhålls metriska värden, dvs. skalvärden.
Exempelvis kan vi mäta längden på en grupp män och kvinnor eller kunskapsprestationer på elever i skolan.
En frekvens anger antalet observationer i en viss kategori. Den enklaste
formen av "mätning" är klassifikation av data, vilket ger frekvenser i kvalitativt olika kategorier. Vid variabler som kan kvantifieras, dvs. anta olika
värden, skiljer vi på kontinuerliga och diskreta sådana. En kontinuerlig
variabel kan anta vilket värde som helst inom ett givet intervall (längd,
kunskaper), medan en diskret variabel endast kan anta vissa bestämda
skalvärden (antal barn per familj).
Vi brukar tala om fyra skaltyper:
1. Nominalskala
Detta är egentligen ingen skala utan en klassificering av olika objekt eller
individer. Vi gör med andra ord ingen egentlig mätning, när vi arbetar med
kvalitativa variabler som exempelvis kön, civilstånd och utfall vid slantsingling.
2. Ordinalskala
Vid denna mätning av kvantitativa variabler utnyttjas endast rangordningen mellan de tal som tilldelats de olika objekten eller individerna. Om exempelvis elever har erhållit olika antal poäng på ett prov kan vi utnyttja
relationerna bättre än och sämre än. Vi kan däremot inte säga något om
12
© Horst Löfgren
differensernas relativa storlek. De flesta mätningar av förmågor, kognitiva
och icke-kognitiva egenskaper, är av ordinalskaletyp. Som exempel kan
nämnas kunskaper, betyg och attityder.
3. Intervallskala
Om vi förutom rangordningen mellan mätobjekten kan säga något om intervallernas storlek, exempelvis att avståndet mellan 5 och 10 poäng är lika
stort som avståndet mellan 10 och 15 poäng, talar vi om ekvidistanta skalsteg. Här kan vi som ett exempel nämna temperaturskalan enligt Celsius.
Differensen mellan +10 grader och +15 grader är lika stor som mellan +20
grader och +25 grader. Eftersom 0 grader inte är någon absolut nollpunkt
kan vi emellertid ej säga att +20 grader är dubbelt så varmt som +10 grader.
4. Kvotskala
I denna skala kan vi utnyttja alla tre egenskaperna hos talsystemet; ordning, differens och nollpunkt. Det innebär att vi kan tala om kvoter. Ett bra
exempel på en sådan här skala är längdskalan. Ett objekt som har en längd
av 100 cm är dubbelt så långt som ett av längden 50 cm. Viktskalan är ett
annat bra exempel.
Detta att vi åsätter våra mätobjekt vissa tal innebär således att vi inte alltid
får utnyttja egenskaperna hos dessa tal. Olika statistiska operationer tillåts
beroende på skaltyp. Här har man ibland diskuterat, om vi trots sämre skalor inom beteendevetenskaperna (oftast ordinalskala) ska få använda statistiska beräkningar, som egentligen kräver minst intervallskala. Utan att
här närmare gå in på dessa problem kan vi konstatera, att vi kanske ibland
efter att ha tilldelat våra mätobjekt ett visst tal fortsätter att resonera som
om mätningen har talens egenskaper. Man kan alltid räkna med statistiskt
avancerade metoder, men det är de bakomliggande psykologiska relationerna, som bestämmer huruvida den statistiska metoden leder till vettiga
resultat. Man kan nämligen erhålla olika resultat beroende på om man anser sig ha en ordinal-, intervall- eller kvotskala, trots att det är samma psykologiska egenskaper som ursprungligen mättes.
I många fall kan det räcka med att skilja mellan kategorivariabler (nominal) och kontinuerliga variabler. Om man har data från någon observationsvariabel och kan anta att bakomliggande populationsdata är approximativt normalt fördelade, går det bra att använda metoder som egentligen
kräver data på intervall- eller kvotskalenivå.
© Horst Löfgren
13
2
Beskrivande statistik
Man använder sig av beskrivande statistik, när man sammanfattande vill
beskriva sina insamlade data. Det kan handla om att beskriva hur data fördelar sig över olika värden, att ange central- och spridningsmått. Man kan
också vilja beskriva hur olika mätvariabler förhåller sig till varandra, dvs.
hur de samvarierar (korrelerar). Har man flera olika mätvariabler kan man
vara intresserad att studera om man utifrån några variabler kan predicera
utfallet i en s.k. utfallsvariabel. Man kan också vilja studera, om man kan
slå samman olika mätvariabler för att t.ex. bilda summavariabler. För att
kunna bilda sådana summavariabler eller index måste vi veta, att det är
rimligt att slå samman enskilda mätvariabler. Därför vill vi studera både
validitet, dvs. om vi mäter det vi avsåg att mäta och reliabilitet, dvs. hur
tillförlitliga våra mätningar är. Det är väsentligt att få mått på kvaliteten i
våra data, i synnerhet om vi har konstruerat de begrepp, som vi försöker
mäta. Många av de begrepp vi använder oss av och som vi försöker mäta
är inte alltid lätta att fånga in. Ofta är de mest intressanta begreppen svårast att operationellt definiera och därmed svåra att komma åt. Dessutom
innehåller svåruppmätta variabler ofta ganska stora mätfel. Det finns emellertid lämpliga metoder för att studera både validitet (relevans) och reliabilitet (tillförlitlighet).
2.1
Central- och spridningsmått
För att sammanfatta hur insamlade data fördelar sig över olika observationsvärden anger man lämpligen ett mått på centraltendens, dvs. man
anger det värde som är mest representativt för det material som insamlats.
Dessutom anger man vanligen också hur mätvärdena sprider sig i den variabel som observerats.
Det finns tre mått på central tendens, nämligen Typvärde (T), Median
(Md) och Medelvärde (M). De engelska termerna är Mode, Median och
Mean. Till dessa centralmått hör de tre spridningsmåtten Variationsvidd
14
© Horst Löfgren
(V), Kvartilavstånd och Standardavvikelse (s). Motsvarande engelska termer är Range, Interquartile range (IQR) och Standard deviation.
Typvärdet är det värde som oftast förekommer i det insamlade materialet,
dvs. det värde som har den högsta frekvensen. Tillhörande spridningsmått
är variationsvidd, vilket är skillnaden mellan det högsta och det lägsta
värdet i fördelningen. Dessa beskrivande mått ger ganska lite information.
För nominalskalerade observationsvariabler är typvärdet det enda relevanta
mått, som kan anges för att ge information om insamlade data.
Medianvärdet används lämpligen vid s.k. sneda fördelningar på ordinal-,
intervall- eller kvotskalerade observationsvariabler. Medianvärdet är det
värde som den mittersta observationen har. Medianen delar s a s en fördelning i två lika stora delar; 50 % av antalet observationer ligger ovanför
respektive nedanför medianen. Tillhörande spridningsmått kallas kvartilavstånd, som är avståndet i x-variabeln mellan den 75 percentilen (P75)
och den 25 percentilen (P25). Dessa båda punkter innesluter de mittersta
50 % av observationerna. Divideras kvartilavståndet med två erhålls ett
alternativt sätt att uttrycka spridningen på, nämligen kvartilavvikelsen.
Observera att avståndet mellan P75 och Md inte är lika stort som avståndet
mellan Md och P25 vid sneda fördelningar. Det kan här nämnas att man i
forskningsrapporter och artiklar sällan finner att kvartilavstånd eller kvartilavvikelsen använts som mått på variationen i ett material.
Figur 2.1.
© Horst Löfgren
Median och kvartilavstånd
15
Om en fördelning är approximativt normalfördelad och därmed någorlunda
symmetrisk används det aritmetiska medelvärdet, vanligen endast kallad
medelvärde. Det erhålls genom att summera samtliga observationer och
dividera med antalet observationer.
xi
M = ___
n
(formel 2.1)
Standardavvikelsen är ett avstånd i mätvariabeln (på x-axeln) så stort att
mellan medelvärdet (M) och +1 standardavvikelse (s) ligger ungefär 34 %
av alla observationerna i materialet och likaså mellan M och -1s. Mellan
minus en standardavvikelse och plus en standardavvikelse ligger således
68 % av samtliga observationer. Mellan M +/- 2s ligger ungefär 95 % av
alla observationer.
I normalfördelningen ligger 68,3 % av observationerna i intervallet M +/- s
och 95,4 % i intervallet M +/- 2s. Eftersom nästa alla observationer ligger
mellan -2s och +2s, dvs. inom fyra standardavvikelser blir standardavvikelsen i ett normalfördelat observationsmaterial något mer än en fjärdedel
av variationsvidden.
Standardavvikelsen i kvadrat kallas för varians. Variansen i en population
är lika med den genomsnittliga kvadrerade avvikelsen från medelvärdet.
Roten ur detta värde (variansen) är lika med standardavvikelsen.
=
xi-M)2
________
N
(formel 2.2)
Då variansen i ett stickprov tenderar att underestimera variationen i populationen korrigeras formeln vid beräkning av standardavvikelsen i ett
stickprov i enlighet med formel 2.3.
s=
(xi - M)2
____________
n–1
(formel 2.3)
Om vi skriver om formel 2.3 blir det enklare att beräkna standardavvikelsen.
16
© Horst Löfgren
s=
(x)2
x2 - _____
n
________________
n-1
(formel 2.4)
Vid valet av beskrivande mått, t.ex. central- och spridningsmått är fördelningens utseende i observationsmaterialet av stor betydelse. Om mätvärdena är approximativt normalfördelade, dvs. de flesta observationerna
ligger i mitten och färre observationer med extrema värden, används aritmetiskt medelvärde och standardavvikelse. Om mätvärden i stället är påtagligt snedfördelade är median och kvartilavvikelse lämpligare mått.
Figur 2.2.
Medelvärde (M) och standardavvikelse (s)
Observera dock att fördelningens utseende oftast avgör valet av beskrivande mått. Ovan angivna sambandsmått baserar sig på att båda de studerade variablerna är av samma skaltyp. Det finns nämligen ett antal av olika
sambandsmått för skilda kombinationer av mätskalor.
© Horst Löfgren
17
Ruta 2.1. Vanliga beskrivande mått vid olika typer av mätskalor
Skaltyp
Centralmått
Spridningsmått
Sambandsmått
Nominal
Typvärde
Ordinal
Median
Kvartilavvikelse
Rangkorrelation
Intervall/
Kvot
Medelvärde
Standardavvikelse
Produkt-momentkorrelation
Phi, Cramérs V
Vi tänker oss att vi ska genomföra en undersökning om rökvanor i en viss
grupp. Vilken är den enklaste frågan som kan ställas för att få information
om rökning? Om vi ställer frågan ”Röker du” och svarsalternativen är ”Ja”
eller ”Nej” erhålls en viss information om rökvanor i gruppen. Informationen är tillräcklig för att åtminstone klassificera individerna i gruppen
som rökare eller icke-rökare och vi kan ange frekvensen av svar i respektive grupp. Vi har erhållit data på nominalskalenivå, dvs. en klassificering
med kategorierna rökare och icke-rökare. På basis av data kan vi ange
typvärdet, dvs. om det finns flest rökare eller flest icke-rökare i gruppen.
Som lätt inses är kvalitén i data ganska dålig. I gruppen rökare kan det
finns alltifrån feströkare till kedjerökare. Om vi förändrar vår fråga kan vi
få mer information.
Nu ställer vi en fråga som lyder så här:
Hur mycket röker du? Ange med kryss!
Inte alls
Vid enstaka tillfällen
Varje dag
( )
( )
( )
Flera gånger om dagen
( )
Denna fråga ger mer information än den föregående. Rimligen borde man
ganska väl kunna rangordna respondenterna i fyra grupper. Data ligger på
ordinalskalenivå. Visserligen skulle man kunna se på resultatet som fyra
kategorier, men det går ju faktisk att till viss del rangordna respondenterna.
Rökandegruppen har ju differentierats till tre grupper.
Vilken är då den bästa fråga man kan ställa till gruppen för att inte bara
rangordna respondenterna utan också säga något avstånden mellan olika
18
© Horst Löfgren
svarsalternativ? Om vi endast håller oss till cigarettkonsumtion kan vi
ställa följande fråga:
Hur många cigaretter röker du i genomsnitt per dag?
___________ cigaretter
Nu har vi god information och kan uttala oss om att en viss individ röker
dubbelt så mycket som en annan, eller hälften så mycket etc. Eftersom
man kan göra detta ligger data på kvotskalenivå, dvs. har en nollpunkt. När
man samlar in information bör man sträva efter att få så bra data som möjligt. Om man kan erhålla data på intervall- eller kvotskalenivå så är detta
naturligtvis bättre än data på endast ordinalskalenivå eller nominalskalenivå. Effektivare statistiska metoder kan användas om data ligger på en
”högre” nivå.
De flesta kvantitativa variabler kan klassificeras som symmetriska eller
sneda. I en symmetrisk fördelning kan man dra en vertikal linje genom
mittpunkten, så att den ena sidan av fördelningen är en spegelbild av den
andra sidan. Fördelningen över data jämförs med normalfördelningen, som
är matematiskt bestämd och som har ett visst utseende. Normalfördelningen är perfekt symmetrisk.
Figur 2.3.
© Horst Löfgren
Exempel på olika fördelningar i jämförelse med normalfördelningen
19
För att visa tillvägagångssättet vid beräkning av median, medelvärde och
standardavvikelse ges följande exempel: I en grupp individer observerades
följande resultat på ett test (här presenterade i ordning från sämsta till bästa
resultat):
1,2,2,2,3,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,5,5,6,6,6,6,6,6,7,7,7,7,8,8,9,9
Redovisa resultatet i en frekvenstabell och beräkna medianvärdet, medelvärdet och standardavvikelsen för gruppen!
Eftersom vi i exemplet ovan har 36 observationer blir medianvärdet genom
snittet av observation nr 18 och nr 19. Då båda observationerna har värdet
5 blir medianen 5. Kvartilavståndet är 2,5 (P75=6 och P25 ligger mellan 3
och 4, dvs. 3,5) och således kvartilavvikelsen 1,25. För att beräkna medelvärdet och standardavvikelsen används formlerna 2.1 och 2.4.
Frekvenstabell
Variabelvärde Frekvens Kumulativ Relativ
x
f
frekvens
frekvens i %
1
2
3
4
5
6
7
8
9
Totalt
1
3
5
5
8
6
4
2
2
1
4
9
14
22
28
32
34
36
36
100
2,8
8,3
13,9
13,9
22,2
16,7
11,1
5,6
5,6
f .x
f . x2
1
6
15
20
40
36
28
16
18
1
12
45
80
200
216
196
128
162
180
1040
fxi
180
M = ____ = ____ = 5,0
n
36
s=
20
fx)2
fx2 - _____
n
___________________
n–1
2
180
____
36
____________________
1040 =
35
= 2,00
© Horst Löfgren
2.2
Grafisk framställning
Det kan många gånger vara lämpligt att åskådliggöra de data som samlats
in grafiskt. Olika former av diagram kan till läsaren överföra information
om observationsmaterialets utseende. Det finns olika typer av diagram,
som då kan användas. Bra diagram är de som överför korrekt information
till läsaren. I diagram med en horisontell och en vertikal axel (x- och yaxel) anges vanligtvis mätskalan på den horisontella axeln och frekvensen
på den vertikala.
Ruta 2.2. Några lämpliga typer av diagram
a) Stolpdiagram
frekvens
x
b) Histogram
frekvens
x
c) Frekvenspolygon
frekvens
x
© Horst Löfgren
21
Vid nominalskala, dvs. när man har frekvenser av olika kategorier, används stolpdiagram (stapeldiagram). Höjden i varje stapel anger frekvensen av de olika kategorierna. Stolpdiagram är även lämpligt att använda
vid diskreta variabler. Med diskret variabel menas en variabel, som endast
kan anta vissa värden.
Vid kontinuerliga variabler, dvs. variabler som kan anta ett obegränsat
antal värden, används histogram eller frekvenspolygon. Även vid klassindelat material, beroende på stort antal variabelvärden, används dessa
båda diagram. Om man sammanbinder klassmittpunkterna i ett histogram
och därvid börjar och slutar på x-axeln erhålls en frekvenspolygon.
I SPSS kan man ange vilken skalnivå man har på sina mätvärden; nominal,
ordinal eller intervall/kvot (de sistnämnda kallas i SPSS för Scale). Man
kan dessutom erhålla flera andra typer av diagram. Om man har data på
intervall- eller kvotskalenivå (Scale i SPSS) kan man till sitt histogram
begära att normalfördelningskurvan läggs in.
2.3
Sambandsmått - Korrelation
Det finns flera olika mått på relationer mellan variabler. Valet av sambandsmått beror på typ av skala på respektive variabel. Om vi studerar
sambandet mellan två intervall- eller kvotskalerade variabler används
Pearson's produkt-moment korrelation. Denna metod används också vid
approximativt normala fördelningar, även om de studerade variablerna
egentligen endast är på ordinalskalenivå. Om båda variablerna är av ordinalskaletyp används i stället Spearman's rangkorrelation. Skulle båda variablerna vara nominalskalerade, dvs. kategorivariabler används Cramérs
index (jfr avsnitt 4.4.2). Om båda variablerna är dikotoma är phikoefficienten det mått man använder för att uttrycka sambandet. För kombinationer av variabler på olika skalnivå finns speciella korrelationskoefficienter. En sådan, som redan här kan nämnas, är eta. Den används för att
uttrycka sambandet mellan en kategorivariabel (nominalskala) och en kontinuerlig variabel (jfr avsnitt 3.11.2).
En korrelation mellan två variabler säger ingenting om orsak-verkan relationen. Relationen mellan variabler kan mycket väl vara av kausalt slag,
men korrelationskoefficienten säger ingenting om den saken. Inom sam-
22
© Horst Löfgren
hällsvetenskaperna är det ofta så att kausala relationer är sällsynta. Ofta är
de ting vi studerar mycket komplexa och relationerna mellan variabler
likaså.
Många gånger kan det behövas något beskrivande mått på hur två variabler
är relaterade till varandra för en given grupp individer. Vi kan exempelvis
vara intresserade att studera sambandet mellan vissa läraregenskaper och
elevbeteenden. Många sådana sambandsstudier inom lärarlämplighetsforskningen har genomförts, tyvärr oftast med magert resultat. Finns det,
för att nämna ett annat exempel, samband mellan resultat på skolmognadsprov och senare framgång i skolan? Hur är relationen mellan social bakgrund och rekrytering till högre studier? Hur väl kan ett antal prediktorer
predicera framgång i högre studier?
2.3.1
Pearson's produkt-moment korrelation
Data har insamlats från 12 elitdomare i fotboll. Bl.a. har man registrerat
deras längd och vikt. Vi är intresserade att studera sambandet mellan resultaten på dessa båda variabler. Eftersom båda variablerna är typiska kvotskalor, väljer vi Pearson’s produkt-momentkorrelation.
Tabell 2.1. Resultat av längd- och viktmätning av 12 elitdomare
____________________________________________________________
Individ Längd Vikt
Individ Längd Vikt
cm
kg
cm
kg
____________________________________________________________
A
175
80
G
178
73
B
191
75
H
186
90
C
169
64
I
177
71
D
184
78
J
181
81
E
195
85
K
188
78
F
172
63
L
180
70
____________________________________________________________
Utifrån data som presenteras i Tabell 2.1 kan man göra upp ett s.k. prickdiagram (Scattergram i SPSS). Det innebär att varje individs resultat på de
två variablerna inprickas i ett koordinatsystem.
© Horst Löfgren
23
195,00
190,00
Längd
185,00
180,00
175,00
170,00
165,00
60,00
65,00
70,00
75,00
80,00
85,00
90,00
Vikt
Figur 2.4.
Prickdiagram över resultatet på längd och viktmätning
Av prickdiagrammet framgår att det finns ett påtagligt samband mellan
längd och vikt. Långa personer väger mer och kortvuxna mindre. Dock
stämmer inte detta perfekt. Den som väger mest är inte den som är längst.
Om ett högt resultat på den ena variabeln korresponderar med ett högt
resultat på den andra variabeln, och ett lågt resultat på den ena variabeln
korresponderar med ett lågt resultat på den andra variabeln leder detta till
ett högt positivt samband. Vi kan visa detta genom att uttrycka varje observation som en avvikelse från sitt gruppmedelvärde (xi - Mx) och (yi My). Om en individ har ett högt värde på båda variablerna, som exempelvis
domare E, blir produkten (xE - Mx).(yE - My) hög och positiv. På samma
sätt blir produkten hög och positiv om en individ har lågt resultat på båda
variablerna (produkten av två negativa tal blir positiv). Om detta gäller för
de flesta individerna (högt värde paras med högt och lågt värde paras med
24
© Horst Löfgren
lågt) blir summan av alla produkterna (xi - Mx).(yi - My) hög och positiv.
Skulle variablerna x och y ha en motsatt relation (högt värde parad med
lågt y-värde och vice versa) leder detta till att vi får en negativ och en positiv term, vilket leder till att produkten blir negativ. Summan av produkterna över samtliga individer blir då hög, men negativ.
Finns det slutligen inte någon systematisk relation mellan variablerna x
och y erhålls ibland positiva avvikelser och ibland negativa avvikelser.
Produkterna för dessa avvikelser (xi - Mx).(yi - My) blir då ibland positiva
och ibland negativa. Summerar vi över alla individer erhålls en summa
nära noll.
För att summor i olika sambandsundersökningar ska kunna jämföras måste
man ta hänsyn till antalet produkter, dvs. till antalet individer. Därför dividerar vi summan av produkterna med n - 1. Denna genomsnittliga produkt
kallas kovariansen av x och y.
 (xi - Mx)(yi - My)
Kovxy = _________________
n-1
(formel 2.5)
Eftersom vi nu övergått till observationernas avvikelser från Mx respektive
My har vi därmed kommit förbi olägenheten med att variablerna har olika
medelvärden.
Kovariansen av x och y är således oberoende av variablernas medelvärden.
Fortfarande är dock standardavvikelsen för respektive variabel betydelsefull. För att vi ska erhålla ett standardiserat mått på överensstämmelsen
mellan två variabler, dividerar vi kovariansen med standardavvikelserna
för de båda variablerna. Detta mått på sambandet mellan x och y kallas för
Pearson's produkt-moment korrelation (rxy).
Kovxy
(xi - Mx)(yi - My) / (n - 1)
rxy = _______ = __________________________________ (formel 2.6)
sx.sy
 (xi - Mx)2 / (n - 1) .  (yi - My)2 / (n - 1)

Efter förkortning med (n - 1) erhålls:
© Horst Löfgren
25
 (xi - Mx)(yi - My)
rxy = __________________________
(xi - Mx)2 . (yi - My)2
(formel 2.7)
Som exempel på uträkning av rxy väljer vi observationerna från tabell 2.1.
För att beräkningarna av rxy ska bli enklare att genomföra kan formel 2.7
transformeras till följande:
xy
xy - ______
n
rxy = ____________________________
(x)2
(x)2
_____
2
_____
(x2 ) (y )
n
n
(formel 2.8)
Tabell 2.2. Resultat av längd- och viktmätning av 12 elitdomare
____________________________________________________________
Individ Längd (x)
Vikt (y)
x. y
x2
y2
____________________________________________________________
A
175
80
14000
30625
6400
B
191
75
14325
36481
5625
C
169
64
10816
28561
4096
D
184
78
14352
33856
6084
E
195
85
16575
38025
7225
F
172
63
10836
29584
3969
G
178
73
12994
31684
5329
H
186
90
16740
34596
8100
I
177
71
12567
31329
5041
J
181
81
14661
32761
6561
K
188
78
14664
35344
6084
L
180
70
12600
32400
4900
____________________________________________________________
Summa
2176
908
165130 395246 69414
____________________________________________________________
26
© Horst Löfgren
Enligt formel 2.8 erhålls:
2176 . 908
165130 - __________
12
rxy = ________________________________
= 0,698
21762
9082
(395246 - _____ ) (69414- _____ )
12
12
Produkt-moment korrelationen mellan de båda variablerna, längd och vikt
är för dessa personer 0,70. Korrelationen i kvadrat kallas determinationskoefficient och ger andel gemensam varians i de båda variablerna. Den
anger proportion av varians i den ena variabeln, som bestäms av relationen
med den andra variabeln. Sålunda är 49 % (0,702) gemensam varians.
Figur 2.5.
2.3.2
Andel gemensam varians mellan två variabler (x och y), vars
korrelation är 0,70
Tolkning av olika värden på korrelationen
Korrelationskoefficienten rxy kan endast anta värden mellan +1,0 och -1,0.
Högsta möjliga samband är således +1,0 och även -1,0. Det sistnämnda är
ett perfekt negativt, eller omvänt samband (jfr Ruta 2.3).
Vad som avses med ett högt respektive lågt samband bör naturligtvis relateras till vilka variabler det gäller och vad som tidigare är kända förhållanden om relationen mellan dessa variabler. Det kan här också påpekas att
lineära transformationer av x och/eller y inte kan påverka korrelationens
storlek; rxy är ju ett standardiserat mått.
© Horst Löfgren
27
Ruta 2.3. Tolkning av några olika värden på rxy
28
© Horst Löfgren
2.3.3
Samband mellan variabler på selekterade
grupper
Om man studerar samband mellan variabler och där någon av variablerna
har begränsad variationsvidd, t.ex. beroende på att det är en selekterad
grupp av individer, blir korrelationskoefficienten lägre än om man observerat hela gruppen. Efter nedanstående figur följer ett förklarande exempel.
Figur 2.6.
Samband mellan ett verbalt begåvningstest och ett allmänt
språkfärdighetstest i engelska
Exempelvis fann man i några språkfärdighetsstudier, att sambandet mellan
ett verbalt begåvningstest och ett antal språkprov på ett främmande språk
var måttligt eller till och med ganska lågt i en grupp gymnasieelever. Detta
© Horst Löfgren
29
innebär emellertid inte att sambandet mellan begåvningstest och språkfärdighetstest är lågt för alla individer. Ovannämnda resultat erhölls för en
selekterad grupp av gymnasieelever på humanistisk linje. Eftersom elever
med relativt höga resultat på verbala begåvningstest väljer gymnasieskolans humanistiska linje blir korrelationskoefficienten mellan provresultat
och begåvning ganska låg för dessa elever. Förhållandet kan belysas med
hjälp av en tänkt sambandsplott (Figur 2.6).
2.3.4
Linjära och icke-linjära samband
Produkt-moment korrelationen rxy mäter endast linjära relationer mellan x
och y. Om man däremot erhåller en korrelationsplott som inte är avvikelser
från en rät linje, talar vi om kurvlinjära samband.
Figur 2.7.
Exempel på kurvlinjärt samband
Om man beräknar rxy på ovanstående, skulle man få ett värde ungefär
rxy= 0. Som framgår av figuren finns det emellertid ett påtagligt samband.
Låga värden på x har höga värden på y, medelhöga värden på x har låga
värden på y och höga värden på x har höga värden på y. Variationer av
kurvlinjära samband kan även erhållas på grund av egenskaper hos testet.
Test som ger tak eller botteneffekter kan ge sådana här effekter. I situationer av det här slaget måste man använda sig av andra sambandsmått än
rxy, t.ex. korrelationskvoten eta-kvadrat.
Sammanfattningsvis kan sägas att produkt-moment korrelationer används
då man har båda variablerna på lägst intervallskalenivå, dvs. har två approximativt normalfördelade variabler.
30
© Horst Löfgren
2.3.5
Spearman's rangkorrelation
I de fall båda mätvariablerna är ordinalskalerade används Spearman's rangkorrelation (rrho). Data kan vara direkt rangordnade eller rangordnade
efter de värden som erhållits vid mätningarna. Vi väljer som exempel på
beräkning av rangkorrelation data från två olika tentamina för 15 högskolestuderande.
6 d2
rrho = 1 - ________ , där d= differenserna mellan rangtalen (formel 2.9)
n ( n2 - 1)
Tabell 2.3. Exempel på beräkning av rangkorrelation mellan två provresultat, T1 och T2
____________________________________________________________
Student T 1 T 2 Rang T1
Rang T2
d
d2
____________________________________________________________
A
20
30
2
1
1
1
B
11
15
12
14
-2
4
C
12
19
11
10,5
0,5
0,25
D
10
19
14
10,5
3,5
12,25
E
18
27
4,5
2
2,5
6,25
F
10
11
14
15
-1
1
G
17
20
6
8
-2
4
H
18
25
4,5
4,5
0
0
I
10
17
14
13
1
1
J
14
20
9
8
1
1
K
16
21
7
6
1
1
L
13
18
10
12
-2
4
M
15
20
8
8
0
0
N
22
25
1
4,5
-3,5
12,25
O
19
26
3
3
0
0
____________________________________________________________
0
48
____________________________________________________________
6 . 48
___________
rrho = 1 = 0,91
15 (225 - 1)
© Horst Löfgren
31
Vi har sålunda funnit en mycket hög överensstämmelse mellan de två tentamensresultaten. Rangkorrelationen kan variera mellan -1,0 och 1,0. Om
man har många s.k. ties, dvs. flera observationer med samma rangtal, bör
man använda en viss korrektion för detta.
2.4
Den standardiserade
normalfördelningen; z-poäng
Med hjälp av olika central- och spridningsmått kan man beskriva utseendet
i ett observationsmaterial. Det kan ibland vara nödvändigt att beskriva var
i en fördelning som en enskild observation är belägen. Per har på ett test i
statistik erhållit 40 poäng, medan Anders på ett annat statistiktest erhållit
30 poäng. Kan man jämföra dessa båda resultat? Om man känner till kursdeltagarnas genomsnittsresultat på de båda testen får man viss information.
Är standardavvikelserna också kända har man tillräcklig information för
att göra en jämförelse mellan de båda testresultaten. Ett enkelt sätt är att
överföra testresultaten till en gemensam skala. Vi gör därför en skaltransformation till z-skalan, vars egenskaper är kända. En z-poäng anger avståndet mellan det erhållna resultatet och gruppens medelvärde uttryckt i
standardavvikelseenheter.
xi - µ
z = ______

Figur 2.8.
32
(formel 2.10)
Den standardiserade normalfördelningen z
© Horst Löfgren
Om Per erhållit 40 poäng på ett test vars medelvärde är 30,0 och standardavvikelse 10,00 blir hans resultat uttryckt i z-poäng 1,0. Antag att Anders
erhållit 30 poäng på ett test med medelvärdet 24,0 och standardavvikelsen
5,00. Uttryckt i z-poäng blir det senare resultatet 1,2 vilket är något bättre
än Pers resultat.
Som framgår av formeln är medelvärdet i z-skalan 0 och standardavvikelsen 1. Man kan således alltid transformera ursprungliga råpoängsresultat
till denna standardiserade skala. Resultat uttryckt i z-poäng kallas standardpoäng. Den standardiserade normalfördelningen finns tabellerad i
Appendix (Tabell B). Om testpoängen på det test som Per erhållit 40 poäng är normalfördelade, finns i populationen endast 15,9 % som är bättre
än Per.
2.5
Regression
Om vi känner en individs resultat på variabel x kan vi skatta (eller förutsäga) resultatet på variabel y utifrån kännedom om relationen mellan x och
y. Här ges några exempel på frågeställningar för att belysa denna s.k.
regressionsskattning.
1 Hur väl kan vi förutsäga studieresultat utifrån resultat på skolmognadstest?
2 Hur väl kan vi predicera framgång i yrket utifrån vissa anlags- och
lämplighetstest?
3 Hur väl kan vi skatta en individs resultat på ett hörförståelseprov utifrån
data från ett läsförståelseprov?
För att kunna skatta (predicera) resultat på y utifrån x måste vi känna till
relationen mellan x och y. Den variabel vi skattar kallas beroende variabel,
och den variabel vi skattar utifrån kallas oberoende variabel eller prediktor.
Relationen mellan x och y erhålls via en sambandsberäkning (rxy). Efter
att sambandet är beräknat kan detta senare användas vid regressionsskattningar. Innan vi matematiskt bestämmer skattningen av y utifrån x kan vi
belysa innebörden av regression med hjälp av Figur 2.9.
© Horst Löfgren
33
Resultatet i Figur 2.8 erhölls i en undersökning i vilken 67 individer deltog. Om vi nu vet förtestresultatet (x) på ytterligare en individ, vad blir då
den bästa skattningen av denna individs eftertestresultat (y)? Vilken är den
bästa skattningen av y, då vi vet att individ NN erhållit 11 poäng på x?
I det här exemplet tänker vi oss att det inte skett någon förbättring av resultaten från förtest till eftertest. Av resultatet ser vi att alla deltagarna inte
erhållit samma resultat på för- och eftertestet, trots att ingen förändring
skett. Som framgår av resultatet har 4 individer på förtestet erhållit 10 poäng. Dessa fyra har på eftertestet erhållit 10, 11, 12 resp. 13 poäng. Vidare
har på förtestet 6 individer erhållit 11 poäng. På eftertestet har dessa erhållit 10, 11, 12 (2 individer), 13 resp. 14 poäng. Genomsnittet av de 6 individer som erhållit 11 poäng på förtestet är således 12 poäng på eftertestet.
y
regressionslinje x.y; bästa
prediktionen från eftertest
till förtest
Eftertestresultat
16
1
1
1
1
1
1
3
1
1
1
2
4
4
2
1
1
15
14
13
1
1
4
7
4
1
12
1
2
4
4
2
1
11
1
1
2
1
1
10
1
1
1
1
regressionslinje y.x; bästa
prediktionen från förtest
till eftertest
x
10
Figur 2.9.
11
12
13
14
15
16
Förtestresultat
Exempel på regressionslinjer och regressionsskattning
Om man nu har ytterligare en individ, som vi vet har erhållit 11 poäng på
förtestet men som inte var med på eftertestet, så blir den bästa gissningen
att denna individ skulle ha erhållit 12 poäng på eftertestet. Det är möjligt
att denna gissning inte är korrekt, men mot bakgrund av vad vi vet om
resultaten så blir det den bästa prognos man kan göra. Den bästa skattningen måste bli längs linjen som går genom medelvärdet av y på respektive x34
© Horst Löfgren
poäng. Denna linje kallas regressionslinjen y.x (utläses y på x) och kan
matematiskt bestämmas via den räta linjens ekvation y = a + bx.
Observera att enligt regressionsskattningen erhåller individer som har ett
lågt resultat på förtestet oftare ett bättre resultat på eftertestet och individer
som har ett högt resultat på förtestet erhåller ett sämre resultat på eftertestet. Vad kan detta bero på, dvs. att sådana här s.k. regressionseffekter
uppstår? Jo, det beror på att vi inte har helt mätsäkra test. Om man på basis
av extremvärden tar ut individer kommer sådana här effekter att uppstå,
om det finns reliabilitetsbrister i mätinstrumenten. Detta bör man ha i
åtanke om man jämför grupper som uttagits på basis av extremvärden
(t.ex. vid experiment som utnyttjar matchningsförfarande).
Tabell 2.4. Data för bestämning av regressionslinjen y.x (oberoende variabel är IQ-poäng i åk 8; beroende variabel är matematikpoäng
i åk 9)
____________________________________________________________
Individ
x
y
____________________________________________________________
A
95
33
B
100
31
C
100
35
D
102
38
x = 2165
E
103
41
y = 824
F
105
37
x2 = 235091
G
106
37
y2 = 34442
H
106
39
xy = 89715
I
106
43
sx = 6,198
J
109
40
sy = 5,095
K
110
41
n = 20
L
110
44
rxy = 0,862
M
111
40
rxy2= 0,743
N
112
45
O
112
48
P
114
45
Q
114
49
R
115
47
S
117
43
T
118
48
____________________________________________________________
© Horst Löfgren
35
I Tabell 2.4 ovan ges ett exempel där regressionslinjen y.x kan beräknas.
Den räta linjens ekvation y = a + bx kan nu användas. Linjens lutning bestäms av ”b” och kallas regressionskoefficient, medan ”a” är en additiv
konstant, som säger var regressionslinjen korsar y-axeln. Regressionskoefficienten by.x kan beräknas via formel 2.11 eller direkt (utan att ha bestämt
rxy) via formel 2.12.
Beräkning av regressionslinje och skattningens medelfel:
sy
by.x = ___ . rxy
sx
5,095
(här by.x = _____ . 0,861 )
6,198
x y
xy - ______
n
by.x = _______________
(x)2
x2 - _____
n
(formel 2.11)
(formel 2.12)
I exemplet kan by.x beräknas till 0,708.
2165 . 824
89715 - _________
20
by.x = __________________ = 0,708
21652
______
235091 20
Konstanten ”a” beräknas via a = My - bMx, vilket ger
824
2165
a = ____ - 0,708 (_____ ) = - 35,491
20
20
Skattningen av y kan således bestämmas via regressionslinjen y.x enligt
yest = 0,708x - 35,491
Med kännedom om x kan nu y bestämmas. Om x=100 blir y=35,309 och
om x=110 blir y=42,389. Självfallet kan vi inte säga att denna skattning av
36
© Horst Löfgren
y är det sanna värdet av y för denna individ. Vi får alltid räkna med ett
visst fel ”e”.
yi = a + bxi + ei , varvid ei är skillnaden mellan det sanna y-värdet och det
skattade y-värdet.
ei = yi – yiest
Med ovanstående formler för beräkning av regressionslinjen har vi med
hjälp av den s.k. minsta kvadratmetoden minimerat e. Standardavvikelsen i
skattningsfelet se kallas skattningens medelfel och kan beräknas med hjälp
av formeln:
se =
(y)2
(1 - r2) ssy
__________
, där ssy = (y2 - _____ )
n-2
n
(formel 2.13)
För stora stickprov (n > 50) kan formeln förenklas till se = sy
1-r2
I detta exempel blir skattningens medelfel:
se =
8242
(1-0,743) (34442 - ____ )
20
_______________________
18
= 2,655
För att använda ovanstående beräkningar krävs dock att vissa förutsättningar är uppfyllda (se Figur 2.10):
1. Populationsmedelvärdena för y för varje x-värde ska ligga längs en
rät linje.
2. För varje x-värde ska y-värdena normalt fördelade.
3. För varje värde på x har dess y-värden variansen 2y.x och denna
varians ska vara lika för samtliga x-värden (s.k. homoscedasticitet).
© Horst Löfgren
37
Figur 2.10. Förutsättningar för regressionsskattning
2.6
Multipel korrelation och multipel
regression
Syftet med multipel regression är att kunna skatta en beroende variabel Y
utifrån en kombination av de oberoende variablerna X1, X 2, ... Xm. Likaväl som man vid två variabler kan beräkna den univariata estimationen
med hjälp av ekvationen Yest= a + bx, kan man vid flera variabler göra en
multivariat prediktion av Y. Härvid använder man sig också av minsta
kvadratmetoden enligt nedanstående formel:
Yest = b0 + b1x1+ b2x2+ ... + bmxm
(formel 2.14)
Detta är den multipla linjära regressionsekvationen. En produkt-moment
korrelation mellan Y och Yest säger hur väl den bästa linjära viktningen av
de oberoende X1, X 2, ... Xm predicerar eller korrelerar med den beroende
variabeln Y. Detta kallas för den multipla korrelationskoefficienten och
skrivs Ry.1,2,..,m.
Observera att viktkoefficienterna maximerar korrelationen med Y, vilket
också innebär att slumpfel utnyttjas. Om man i en undersökning erhållit en
38
© Horst Löfgren
multipel korrelation av en viss storleksordning efter viktning av Xvariablerna, bör man före generalisering av sambandsresultatet göra en s.k.
korsvalidering. Detta är speciellt väsentligt om man har relativt få individer i förhållande till antalet X-variabler. Vid korsvalidering kan man utnyttja de vid första undersökningstillfället erhållna viktkoefficienterna på
ett nytt stickprov för att kontrollera att den multipla korrelationen inte
minskat alltför kraftigt. Självfallet bör den minska något, eftersom slumpen är osystematisk.
I en undersökning av elever i årskurs 9 hade man studerat deras föräldrars
utbildningsbakgrund, antalet syskon och hur många års utbildning de räknade med efter grundskolan. Nu önskade man ta reda på det multipla sambandet mellan mammans utbildningsbakgrund (X1) samt antalet syskon
(X2) och antal förväntade studieår (Y). Ett annat sätt att ställa frågan på är
om man utifrån mammans utbildningsbakgrund (X1) samt antalet syskon
(X2) kan predicera antal förväntade studieår (Y). Avsnittet rubriceras multipel regression, men kunde också ha rubricerats multipel prediktion. Relationerna mellan variablerna redovisas i nedanstående tabell.
Tabell 2.5. Interkorrelationer, medelvärden och standardavvikelser
____________________________________________________________
1
2
Y
M
s
____________________________________________________________
X1 Mammans utbildning 1,000
2,923
1,078
X2 Antal syskon
-0,509
1,000
2,359
1,227
Y Antal studieår
0,674 -0,489
1,000
4,064
2,116
____________________________________________________________
Korrelationskoefficienten mellan antalet studieår (Y) och de från mammans utbildningsbakgrund och antalet syskon (X1; X2) predicerade antalet
studieår (Yest) är den multipla korrelationen Ry.1,2. Om korrelationerna
ry1, ry2 och r12 är kända erhålls den multipla korrelationen enligt följande
formel:
Ry.1,2 = b1.ry1 + b2.ry2
(formel 2.15)
där b1 och b2 erhålls ur
ry1 - ry2.r12
b1 = ____________ ;
1 - r212
© Horst Löfgren
ry2 - ry1.r12
b2 = ____________
1 - r212
39
I ovanstående exempel blir värdena på b1 och b2 för prediktion av standardpoängen Y från standardpoängen X1 och X2:
0,674 - (-0,489.-0,509)
-0,489 - (0,674.-0,509)
___________________
__________________
b1 =
= 0,573; b2=
= -0,197
1 - (-0,509)2
1 - (-0,509)2
Att vi här talar om standardpoäng beror på att vi använder korrelationer
som ju är standardiserade (jfr formel 2.6). Sålunda blir den bästa skattningen av standardpoängen av Y (zy) utifrån standardpoängen av X1 och
X2 (z1 och z2):
zyest = 0,573z1 - 0,197z2
Den multipla korrelationen Ry.1,2 erhålls enligt:
Ry.1,2 = b1ry1 + b2ry2 =  0,573.0,674 + (-0,197.-0,489) = 0,695
För att erhålla den multipla prediktionsekvationen för råpoäng (ostandardiserade värden) utförs följande operation:
sy
sy
sy
sy
Yest = (b1___ )X1 + (b2___ ) X2 + (My - b1___ Mx1 - b2___ Mx2)
s1
s2
s1
s2
Detta ger följande regressionsekvation:
Yest = 1,125X1 - 0,340X2 + 1,578
Som framgår av den multipla korrelationens värde är denna endast aningen
högre än det enkla sambandet mellan mammans utbildning och antalet
förväntade studieår. Den högsta ökningen av prediktionsförmågan av Y
med två oberoende variabler X1 och X2 får man exempelvis om dessa
båda oberoende variabler korrelerar positivt med den beroende variabeln,
men sinsemellan korrelerar negativt.
För att man ska kunna tolka viktkoefficienterna b1 och b2 bör man se på
de standardiserade värdena. Viktkoefficienterna i regressionsekvationen
för råpoäng blir ju beroende av respektive variabels medelvärde och standardavvikelse. I vårt exempel ovan är det inte så stor skillnad i relationen
40
© Horst Löfgren
mellan b1 och b2 för standardiserade respektive ostandardiserade värden,
eftersom mätskalorna har ganska lika M och s. I en av resultattabellerna
(Coefficients) får man både viktkoefficienterna på råpoäng och standardiserade poäng. I tabellen ges även t-värden och probabilitetsvärden som ger
information för tolkningen av resultatet (jfr kap 3).
2.6.1
Stegvis regressionsanalys
När det gäller regressionsanalys finns olika möjligheter. Förutom att i
regressionsekvationen ta med samtliga prediktorer (X-variabler) kan man
”stega in” variablerna i en viss ordning för att endast ta med de som signifikant bidrar till prediktionen. Om vi utnyttjar det föregående exemplet
kommer en stegvis regressionsanalys innebära att den variabel som högst
korrelerar med kriterievariabeln stegas in först. Därefter korrigeras övriga
prediktorer genom att de rensas från den del av variationen som redan tagits med, när den första variabeln stegats in. Man partialiserar ut den del
från övriga variabler, som redan är predicerad i kriterievariabeln. Utifrån
de partialkorrelationer som nu är beräknade, stegas den variabel in som nu
är högst korrelerad med kriterievariabeln. Nya partialkorrelationer beräknas, dvs. den del som de två första prediktorerna bidragit med partialiseras
ut, och den variabel som nu korrelerar högst med Y-variabeln stegas in.
När alla variabler som signifikant bidrar till prediktionen finns med, är
analysen klar och regressionsekvationen redovisas och likaså den multipla
korrelationen.
2.6.2
Ett exempel på linjär multipel regression och
stegvis multipel regression
Nedan redovisas resultatet av en regressionsanalys i SPSS med data från
en av övningsfilerna (IEA9) till boken. I detta exempel är vi intresserade
att se om man utifrån föräldrarnas utbildningsbakgrund och elevens betyg i
uppsatsskrivning kan predicera antal år av fortsatt utbildning, som eleven
tänker sig. Det är mycket tveksamt om man kan använda utbildningsbakgrund som en prediktor med tanke på hur denna är skapad. Hade man i
stället haft tillgång till data som säger hur många års utbildning föräldrarna
har, skulle det vara mycket bättre, men som ett belysande exempel tillåter
vi oss att använda de data som finns insamlade.
© Horst Löfgren
41
I den sammanfattade översikten (Model Summary) finns den multipla korrelationen beräknad 0,436. Här finns också den kvadrerade multipla korrelationen, vilken anger proportionen förklarad varians i den beroende variabeln. Utifrån de tre prediktorerna kan vi således predicera 19 % av variansen i variabeln antal förväntade studieår. Eftersom den kvadrerade multipla
korrelationen ökar ju fler prediktorer man har i förhållande till antalet observationer, kan man ibland ha anledning att utnyttja den justerade multipla korrelationen (i det här fallet 0,179). Om man t.ex. vill jämföra resultat från olika undersökningar med olika antal prediktorer kan det justerade
värdet vara att föredra. Det är s.a.s. ett mer återhållsamt värde som inte
överskattar den multipla korrelationen. Observera dock att man alltid
måste ha betydligt fler observationer än antalet prediktorvariabler i en multipel regressionsanalys. Ett bra riktvärde är att ha 10 gånger så många observationer som antalet variabler i analysen. Om man har alltför få observationer får mätfelen, som också viktas in, alltför stor betydelse och man
får en överskattning av den multipla korrelationen.
ANOVA-tabellen visar att de tre prediktorerna tillsammans högst signifikant bidrar till prediktionen av kriterievariabeln. Om F-testet inte skulle
vara signifikant, innebär det att den multipla korrelationen inte säkert är
skild ifrån 0.
I den nedersta tablån (Coefficients) ges den multipla regressionsekvationen
för råpoäng och de standardiserade betavikterna (Beta). De två högra kolumnerna säger hur signifikant bidraget är från de tre oberoende variablerna. Betyget i uppsatsskrivning bidrar mest till prediktionen. Även pappans
utbildning bidrar signifikant till prediktionen. Däremot bidrar ej mammas
utbildning signifikant till prediktionen av kriterievariabeln ”Antal år av
fortsatt utbildning”. Observera dock att inte endast skaleringen av föräldrarnas utbildning är tveksam utan även att vi har ett mycket stort bortfall
som gör att stickprovet knappast längre är representativt för populationen.
Ungdomarna i denna studie kanske inte vill svara på frågor om föräldrautbildning, men framför allt är det nog så, att det faktiskt många som inte vet
vilken utbildning föräldrarna har.
Innebörden av t-värden, ANOVA, F-kvot och probabilitetsvärden presenteras i kapitel 3.
42
© Horst Löfgren
Model Summary
Model
1
R
,436a
R Square
,190
Adjusted
R Square
,179
St d. Error of
the Estimate
1,895
a. Predictors: (Constant), BETYG PÅ UPPSATSEN,
MODERNS UTBILDNING, FADERNS UTBILDNING
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
179,489
764,704
944,194
df
3
213
216
Mean
Square
59,830
3,590
F
16,665
Sig.
,000a
a. Predictors: (Const ant ), BETYG PÅ UPPSATSEN, MODERNS
UTBILDNING, FADERNS UTBILDNING
b. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING
Coeffici entsa
Model
1
(Constant)
MODERNS
UTBILDNING
FADERNS
UTBILDNING
BETYG PÅ
UPPSATSEN
Unstandardized
Coef f icients
Std.
B
Error
1,443
,473
Standardized
Coef f icients
Beta
t
3,051
Sig.
,003
,075
,083
,066
,902
,368
,222
,075
,216
2,948
,004
,648
,133
,305
4,856
,000
a. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING
I de följande resultattablåerna visas resultatet av en stegvis multipel
regression på samma data (Method: Stepwise i stället för Enter i SPSS).
Eftersom betyget i uppsatsskrivning korrelerar högst med den beroende
variabeln stegas denna in först. Därefter kontrolleras om det bland de öv© Horst Löfgren
43
riga variablerna (i detta fall pappans och mammans utbildning) finns något
som ytterligare kan bidra till prediktionen av den beroende variabeln, dvs.
utöver vad den första variabeln redan har bidragit med. För detta använder
programmet partialkorrelationsberäkningar. Som framgår av resultatet
finns något mer att ta in utöver betyget i uppsatsskrivning. Således stegas
pappans utbildning in i steg 2 och därmed är analysen klar, eftersom den
tredje variabeln inte signifikant bidrar till prediktionen. I den sista resultattablån ges vikterna för regressionsekvationen, både viktkoefficienterna för
råvärden och de standardiserade betavärdena.
Model Summary
Model
1
2
R
,356a
,432b
R Square
,126
,187
Adjusted
R Square
,122
,179
St d. Error of
the Estimate
1,959
1,894
a. Predictors: (Constant), BETYG PÅ UPPSATSEN
b. Predictors: (Constant), BETYG PÅ UPPSATSEN,
FADERNS UTBILDNING
ANOVAc
Model
1
2
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
119,435
824,758
944,194
176,568
767,626
944,194
df
1
215
216
2
214
216
Mean
Square
119,435
3,836
88,284
3,587
F
31,135
Sig.
,000a
24,612
,000b
a. Predictors: (Const ant ), BETYG PÅ UPPSATSEN
b. Predictors: (Const ant ), BETYG PÅ UPPSATSEN, FADERNS
UTBILDNING
c. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING
44
© Horst Löfgren
Excluded Vari ablesc
Model
1
2
Beta
In
MODERNS
UTBILDNING
,177
FADERNS
UTBILDNING
,250
MODERNS
UTBILDNING
,066
a
a
b
Part ial
Correlation
Collinearity
St at ist ics
Tolerance
t
Sig.
2,785
,006
,187
,974
3,991
,000
,263
,966
,902
,368
,062
,714
a. Predictors in t he Model: (Constant), BETY G PÅ UPPSATSEN
b. Predictors in t he Model: (Constant), BETY G PÅ UPPSATSEN,
FADERNS UTBILDNING
c. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNING
2.6.3
Logistisk regressionsanalys
Logistisk regression är en parallellteknik till linjär regression. Med båda
dessa metoder undersöker man relationen mellan en eller flera oberoende
variabler (prediktorvariabler) och en beroende variabel (utfallsvariabel).
Om den beroende variabeln är nominalskalerad används logistisk regression. I flesta fall är den beroende variabeln dikotom, dvs. har två möjliga
värden (0 och 1), men metoden kan också användas om kategorivariabeln
har fler än två värden. De oberoende variablerna kan vara av olika typ,
både nominalskalerade och kontinuerliga.
För att man ska anpassa en logistisk regressionsmodell till data krävs att
vissa förutsättningar ska vara uppfyllda. Bland annat ska det finnas en
linjär relation mellan oberoende och beroende variabler, dvs. ju högre
skalvärde på en oberoende variabel desto högre ska sannolikheten vara för
att den beroende variabeln har skalvärdet 1 (eller lägre, dvs. skalvärdet 0,
om relationen är negativ). Vidare ska alla observationerna vara oberoende.
© Horst Löfgren
45
I en studie av ungdomar i årskurs 9 fick eleverna svar på om man ibland
skrev ner något bara för att man tyckte det var roligt att skriva. Svarsalternativen var ”Ja” eller ”Nej”. Bland data som samlades in fanns också elevernas betyg i uppsatsskrivning, deras attityder till skrivning, självskattning av skrivförmågan och hur många timmar man vanligen tittade på TV
på skoldagar. Den modell som prövas i nedanstående exempel är om man
utifrån de fyra oberoende variablerna kan predicera elevernas svar på frågan om nöjesskrivning. Resultatet av en logistisk analys med SPSS visas
nedan.
Som framgår av resultatet erhålls ett inte särskilt högt multipelt samband.
Även om man utifrån de valda oberoende variablerna inte särskilt väl kan
predicera om elever skriver för sitt nöjes skull, finns ändå signifikanta
relationer. Attityder till skrivning är den variabel som bäst predicerar nöjesskrivning. Självskattning av skrivförmågan är också signifikant relaterad till nöjesskrivning, likaså TV-tittande om än negativt. Hur bra betyg
man har i uppsatsskrivning bidrar inte signifikant till prediktionen.
Model Summary
St ep
1
-2 Log
Cox & Snell
likelihood
R Square
524,681a
,096
Nagelkerke
R Square
,139
a. Estimation terminat ed at iteration number 4 because
parameter est imat es changed by less than ,001.
Variables in the Equation
Sta ep
1
v 22
v 16
v 18
v 14
Constant
B
,083
,560
,351
-,192
-1,717
S. E.
,122
,137
,156
,096
,560
Wald
,465
16,731
5,059
3,952
9,401
df
1
1
1
1
1
Sig.
,495
,000
,024
,047
,002
Exp(B)
1,087
1,751
1,420
,826
,180
a. Variable(s) entered on step 1: v 22, v 16, v 18, v 14.
46
© Horst Löfgren
2.6.4
Användning av s.k. dummy-variabler
För att få fördjupad förståelse av hur olika nivåer i en oberoende variabel
bidrar till prediktionen av en beroende variabel kan det vara av värde att
omkonstruera den oberoende variabeln till en eller flera s.k. dummyvariabler. Även om det i övningsfilen kanske inte finns något riktigt bra
exempel på en regressionsanalys med dummy-variabler, kan vi ändå genom ett exempel belysa hur man går tillväga.
I vårt exempel vill se om vi utifrån föräldrars utbildning och det erhållna
betyget på uppsatsskrivning kan predicera hur många års utbildning på
heltid eleven framöver beräknar att de ska genomgå. Möjligen skulle man
kunna kalla denna beroende variabel för utbildningsaspiration. Det är ett
rimligt antagande att denna kan prediceras utifrån föräldrars utbildningsbakgrund och resultat på ett språkligt prov. Vi börjar med att omkoda variablerna moderns och faderns utbildningsbakgrund. Det kan vara lämpligt
att låta kategorierna 1-4 erhålla värde 1 (låg utbildning), kategori 5 erhålla
värdet 2 och kategori 6 erhålla värdet 3 (hög utbildning). Efter denna omkodning kan man slå samman moderns och faderns utbildning och därvid
erhålla en ny variabel med variationsvidden 2-6. Denna omkodas i sin tur
så, att värdet 2 blir 1 (lågutbildade), 3-4 blir 2 och 4-5 blir 3 (högutbildade). Som tidigare nämnts finns det tyvärr ett mycket stort bortfall i variablerna moderns och faderns utbildning, varför det ursprungliga stickprovet nu knappast längre är ett representativt urval av svenska grundskoleelever.
Efter dessa omkodningar finns nu ungefär 50 % i grupp 1, 27 % i grupp 2
och 22 % i grupp 3. För att bilda dummy-variabler av denna nya ordinalskalerade variabel med tre grupper krävs ytterligare en omkodning. Variabeln ska nu omkodas så, att vi får två grupper men med behållen informationen från de tre grupperna. Man kan välja vilken som helst av de tre
grupperna som referensvariabel, men förslagsvis använder vi den lågutbildade gruppen som referensgrupp. Dummy-variablerna, som då blir en färre
än den ursprungliga med tre grupper, ska endast ha värdet 0 eller 1. Om vi
skapar en variabel i vilken vi ger medelutbildade värdet 1 och de båda
övriga (låg- och högutbildade) värdet 0 samt en variabel i vilken vi ger
högutbildade värdet 1 och de båda andra värdet 0, har vi skapat två variabler, som innehåller all den information, som vi hade i variabeln med de tre
grupperna. Nu är det dags att utföra en multipel regressionsanalys inkluderande de båda dummy-variablerna. Resultatet av analysen med SPSS visas
nedan.
© Horst Löfgren
47
Model Summary
Model
1
R
,455a
R Square
,207
Adjusted
R Square
,196
St d. Error of
the Estimate
1,874
a. Predictors: (Constant), dumH, BETYG PÅ
UPPSATSEN, dumM
Coeffici entsa
Model
1
(Constant)
BETYG PÅ
UPPSATSEN
dumM
dumH
Unstandardized
Coef f icients
Std.
B
Error
2,055
,449
Standardized
Coef f icients
Beta
t
4,573
Sig.
,000
,625
,133
,295
4,692
,000
,493
1,579
,299
,339
,106
,307
1,650
4,657
,100
,000
a. Dependent Variable: ANTAL ÅR FORTSATT UTBILDNI NG
Visserligen kan endast 20 % av ”antal år av fortsatt utbildning” prediceras från de oberoende variablerna. Som framgår av tabellen ovan
ger medelhög föräldrautbildning inget signifikant bidrag till prediktionen men väl om man har föräldrar med hög utbildning. Om man
endast hade använt den sammanslagna variabeln på föräldrars utbildning, som hade värden mellan 2 och 6, hade man endast kunnat
predicera ca 1 % mer, dvs. obetydligt bättre. Här får vi en bättre förståelse för hur föräldrautbildning är relaterad till den beroende variabeln. Av regressionsekvationen framgår hur många ytterligare år av
utbildning eleverna i grupperna medel- och hög föräldrautbildning
tänker sig i förhållande till gruppen med lågutbildade föräldrar (som
ju vi valde som referensgrupp).
Yest = 2,055 + 0,625X1 + 0,493X2 + 1,579X3
I genomsnitt tänker sig elever gå 0,493 år längre i utbildning än elever med lågutbildade föräldrar och elever med högutbildade föräld48
© Horst Löfgren
rar tänker sig 1,579 års längre utbildning. Genom att bilda dummyvariabler får vi en tilläggsinformation utan att förlora nämnvärt i
prediktionen av den beroende variabeln. Ännu är det lite krångligt
att bilda dessa dummy-variabler i SPSS, men det kanske kan vara
värt besväret.
2.7
Faktoranalys
2.7.1
Vad är faktoranalys?
Faktoranalys är en grupp statistiska metoder, som försöker identifiera
några hypotetiska variabler, som kan förklara utfallet i ett större antal observerade variabler. I många undersökningssammanhang har man behov av
att på olika sätt reducera sin stora mängd av insamlade variabler till ett
mindre antal variabler utan att förlora alltför mycket information.
De flesta teorier eller hypotetiska förklaringsmodeller inom beteendevetenskaperna är uttryckta i termer av teoretiska eller hypotetiska begrepp,
konstruktioner eller s.k. latenta variabler, vilka inte är direkt observerbara
och mätbara. Ofta har man emellertid ett antal indikatorer, som kan användas för att representera den latenta variabeln. När man använder begreppet
”mätmodell” avser man hur bra de valda indikatorerna, dvs. de manifesta
variablerna, fungerar som mätinstrument för den latenta variabeln.
Om vi exempelvis har studerat arbetsmiljön inom en större organisation
och därvid låtit ett stort antal anställda besvara 50 frågor om hur de ser på
sin arbetssituation, kan det vara lämpligt att försöka komma åt det som
ligger bakom deras svar, dvs. reducera antalet frågor på något lämpligt
sätt. Det är knappast troligt att dessa 50 frågor mäter 50 helt olika aspekter
av arbetsmiljön. Det är tvärtom sannolikt så, att man med hjälp av ett antal
frågor försökt att få information om några olika faktorer, som är betydelsefulla inom det övergripande området ”arbetsmiljön”. Det kan t.ex. handla
om att man ställt vissa frågor för att få reda på hur de anställda ser på den
fysiska miljön och andra frågor för att s a s fånga in synpunkter på den
psykosociala miljön. Troligen har man en uppdelning i ytterligare delaspekter förutom dessa huvudgrupper av fysisk och social miljö. Inom den
© Horst Löfgren
49
psykosociala delen har kanske avsikten varit att försöka studera relationerna mellan de anställda, mellan de anställda och chefen, atmosfären i arbetsenheten, upplevd psykisk påfrestning etc.
Om undersökningen är välplanerad har man konstruerat frågor som ska
täcka in olika aspekter av arbetsmiljön. För att få bra tillförlitlighet inom
respektive ”mätområde” har man ställt mer än en fråga. Det blir då kanske
inte så intressant att utnyttja de erhållna mätvärdena på varje fråga och
redovisa varje fråga separat. Eftersom det, trots att man kanske gjort bra
frågor, ändå finns vissa mätfel (respondenterna kanske har förstått frågorna
något olika eller inte besvarat alla frågorna lika noggrant) hade det kanske
varit bättre om man kunde bilda vissa index, dvs. slå samman svaren på
frågor som mäter delar av samma område. En utgångspunkt är att studera
korrelationerna mellan samtliga mätvariabler, men det blir svårt för att inte
säga omöjligt, att få en uppfattning hur de olika variablerna hänger ihop.
Man kan möjligen se att vissa variabler har högre samband med varandra
än med andra. Den faktoranalytiska ansatsen är till för att se om de erhållna korrelationerna kan förklaras av ett mindre antal hypotetiska (latenta) variabler.
I vissa situationer har man kanske konstruerat ett antal frågor utan att ha
delat in det område de avser mäta i några olika delområden. Det är kanske
inte att rekommendera, att man inte riktigt vet vad man avser att mäta annat än i huvuddrag. Det är kanske också så att man har andra mätvariabler
förutom svaren på arbetsmiljöenkäten och att man vill relatera samtliga
variabler till varandra, dvs. se hur alla insamlade variabler hänger ihop.
Om man nu använder en analysmetod som kan reducera alla mätvariablerna till ett mindre antal dimensioner utan att man förlorar alltför mycket
information, skulle det vara ett sätt att få reda på vad insamlade variabler
mäter. Man skulle på detta sätt kunna få en djupare förståelse för insamlade data, dvs. få en validering av instrumentet. Detta sätt att analysera sina
mätinstrument sker således i ett explorativt syfte. Mycket ofta har används
faktoranalys just i detta syfte inom samhällsvetenskaperna (exploratory
factor analysis).
En annan situation i vilken man kan använda faktoranalys är om man vill
pröva ett antagande om hur mätvariablerna hänger ihop. Man kan ha utgått
ifrån antagandet att det finns några få underliggande dimensioner, som kan
förklara utfallet i data och att vissa frågor hör till olika, på förhand bestämda dimensioner. Detta sätt att pröva hypoteser om förhållandet mellan
latenta och manifesta variabler kallas hypotesprövande faktoranalys (con50
© Horst Löfgren
firmatory factor analysis). Man prövar således om antalet faktorer stämmer
med den plan man hade vid konstruktionen av frågorna i den arbetsmiljöenkät man konstruerat. Detta blir då ett sätt att validera mätinstrumentet,
dvs. se om olika grupper av frågor verkligen mäter de olika aspekterna av
arbetsmiljön som de var avsedda att mäta.
Om planeringen av den nämnda arbetsmiljöstudien var så att de 50 frågorna skulle mäta 6 olika delaspekter av arbetsmiljön borde faktoranalysen
ge ett resultat som kan tolkas så, att frågorna grupperar sig i 6 olika områden. En och annan fråga kanske inte faller ut som förväntat. Med facit i
hand kanske man kan förstå varför vissa frågor inte visade sig vara så bra.
Det kan dels bero på frågans konstruktion, men kanske också på att den
undersökta gruppen har svarat på något extremt sätt.
Faktoranalys antar att observerade variabler kan uttryckas som en linjär
kombination av underliggande hypotetiska faktorer. Den bakomliggande
faktorn är orsak till samvariationen mellan de observerade variablerna. I
exemplet ovan om arbetsmiljön antar vi att ett antal frågor, som handlar
om relationerna mellan de anställda inom en arbetsenhet kan förklaras av
en underliggande faktor, som skulle kunna benämnas ”gruppsamverkan”.
Frågorna kan vara olika mycket relaterade till faktorn. Man säger att frågorna har olika laddningar i faktorn, dvs. korrelerar olika mycket med
faktorn. Även om en faktor är en s.k. latent variabel, en konstruktion, får
den sin tolkning av de frågor som har högst laddningar i faktorn.
2.7.2
Extrahering av faktorer - ett förklarande
exempel
Tänk Dig en diskus. Den består av ett stort antal ”delar” och är cirkelformad. En diskus är ganska flat, om än något tjockare kring mitten. Om man
nu skulle vilja reducera alla diskusens olika delar till ett antal mindre komponenter, hur skulle detta kunna ske? Om vi skulle skicka igenom en pil,
lägga in en principalkomponent (en vektor i ett koordinatsystem), i denna
diskus på ett sådant sätt att pilen kom så nära som möjligt diskusens alla
olika delar, hur kommer den då att läggas in? Den måste naturligtvis gå
igenom mittpunkten och läggas in i det ”flata planet”. Om diskusen är helt
rund och lika tjock i mitten och tunnare utåt kanterna kan man lägga in
denna komponent någonstans från kanten och igenom mitten. Denna komponent genom ”svärmen av atomer” ligger nu så nära som möjligt disku-
© Horst Löfgren
51
sens alla beståndsdelar, dvs. varje punkts kvadrerade avstånd från komponenten är så liten som möjligt. Visserligen ligger en hel del delar av diskusen ganska långt ifrån den komponent som lagts in, men totalt sett ligger
komponenten så nära som möjligt diskusens alla delar.
p2
p1
p3
.
Om vi nu skulle lägga in ytterligare en principalkomponent, som är vinkelrät (ortogonal) mot den första och som fångar upp det mesta av det som
inte redan har fångats upp av den första, hur ska den läggas in? Möjligen
kunde man föreslå att den skulle gå igenom mittpunkten uppifrån och ner.
Den nya komponenten kommer visserligen att i flesta fall ligga nära andra
delar än den första, men ändå inte ligga särskilt nära mer än delarna i mitten. Bättre måste vara att lägga in den i samma plan som den första, men
vinkelrät mot denna. Den borde, om diskusen fortfarande är perfekt symmetrisk och rund, ligga lika nära de flesta av diskusens olika delar som den
första. Dessa två första komponenter fångar s a s in lika stora delar av allt
som finns.
Om man nu vill lägga in en tredje komponent, som är vinkelrät mot de två
första men som fångar in så mycket som möjligt, hur ska den läggas in? Ja,
nu kommer den att läggas in genom mittpunkten på det tjockaste stället,
dvs. uppifrån och ner. På det här sättet försöker en dimensionsanalys att
lägga komponenter, som är okorrelerade med varandra och som fångar upp
så många av diskusens delar som möjligt. Vi klarar av att tänka oss tre
dimensioner, men sedan blir det svårt. Skulle diskusen inte vara rund utan
oval, finns det endast ett sätt att lägga in den första komponenten och
denna kommer att fånga in en större andel av variansen än vad den nästkommande kommer att göra. Allt eftersom man lägger in komponenter i
olika plan (vektorer enligt figuren ovan) kommer de att fånga in mindre
och mindre av den totala variansen. Lägger man in lika många komponenter som antalet mätvariabler har man visserligen fångat in all varians, men
då har man inte reducerat antalet variabler.
52
© Horst Löfgren
I en faktoranalys kan man extrahera lika många faktorer som det finns
variabler. Eftersom vi är intresserade att reducera mängden manifesta variabler (uppmätta variabler) vill vi endast använda så många faktorer att vi
fångat upp den delen av variansen, som tillräckligt väl beskriver den totala
informationen. Om ett begränsat antal faktorer fångar upp 70-75 % av den
totala variansen kan detta anses vara ett bra resultat.
2.7.3
Gemensam varians, specifik varians och
felvarians
Om man har ett antal frågor som mäter området ”gruppsamverkan” kommer dessa frågor att samvariera, dvs. korrelera med varandra. För varje
fråga (variabel) finns således en del som den har gemensamt med en eller
flera andra frågor. En del av informationen (variansen) är specifik för just
denna fråga och en del, förhoppningsvis en mindre del, är felvarians. Eftersom alla sådana här mätinstrument inte är perfekt reliabla måste en del
av variansen bero på mätfel. Om vi nu beaktar samtliga frågor i enkäten
skulle vi kunna beskriva den totala variansen enligt nedanstående figur.
En del av den totala variansen är således gemensam för åtminstone två
frågor. Varje fråga har en unik del, varav en del är specifik och resten är
mätfel. En komponentanalys kan sägas vara variansorienterad medan andra
faktoranalysmetoder är kovariansorienterad. Det förstnämnda innebär att
hela variansen analyseras, medan det sistnämnda innebär att endast den
gemensamma variansen analyseras.
Gemensam del
Gemensam varians
Unik del
Specifik varians
Felvarians
Total varians
Figur 2.11. Varianskomponenter
I en komponentanalys omstrukturerar man en variabelmängd. Från de ursprungliga variablerna försöker man finna ett färre antal nya, okorrelerade
variabler som kan förklara maximal varians i de ursprungliga variablerna. I
© Horst Löfgren
53
faktoranalys försöker vi endast komma åt de ursprungliga variablernas
gemensamma varians.
Eftersom man i dessa dimensionsanalyser ofta utgår ifrån en korrelationsmatris (standardiserade variabler med variansen=1) blir den totala variansen i vårt exempel med arbetsmiljöenkäten 50, eftersom vi har 50 variabler.
2.7.4
Arbetsgången vid faktoranalys
Man använder således faktoranalysmetoder huvudsakligen antingen i explorativt syfte eller för att pröva ett antagande om att utfallet i mätvariablerna kan förklaras av ett fåtal underliggande latenta variabler. I båda fallen kan man tala om tre steg i analysen:
1 framtagning av en kovariansmatris (ofta en korrelationsmatris),
2 extraherandet av initiala faktorer enligt någon vald metod,
3 rotering av faktorerna för att finna en tolkbar lösning.
Det finns olika metoder för att extrahera faktorer, men avsikten är att bestämma ett minimiantal faktorer som tillräckligt väl kan reproducera den
ursprungliga korrelationsmatrisen av de manifesta variablerna. En metod
som ofta förekommer som standard är principalkomponentmetoden (Principal Component Analysis). Metoden innebär en linjär transformation av
de ursprungliga mätvariablerna till ett betydligt mindre antal okorrelerade
latenta variabler (komponenter). Den första faktorn (komponenten) svarar
för så mycket varians som möjligt, den andra för så mycket som möjligt av
vad som finns kvar sedan den första faktorn extraherats, den tredje för vad
som finns kvar när väl de två första faktorerna extraherats etc.
Det finns olika tumregler för hur många faktorer som ska extraheras. En
regel som tidigare är nämnd säger att ca 70 % av den totala variansen bör
fångas in av de extraherade faktorerna. En annan tumregel är att ta ut samtliga faktorer som har ett egenvärde ≥ 1,0, förutsatt att man utgår ifrån korrelationsmatrisen. Med egenvärde (eigenvalue) menas hur stor varians en
faktor har, dvs. hur mycket som en faktor fångar upp av variansen i de
ursprungliga variablerna.
Efter extraheringen av lämpligt antal faktorer genomförs en s.k. rotering
(transformation) för att finna en enkel struktur, dvs. en tolkbar lösning. Det
54
© Horst Löfgren
innebär att axlarna roteras utan att den gemensamma variansen i varje
fråga förändras (kommunaliteterna). Man behåller således antalet faktorer
och kommunaliterna för varje mätvariabel intakt. Även här finns olika
metoder för att rotera faktorerna. De två huvudgrupperna av metoder är
”orthogonal” rotering och ”oblique”. Den sistnämnda använder inte restriktionen att faktorerna ska vara vinkelräta mot varandra. För den som
inte är väl insatt i skillnaderna mellan roteringsmetoder rekommenderas
orthogonal rotering enligt varimax-metoden. Metoden innebär att man för
en faktor roterar för att få en så stor variation i laddningarna som möjligt,
dvs. får så många höga respektive låga laddningar i faktorn. Helst vill man
erhålla ett resultat i vilket en enskild mätvariabel har en hög laddning i en
faktor och låga laddningar i alla andra (simple structure).
Om man har två alltför lika påståenden bland sina mätvariabler kan dessa
falla ut som en egen faktor, en s.k. parfaktor. Detta är inte bra, för då
kanske man kan luras att tro att det rör sig om en kvalitativt skild faktor
från de övriga i mätområdet.
För att erhålla ett stabilt resultat i en faktoranalys bör antalet mätobjekt
(individer) vara stort i förhållande till antalet variabler. Om man har 20
gånger så många mätobjekt som antalet variabler är stabiliteten i utfallet
god.
2.7.5
Ett praktiskt exempel och förklaring av
analysresultatet
I en undersökning deltog 541 elever ur grundskolans årskurs 9. Kompletta
svar finns från 211 elever. De fick besvara några frågor om deras föräldrars utbildningsbakgrund samt förekomsten av vissa typer av samtal och
diskussioner i hemmet. Mammans och pappans utbildningsbakgrund kan
ses som ett mått på socioekonomisk status. Utbildning är en ofta använd
indikator på social bakgrund. De övriga fyra frågorna var tänkta att säga
något om en annan aspekt av den sociala bakgrunden. Möjligen skulle man
kunna tala om ”hemkultur”. För att pröva om mätinstrumentet verkligen
mätte två olika aspekter av den sociala bakgrunden genomfördes en faktoranalys av dessa sammanlagt 6 indikatorer. Som förväntat erhölls två
faktorer med egenvärdet större än 1,0. Extraheringsmetod var principalkomponentmetoden och roteringen gjordes enligt en varimax-metod. Av
den totala variansen fångades 68 % in av de två faktorerna, ett resultat som
© Horst Löfgren
55
stämmer ganska bra med det tidigare nämnda kriteriet att ca 70 % bör
fångas in. Av de slutligen erhållna estimaten av kommunaliterna framgår
att ingen av mätvariablerna är unik i sammanhanget. Värdena ligger mellan 0,55 och 0,77. Kommunaliterna säger hur mycket av variansen i mätvariabeln som har fångats upp av de båda faktorerna. Den tredje tabellen
visar den oroterade matrisen och denna är ej lätt att tolka och behövs
egentligen inte om mer än en faktor extraherats. I det här fallet har vi erhållit två faktorer och därför går vi till den roterade matrisen för att kunna
tolka utfallet av analysen.
Som framgår av de roterade faktorerna återfinns de två måtten på föräldrarnas utbildningsbakgrund i en faktor och de övriga fyra måtten på ”hemkultur” i en annan faktor. Eftersom vi utnyttjat en optionsmöjlighet i SPSS
har variablerna lagts i ordning så att det blir lättare att se vilka variabler
som mest bidrar till tolkningen av faktorn. I det här faller har vi dessutom
undertryckt värden som är mindre än 0,30, varför tabellen blir ännu lättare
att läsa. Ibland kan det vara värdefullt för tolkningen att ändå se laddningarna, dvs. korrelationerna, mellan variablerna och faktorerna, även om de
är låga. Denna tabell har också lagts in för att visa hur det totala utfallet
blev. Kvadrerar man och summerar samtliga laddningar i en faktor erhålls
variansen för faktorn (2,51 resp. 1,57 i de roterade faktorerna).
Vi kan således konstatera att vi genom dessa 6 indikatorer mäter två olika
aspekter av den sociala bakgrunden. Mätinstrumentet har fungerat som
avsikten var. Efter att ha konstaterat att instrumentet har validitet borde
man, om man avser att bilda en summavariabel (index) av de i faktorn
ingående indikatorena, skatta mätsäkerheten i detta index, lämpligen med
hjälp av Cronbach’s alpha-koefficient (se avsnitt 2.8). Istället för att bilda
en enkel summapoäng av mätvariablerna kan man använda erhållen faktorpoäng för varje individ i fortsatta beräkningar.
Som tidigare nämnts är de faktorer som extraheras okorrelerade. Roteringen med varimax är en orthogonal metod, men de erhållna faktorerna blir ej
längre okorrelerade. I exemplet nedan finns ett samband mellan faktor 1
och faktor 2 på 0,319. Det finns således ett visst samband mellan faktorerna ”föräldrarnas utbildningsbakgrund” och ”hemkultur”, vilket är högst
rimligt.
Nedan följer ett utdrag ur resultatet av en faktoranalys genomförd med
programmet SPSS. I beställningen av analysen har angetts att endast faktorer med egenvärde ≥1,0 ska extraheras för att därefter roteras. Observera
att tabellen ”Total Variance Explained” är något justerad pga. platsbrist.
56
© Horst Löfgren
Factor Analysis
Communal iti es
MODERNS UTBI LDNING
FADERNS UTBI LDNING
ARBETE OC H SKOLA
FAMI LJEANGELÄGENHETER
PLANERAR TILLSAMMANS
DISKUTERAR ALLMÄNNA TI NG
Init ial
1, 000
1, 000
1, 000
1, 000
1, 000
1, 000
Extraction
,770
,760
,624
,763
,611
,548
Extraction Met hod: Principal Component Analy sis.
Total Variance Explained
Component
1
2
3
4
5
6
Initial Eigenv alues
% of
CumulaTotal
Variance
tiv e %
2,783
46,376
46,376
1,293
21,556
67,932
,629
10,481
78,414
,537
8,945
87,359
,423
7,048
94,406
,336
5,594
100,000
Rotation Sums of Squared
Loadings
% of
CumulaTotal
Variance
tiv e %
2,509
41,814
41,814
1,567
26,119
67,932
Extraction Met hod: Principal Component Analy sis.
Component Matrixa
Component
FAMI LJEANGELÄGENHETER
ARBETE OCH SKOLA
PLANERAR TILLSAMMANS
DISKUTERAR ALLMÄNNA TING
FADERNS UTBILDNING
MODERNS UTBI LDNING
1
,805
,754
,747
,731
,453
,517
2
-,339
,745
,709
Extract ion Method: Principal Component Analy sis.
a. 2 components extracted.
© Horst Löfgren
57
Rotated Component Matriax
Component
1
2
,872
,782
,774
,709
,867
,862
FAMI LJEANGELÄGENH ETER
ARBETE OCH SKOLA
PLANER AR TILLSAMMANS
DISKUTERAR ALLMÄNNA TING
FADERNS U TBI LDNI NG
MODERNS UTBI LDNI NG
Extraction Met hod: Princ ipal Component Analy sis.
Rot ation Met hod: Varimax with Kaiser Normalizat ion.
a. Rot ation conv erged in 3 iterations.
Rotated Component Matrixa
Component
1
2
,872
,039
,782
,110
,774
,112
FAMI LJEANGELÄGENHETER
ARBETE OCH SKOLA
PLANERAR TILLSAMMANS
DISKUTERAR ALLMÄNNA
TING
FADERNS UTBILDNING
MODERNS UTBI LDNING
,709
,213
,090
,164
,867
,862
Extraction Method: Principal Component Analy sis.
Rotation Met hod: Varimax with Kaiser Normalization.
a. Rotation conv erged in 3 iterations.
Component Transformation Matrix
Component
1
2
1
,903
-,429
2
,429
,903
Extraction Method: Principal Component Analy sis.
Rotation Met hod: Varimax wit h Kaiser Normalization.
58
© Horst Löfgren
2.8
Reliabilitet
Om jag ställer mig på en gammal våg för att kontrollera min vikt, kan den
kanske visa något olika värden vid olika mättillfällen, trots att jag väger
mig med bara minuters mellanrum. Om vägningarna är gjorda inom en så
kort tidsperiod att jag inte ändrat vikt, skulle man kunna anta att medelvärdet av de olika mätningarna är en bra skattning av min sanna vikt. Detta
gäller dock endast om det inte finns systematiska fel vid vägningen, t.ex.
att vågen på grund av feljustering hela tiden visar ett kilo för mycket. Det
systematiska felet benämns även med de engelska termerna ”bias” och
”accuracy”. Den skillnad som finns mellan vikten vid ett mättillfälle och
medelvärdet för viktmätningarna är storleken av mätfelet vid detta mättillfälle.
Låt oss nu anta att jag väger mig ett antal gånger på en annan och kanske
modernare våg och att spridningen av mätvärden nu är betydligt mindre än
vid den gamla vågen. Detta innebär då att den nya vågen är mera mätsäker,
dvs. har högre reliabilitet.
Om vi nu går över till att mäta andra ting än sådana relativt enkla saker
som att mäta vikt, kan det bli mer problematiskt att konstruera mätsäkra
skalor. Via olika test eller enkäter försöker vi mäta människors förmågor,
attityder eller andra ting, där vi inte har så välutvecklade instrument. I ett
frågeformulär om stress ställs ett antal frågor som kanske kan summeras
till ett hyggligt mått på stress. Förutom att ställa frågor om frågornas validitet, dvs. om de verkligen mäter det vi har definierat som stress, bör vi
också ställa frågan om hur säkert vi mäter stress. Validitetsproblematiken
kan vi bl.a. studera med hjälp av faktoranalys. För att uttala oss om mätsäkerheten måste vi finna ett sätt att skatta denna.
Utgångspunkten för nästan alla reliabilitetsteorier är att erhållet värde på
ett test (t) är lika med det sanna värdet (T) plus ett mätfel (e).
t = T + e (test score = True score + error)
Om man har perfekt reliabilitet, dvs. inga mätfel, blir således t = T. Mätfelen kan självfallet anta både positiva och negativa värden och i regel
antas att medelvärdet för mätfelen är noll. Reliabiliteten kan definieras
som den kvadrerade korrelationen mellan t och T. Om denna korrelation är
lika med 1,0 innebär detta en perfekt reliabilitet. Skulle korrelationen vara
noll är mätningen helt slumpmässig.
© Horst Löfgren
59
För att bestämma reliabiliteten måste vi korrelera t med T, trots att vi endast har tillgång till t-värden. Man skulle kunna skatta korrelationen om
man har tillräckligt mycket information om relationen mellan ett antal
observerade variabler (testresultat eller testuppgifter). Ur detta resonemang
har utvecklats olika reliabilitetsteorier och olika sätt att skatta reliabiliteten.
I klassisk reliabilitetsteori utgår man ifrån begreppet ”parallella mätinstrument”, dvs. instrument som mäter samma egenskap på samma sätt.
Sådana instrument är således utbytbara och ska ge samma resultat. För att
instrument ska kunna betraktas som parallella måste flera antaganden
gälla. Mätfelen för alla mätobjekt med samma T-värde ska i genomsnitt
vara noll, mätfelen ska vara lika över hela skalan, mätinstrumentet ska ge
mätfel som är oberoende av varandra och mätinstrumentet ska mäta
samma egenskap. Under dessa förutsättningar kan man beräkna mätsäkerheten.
Om man har tillgång till två parallella mätinstrument, kan man använda
mätresultat från dessa för att skatta reliabiliteten. Korrelationen mellan
mätresultaten blir då ett mått på mätsäkerheten. Emellertid kan det vara
svårt att konstruera två parallella test och därför väljer man vanligtvis annan metod. Självfallet skulle det vara enklare, om man kunde skatta reliabiliteten utifrån ett mättillfälle med ett enda mätinstrument.
Den s.k. ”split-half-metoden” är ett sätt att ett enda mätinstrument och dela
upp den i två delar för att med hjälp av sambandet mellan dessa två delar
skatta reliabiliteten. Om man korrelerar resultatet över observationer på
dessa halvor (r12) för att därefter applicera den s.k. Spearman-Brown’s
formel erhålls ett bra mått på reliabiliteten.
r(1+2) =
2. r12
______________
1 + r12
(formel 2.16)
Det finns olika sätt att dela upp testet i två halvor. Gör man det för hand,
kan det vara lämpligt att först rangordna testuppgifterna efter lösningsfrekvens (svårighetsgrad) för att därefter dela upp testet i udda och jämna
uppgifter. De udda respektive jämna uppgifterna utgör då de två halvorna.
Att man uppjusterar med Spearman-Brown’s formel beror på att testet
halverats i längd i förhållande till hela testet. Det gör själfallet ingenting
om man har ett udda antal testuppgifter för hela testet.
60
© Horst Löfgren
Ibland använder man den s.k. retest-metoden, vilket innebär att man mäter
två gånger med samma test och reliabiliteten blir då skattad utifrån korrelationen mellan de två mättillfällena. Nackdelen är ju att mätningarna
måste komma relativt nära i tid och då kan respondenterna reagera på att få
samma sak en gång till, och dessutom kan man få minneseffekter. Om det
går en längre tid mellan mätningarna har kanske respondenterna förändrat
sig i något väsentligt avseende. Risken vid test-retest-metoden är att mätsäkerheten blir sammanblandad med stabilitet över tid.
En metod som numera ofta används är att beräkna homogenitetskoefficient, den s.k. alpha-koefficienten. Denna koefficient går under namnet Kuder-Richardson’s formel om uppgifter utvärderas binärt (t.ex. rätt – fel).
Av olika reliabilitetsskattningsmetoder är Cronbach’s alpha, som den
också kallas, att föredra. Den innebär att man ställer variansen för de enskilda uppgifterna i relation till totalvariansen för testet. Om man försöker
mäta ett och samma område (begrepp, dimension) med flera testuppgifter
(frågor, påståenden) är denna metod lämplig. Skulle man emellertid mäta
flera olika dimensioner med ett antal testuppgifter kan alpha-koefficienten
indikera en lägre mätsäkerhet. Metoden bygger på att uppgifterna hänger
ihop, dvs. mäter en och samma dimension, om än till viss del olika delar av
denna dimension. Alpha-koefficienten kallas också ibland homogenitetskoefficient och beräknas på följande sätt:
n
2
alpha = ________ ( 1 - _________
)
n–1
2tot
n = antalet uppgifter i testet
(formel 2.17)
I SPSS finns möjlighet att via ”Scale” få ett mått på reliabilitet, både den
här presenterade split-half-koefficienten och alpha-koefficienten.
2.8.1
Beräkning av Cronbach’s alpha
I en studie av elever i årskurs 9 hade man samlat in data om vad vi kan
kalla för hemkulturförhållanden (jfr exemplet i avsnitt 2.7). Frågor ställdes
om hur ofta barn och vuxna i familjen gör saker tillsammans. De sex frågorna, som av en faktoranalys visade sig mäta en och samma dimension,
handlade om vad som händer på arbetet och i skolan, familjeangelägenheter, vad man planerar tillsammans, diskussion av allmänna angelägenheter,
© Horst Löfgren
61
diskussion om någon bok samt diskussion om något TV- eller radioprogram.
Från beskrivande analys kan vi erhålla standardavvikelserna och därmed
varianserna (standardavvikelserna i kvadrat) för varje enskild fråga. Efter
att ha summerat de sex frågorna till en summapoäng kan man erhålla variansen för hela testet. Observera att man endast kan ta med de elever som
har svarat på alla sex frågorna. Varianserna för de sex frågorna och totaltestet är 1.67, 1.82, 1.49, 1.89, 1.05, 1.77 och 28.68. Eftersom n = 6 erhålls
följande alpha-koefficient:
6
9,69
alpha = __________ ( 1 ) = 0,79
6–1
28,68
Den erhållna koefficienten 0,79 visar att reliabiliteten är ganska god, speciellt med tanke på att vi endast har sex frågor, och att det handlar om ett
område, som inte är alldeles enkelt att mäta. Som mått på den dimension
som skulle mätas fungerar summavariabeln utmärkt, när det gäller att jämföra grupper, t.ex. skillnaden mellan pojkar och flickor. När det gäller att
uttala sig om enskilda individer krävs högre reliabilitet för att man ska vara
rimligt säker. En split-half korrelation skulle i detta fall ge 0,56, dvs. reliabilitetsvärdet 0,72 efter korrigering med Spearman-Brown’s formel. Att
dela upp sex uppgifter i två halvor ger ju endast tre uppgifter i varje och
det är väldigt få för att använda denna metod.
2.8.2
Ett numeriskt exempel
Låt oss ta ett enkelt exempel och med hjälp av varianser skatta mätsäkerheten. I exemplet kommer vi endast att visa data från 10 observationer.
Normalt har man ju betydligt fler observationer, när man vill undersöka
validitet och reliabilitet. Tio personer har genomfört två test, ett verbalt test
och ett för att mäta logisk slutledningsförmåga. Det verbala testet består av
endast fyra uppgifter (V1-V4). Svaren på dessa uppgifter har bedömts i en
femgradig betygsskala. Testet på logisk slutledningsförmåga består av åtta
uppgifter L1-L8. På dessa kan man endast få rätt eller fel på varje uppgift.
62
© Horst Löfgren
Tabell 2.6. Testresultat för de 10 individerna på det verbala testet
____________________________________________________________
Ind.
V1
V2
V3
V4
V-totalsumma
____________________________________________________________
A
2
3
3
2
10
B
2
1
1
3
7
C
4
3
4
3
14
D
3
5
3
4
15
E
3
2
3
3
11
F
4
5
5
5
19
G
3
3
2
3
11
H
2
3
2
2
9
I
1
1
2
1
5
J
4
5
4
4
17
s
1,03 1,52 1,20 1,16
4,42
s2
1,07 2,32 1,43 1,33 = 6,15 19,51
____________________________________________________________
Cronbach’s alpha på detta test ger:
alpha =
n
_______
n–1
(1-
2
_________
2tot
);
4
6,15
( 1 - ________ ) = 0,91
3
19,51
_____
Reliabiliteten på det verbala testet är således mycket god. De fyra uppgifterna är mycket homogena, dvs. har mycket gemensam varians. Låt oss
även analysera testet avseende logisk slutledningsförmåga, där varje uppgift bedöms som rätt eller fel (Tabell 2.7).
© Horst Löfgren
63
Tabell 2.7. Testresultat för de 10 individerna på det logiska testet
____________________________________________________________
Ind.
L1 L2 L3 L4 L5 L6 L7 L8 L-totalsumma
____________________________________________________________
A
B
C
D
E
F
G
H
I
J
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
0
1
1
1
1
1
1
0
1
1
1
1
1
0
1
1
0
0
1
0
0
1
1
1
1
1
0
0
1
1
0
0
0
1
1
0
1
0
1
0
0
1
0
0
1
0
0
0
1
0
0
0
1
0
1
0
0
0
0
5
3
6
6
5
8
5
4
1
7
p
1,00 0,90 0,80 0,70 0,60 0,50 0,30 0,20
q
0,00 0,10 0,20 0,30 0,40 0,50 0,70 0,80
p.q
0,00 0,09 0,16 0,21 0,24 0,25 0,21 0,16 = 1,32 4,00
____________________________________________________________
Variansen vid en binär kodning (rätt eller fel) är p . q, där p = sannolikheten att svara korrekt och q = 1 – p (dvs. sannolikheten att svara fel). Summan av de åtta varianserna är 1,32. För summavariabeln, dvs. det sammanlagda resultatet på testet, blir variansen 4,00.
Om vi nu beräknar reliabiliteten på testet av logisk slutledningsförmåga
erhålls följande (enligt Kuder-Richarson’s formel, ofta benämnd KR20):
alpha =
n
_________
n–1
( 1-
.
p
q
_________
2tot
);
8
_______
7
1,32
( 1 - _________ ) = 0,77
4,00
Om man skulle beräkna en split-half koefficient på testet logisk slutledningsförmåga delar man lämpligen de åtta uppgifterna enligt nedan. Uppgifter ligger redan efter lösningsfrekvens i tabellen och det går att direkt
dela testet i två delar. Skulle man strikt ta alla udda uppgifter i den ena
64
© Horst Löfgren
gruppen och alla jämna i den andra gruppen skulle den sistnämnda gruppen få något högre resultat. För att ungefärligen nå samma medelvärde på
de två halvorna kan man dela upp testet enligt ”abba-sättet”. Detta innebär
att uppgifterna L1, L4, L5 och L8 bildar den ena halvan och L2, L3, L6
och L7 den andra. De 10 respondenterna får då följande resultat på de två
halvorna, benämnda del 1 och del 2:
Tabell 2.8. Testresultat för de 10 individerna på de två testhalvorna
____________________________________________________________
Ind.
L1 L2 L3 L4 L5 L6 L7 L8 del 1 del 2
____________________________________________________________
A
1
1
1
1
0
1
0
0
2
3
B
1
1
0
1
0
0
0
0
2
1
C
1
1
1
1
1
0
1
0
3
3
D
1
1
1
1
1
0
0
1
4
2
E
1
1
1
0
1
1
0
0
2
3
F
1
1
1
1
1
1
1
1
4
4
G
1
1
1
1
1
0
0
0
3
2
H
1
1
1
0
0
1
0
0
1
3
I
1
0
0
0
0
0
0
0
1
0
J
1
1
1
1
1
1
1
0
3
4
En produktmomentkorrelation på de två testhalvorna ger r = 0,446, vilket
efter Spearman-Brown’s korrektion ger 0,62. Detta är en dålig mätsäkerhet
och en åtgärd som kan rekommenderas är att förlänga testet, dvs. lägga till
fler uppgifter. Det finns en formel för vad man kan förvänta att få för reliabilitet, om man förlänger testet. En fördubbling av antalet uppgifter skulle
kunna förväntas öka reliabiliteten till 0,77.
Relny =
© Horst Löfgren
n . relgammal
1 + relgammal
; där n = antalet gånger testet förlängs
65
3
Parametriska hypotesprövningsmetoder
För de parametriska hypotesprövningsmetoderna gäller att vissa förutsättningar bör vara uppfyllda. Sålunda förutsätts att observationerna i stickprovet kommer från en specificerad i regel normalfördelad observationsvariabel, och att mätskalan är intervall- eller kvotskalerad. Vid analys av
differenser mellan små stickprov förutsätts också, att mätvariabelns varians är lika i de bakomliggande populationerna. Många gånger i beteendevetenskapliga sammanhang har man dock data på endast ordinalskalenivå.
Om stickprovet inte är alltför litet och data synes vara approximativt normalfördelade används ofta parametriska metoder. Man kan visa att dessa
metoder i flesta fall är robusta mot avvikelser i ovan nämnda förutsättningar.
Fysiska mätningar är ofta normalfördelade (längd, vikt). Däremot vet vi
sällan något om mätningar av psykiska förmågor (kunskap, intelligens,
färdighet). Vid den sistnämnda typen av mätningar har man ingen given
skala, utan man konstruerar en skala och standardiserar den med normalfördelningen som bas. Vi har sålunda sett till att det vi försöker mäta, genom valet av uppgifter, ger värden som är approximativt normalfördelade.
Det är i många forskningssammanhang lämpligt, bl.a. för den statistiska
analysen, att normalstandardisera de variabler som studeras.
3.1
Urvalsmetoder
De vanligaste slumpmässiga urvalsmetoderna är obundet slumpmässigt
urval (OSU), systematiskt urval, stratifierat urval och klusterurval. Det
kanske mest vanliga urvalet, åtminstone i beteendevetenskapliga sammanhang, är dock det icke-slumpmässiga urvalet, det s.k. tillfälliga urvalet.
66
© Horst Löfgren
Om ett stickprov är slumpmässigt draget ur en viss definierad population
innebär detta att stickprovet representerar populationen. Data från stickprovet kan således generaliseras till den definierade populationen. Vid
statistisk inferens förutsätts i regel obundet slumpmässigt urval.
I undersökningar där man av olika skäl tvingats använda ett ickeslumpmässigt urval, måste man kunna argumentera för att undersökningsgruppen är representativ för någon bakomliggande population, annars blir
den statistiska hypotesprövningen meningslös.
1. Obundet slumpmässigt urval (OSU)
Obundet slumpmässigt urval är ett bra sätt att erhålla representativitet.
Tillvägagångssättet är följande:
a) populationen definieras
b) populationens individer numreras 1, 2, 3, ....., N
c) stickprovets storlek bestäms
d) urvalet görs med hjälp av en slumptalstabell, lotter eller dylikt
2. Systematiskt urval
Ett sätt att slippa lotta ut samtliga individer till stickprovet är att välja var
k:te individ efter att slumpmässigt ha valt den första.
a) populationen definieras ( antag att N = 450)
b) stickprovets storlek bestäms (exempelvis n = 30)
c) kvoten N/n beräknas (r = N/n = 450/30 = 15)
d) slumpmässigt väljs ett tal mellan 1 och r (antag att vi erhåller 8)
e) det systematiska stickprovet blir då individ nr 8, 8+r, 8+2r, ....
8+29r (dvs. individ nr 8, 23, 38, ....., 428, 443)
Det systematiska urvalet fungerar bra, såvida det inte föreligger någon
periodicitet i populationen. Ett av de klassiska exemplen på ett misslyckat
systematiskt urval är hämtad från en osann historia ur militärlivet.
Vid en repetitionsövning vintertid klagade repgubbarna på att det var för
© Horst Löfgren
67
kallt i barackerna. Plutonchefen, som ansåg sig statistiskt kunnig, utförde
då en stickprovsundersökning. Han utnyttjade då ett systematiskt urval.
Barack A: S1 S2 S3 S4 S5 Kamin S6
Barack B: S1 S2 S3 S4 S5 Kamin S6
Barack C: S1 S2 S3 S4 S5 Kamin S6
......................................................................
Barack O: S1 S2 S3 S4 S5 Kamin S6
S= sängplats
Figur 3.1.
N= 150; n= 15
S7 S8 S9 S10
S7 S8 S9 S10
S7 S8 S9 S10
S7 S8 S9 S10
r=150/15 = 10
Sängarnas placering i förhållande till kaminen i barackerna
Slumpmässigt drogs nummer 5, och urvalet kom således att bestå av individ nr 5, 15, 25, ... 135 och 145. De som kom med i stickprovet fick besvara en enkel enkät med huvudfrågan om de frös eller ej på nätterna. Svaren blev väldigt lika, nämligen att det var något för varmt i barackerna för
att kunna sova gott (alla i stickprovet låg ju intill en kamin). Plutonchefen
ansåg sig därmed ha visat, att det ingalunda var för kallt i barackerna och
gav omedelbart order om att minska på eldningen i kaminerna.
3. Stratifierat urval
Om populationen kan delas in i ett antal homogena undergrupper, som
sinsemellan är olika i sin sammansättning med hänsyn till undersökningsvariabeln, kan man använda stratifierat urval. Det kan vara ett bra sätt att
garantera att alla undergrupperna blir representerade i stickprovet. Man
kan ibland välja proportionellt stratifierat urval, vilket innebär att delgrupperna blir representerade efter sin storlek.
a) populationen definieras,
b) de olika delgrupperna (strata) avgränsas genom en eller flera för
undersökningen viktiga klassifikationer,
c) ur varje strata dras ett slumpmässigt urval av önskad storlek med
hjälp av OSU eller systematiskt urval.
68
© Horst Löfgren
4. Klusterurval
Vid stora populationer kan det ibland vara praktiskt att använda klusterurval. Populationen delas då in i ett antal heterogena enheter (kluster), som
sinsemellan bör vara lika. Klusterurvalet sker ofta som ett tvåstegsurval.
a)
b)
c)
d)
e)
f)
populationen definieras,
urvalsenheterna (klusterna) bestäms,
antalet kluster som ska ingå bestäms,
de i urvalet ingående klustren dras genom OSU,
antalet individer som ska ingå ur varje kluster bestäms,
individerna dras genom OSU ur respektive kluster.
I nedanstående tabell jämförs stratifierat urval och klusterurval. Tabellen
tjänar också som riktlinje för när man bör välja den ena eller den andra
urvalsmetoden.
Tabell 3.1. Jämförelse mellan stratifierat urval och klusterurval vad gäller
hur mätobjekten ska vara
Strata
Kluster
Mellan
olika
lika
Inom
homogena
heterogena
5. Tillfälligt urval
Ofta tvingas man i praktiken använda ett icke-slumpmässigt urval. Det kan
vara av tids- eller kostnadsmässiga skäl eller helt enkelt därför att det är
det enda sättet som är praktiskt möjligt. Vi kan kalla detta för ett tillfälligt
urval. Med goda kontrollmöjligheter kan vi kanske våga påstå, att urvalet
är representativt för en viss population.
a)
b)
c)
d)
populationen definieras,
stickprovets storlek bestäms,
individer väljs i enlighet med vad som är praktiskt möjligt,
urvalsgrupperna kontrolleras ur representativitetssynpunkt på ett
antal väsentliga variabler.
© Horst Löfgren
69
3.2
Sannolikhetsbegreppet
Man hör ofta folk ironisera över den hjälp statistiken erbjuder. Vi har väl
alla hört uttrycket att det finns tre slags lögner; lögn, förbannad lögn och
statistik. Ibland försöker man bevisa saker och ting med statistik. Skulle
förutsägelser ej slå in säger kritikerna att statistiken ljuger. Låt oss slå fast
att man inte kan bevisa något med statistik, utan endast visa att något gäller med en viss grad av sannolikhet. Eftersom man med hjälp av inferensstatistik drar slutsatser med en viss grad av sannolikhet, dvs. tar en viss
risk för felslut, kan man ej påstå att statistiken ljuger. I det här sammanhanget är det två lagar, som man måste känna till för att kunna beräkna
sannolikheter, nämligen additionssatsen (för varandra uteslutande händelser) och multiplikationssatsen (för oberoende händelser).
Antag att vi kastar ett mynt. Två händelser kan då inträffa. Antingen erhålls ”krona” eller ”klave”. Vi utgår ifrån att myntet är symmetriskt, och
att det ej kan ställa sig på kant. Om du håller på utfallet ”klave”, kallas
detta utfall för ”ett gynnsamt fall”. Sannolikheten att erhålla klave (pklave)
är då 0,5.
antalet gynnsamma fall
1
pklave = ____________________ = ___
antalet möjliga fall
2
Sannolikheten att erhålla ”krona” är givetvis också 0,5. Om man summerar
sannolikheterna för varandra uteslutande händelser erhåller man p=1
(p=sannolikhet efter engelskans ”probability”).
Om vi kastar tärning, hur stor är chansen att erhålla en ”sexa”? Eftersom
det finns 6 möjliga fall erhålls psexa=1/6. Sannolikheten att erhålla en
”etta” är lika stor (1/6), om nu tärningen inte är falsk.
1. Additionssatsen för varandra uteslutande händelser
Om reglerna för Fia-spel säger att man måste slå en sexa eller en etta för
att få börja spelet, hur stor är då chansen att få endera av detta vid kast med
tärning? Eftersom petta och psexa båda är 1/6, och man måste erhålla det
ena eller det andra, blir chansen en på tre att lyckas.
petta + psexa = 1/6 + 1/6 = 2/6 = 1/3
70
© Horst Löfgren
2. Multiplikationssatsen för oberoende händelser
Hur stor är chansen att du vinner två gånger i rad vid myntkast? Låt oss
säga att du håller på klave. Chansen att vinna första gången är 1/2 och
andra gången lika stor. Du måste emellertid vinna båda gångerna. Det
finns således endast ett gynnsamt fall, men hur många möjliga utfall finns
det?
krona - krona
krona - klave
klave - krona
klave - klave x
Kryssmarkeringen står för det gynnsamma fallet med vinst två gånger i
rad. Eftersom det finns fyra möjliga händelser blir sannolikheten 1/4. Med
hjälp av multiplikationssatsen erhåller du lätt sannolikheten för detta utfall:
p= 1/2 .1/2 = 1/4
Antag att du spelar roulette, där chansen är lika stor för samtliga nummer
att falla ut (0-36). Det finns således 1/37 chans att vinna om man sätter på
nummer, dvs. man vinner i ungefär tre fall av hundra. Statistikern skulle ha
gjort prognosen, att du vid ditt nästa spel kommer att förlora. Observera då
att statistikern tar en viss risk i sin prognos. Risken är ungefär 3 %. Låt oss
leka med tanken att du faktiskt vann, när du satte jetongen på ditt lyckonummer. Ljuger statistiken?
3.3
Samplingfördelning
I ett föregående avsnitt redogjordes för några olika sätt att ta ut ett stickprov ur en population. När vi väl har vårt stickprov, kan vi beskriva det
genom beräkning av vissa index. Ofta ger medelvärdet och standardavvikelsen en god bild av hur stickprovet fördelningsmässigt ser ut. Låt oss
fortsätta resonemanget med ett konkret exempel i tankarna. Antag att vi
genomför ett begåvningstest på ett stickprov ur populationen ”elever i
årskurs 6”. Vi transformerar erhållna råvärden till den kända IQ-skalan
(µ=100; =15). Låt oss ta ett stickprov omfattande 25 elever. Vad får vi
© Horst Löfgren
71
för medelvärde i denna grupp? Ja, om det är ett slumpmässigt urval ur
populationen, borde vi få ett värde i närheten av 100. Du inser säkert att vi
slumpmässigt kan få ett något för högt eller något för lågt värde beroende
på om slumpen har gett oss för många högpresterande eller för många
lågpresterande elever i stickprovet. Låt oss nu välja ett nytt stickprov och
beräkna medelvärdet för detta nya stickprov. Vid nya stickprovsdragningar
kommer vi att få något varierande medelvärden. I Tabell 3.2 redovisas
några tänkbara medelvärdesresultat i de olika stickproven.
Tabell 3.2. Tänkbara medelvärden i slumpmässiga stickprov ur en population med µ=100 och s=15
____________________________________________________________
Stickprov nr Medelvärde
Stickprov nr
Medelvärde
____________________________________________________________
1
93,6
11
100,5
2
95,2
12
100,8
3
96,1
13
101,7
4
97,4
14
102,0
5
98,5
15
102,5
6
98,9
16
103,1
7
99,3
17
103,5
8
99,6
18
104,3
9
100,1
19
105,2
10
100,2
20
105,6
____________________________________________________________
Om vi markerar resultaten på IQ-skalan, kan vi därefter rita ett diagram
över hur utfallet av stickprovsmedelvärden blev.
x
x x x x x x xxxxxxxx xx x x x x x x
x
____________________________________________________________
93 94 95 96 97 98 99 100 101 102 103 104 105 106 107
Figur 3.2.
Några tänkbara medelvärden i slumpmässiga stickprov
Om vi tänker oss ett mycket stort antal stickprovsmedelvärden (M), skulle
dessa nästan alltid fördela sig symmetriskt kring populationsmedelvärdet
72
© Horst Löfgren
(µ). Du inser säkerligen att vi oftare finner att medelvärdena ligger nära
populationsmedelvärdet (i detta fall µ=100) och mera sällan längre bort
från populationsmedelvärdet. Ibland ger slumpen oss alldeles för bra elever, ibland alldeles för dåliga elever, men oftast ger slumpen oss en normal
och representativ elevgrupp. Om vi i stället skulle ha tagit ut större stickprov, exempelvis 100 elever, inser du säkert att slumpavvikelser från medelvärdet 100 blir mindre. Ju fler individer som finns med i stickprovet
desto ”säkrare” urval. Enstaka, om än kraftigt avvikande individer, får
mindre betydelse för gruppens medelvärde vid stora stickprov. Ritar vi upp
fördelningen för ett stort antal stickprovsmedelvärden, egentligen ett oändligt antal, erhålls följande fördelning:
Figur 3.3.
Samplingfördelningen med +/- 1 medelfel
Denna fördelning, som i regel kan antas ha normalfördelningens egenskaper, kallas för samplingfördelning. Medelvärdet i denna fördelning är,
som framgår av figuren, lika med populationsmedelvärdet (µ). Medelvärdet i samplingfördelningen betecknas µM. Standardavvikelsen i denna
fördelning är av central betydelse för inferensstatistiken. Denna standardavvikelse kan användas som ett mått på felet, som slumpen ger oss vid
stickprovsdragning. Ibland får vi ett medelvärde som är högre än populationsmedelvärdet, ibland får vi ett värde som är lägre. Hur ofta, uttryckt i
procent får vi ett medelvärde som ligger mellan -1M och +1M? Som du
kanske erinrar Dig ligger ungefär 68 % av samtliga observationer mellan
-1 och +1 i normalfördelningen. Således får vi ett medelvärde i vårt
stickprov, som i ungefär 2 fall av 3 ligger mellan µ - M och µ + M.
M kallas för medelfelet, dvs. det fel man får räkna med att erhålla vid
stickprovsdragning. Eftersom 2 fall av 3 får betraktas som något för osäkert väljer vi i stället att ta två gånger medelfelet.
© Horst Löfgren
73
Medelfelet är kärnan i inferensstatistiken och går i regel lätt att ungefär
beräkna för såväl ett som flera stickprov. För ett stickprov är medelfelet
lika med standardavvikelsen dividerat med kvadratroten ur antalet observationer.

M = ____
n
Figur 3.4.
(formel 3.1)
Samplingfördelningen med +/- 2.medelfelet
Enligt normalfördelningen hamnar ungefär 95 % av samtliga observationer
mellan µ-2 och µ+2.
3.4
Skattningar
Med skattning avser vi att antingen med kännedom om populationsparametrarna göra en skattning av karaktäristika i stickprovet eller med kännedom om stickprovskaraktäristika göra en skattning av populationsparametrarna. Parameter används här i betydelsen egenskaper i populationen.
µ och  är parametrar i populationen; M och s är karaktäristika i stickprovet.
Eftersom den sistnämnda skattningstypen ovan är det mest vanliga kommer vi i det följande att helt koncentrera oss på detta fall. Jämför med att vi
oftast gör stickprovsundersökningar och önskar generalisera resultaten till
den bakomliggande populationen. Låt oss ta ett exempel!
74
© Horst Löfgren
Antag att vi inom en större internationell undersökning önskar mäta
svenska elevers matematikkunskaper vid grundskolans avslutning. Ett prov
ges till ett slumpmässigt urval ur populationen omfattande 2500 ungdomar
elever i årskurs 9. I detta stickprov erhåller vi M=24,0 och s=6,00. Hur
många poäng har då svenska elever, dvs. vad blir populationsmedelvärdet?
Eftersom vi av praktiska skäl inte kan undersöka mer än detta stickprov,
måste vi med utgångspunkt i dessa data göra en skattning av populationsmedelvärdet. Enligt tidigare resonemang kan vi, beroende på slumpen i
urvalet av individer i stickprovet, ha erhållit ett medelvärde (M) som något
avviker från populationsmedelvärdet (µ). Därför ger vi ett intervall kring
det erhållna medelvärdet (M) och påstår att detta intervall täcker µ med en
viss grad av säkerhet. Ju större intervall desto större sannolikhet att µ täcks
av intervallets gränser. För att veta hur stort intervall vi ska ta kring M,
dvs. hur mycket vi ska addera respektive subtrahera från M, måste vi dels
bestämma säkerhetsnivån, dels ta hjälp av det tidigare beskrivna medelfelet. Eftersom vi nu inte vet standardavvikelsen i populationen (måste
vi skatta denna med hjälp av den erhållna standardavvikelsen i stickprovet.
Vi kan således beräkna medelfelet genom att dividera standardavvikelsen i
stickprovet med antalet observationer i stickprovet.
s
M = ____
n
(formel 3.2)
Vi kan konstatera att M minskar vid ökning av stickprovsstorleken. Det
är lätt att förstå att så blir fallet. Vad kan slumpen ställa till med vid ett litet
stickprov? Jo, en extremt bra individ kan råka komma med, och denne
individ höjer då medelvärdet. Om vi har många observationer medför detta
att enstaka extrema individer så att säga försvinner i mängden. Vi hade
beräknat M=24.0 och s=6,00 i vårt stickprov. Medelfelet blir då 0,12.
M = 6,00/2500 =0,12
Om vi nöjer oss med att ta M +/- M, dvs. 24,0 +/- 0,12 är chansen 68 %
att µ ligger inom detta intervall. Om vi ökar intervallet till M +/- 2M,
dvs. två gånger medelfelet, ökar också sannolikheten att täcka in µ. Sannolikheten blir nu ungefär 95 %. Det troliga är dock att µ ligger någonstans i
närheten av M och inte i intervallets extremvärden. För att täcka in µ med
en viss bestämd grad av säkerhet multipliceras medelfelet med ett värde,
som kan erhållas ur en t-fördelningstabell (se Appendix, Tabell A). Denna
t-fördelningen är en familj av t-fördelningar som är specificerade av anta© Horst Löfgren
75
let frihetsgrader, dvs. t-fördelningarna ser lite olika ut beroende på antalet
observationer i stickprovet. Med antalet frihetsgrader menas antalet värden
som är fria att variera, när man beräknat ett beskrivande mått, t.ex. när man
vet medelvärdet (jfr avsnitt 4.1.1). Utifrån t-fördelningen kan man erhålla
ett värde som medelfelet ska multipliceras med för att täcka in populationsmedelvärdet med en viss grad av säkerhet. I stället för att ta 2 gånger
medelfelet så kan vi ur t-fördelningen få reda på vad medelfelet ska multipliceras med för att ge ett intervall som med exakt 95 % sannolikhet täcker
in populationsmedelvärdet. Ett sådant intervall kallas för konfidensintervall.
M - tp. M < µ < M + tp. M
(formel 3.3)
tp = värde ur t-fördelningen på den valda sannolikhetsnivån p
I vårt exempel ovan erhålls värdet 1,96 ur t-tabellen (Tabell A i Appendix). Eftersom antalet observationer i stickprovet är 2500 och frihetsgraderna således 2499 får man gå på det värdet som gäller för ”oändligt
många” observationer. De s.k. kritiska värdena för stora stickprov på olika
sannolikhetsnivåer i t-fördelningen är identiska med de kritiska värdena i
z-fördelningen (Tabell B).
24,0 - 1,96 . 0,12 < µ < 24,0 + 1,96 . 0,12
Populationsmedelvärdet ligger således med 95 % säkerhet inom intervallet
24,0 +/- 0,2352.
Skulle vi vilja vara ännu säkrare på att täcka in populationsmedelvärdet
kan vi i stället välja ett 99,9 % konfidensintervall, dvs. multiplicera medelfelet med 3,29. Vi erhåller då att populationsmedelvärdet avrundat ligger
mellan 23,6 och 24,4.
Om vi vid en experimentell undersökning vill undersöka effekter av en ny
medicin, kan vi arrangera undersökningen enligt någon kontrollgruppsdesign. Vi tänker oss att vi slumpmässigt har valt ut en undersökningsgrupp (stickprov) och slumpmässigt fördelat individerna till respektive
experiment- och kontrollgrupp. Under förutsättning att fördelningen till
respektive åtgärdsgrupp skett slumpmässigt kan vi utgå ifrån att grupperna
är lika från början (inom slumpens ram).
76
© Horst Löfgren
Design: Endast eftermätning med kontrollgrupp
Grupp 1 (experimentgrupp):
Grupp 2 (kontrollgrupp):
X1
X2
O
O
X1 = den nya medicinen
X2 = den tidigare använda medicinen
O = observation eller mätning av åtgärdseffekter
För att jämföra de båda metoderna är även här medelfelet av central betydelse. I detta fall måste vi beräkna medelfelet för differensen mellan behandlingsgrupperna (=stickproven). Analogt med fallet för ett stickprov
blir differensen mellan stickprovsmedelvärdena här inte exakt lika för
varje stickprovspar vid upprepade stickprovsdragningar. Medelfelet för
differenser kan beräknas med hjälp av en formel, som presenteras senare.
Även i detta fall kan vi erhålla en skattning av populationsdifferensen på
en vald sannolikhetsnivå genom att multiplicera medelfelet med ett värde
motsvarande den valda sannolikhetsnivån.
3.5
Hypotesprövning
Låt oss som en inledning till detta avsnitt leka ett slag för att visa att även
du har ”en inbyggd hypotesprövningsmekanism” inom Dig. Du och jag
spelar krona och klave med ett av mina mynt. För att göra det hela lite mer
spännande sätter vi 10 kronor i insats för varje spel. Du håller hela tiden på
”klave” och jag på ”krona”. Spelet kan börja.
Vid första kastet vinner ”krona”. Jag får 10 kronor av Dig. Har du någon
kommentar? Nej, förmodligen inte. Du räknar kanske med att vinna nästa
gång. Sannolikheten för vinst är ju 50 % (p=1/2). Nytt spel, nya insatser
och jag vann igen. Har du någon kommentar? Nej, förmodligen inte. Vi
spelar en tredje gång, och jag vinner återigen. Har du någon kommentar?
Ja, du kanske muttrar något om otur. Vi fortsätter och jag kan tänka mig
följande situationer med efterföljande kommentarer:
© Horst Löfgren
77
Antal Antal ”krona”,
Din förlust Dina kommentarer
spel
dvs. vinst för mig
____________________________________________________________
4
4
40:-
Det var som ... Jag har en
väldig otur
5
5
50:-
Tusan också, kan verkligen
slumpen skoja så eller ....?
6
6
60:-
Nej, du. Det här är något
skumt. Är myntet verkligen
OK?
7
7
70:-
Du fuskar väl inte? Men OK,
en sista gång
8
8
80:-
Du FUSKAR, din skurk! Hit
med pengarna som du lurat av
mig!
Om vi skulle se på ovanstående exempel med statistikerns ögon, startar
spelet under förutsättningen att myntet är korrekt, och att jag spelar ärligt.
Vi har då följande nollhypotes och mothypotes:
H0 : pkrona = pklave = 1/2
H1 : pkrona  pklave  1/2
Mothypotesen är i detta fall tvåsidig, dvs. vi har ej riktat den genom att
ange större än (>) eller mindre än (<). Ur din synpunkt hade det varit naturligare med en ensidig mothypotes, för du hade väl aldrig reagerat kritiskt om klave hela tiden hade fallit ut.
Enligt H0 bör vi vinna lika många gånger var, såvida slumpen inte nu ser
till att den ene eller den andre vinner något oftare. Under de fyra första
spelen med fyra förluster för Dig i rad, ansåg du att man inte kunde förkasta H0. Förlusterna tillskrevs slumpen. Du trodde att du hade otur. Efter
5-6 kast började du att ifrågasätta H0, och efter 7 förluster i rad förkastade
du H0. Om du nu har en viss respekt för mig och inte vågar riskera att
felaktigt beskylla mig för fusk, kanske du till och med sträcker Dig till 8
kast, innan du tar steget fullt ut, dvs. förkastar H0 för att i stället tro att H1
gäller. Observera dock att du inte är 100 % säker, när du förkastar H0. Jag
kan ju genom slumpens hjälp ha haft en sådan tur. Det finns alltid en viss
78
© Horst Löfgren
osäkerhet i beslut, som baserar sig på en sådan här statistisk hypotesprövning. Antingen kan man felaktigt förkasta H0 (slumpen var den faktiska
orsaken till det osannolika resultatet) eller felaktigt acceptera H0 (tro att
det var otur och därför förlora pengar). Så här i efterhand kan jag erkänna
att myntet var preparerat. Under de sex första kasten gjorde du således det
felaktiga beslutet att acceptera H0, trots att den var falsk. Utifrån den här
slantsinglingsleken kan vi bygga upp ett enkelt statistiskt test. Vi använder
samma hypoteser som i det föregående, dvs.
H0 : pkrona
= 1/2
H1 : pkrona
 1/2
Om vi kastar en gång, hur stor blir då sannolikheten att jag vinner, dvs. att
”krona” kommer upp? Eftersom det finns två möjliga fall blir sannolikheten 1/2. Kastar vi två gånger, hur stor blir då sannolikheten för mig att erhålla respektive 0, 1 och 2 vinster? Följande utfall är möjliga:
krona
krona
klave
klave
krona
klave
krona
klave
Sannolikhetsvärdena blir således:
pingen krona = 1/4
2
pen krona
= /4
ptvå kronor = 1/4
På samma sätt kan vi beräkna sannolikheterna för respektive 0, 1, 2 och 3
vinster på 3 kast, sannolikheterna för respektive 0, 1, 2, 3 och 4 vinster på
4 kast osv.
kr
kr
kr
kl
kr
kr
kl
kr
© Horst Löfgren
kr
kl
kr
kr
kr
kl
kl
kl
kl
kr
kl
kl
kl
kl
kr
kl
pingen krona
pen krona
ptvå kronor
ptre kronor
= 1/ 8
= 3/ 8
3
= /8
1
= /8
79
Tabell 3.3. Sannolikheter vid slantsingling för vinst (krona)
____________________________________________________________
Antal
Antal kast
vinster 1
2
3
4
5
6
7
8
9
10
____________________________________________________________
0 1/2 1/4 1/8 1/16 1/32 1/64 1/128 1/256 1/512 1/1024
1 1/2 2/4 3/8 4/16 5/32 6/64 7/128 8/256 9/512 10/1024
1/
3/ 6/ 10/ 15/ 21/
28
36
45/
2
4
8
16
32
64
128 /256 /512
1024
1/8 4/ 10/ 20/ 35/
56/
84/
124/
3
16
32
64
128
256
512
1024
1/
5/ 15/ 35/
70/ 126/
210/
4
16
32
64
128
256
512
1024
1/
6/ 21/
56/ 126/
252/
5
32
64
128
256
512
1024
1/
7/
28/
84/
210/
6
64
128
256
512
1024
1/
8/
36/
124/
7
128
256
512
1024
1/
9/
45/
8
256
512
1024
1/
10/
9
512
1024
1/
10
1024
____________________________________________________________
Självfallet behöver man inte sätta upp samtliga antalet möjliga fall för att
beräkna sannolikheterna som i Tabell 3.3, utan här finns ett system. Kan
du finna detta system?
När vi nu gjort upp denna sannolikhetstabell kan vi leka lite med påhittade
händelser. Hur stor är sannolikheten att erhålla 6 vinster av 6 möjliga? Av
värdet i sjätte raden och sjätte kolumnen finner vi att sannolikheten är
1/64, dvs. mellan 1 % och 2 %. Sannolikheten att vinna 7 gånger av 7 möjliga blir 1/128, dvs. något under 1 %. Jag vet inte var din signifikansnivå
ligger, dvs. var du förkastar H0, men man kan pröva sin nollhypotes på
olika nivåer. Här följer några exempel på vanliga signifikansnivåer:
20% -nivån (20 % risk att felaktigt förkasta H0)
5% -nivån (5 % risk att felaktigt förkasta H0)
1% -nivån (1 % risk att felaktigt förkasta H0)
0,1% -nivån (0,1 % risk att felaktigt förkasta H0)
80
© Horst Löfgren
Figur 3.5.
-risk och -risk vid konstanthållande av antalet observationer vid tvåsidig prövning
Som du säkert förstår är det besvärligt att svara på frågan om på vilken
nivå man ska testa sin nollhypotes (jfr Figur 3.5). Väljer vi 20%-nivån är
risken att felaktigt förkasta H0 ganska stor, men risken att felaktigt acceptera H0 är då ganska liten. Om vi i stället väljer 1%-nivån blir risken att
felaktigt förkasta H0 mindre, men risken att felaktigt acceptera H0 blir
större. Svaret på frågan om vilken nivå man ska testa på får besvaras av
Dig. Vilken risk är du beredd att ta? Tycker du att det är obehagligare att
anklaga mig för fusk än att förlora pengar, då väljer du kanske 1%-nivån.
Om du är ekonomisk bör du i stället välja en högre signifikansnivå, förslagsvis 20%-nivån. Risken att felaktigt förkasta H0 kallas för -risk, och
risken att felaktigt behålla H0 kallas för -risk. Om vi bestämmer oss för
att testa på 1%-nivån kan detta således uttryckas =0,01.
Låt oss återvända till sannolikhetstabellen och beräkna sannolikheten att
vid 5 kast erhålla minst 3 vinster (dvs. 3, 4 eller 5 vinster). Vi adderar sannolikheterna och erhåller:
© Horst Löfgren
81
p3 = 10/32
p4 = 5/32
p5 = 1/32
p3,4,5 = 10/32 + 5/32 + 1/32 = 16/32 = 1/2
Chansen att erhålla minst 3 vinster av 5 är således 50 %. Då blir självfallet
sannolikheten att erhålla antingen 0, 1 eller 2 vinster också 1/2.
Vi kan sammanfatta de fyra möjliga kombinationerna av beslut och verkligt förhållande på följande sätt:
Verkligt förhållande:
H0 gäller
H1 gäller
H0 förkastas
Typ I-fel
(sannolikhet = )
Korrekt beslut
(sannolikhet = 1- )
H0 förkastas ej
Korrekt beslut
Typ II-fel
Beslut:
(sannolikhet = 1- ) (sannolikhet = )
Från beräkning av sannolikheter kan vi nu övergå till hypotesprövning.
Antag att vi spelar 10 gånger. Om H0 gäller bör vi vinna ungefär hälften
av gångerna var. Slumpen ser kanske till att det inte blir 5 mot 5, utan
kanske i stället 6/4 eller 7/3. Det kan självfallet också gå åt motsatt håll,
t.ex. 4/6 eller 3/7. Låt oss säga att jag vann 8 gånger och du 2 gånger.
Testa din nollhypotes med =0,05!
H0: pkrona = pklave = 1/2
H1: pkrona  pklave  1/2
Signifikansnivå: =0,05
För att klargöra arbetsgången kan vi grafiskt visa utfallet på följande sätt:
H1 gäller
H0 gäller
H1 gäller
Kritiskt Kritiskt
värde B värde A
___________________________________________x____x___________
0/10
82
1/9
2/8
3/7
4/6
5/5
6/4
7/3
8/2
9/1
10/0
© Horst Löfgren
Antingen gäller H0 eller H1. Vi måste därför bestämma ett kritiskt värde
för det observerade resultatet, så att summan av sannolikheterna till höger
(på denna figur) blir  0,025. Observera att vi genomför en tvåsidig prövning, varför vi får 0,025 i båda svansarna. Om vi lägger vårt kritiska värde
(A) mellan 8/2 och 9/1 erhålls p = 10/1024 + 1/1024 = 11/1024, dvs. ungefär 1 %. Lägger vi i stället vårt kritiska värde (B) mellan 7/3 och 8/2 erhålls p = 45/1024 + 10/1024 + 1/1024 = 56/1024, dvs. något mer än 5 %.
Vilket kritiskt värde ska vi använda? Eftersom vi vill testa på 5%-nivån,
dvs. p 0,025 i högra svansen, inser vi att det kritiska värdet ligger någonstans mellan 8/2 och 9/1.
Nu kommer slutklämmen. Vi har observerat 8 vinster mot 2, och vi har
bestämt oss för att behålla H0, om slumpen kan ha åstadkommit de uppkomna resultaten i fler än 5 fall på 100 (>5 %). Ska vi behålla eller förkasta H0? Då vi håller på vår förutbestämda -risk, kan vi i detta fall inte
förkasta H0. Nu inser du säkert också varför man ibland varit kritisk mot
detta ”antingen eller testande”, när det egentligen rör sig om en kontinuerlig övergång från H0 till H1. När man som i detta fall råkar hamna till
vänster om det kritiska värdet, accepteras H0. Om man i stället råkar
hamna på eller något till höger om det kritiska värdet förkastas H0 i stället.
Observera att fler observationer leder till säkrare resultat. Här kan vi också
påpeka att man egentligen inte bör säga att H0 accepteras. Man prövar om
H0 kan förkastas eller ej. Man prövar inte om H0 kan accepteras. Kan man
inte förkasta H0, är det bättre att säga att man behåller H0 tills vidare.
Det som vi här har visat med hjälp av slantsinglingsleken är ett enkelt statistiskt test. Sannolikheterna i Tabell 3.3 kan erhållas ur binomialfördelningen och vi kan kalla testet för binomialtestet. Detta test finns också i
SPSS under icke-parametriska test.
För att direkt vid testkvantiteten ange huruvida ett observerat värde är signifikant eller ej kan man via en stjärnkonvention ange signifikansnivån.
Följande stjärnmarkeringar brukar användas:
Signifikant på nivån ()
5 % (0,05)
1 % (0,01)
0,1 % (0,001)
ej signifikant
© Horst Löfgren
stjärnmarkering
probabilitetsmarkering
*
**
***
(-)
p<0,05 eller 0,01< p < 0,05
p<0,01 eller 0,001< p < 0,01
p<0,001
p> 
83
3.6
Hypotesprövning av ett stickprov i
förhållande till en population
Vi utgår ifrån ett exempel och tänker oss att en skolklass har genomgått ett
standardprov i matematik för årskurs 9. För detta prov finns således normer gällande för hela landet. I den aktuella klassen erhölls en betygsfördelning som visas nedan. Det framgår att klassen erhållit ett betygsgenomsnitt som något överstiger det teoretiska värdet 3,0.
Kan dessa elever vara dragna ur en population med medelvärdet 3,0, eller
är skillnaden så stor att man knappast kan anta att detta är en slumpmässig
avvikelse?
För att besvara denna fråga ställer vi upp följande nollhypotes och mothypotes:
H0: Det föreligger ingen skillnad mellan medelvärdet för denna
klass och riksgenomsnittet (µ=3,0).
H1: Det föreligger en skillnad mellan medelvärdet för denna klass
och riksgenomsnittet (µ3,0).
Tabell 3.4. Betygsresultat i en skolklass
____________________________________________________________
Betyg
Antal elever
(x)
(f)
f.x
f.x2
____________________________________________________________
1
1
1
1
2
5
10
20
3
9
27
81
4
8
32
128
5
2
10
50
____________________________________________________________
25
80
280
____________________________________________________________
M=
84
fx
______
N
=
80
_____
25
= 3,2
© Horst Löfgren
s=
(fx)2
fx2 - ______
n
_______________________
n-1
= 1,00
Nollhypotesen kan vi kalla för "ingen skillnad-hypotesen", eftersom man
alltid prövar just detta förhållande. Den skillnad som faktiskt har observerats kan kanske ligga inom vad vi betraktar som slumpskillnad. Mothypotesen är oftast vår undersökningshypotes, dvs. vi önskar oftast förkasta H0
för att i stället tro att H1 gäller. Observera att vi alltid prövar om H0 kan
förkastas eller ej på en viss vald signifikansnivå. Antingen kan vi förkasta
H0, eller så har vi misslyckats med att förkasta H0.
Om vi nu erinrar oss samplingfördelningen (avsnitt 3.3), kan vi uttrycka
den observerade differensen mellan vårt klassmedelvärde (M) och populationens medelvärde (µ) i förhållande till medelfelet, dvs. till standardavvikelsen i felfördelningen. Finner vi det erhållna medelvärde 3,2 inom området +/- M, vet vi att denna differens inträffar av en ren slump ungefär 2
gånger av 3 (ca 68 %). Hamnar medelvärdet just utanför vågar vi knappast
förkasta H0. Detta inträffar ju ungefär 1 gång på 3 (ca 32 %). Väljer vi den
vanliga signifikansnivån 5% (=0,05), måste vi i stället se om vårt medelvärde hamnar inom området +/- 2M. Om vårt medelvärde hamnar utanför
detta intervall, anser vi att H0 bör förkastas. Visserligen tar vi en viss risk
att göra ett felaktigt beslut (5 %), men vi hoppas att slumpen inte skojade
med oss just i vårt fall. Vi kan komplettera våra hypoteser ovan med att
ange den signifikansnivå på vilken vi prövar H0.
Signifikansnivå: =0,05 (Vi erinrar oss att  är risken att felaktigt
förkasta H0)
För att kunna pröva vår hypotes måste vi beräkna medelfelet M. Detta
medelfel kan vi skatta på följande sätt:
s
M= ____
n
(formel 3.2)
Medelfelet kan således skattas med hjälp av standardavvikelsen i stickprovet och antalet observationer i stickprovet.
© Horst Löfgren
85
Som tidigare nämnts ska vi nu jämföra den observerade differensen mellan
stickprovets och populationens medelvärde i förhållande till medelfelet,
dvs. den avvikelse som slumpen kan åstadkomma.
M-µ
t = _______
s / n
(formel 3.4)
Detta ger oss ett värde med en känd fördelning, och denna fördelning är
tabellerad. Vi kan nu ur tabell utläsa sannolikheten att erhålla detta värde
av en ren slump. Den fördelning som man relaterar sina observationer till
är t-fördelningen för gällande frihetsgrad. Vid stora stickprov närmar sig tfördelningen z-fördelningen (=normalfördelningen). Vid prövning av ett
stickprovs medelvärde blir antalet frihetsgrader fg=n-1.
I vårt exempel har vi 25 observationer och ska använda t-fördelningen.
Innan vi gör våra beräkningar ska vi fastställa det kritiska värdet, det värde
från och med H0 ska förkastas. Vid signifikansnivån 5% för fg=n-1, dvs.
24 blir det kritiska värdet +/- 2,06 (se Tabell A i Appendix). Vi använder i
detta exempel och i de följande endast s.k. tvåsidig prövning, dvs. vår
mothypotes säger inte något om differensens riktning. För att klargöra när
man ska förkasta H0 eller ej inför vi följande belysande figur:
Om nu H0 gäller, dvs. ingen skillnad mellan medelvärdet i vår klass och
populationsmedelvärdet blir enligt formel 2.4 t=0. Ju större differens desto
mindre sannolikhet att slumpen kan tillskrivas den observerade skillnaden.
Om |t|< 2,06 anser vi att H0 ej kan förkastas, eftersom en sådan differens
inträffar av en ren slump mer än 5 gånger av 100. Vid |t|  2,06 tror vi inte
att slumpen har orsakat differensen, även om så kan ha varit fallet (risken
5 %). Därför förkastar vi H0. Vi sammanfattar beräkningarna i Ruta 3.1.
86
© Horst Löfgren
Ruta 3.1. Prövning av hypotes med hjälp av t-testet
Population: årskurs 9
Stickprov: n=25
µ= 3,0
(egentligen känner vi ej medelvärdet
för populationen men sätter det till
det teoretiska 3,0)
M= 3,2
s= 1,00
H0: Det föreligger ingen skillnad mellan medelvärdet för denna
klass och riksgenomsnittet (µ=3,0).
H1: Det föreligger en skillnad mellan medelvärdet för denna klass
och riksgenomsnittet (µ3,0).
Signifikansnivå: =0,05
Kritiskt värde för fg=24 (n-1): +/- 2,06
M-µ
t = _______ fg = n - 1 (formel 3.4) ;
s / n
3,2 - 3,0
t = _________ = 1,00
1,00/ 25
H0 kan ej förkastas (p > 0,05)
Slutsats: Det observerade klassmedelvärdet 3,2 är ej signifikant skilt från det teoretiska värdet 3,0.
Låt oss nu anta att vi erhållit samma medelvärde 3,2 och samma standardavvikelse men på ett betydligt större antal observationer, exempelvis 100
elever. Skiljer sig nu detta medelvärde ifrån riksgenomsnittet 3,0? Hypo© Horst Löfgren
87
tesformuleringarna och beräkningssättet är nu desamma som i det föregående exemplet.
Ruta 3.2. Prövning av hypotes angående ett stickprov med hjälp av ttestet
Population: µ= 3,0
Stickprov: n=100
M= 3,2; s= 1,00
H0: Det föreligger ingen skillnad mellan medelvärdet för dessa
elever och riksgenomsnittet (µ=3,0).
H1: Det föreligger en skillnad mellan medelvärdet för dessa elever
och riksgenomsnittet (µ3,0).
Signifikansnivå: =0,05; Kritiskt värde för fg=60 (eg. 99): +/- 2,00
M-µ
t = _______
s / n
3,2 - 3,0
.
fg = n - 1 (formel 3.4); t = __________ = 2,00*
1,00/ 100
Eftersom vi har hamnat precis på det kritiska värdet kan vi förkasta
H0 (p= 0,05).
Slutsats: Det observerade medelvärdet 3,2 är signifikant skilt från
det teoretiska värdet 3,0.
88
© Horst Löfgren
I Tabell A finns inget kritiskt värde för just 99 frihetsgrader. Då får man ta
det som ligger närmast (fg=120) eller om man s a s vill vara försiktig så tar
man det som ligger närmast under (fg=60). Det kritiska värdet för t med
fg=60 är +/- 2,00 (egentligen skulle det vara något lite lägre).
Om vi nu jämför slutsatserna i Ruta 3.1 och 3.2 finner vi att H0 accepterades i första fallet men förkastades i andra fallet, trots att vi hade samma
medelvärde och samma standardavvikelse. Olikheten består i att vi i Ruta
3.2 har ett större stickprov. Medelfelet blir i det sistnämnda exemplet
mycket mindre. En signifikant skillnad innebär en säkerställd skillnad,
men det behöver ej betyda att skillnaden är stor. För att uttala sig om skillnadens storlek behöver vi ett annat mått som presenteras senare.
3.7
Hypotesprövning av en medelvärdesdifferens mellan två oberoende
stickprov
Låt oss anta att vi vill pröva två olika undervisningsmetoder i matematik
på elever i årskurs 4. Den ena metoden kallas ”discovery-metoden” och
karaktäriseras av att eleverna får lösa olika uppgifter för att själva komma
på en regel. Den andra metoden kallas ”regelmetoden” och innebär att en
regel presenteras före ett antal tillämpningsuppgifter. Vi väljer att utföra
undersökningen i Lunds kommun. Populationen till vilken vi önskar generalisera våra slutsatser blir således samtliga elever i årskurs 4 inom denna
kommun. Om vi hade haft tid och råd skulle vi kunnat slumpmässigt dela
populationen i två grupper, som därefter behandlades med de två metoderna. En eventuell skillnad mellan grupperna på mätvariabeln (eftertestet)
hade man då inte behövt statistiskt signifikanspröva. Gör man en totalundersökning av populationen behövs inga statistiska prövningar för att generalisera. Vi känner då redan hur resultatet blir för populationen. I praktiken
gör man sällan totalundersökningar, utan man väljer i stället att utföra
undersökningar på ett mindre antal elever för att därefter statistiskt pröva,
om resultaten kan generaliseras till den bakomliggande populationen. Låt
oss i detta exempel säga att vi genomför undersökningen på ett slumpmässigt urval av 220 elever, jämt fördelade på de två undersökningsgrup-
© Horst Löfgren
89
perna. Beroende på ett visst bortfall har vi fått in data från 110 respektive
105 elever.
Vi kan här nämna att det i praktiken ofta är svårt att göra ett slumpmässigt
individurval ur populationen. Man får vanligen nöja sig med ett gruppurval, t.ex. av skolor och klasser. Om individurvalet baserar sig på ett
gruppurval är det tveksamt att analysera data som om man hade oberoende
observationer. Skulle grupptillhörigheten antas ha betydelse för individresultatet borde detta beaktas.
Låt oss i det här fallet anta att vi verkligen slumpmässigt kan ta ut två
grupper, utan att detta förfarande av eleverna alltför mycket uppfattas som
ett s.k. laboratoriemässigt undervisningsförsök. Alltför strikt genomförd
sampling kan ge felkällor, som kan leda till generaliseringssvårigheter. I
praktiken får man göra avvägningar mellan vad som ur statistisk synpunkt
är idealt och vad som ger mest ur pedagogisk-psykologisk tolkningssynpunkt. Vi börjar den statistiska analysen med att ställa upp nollhypotes och
mothypotes samt välja signifikansnivå:
Det föreligger ingen skillnad i eftertestresultaten mellan de två jämförda grupperna. H0: µ1 = µ2 (=µ)
Det föreligger en skillnad i eftertestresultaten mellan de två jämförda grupperna. H0: µ1  µ2
Signifikansnivå: =0,05
Observera att då vi här talar om skillnader mellan metoder (eller grupper)
avser vi endast skillnader i den observerade variabeln. Det gäller att välja
bra utvärderingsvariabler!
Likaväl som man vid ett stickprov kan skatta medelfelet, dvs. standardavvikelsen i samplingfördelningen, kan man även göra så för differensen
mellan stickprov. Om man studerar medelvärdesdifferensen i två slumpmässigt dragna stickprov ur samma population och upprepar stickprovsdragningen ett antal gånger, erhåller man ibland en positiv differens,
ibland en negativ och ibland ingen differens alls. Medelvärdet för dessa
differenser efter ett stort antal jämförelser närmar sig noll om H0 gäller.
Samplingfördelningen för medelvärdesdifferensen ser likadan ut som den
som tidigare presenterats i Figur 3.4.
90
© Horst Löfgren
Medelfelet för differensen beräknas på följande sätt:
Mdiff =
(n1-1).s12 + (n2-1).s22
___________________
n1 + n2 - 2
1
1
( __ + __ )
n1
n2
(formel 3.5)
För att pröva om medelvärden från två oberoende stickprov kan anses vara
lika, dvs. om stickproven kan anses vara dragna från samma population
används följande formel:
M1 - M2 - (µ1 - µ2)
t=
(n1-1).s12 + (n2-1).s22
1
1
___________________ ( ___ + ___ )
n1 + n2 - 2
n1
n2
(formel 3.6)
fg=(n1-1) + (n2-1)
Utan att diskutera eventuella felkällor, som kan ha inverkat på resultatet
kan vi från statistisk utgångspunkt dra slutsatsen, att de två behandlingsmetoderna givit olika resultat. Vi vågar åtminstone generalisera detta resultat till populationen ”elever i årskurs 4 i Lunds kommun”. Observera
dock att vi tar en viss risk att slutsatsen är fel, men risken är mindre än 5
%.
Här kan vi återknyta till avsnitt 3.4 och ta ut ett konfidensintervall på den
valda nivån = 0,05, dvs. ett 95% konfidensintervall. Utifrån erhållna data
kan vi dra slutsatsen att resultatskillnaden i populationen ligger inom detta
intervall. I enlighet med formel 3.3 erhåller vi i detta fall följande:
Mdiff - tp. M < µdiff < Mdiff + tp. M
-2,0 - 1,96 . 0,75 < µdiff < -2,0 + 1,96 . 0,75; dvs. -3,47 < µdiff < -0,53
Eftersom intervallet inte täcker in en differens på 0,00, dvs. ingen differens
mellan de två grupperna, drar man slutsatsen att det finns en signifikant
skillnad. I SPSS får man direkt det erhållna t-värdet för differensen, signifikansangivelse för att nollhypotesen gäller och ett 95% konfidensintervall
kring den erhållna skillnaden.
© Horst Löfgren
91
Ruta 3.3.
Prövning av hypotes av två oberoende stickprov med hjälp av
t-testet för två oberoende grupper
Stickprov 1 (”discovery”-metod)
Stickprov 2 (regel-metod)
M1= 25,0; s1 = 5,00; n1 = 110
M2= 27,0; s2= 6,00; n2= 105
Det föreligger ingen skillnad mellan de två metoderna vad avser
resultat på eftertestet. H0: µ1=µ2 (= µ)
Det föreligger en skillnad mellan de två metoderna vad avser resultat
på eftertestet. H1: µ1µ2
Kritiskt värde: (= 0,05; 213 frihetsgrader) +/- 1,96
25,0 - 27,0
- 2,0
t = _____________________________________ = _____ = - 2,67*
0,75
109.5,002 + 104.6,002
1
1
____________________ ( ___ + ____ )
110 + 105 -2
110
105
H1
H0
H1
obs.v
krit.v.
krit.v
___x___x____________________________x_______________
t= högt neg
t=0
t =högt pos
Slutsats: H0 förkastas (p < 0,05)
92
© Horst Löfgren
3.8
Hypotesprövning av en medelvärdesdifferens mellan två beroende
stickprov
Som tidigare nämnts blir det ett beroendeförhållande mellan två stickprov
vid repeterad mätning, dvs. när man mäter samma individer två gånger
(exempelvis före och efter en åtgärdsfas), eller när man matchar individer.
Det sistnämnda används då man vill öka precisionen i ett experiment, dvs.
för att nå tillförlitliga resultat med ett fåtal individer i stickprovet. Först
matchar man efter någon eller några betydelsefulla variabler, dvs. skapar
individpar som är så lika som möjligt, för att därefter slumpmässigt fördela
individerna i samma par till olika grupper.
För analys av beroende stickprov använder vi oss av t-analys av differenser
enligt formeln:
Mdiff -µdiff
tdiff = ___________
sdiff
/ n
fg = n - 1
(formel 3.7)
Mdiff = medelvärdet för differenserna mellan de parvisa individerna
sdiff = standardavvikelsen för differenserna
n = antalet parvisa observationer
Som exempel väljer vi en undersökning, i vilken man ville studera effekterna av två olika sätt att lära in nya glosor i tyska för elever i årskurs 7 (se
Tabell 3.5). Ur populationen ”tyskläsande elever i årskurs 7 i rektorsområde H” utvaldes slumpmässigt 30 elever. Om nu eleverna i detta utvalda
rektorsområde är representativa för en större bakomliggande grupp elever
kan man kanske efter undersökningen diskutera en vidare generalisering.
Eleverna matchades parvis efter kön och resultat på ett ordkunskapstest
före försöket. Parmedlemmarna i de 15 paren fördelades slumpmässigt till
de två experimentgrupperna. Efter inlärningsperioden testades eleverna på
ett ordkunskapsprov för att utvärdera effekterna av de två olika inlärningssätten. Innan vi kan pröva om resultaten skiljer sig i de båda grupperna,
måste vi beräkna medelvärdet (Mdiff) och standardavvikelsen (sdiff) för
de parvisa observationerna.
© Horst Löfgren
93
Tabell 3.5. Resultat av eftertestet
____________________________________________________________
Elevpar Experimentgrupp 1 Experimentgrupp 2 diff
diff2
____________________________________________________________
A
25
19
6
36
B
32
30
2
4
C
13
14
-1
1
D
27
24
3
9
E
31
25
6
36
F
23
18
5
25
G
35
31
4
16
H
30
23
7
49
I
20
20
0
0
J
32
27
5
25
K
24
21
3
9
L
18
21
-3
9
M
23
23
0
0
N
28
24
4
16
O
20
22
-2
4
39
39
Mdiff = ___ = 2,6
15
239
2
239 - 39 /15
sdiff = ____________ = 3,14
14
När vi väl beräknat Mdiff (=2,6) och sdiff (=3,14) kan vi pröva nollhypotesen att det inte finns någon skillnad mellan grupperna, dvs. µdiff=0. Hypotesprövningen genomförs på samma sätt som den tidigare genomgångna
t-analysen för ett stickprov. Prövningen visar att vi erhållit en signifikant
skillnad mellan de två metoderna på 1%-nivån (p < 0,01). I Ruta 3.4 ges en
sammanfattning av hypotesprövning för beroende observationer.
Skulle man ange ett konfidensintervall inom vilket populationsdifferensen
skulle finnas på den valda signifikansnivån, dvs. ett 99% konfidensintervall, erhålls följande:
3,21 – 2,98 . 0,81 < µdiff < 3,21 + 2,98 . 0,81; dvs. 5,62 < µdiff < 0,80
94
© Horst Löfgren
Ruta 3.4. Prövning av hypotes av två beroende stickprov med hjälp av
t-testet
Mdiff= 2,6; sdiff= 3,14
Det föreligger ingen skillnad mellan de två metoderna (grupperna)
vad avser resultat på eftertestet.
H0 : µdiff = 0
Det föreligger en skillnad mellan de två metoderna (grupperna)
vad avser resultat på eftertestet.
H1 : µdiff 0
Kritiskt värde: (= 0,01; 14 frihetsgrader) +/- 2,98
Mdiff -µdiff
tdiff = ___________ fg = n - 1 ;
sdiff/ n
H1
H0
2,6
tdiff = ________ = 3,21**
3,14/ 15
H1
krit. v.
krit. v. obs. v.
_____x_____________________________x_____x____
t = högt neg.
Slutsats:
3.9
t=0
t = högt pos.
H0 förkastas (p<0,01, eller som man också kan skriva
0,01> p >0,001)
Hypotesprövning av medelvärdesdifferenser med hjälp av variansanalys
Variansanalys, vanligen kallad ANOVA (efter det engelska namnet Analysis of varians), är en mycket användbar parametrisk hypotesprövningsmetod. Den kan användas när man jämför två eller flera uppsättningar av data
© Horst Löfgren
95
(grupper). Både beroende grupper (vid repeterad mätning eller matchning)
och oberoende grupper kan analyseras med ANOVA. Här nöjer vi oss med
att presentera enfaktors och tvåfaktors variansanalys för oberoende grupper och enfaktors variansanalys för beroende grupper. Utöver dessa finns
flera varianter av flerfaktors variansanalytiska undersökningsuppläggningar.
När experimentella undersökningar utvecklades försökte man skapa situationer, i vilka man höll alla faktorer under kontroll och endast varierade
den, som var av huvudintresse. Med variansanalytisk teknik kan man samtidigt analysera mer än en oberoende variabel. Man behöver således inte
helt begränsa verkligheten för att kunna ha experimentell kontroll. Om
man samtidigt analyserar flera oberoende variabler kan man på ett mer
fullständigt sätt förklara relationer mellan variabler. Förutom huvudfaktorer kan man vid flerfaktoriella undersökningsuppläggningar erhålla s.k.
samspelseffekter, dvs. få reda på olika oberoende variablers interaktion.
Variansanalys är således en statistisk teknik för att jämföra två eller flera
grupper och man jämför om det finns någon medelvärdesskillnad mellan
dem. Liksom vid t-testet används resultat från studerade stickprov för att
pröva hypoteser om populationer. Det är sålunda som i tidigare presenterade statistiska hypotesprövningsmetoder, att det förutsätts att stickprovet
är representativt för populationen. Om stickprovet ej är slumpmässigt draget ur populationen måste man ta hänsyn till detta vid resonemang om
generalisering.
Variansanalys förutsätter att de jämförda gruppernas bakomliggande populationer har samma varians, och att mätvärdena i dessa populationer är
normalt fördelade. Det F-test som används i variansanalys har dock visat
sig robust mot avvikelser i dessa nämnda förutsättningar.
I SPSS finns som option möjlighet att pröva om jämförelsegrupperna kan
antas ha lika varianser i populationen. Vid t-test för två oberoende stickprov ges ett t-värde automatiskt, både för fallet med lika varianser för
olika.
De oberoende variablerna, vars effekter på mätvariabeln ska analyseras,
kallas för faktorer. De olika värdena i den oberoende variabeln, oftast
några få, kallas nivåer.
96
© Horst Löfgren
3.10 Enfaktors ANOVA; oberoende
grupper
I en enfaktors ANOVA studeras endast en oberoende variabel, och man
undersöker om de olika grupperna (nivåerna) skiljer sig så mycket att
stickproven inte kan anses vara dragna ur en och samma population.
Antag en undersökning i vilken man studerar barns prestationer i enkla
additionsuppgifter under fyra olika temperaturbetingelser. I detta exempel
låter vi barnen arbeta i 30 minuter i ett klassrum med respektive 20 o, 23o,
26o och 29o. Om vi nu slumpmässigt har tagit ut exempelvis 40 barn och
slumpmässigt fördelat dem på de fyra betingelserna, har vi därmed en
strikt experimentell undersökningsuppläggning. Eftersom det är olika barn
i de olika grupperna är detta ett exempel på oberoende grupper. Skulle vi
ha låtit samma barn få arbeta under alla de fyra betingelserna, skulle vi
istället ha erhållit beroende grupper. Ett beroendeförhållande i mätvärdena
uppstår, som tidigare nämnts, vid två tillfällen, nämligen vid repeterad
mätning och vid matchning av individer i grupperna.
Den oberoende variabel som studeras är arbetstemperatur. Denna variabel
har 4 nivåer (20o, 23o, 26o och 29o). Den beroende variabeln (effektvariabeln, mätvariabeln) är prestationer i räkning och mäts med ett additionstest.
Eftersom man här har valt fyra bestämda temperaturbetingelser ur den
kontinuerliga variabeln temperatur kallas detta för en fix modell. Om man
från en oberoende variabel slumpmässig väljer ut ett antal nivåer, som
sedan studeras kallas detta för en stokastisk modell. I flesta fall används
fixa modeller, och vi drar slutsatser om de studerade nivåerna och endast
om dessa utvalda.
A
a1
G1
Figur 3.6.
© Horst Löfgren
faktor A= temperaturbetingelser
a2
a3
a4
a1= 20o
a2= 23o
G2
G3
G4
a3= 26o
a4= 29o
Undersökningsdesign, enfaktors ANOVA
97
Om vi parvis skulle ha prövat medelvärdena mot varandra, skulle vi behöva utföra sex t-test. Variansanalysen tillåter oss att samtidigt jämföra de
fyra medelvärdena. De 40 barnen presterar olika bra på additionstestet.
Med hjälp av olika varianskomponenter ska vi försöka tolka resultatet så
bra som möjligt. Varför får de 40 eleverna olika resultat?
Den troligen största anledningen till resultatolikheter är att barn är olika
bra på sådana här test. Barn har olika bakgrund, förmågor, kunskaper, attityder m.m., och därför finns det individuella skillnader. En del av variationen mellan de 40 barnen kan bero på behandlingen, dvs. de olika temperaturbetingelserna. En del av variationen kan sålunda vara betingad av
olikheter i den oberoende variabeln. Det är denna effekt av den oberoende
variabeln, som är den mest intressanta i den här undersökningen. Slutligen
kan en del av resultaten också bero på mätfel, dvs. brister i mätinstrumentet. Ett sådant här test har dock troligen hög reliabilitet.
Om vi väljer ut två barn, exempelvis ett barn ur grupp 1 och ett barn ur
grupp 3, varför skiljer sig deras resultat? Det kan bero på att de har fått
olika behandlingar (20o mot 26o), det kan också bero på att dessa individer
är olika oavsett temperaturbetingelser. Dessutom kan det bero på mätfel,
dvs. slumpen. Om vi i stället väljer ut två barn ur samma grupp så kan en
skillnad i resultaten dem emellan inte bero på olika behandlingar, men väl
på individuella olikheter och mätfel. Den totala variationen i hela undersökningsgruppen kan således delas upp i variation mellan grupper och
variation inom grupper. Den sistnämnda variationen kan delas upp i individuella skillnader och mätfel.1
SSM
SSI
SST
SST = Total varians (SS kommer från engelskans term för kvadratsumma, Sum of Squares)
SSM = Mellangruppsvarians
SSI = Inomgruppsvarians
SST = SSM + SSI
Figur 3.7.
1
Varianskomponenter
Ett mycket förenklat exempel på variansanalys ges i appendix, s. 154
98
© Horst Löfgren
Undersökningens frågeställning kan uttryckas på följande sätt: Hur mycket
av den totala variationen beror på olika behandlingar? Ju större kvoten
SSM/SST är desto mer beror på olikheter i behandlingen, dvs. temperaturbetingelser. Kvoten SSM/SST är således ett storleksmått på behandlingseffekten. Om vi nu statistiskt ska pröva skillnaderna mellan grupperna ställer
vi upp följande nollhypotes:
H0: µ1=µ2=µ3=µ4 (=µ)
Nollhypotesen säger att de bakomliggande medelvärdena (populationsmedelvärdena) för de olika grupperna är lika, dvs. ett och samma medelvärde µ.
Mothypotesen är att det finns en skillnad någonstans mellan grupperna,
dvs. endera av nedanstående 26 fall föreligger:
H1:
µ1<µ2=µ3=µ4
µ1=µ2>µ3=µ4
µ1=µ2>µ3>µ4
m fl andra mothypotesalternativ
Att förkasta H0 innebär således att åtminstone en av de 26 möjliga H1fallen är sann.
När vi beräknat den genomsnittliga variansen mellan och inom grupper
jämförs dessa båda variationsorsaker. Vi bildar en F-kvot, som kan beskrivas på följande sätt:
behandlingseffekt + individuella skillnader + mätfel
F = ____________________________________________
individuella skillnader + mätfel
Om H0 gäller finns ingen skillnad mellan grupperna, dvs. ingen behandlingseffekt. Av formeln ovan inser vi, att F-kvoten då blir nära 1. Skulle
det finnas en behandlingseffekt blir F-kvoten större än 1, eventuellt så stor
att H0 måste förkastas. Liksom det finns t-fördelningar för olika frihetsgrader så finns det en F-fördelning för olika frihetsgrader för den F-kvot
som beräknas. De kritiska värdena för olika frihetsgrader i täljare respektive nämnare samt för olika signifikansnivåer finns tabellerade (Tabell C).
Den genomsnittliga variansen mellan grupper erhålls genom att dividera
SSM med antalet frihetsgrader (antalet grupper - 1), och den genomsnittliga variansen inom grupper erhålls genom att dividera SSI med dess antal
© Horst Löfgren
99
frihetsgrader ({antalet individer i gruppen -1} multiplicerat med antalet
grupper).
I det tidigare presenterade exemplet har följande data erhållits (Tabell 3.6).
Som synes har en elev i respektive grupp 3 och grupp 4 fallit bort på grund
av frånvaro.
Tabell 3.6. Antal rätt på respektive barn i fyra temperaturgrupper
____________________________________________________________
Temperaturgrupper
Grupp 1
20o
46
75
67
59
51
47
56
63
54
35
Grupp 2
23o
72
64
58
46
51
57
42
45
55
50
Grupp 3
26o
53
37
54
28
53
47
49
32
41
--
Grupp 4
29o
52
48
66
38
44
44
40
25
42
-- Summa
Kolumnssummor tk: 553
540
394
399 1886
2
Kvadratsummor x :31767
29924
18002
18669 98362
Antal observationer nk: 10
10
9
9
38
Medelvärden M:
55,3
54,0
43,8
44,3 49,6
____________________________________________________________
Förberedande beräkningar och beräkning av varianskomponenter:
Beräkna följande summor:
T
X2
N
tk
x2
nk
100
=
=
=
=
=
=
samtliga barns resultat
kvadraterna på samtliga barns resultat
antalet barn totalt
barnens resultat i respektive grupp
kvadraterna på barnens resultat i respektive grupp
antalet barn i respektive grupp
© Horst Löfgren
Beräkning av varianskomponenter
1. Totalkvadratsumma (SST):
SST = X2 - T2/N
X2 = 98362
T2/N = 18862/38 = 93605,16
SST= 98362 - 93605,16= 4756,84
2. Mellangruppskvadratsumma (SSM):
SSM=tk2/nr - T2/N
tk2/nk = 5532/10+ 5402/10+ 3942/9+ 3992/9 = 94678,34
T2/N = 93605,16
SSM= 94678,34 - 93605,16 = 1073,18
3. Inomgruppskvadratsumma:
SSI=X2 - tk2/nr
X2 = 98362
tk2/nk = 94678,34
SSI= 98362 - 94678,34 = 3683,66
4. Kontroll av beräkningar
Enligt Figur 3.7 är SST = SSM + SSI. Vi kan nu kontrollera genom att
använda resultaten av punkterna 1, 2 och 3 ovan.
4756,84 = 1073,18 + 3683,66
Utifrån erhållna kvadratsummor kan medelkvadratsummor beräknas genom att dividera med respektive antal frihetsgrader enligt Tabell 3.7.
I exemplet ovan har kvadratsummor beräknats och medelkvadratsummorna erhålls enligt följande:
SST = 4756,84
SSM = 1073,18
SSI = 3683,66
MSM = 1073,18/3 = 357,73
MSI = 3683,66/34 = 108,34
© Horst Löfgren
101
Den erhållna F-kvoten blir då:
F = 357,73/108,34 = 3,30 för fg 3/34
Tabell 3.7. Beräkning av medelkvadratsummor och varianskvot
____________________________________________________________
Variationsorsak
KvadratFrihetsMedelkvadrat- Varianskvot
summa
grader
summa
SS
fg
MS
F
____________________________________________________________
Mellan grupper SSM
k-1
MSM=SSM/k-1 F=MSM/MSI
Inom grupper
SSI
N-k
MSI=SSI/N-k
____________________________________________________________
Totalt
SST
N-1
____________________________________________________________
Tabell 3.8. ANOVA-tabell
____________________________________________________________
Variationsorsak
SS
fg
MS
F
p
____________________________________________________________
Mellan grupper
1073,18
3
357,73
3,30
< 0,05
Inom grupper
3683,66
34
108,34
____________________________________________________________
Totalt
4756,84
37
____________________________________________________________
Eftersom det kritiska värdet för =0,05 är 2,92 (fg 3/30) måste H0 förkastas. Åtminstone en av de alternativa mothypoteserna är sann. Den signifikanta F-kvoten ger endast upplysning om att det finns en signifikant skillnad, men inte mellan vilka grupper som skillnaden är säkerställd. När man
i sin analys har mera än två grupper, kan man gå vidare och parvis pröva
skillnader mellan gruppmedelvärden. För dessa s.k. kontrastanalyser (Post
Hoc) finns olika metoder, t.ex. LSD, Scheffe och Bonferroni. Av resultattablåer erhåller man information mellan vilka grupper som det finns signifikant skillnad enligt det test man önskar använda. I dessa kontrastanalyser
102
© Horst Löfgren
skärps det kritiska värdet för den enskilda parjämförelsen, detta för att inte
råka ut för det s.k. massignifikansproblemet. Om gör väldigt många jämförelser på t.ex. 5%-nivån kommer självfallet några att bli signifikanta. Av
100 jämförelser borde rimligen ungefär 5 % bli signifikanta.
3.11 Lämpliga index på relationen mellan
oberoende och beroende variabel
En erhållen signifikant skillnad mellan jämförda grupper behöver inte innebära att skillnaden är stor. Vid stora stickprov kommer även små skillnader att bli statistiskt säkerställda. Förutom signifikansangivelse är det
lämpligt att ange något mått på storleken i erhållna gruppskillnader. Tyvärr
är det fortfarande alltför sällan som sådana storleksmått används. Nedan
beskrivs några lämpliga mått på relationen mellan den oberoende och den
beroende variabeln i analyser där parametriska metoder har använts.
3.11.1 Omega-kvadrat
Sambandet mellan den oberoende variabeln och mätvariabeln i en fix variansanalytisk modell kan skattas med hjälp av 2-koefficienten. Kvadratroten ur detta index är jämförbar med en korrelationskoefficient.
SSM - (k-1)MSI
2est= ________________
MSI + SST
(formel 3.8a)
För en enfaktors ANOVA blir detta identiskt med:
(k-1)(F-1)
2est= _____________
(k-1)(F-1) + N
(formel 3.8b)
Om man har genomfört ett t-test för jämförelse mellan stickprov ur två
populationer kan man skatta omega-kvadrat med hjälp av följande formel:
© Horst Löfgren
103
t2-1
2est = _____________
t2 + n1 +n2 -1
3.11.2
(formel 3.9)
Eta-kvadrat
Eta är känt under namnet korrelationskvot (correlation ratio) och är ett
lämpligt mått för att beskriva relationen mellan två variabler med ickelinjära regressionslinjer. För att ange relationen mellan en oberoende variabel (nominalskalerad) och en beroende variabel (intervall- eller kvotskalerad) i en undersökning kan detta mått användas. Eta2 är då den delen av
den totala variansen, som kan prediceras utifrån den oberoende variabeln.
SSM
eta2 = ______
SST
(formel 3.10)
Eta2 används för att ange hur mycket av den totala variansen, som i en
undersökning förklaras av den oberoende variabeln. Det skattade omegakvadratvärdet anger sambandet mellan den oberoende och den beroende
variabeln.
Det finns inga konventioner för tolkningen av storleken på 2 och eta2.
Bedömningen av vad som ska anses vara en stor skillnad mellan jämförda
grupper blir självfallet relaterat till vad man har anledning att vänta sig. I
många experimentella undersökningar kan man förslagsvis använda följande gränser för tolkningen av 2 och eta2:
0,00 - 0,04
0,05 - 0,09
0,10 -
liten skillnad
medelstor skillnad
stor skillnad
Eftersom 2 och eta2 är mått på relationen mellan oberoende och beroende variabel kan man i stället tala om svag, påtaglig och stark relation.
I resultattablåerna för variansanalys (ANOVA) och kovariansanalys
(ANCOVA) erhåller man detta mått på effektstorlek via ”Options”. Dessutom kan man begära att få ett mått på ”power”. Med power avses ett tests
förmåga att finna en sann skillnad, dvs. förkasta nollhypotesen, när det är
korrekt att förkasta den. I Figur 3.5 visades de två typer av fel, som man
104
© Horst Löfgren
riskerar att göra vid en statistisk hypotesprövning. Risken att felaktigt behålla nollhypotesen kallas Typ II-fel och sannolikheten för detta fel är
Vid konstanthållande av antalet observationer i en undersökning kommer -risken att öka om -risken minskas. Om man prövar en hypotes på
1%-nivån kommer således –felet att vara större än om man testar på 5%nivån. Den möjlighet man har att minska risken att felaktigt behålla nollhypotesen är att öka stickprovsstorleken, dvs. ha fler observationer i studien. Det är här som man har nytta av att få veta värdet på det statistiska
testets power, som är benämningen på sannolikheten 1- 
Om man har tillräckligt stora stickprov blir –felet = 0 och power således
1,00. Det skulle således vara möjligt att räkna ut hur stora stickprov man
behöver för att vara säker att det är ett korrekt beslut, om nollhypotesen
förkastas. Det vanligaste sättet att planera undersökningar är emellertid att
man tar till i överkant, dvs. har så många observationer i sina urval att man
erhåller säkra slutsatser. Här kan också nämnas att statistiska test är olika
bra på att finna signifikanta skillnader. Icke-parametriska metoder är ofta
sämre än parametriska metoder.
3.11.3
Effektstorlek
Effektstorlek (ES) är en familj av mått som används för att beskriva storleken i skillnader mellan behandlingsgrupper. Till skillnad från signifikansvärden är påverkas inte dessa storleksmått av stickprovsstorlek. I s.k. metaanalyser, dvs. kunskapsöversikter, fanns ett behov av att uttrycka skillnaden mellan behandlingsgrupper i ett standardiserat mått, detta för att
kunna jämföra resultatet av olika undersökningar.
När man önskar ett mått på storleken av effekter använder man vanligen
endera av följande:
1. Den standardiserade skillnaden mellan två medelvärden.
2. Sambandet mellan den oberoende behandlingsvariabeln och den beroende utfallsvariabeln.
I metaanalyser där man haft experiment- och kontrollgrupp har man använt
den enkla formeln:
ME – MK
sK
© Horst Löfgren
105
Man beräknar således medelvärdesdifferensen mellan experiment- och
kontrollgrupp och dividerar med standardavvikelsen för kontrollgruppen.
Egentligen spelar det ingen roll om man dividerar med standardavvikelsen
för experimentgruppen eller kontrollgruppen under förutsättning att varianserna i de båda grupperna är någorlunda lika. För säkerhets skull kan det
rekommenderas att använda den sammanvägda standardavvikelsen, dvs.
sE2 + sK2
________
2
Om man jämför utfallet i två grupper där grupperna inte är lika stora kan
man vikta ihop standaravvikelserna enligt följande:
(n1-1) .s12 + (n2-1).s22
___________________
n1 + n2 - 2
Det mått man på detta sätt erhåller på differensens storlek ger då indikation
på om man ska betrakta skillnaden som lite eller stor. Självfallet måste
man ta i betraktande vad man det är man jämför, dvs. den oberoende variabeln. I experimentella undersökningar, där man då studerar effekten av en
insatt åtgärd kan man betrakta ES ≤ 0,3 som små skillnader, ES ca 0,5 som
måttliga skillnader och ES ≥ 0,7 som stora skillnader.
Om man i en artikel får reda på t-värdet för den statistiska skillnaden mellan två stickprov kan man enkelt beräkna ES för att kontrollera att signifikansen också innebär en betydelse skillnad. Som tidigare sagts kan man ju
erhålla statistisk signifikans trots att skillnaden är minimal, om man bara
har tillräckligt stora stickprov. Den formel man kan använda för skattningen av effektstorlek är:
ES= 2t/√df
Dvs. effektstorleken erhålles genom att ta 2 gånger t-värdet dividerat med
kvadratroten ur antalet frihetsgrader. Antalet frihetsgrader är som bekant
summan av antalet observationer i de båda grupperna minus 2.
Om gruppstorleken är olika i de båda grupperna bör man använda:
ES= t(n1 +n2)/√df . n1 . n2
106
© Horst Löfgren
Man kan också erhålla ES via korrelationen mellan den oberoende och den
beroende variabeln:
ES= 2r/√(1-r2)
Om man har en design med beroende gruppen (matchade grupper eller
upprepad mätning) kan man med fördel ange ett effektstorleksmått genom
att ta medelvärdesdifferensen dividerat med standardavvikelsen för den
ena gruppen (obs. ej standardavvikelsen för differenserna).
3.12 Tvåfaktors ANOVA; oberoende
grupper
När vi genom forskning söker ny kunskap gäller det ofta att kunna förklara
variationen i en beroende variabel. Ofta kompliceras verkligheten av att
många olika variabler är betydelsefulla för den utfallsvariabel, som man
vill finna förklaring till. Flera oberoende variabler, kanske också en viss
kombination av dessa kan vara betydelsefull för utfallet i den beroende
variabeln.
Flerfaktoriella uppläggningar och variansanalytisk bearbetning ger oss
möjlighet att samtidigt studera mer än en oberoende variabel. Denna typ av
uppläggningar öppnar speciella möjligheter. Inte nog med att man kan
studera effekter av olika oberoende variabler (s.k. huvudeffekter), utan en
sådan uppläggning ger oss också möjlighet att studera samspel (s.k. interaktionseffekter) mellan de oberoende variablerna. Det sistnämnda innebär
att det kanske är en viss kombination av oberoende variabler, som är av
betydelse för resultatet (variationen) i den beroende variabeln. Nedan följer ett exempel på en tvåfaktoriell uppläggning.
Vid en hälsoundersökning på ett större företag konstaterades att en stor del
av de anställda led av övervikt och brister i den allmänna konditionen.
Företagsläkaren var intresserad att pröva några åtgärder för att se, om det
gick att relativt snabbt åstadkomma en viktminskning och en förbättring av
de anställdas kondition och allmäntillstånd.
Ett slumpmässigt urval av de anställda i åldern 35-50 år tillfrågades, om de
ville delta i ett viktminskningsprogram. Samtliga 36 tillfrågade personer,
lika antal män och kvinnor, accepterade att delta. Undersökningsgruppen
© Horst Löfgren
107
fördelades slumpmässigt till tre undergrupper. Den första undergruppen
fick ett motionsprogram på schemalagda timmar, den andra ett dietprogram och den tredje gruppen en kombination av både fysisk motion och
regler för kostintag. Efter 5 månader utvärderades de olika åtgärdsprogrammen. Bland annat registrerades viktminskningen i kilo för deltagarna.
I Figur 3.9 presenteras undersökningens uppläggning.
Eftersom det finns två nivåer i faktorn kön (män och kvinnor) och tre nivåer i faktorn åtgärdsprogram (motion, diet och motion + diet) kallas
denna typ av undersökningsuppläggning en 2 x 3 faktoriell uppläggning.
Det är dessutom oberoende grupper, eftersom vi har olika individer i de
sex grupperna.
B
b1
b2
b3
a1
G1
G2
G3
a2
G4
G5
G6
A: kön
B: åtgärdsprogram
a1 = män
b1 = motion
a2 = kvinnor b2 = diet
b3 = motion + diet
A
Figur 3.8.
Undersökningsdesign
Utfallsvariabeln i den här delen av undersökningen är viktminskning. De
36 deltagarna har en viss total variation i dessa värden. En del av denna
variation kan vara relaterad till åtgärdsprogram, en del till olikheter mellan
män och kvinnor, och en del kan kanske vara relaterad till en kombination
av kön och åtgärd. Den största delen av viktminskningsvariationen mellan
deltagarna beror troligen på att individer är olika eller på andra faktorer
som ej är kontrollerade i undersökningen.
SSA
SSB
SSAB
SSI
SST
Figur 3.9.
108
Variansdelar i viktminskningen
© Horst Löfgren
I stället för SSI används ibland SSres eller ”error”. SSI är en residual eller
felterm i den meningen att man inte kan tolka denna varians som orsakad
av någon av de oberoende variablerna.
Tabell 3.9. Viktminskning i kg efter 5 månader (negativt tecken innebär
viktökning)
____________________________________________________________
Faktor B (åtgärdsprogram)
Faktor A
b1
b2
b3
(kön)
(motion)
(diet) (motion+diet)
Radsummor
____________________________________________________________
a1 (män)
2
3
6
4
2
8
3
3
7
-1
3
3
0
4
4
3
5
5
_______________________
tc =
11
20
33
tr = 64
M = 1,83,3
5,5
____________________________________________________________
a2 (kvinnor)
2
4
7
-1
3
3
3
6
6
2
4
8
-2
2
9
0
4
7
_________________________
tc =
4
23
40
tr = 67
M=
0,7
3,8
6,7
Kolumnsummor tk = 15
Kvadratsummor x2 = 61
43
73
169
487
T = 131
X2 = 717
Vi ska nu pröva huvudeffekterna, dvs. om det finns någon skillnad i resultat mellan män och kvinnor (SSA) samt mellan de tre åtgärdsprogrammen
(SSB). Samtidigt ska vi också pröva, om det finns någon interaktionsef© Horst Löfgren
109
fekt, dvs. om det finns ett samband mellan åtgärd och kön (SSAB). Ett
sådant samband kan yttra sig i att kvinnor vinner mest på en åtgärd medan
män vinner mest på en annan. Hur stor del av den totala variansen som är
relaterad till individuella skillnader oberoende av grupptillhörighet och till
mätfel ligger i den del som i figuren kallas SSI.
För faktor A prövas hypotesen om de bakomliggande medelvärdena (populationsmedelvärdena) för män och kvinnor är lika, dvs. ingen skillnad mellan kön vad avser viktminskning (=0,05).
H0: µmän = µkvinnor (=µ)
H1: µmän  µkvinnor
För faktor B prövas hypotesen om det finns någon skillnad mellan de tre
åtgärdsprogrammen (=0,05).
H0: µmotion = µdiet = µmotion+diet (=µ)
H1: µmotion  µdiet  µmotion+diet
(eller någon alternativ mothypotes)
Interaktionseffekten (AB) prövas på följande sätt (=0,05):
H0: Det finns ingen interaktion (inget samband) mellan faktor A och B
H1: Det finns en interaktion (ett samband) mellan faktor A och B
Förberedande beräkningar och beräkning av varianskomponenter:
Beräkna följande summor:
T
X2
N
tr
tk
tc
nr
nk
nc
110
=
=
=
=
=
=
=
=
=
samtliga individers resultat
kvadraterna på samtliga individers resultat
totalantalet individer
samtliga resultat i respektive nivå (rad) i faktor A
samtliga resultat i respektive nivå (kolumn) i faktor B
samtliga resultat i respektive cell
antalet i respektive nivå i faktor A
antalet i respektive nivå i faktor B
antalet i respektive cell
© Horst Löfgren
Beräkning av varianskomponenter:
1. Totalkvadratsumma (SST):
SST=X2 - T2/N
X2 = 717
T2/N = 1312/36 = 476,69
SST= 717 - 476,69 = 240,31
2. Radkvadratsumma (SSA):
SSmellan rader= tr2/n - T2/N
tr2/nr= 642/18 +672/18 = 476,94
T2/N = 476,69
SSmellan rader= 476,94 - 476,69 =0,25
3. Kolumnkvadratsumma (SSB):
SSmellan kolumner= tk2/n - T2/N
tk2/nk= 152/12 + 432/12 +732/12 = 616,92
T2/N= 476,69
SSmellan kolumner= 616,92 - 476,69 = 140,22
4. Interaktionskvadratsumma:
SSAB=tc2/nc - T2/N - SSA - SSB
tc2/nc= 112/6 + 202/6 + 332/6 + 42/6 + 232/6 + 402/6 = 625,83
T2/N = 476,69
SSA = 0,25
SSB = 140,22
SSAB= 625,83 - 476,69 - 0,25 -140,22 = 8,67
5. Inomcellskvadratsumma
SSI=X2 - tc2/nc
X2 = 717
tc2/nc = 625,83
SSI=717 - 625,83 = 91,17
© Horst Löfgren
111
Som framgår av Figur 3.9 gäller att SST = SSA + SSB + SSAB + SSI.
Beräkningen av varianskomponenterna kan nu kontrolleras.
240,31 = 0,25 + 140,22 + 8,67 + 91,17
Om varianssummorna divideras med respektive antal frihetsgrader erhålls
medelkvadratsummorna. Till respektive kvadratsumma hör följande antal
frihetsgrader:
SST
SSA
SSB
SSAB
SSI
-
N-1, där N = totalantalet observationer
(r-1), där r = antalet rader
(k-1), där k = antalet kolumner
(r-1)(k-1)
 (nc-1), där nc = antal observationer i cellen
Medelkvadratsummor:
MSA = 0,25/1 = 0,25
MSAB= 8,67/2 = 4,33
MSI = 91,17/30 = 3,04
M
Av Tabell 3.10 framgår att det finns en signifikant skillnad och den finns
mellan åtgärdsprogram. Av eta2-värdet framgår att denna skillnad mellan
de tre åtgärderna är mycket stor (jämför p 3.11.2) .
Tabell 3.10. ANOVA-tabell
____________________________________________________________
Variationsorsak
SS
fg
MS
F
p
eta2
____________________________________________________________
Mellan kön
0,25
1
0,25 0,08 > 0,05
Mellan åtgärder
140,22
2
70,11 23,07 < 0,001 0,58
Interaktion
8,67
2
4,33 1,43 > 0,05
Inom grupper
91,17
30
3,04
____________________________________________________________
Totalt
240,31
35
____________________________________________________________
112
© Horst Löfgren
Ofta är det lämpligt att åskådliggöra resultatet genom att rita ett s.k. medelvärdesdiagram. De olika gruppmedelvärdena finns beräknade i Tabell 3.9.
Av diagrammet syns tydligt den stora B-effekten, motion+diet (b3) ligger
klart högst. Det syns också att skillnaden mellan män och kvinnor totalt
över de tre åtgärderna är mycket liten. Om linjerna i diagrammet är parallella indikerar detta att det inte föreligger någon interaktion mellan de båda
faktorerna, i detta fall mellan kön och åtgärdsprogram. Visserligen är linjerna här ej helt parallella, de t o m korsar varandra, men detta är inom
gränsen för vad slumpen kan ha åstadkommit.
Som vid enfaktors ANOVA med mer än två grupper (två nivåer i faktorn)
kan man här göra en kontrastanalys (post hoc) för faktorn åtgärdsprogram.
Det finns tre parvisa jämförelser som kan göras (b1 - b2, b1 - b3 och b2 b3). Kontrastanalyser görs med hjälp av tidigare nämnda speciella metoder.
Viktmins kning i kg
7
o
6
x
5
4
o
x
3
2
1
o = kvinnor
x = män
x
o
0
motion
diet
motion + diet
Figur 3.10. Medelvärdesdiagram
© Horst Löfgren
113
3.13 Enfaktors ANOVA; beroende grupper
Ett beroendeförhållande mellan uppsättningar av data (grupper) erhålls,
som tidigare nämnts, vid repeterad mätning och vid matchning. I och med
att man kan utnyttja informationen om att samma individer finns (eller vid
matchning liknande individer) i de olika grupperna, leder detta till att mer
av den totala variansen kan förklaras. Följden blir att felvariansen blir
mindre, vilket innebär att precisionen i analysen blir bättre.
Vi tänker oss en undersökning i vilken man samlat in data från en grupp på
10 personer före och efter en viss åtgärd. Sammanlagt från de båda mättillfällena har vi 20 resultat. Vad beror olikheter i resultat på? En del av den
totala variansen beror på att de 10 deltagarna är olika. Summerar man deras resultat på för- och efterprovet kommer vi förmodligen att få lite olika
värden, kanske till och med 10 olika resultat. Individer presterar skilda
resultat av många olika skäl, som vi i denna undersökning inte har någon
kontroll över.
Jämför vi samma individer på för- och eftertest kan även dessa resultat
skilja sig. En del kan bero på den åtgärd, som satts in mellan för- och eftertest. Troligen finns emellertid en liten del kvar, som ej förklaras av åtgärden. Det finns med andra ord kvar en residual, som vi ej kan förklara annat
än som mätfel. Eftersom det är samma individer som jämförs borde ju
resultaten bli lika så när som den del, som beror på den insatta åtgärden.
Den del som vi inte kan förklara, residualen, är det vi kallar felvariansen i
analysen (”error”).
SSmb
SSib
SSM
SSres
SST
SSmb =
SSib =
SSM =
SSres =
SST =
SS mellan block av individer
SS inom block av individer
SS mellan grupper (åtgärder)
SS residual
SS total
Figur 3.11. Varianskomponenter i enfaktors ANOVA, beroende grupper
114
© Horst Löfgren
Med block av individer avses de mätresultat som ingår för respektive individ. I det här fallet är det samma individ som mäts tre gånger, men i en
uppläggning med matchade grupper är det egentligen tre olika individer
som ingår i blocket.
Den mest intressanta frågan i undersökningen är hur mycket av den totala
variationen som är relaterad till SSM. Divideras kvadratsummorna med
respektive antal frihetsgrader erhålls medelkvadratsummor. Respektive
varianskomponenter har följande antal frihetsgrader (k=antal grupper,
n=antal observationer i gruppen):
SSmb - n-1
SSib - n(k-1)
SSM - k-1
SSres - (n-1)(k-1)
SST
- N-1
Om man endast ska studera två beroende grupper kan i stället för variansanalys använda det tidigare genomgångna tdiff-testet. Om man har fler än
två grupper måste man använda variansanalys. Därför övergår vi till ett
exempel med data från tre olika tillfällen.
Ett slumpmässigt urval av sex sjuksköterskestuderande deltog i ett experiment, i vilket man studerade effekten av vissa droger på deltagarnas reaktionstid. Man använde tre olika droger och deltagarna fick reagera på en
serie standardiserade uppgifter. Deltagarna hade före försöket under normala förhållanden tränat på dessa uppgifter.
Varje försöksperson fick vid olika tillfällen de tre drogerna och deras reaktionstider registrerades. Eftersom samma individer observeras i de tre
grupperna, dvs. beroende grupper, anges detta med att i de tre cellerna
skriva G1.
A
a1
a2
a3
G1
G2
G3
Figur 3.12.
© Horst Löfgren
A = drog
a1 = drog 1
a2 = drog 2
a3 = drog 3
Undersökningsdesign
115
De sex deltagarna fick drogerna i slumpmässig ordning för att inte ordningsföljden skulle vara avgörande för resultatet. Mellan testtillfällena gick
tillräckligt lång tid för att deltagarna skulle vara avgiftade. Reaktionstider
redovisas i Tabell 3.11. Kan man av insamlade data dra slutsatsen, att de
tre drogerna orsakar olika reaktionstider?
H0: Det finns ingen skillnad i reaktionstid mellan de tre tillfällena
H1: Det finns en skillnad i reaktionstid mellan de tre tillfällena
Signifikansnivå: =0,01
Tabell 3.13. Reaktionstid vid tre olika droger
____________________________________________________________
Deltagare
Drog 1
Drog 2
Drog 3 Radsumma (tr)
____________________________________________________________
A
24
18
28
70
B
26
17
31
74
C
20
15
25
60
D
22
16
26
64
E
25
20
27
72
F
23
21
20
64
____________________________________________________________
Kolumnsummor tk
140
107
157
T= 404
2
2
Kvadratsummor x
3290
1935
4175 X = 9400
Medelvärden M
23,3
17,8
26,2
____________________________________________________________
Förberedande beräkningar och beräkning av varianskomponenter:
Beräkna följande summor:
T
X2
N
tr
tk
n
116
=
=
=
=
=
=
samtliga resultat
kvadraterna på samtliga resultat
totalantalet observationer
summaresultat för respektive individ (rad)
summaresultat för respektive behandling (kolumn)
antalet i respektive behandlingsgrupp
© Horst Löfgren
Beräkning av varianskomponenter:
1. Totalkvadratsumma:
SST= X2 - T2/N
X2 = 9400
T2/N = 4042/18 = 9067,56
SST = 9400 - 9067,56 = 332,44
2. Kvadratsumma mellan block av individer (SSmb):
SSmb= tr2/k - T2/N
tr2/k = 702/3 +742/3 +602/3 +642/3 +722/3 +642/3 = 9117,33
T2/N = 9067,56
SSmb= 9117,33 - 9067,56 =49,78
3. Kvadratsumma mellan grupper (tillfällen, åtgärder):
SSM= tk2/n - T2/N
tk2/n = 1402/6 + 1072/6 + 1572/6 = 9117,33
T2/N = 9067,56
SSM= 9117,33 - 9067,56 = 215,44
4. Kvadratsumma för residualen (SSres):
SSres= SST - SSmb - SSM
SST = 332,44
SSmb = 49,78
SSM = 215,44
SSres= 332,44 - 49,77 - 215,44 = 67,22
Som framgår av Figur 3.12 gäller att SST= SSmb + SSM + SSres. Beräkningen av varianskomponenterna kan nu kontrolleras.
332,44 = 49,78 + 215,44 + 67,22
Kvadratsummorna divideras med respektive antal frihetsgrader för att få
medelkvadratsummorna.
© Horst Löfgren
117
Medelkvadratsummor:
MSmb = 49,78/5 = 9,95
MSM = 215,44/2 = 107,72
MSres = 67,22/10 = 6,72
F-kvoten erhålls genom MSM/MSres, dvs. 107,72/6,72, vilket ger
F=16,03.
Det finns en signifikant skillnad i reaktionstid mellan de tre tillfällena. Av
värdet på eta2 framgår, att denna skillnad mellan de tre åtgärderna är
mycket stor.
Tabell 3.12. ANOVA-tabell
____________________________________________________________
Variationsorsak
SS
fg
MS
F
p
eta2
____________________________________________________________
Mellan block av individer
49,77 5
9,96
Mellan grupper (åtgärder) 215,44 2 107,72 16,03 < 0,01 0,65
Residual
67,22 10
6,72
____________________________________________________________
Totalt
332,44 17
____________________________________________________________
2.14 Kovariansanalys, ANCOVA
Kovariansanalys är en variansanalys, där den beroende variabeln är så att
säga rensad från inverkan av en eller flera andra variabler, s.k. kovariater.
Den fråga man ställer är om det finns någon effekt utöver den som kan
prediceras från kovariaterna. Självfallet måste det finnas rimliga samband
mellan kovariaterna och den beroende variabeln, annars finns ju inget att
justera för. Dessutom är förutsättningen den att relationen mellan den beroende variabeln och kovariaten är lika för jämförelsegrupperna. Det får
således inte finnas något samspel mellan faktorn och kovariaten.
I en studie av 149 elever i årskurs 3 var man intresserad att studera eventuella skillnader mellan två olika sätt att lära barnen engelska. Man hade
118
© Horst Löfgren
konstruerat olika typer av språkfärdighetstest; läsförståelse, hörförståelse,
skrivprov, ordkunskapsprov och grammatikprov. Man kunde inte genomföra ett s.k. sant experiment, dvs. eleverna kunde inte slumpmässigt fördelas på de två metodgrupperna utan man fick ta klasserna som de var. Eftersom påverkansförsöket var upplagt enligt en kvasiexperimentell design
(icke-slumpmässig fördelning till metodgrupperna) fanns anledning att
pröva om möjligen det fanns andra variabler som kunde vara orsak till
eventuella skillnader på eftertestet. Det kunde ju tänkas att den ena gruppen hade bättre förkunskaper, var mer begåvad eller andra väsentliga skillnader. I exemplet nedan studerar vi endast resultatet på ett läsförståelsetest
som beroende variabel, men vill använda resultaten från ett intelligenstest
som kovariat. Den hypotes man vill pröva är således om det finns några
skillnader mellan de två sätten att lära sig engelska sedan man korrigerat
för gruppskillnader i begåvning. I tabellen nedan redovisas resultatet både
av variansanalys och kovariansanalys.
Tabell 3.13. Resultat från språkmetodförsöket
____________________________________________________________
ANOVA
Variationsorsak
SS
fg
MS
F
p
eta2
____________________________________________________________
Mellan grupper
384,23
1 384,23
30,54 <0,001 0,17
Inom grupper
1849,49
147
____________________________________________________________
Total
2233,72
148
____________________________________________________________
ANCOVA
Variationsorsak
SS
fg
MS
F
p
eta2
____________________________________________________________
Mellan grupper
342,89
1 342,89
31,96 <0,001 0,15
Inom grupper
1566,27
146
____________________________________________________________
Total
1909,16
147
____________________________________________________________
© Horst Löfgren
119
Medelvärden
Metod a1
Metod a2
a1 + a 2
Läsförståelse (ber var)
20,18
16,92
18,28
Begåvning (kovariat)
111,05
109,57
110,19
Av resultatet framgår att justeringen via kovariansanalys har haft en
ganska lite inverkan. Eta-kvadrat minskar från 0,17 till 0,15 och det är
obetydligt. Eta-kvadrat i en ANOVA beräknas som vanligt, dvs. SSmellan/SStot vilket ger 384,23/2233,72. Eta-kvadrat i ANCOVA beräknas
genom att ta den nya varianssumman (efter rensning av begåvningsinflytande) dividerat med den tidigare erhållna totalvariansen, dvs.
342,89/2233,72. Effektskillnaden mellan de båda lärandemetoderna minskar något och det brukar den göra om man justerar för inflytande från en i
sammanhanget relevant variabel, åtminstone kan den inte öka. I detta exempel kan man dra slutsatsen att metod a1 är bäst oavsett begåvningsnivå.
Observera att man förlorar en frihetsgrad för varje kovariat man använder.
120
© Horst Löfgren
4
Icke-parametriska hypotesprövningsmetoder
Som vi tidigare nämnt kräver de parametriska metoderna att vissa förutsättningar är uppfyllda ifråga om skalnivå och mätvariabelns fördelning i
populationen. Sålunda krävs att observationerna i stickprovet härrör från
en normalfördelad observationsvariabel, att mätskalan ligger på lägst intervallskalenivå samt vid analys av mer än ett stickprov, att mätvariabelns
varians är lika i de bakomliggande populationerna. Även om vi ofta använder oss av parametriska metoder, trots att förutsättningarna inte alltid är
helt uppfyllda, ska vi här presentera några alternativa metoder, nämligen
de icke-parametriska. Mycket ofta ligger våra psykologiska skalor på ordinalskalenivå och dessutom är det ofta så, att vi ej vet något om den bakomliggande fördelningens utseende. De icke-parametriska metoderna kallas
ibland också fördelningsfria. Egentligen är ingetdera av namnen heltäckande korrekta för de test som finns. Några icke-parametriska metoder utnyttjar populationsparametern vid hypotesprövningen och andra kräver att
vissa förutsättningar rörande fördelningen är uppfyllda. De icke-parametriska metoder, som här ska presenteras kan efter skaltyp indelas i frekvenstest och rangtest.
Fördelarna med de icke-parametriska metoderna är således att de är baserade på färre förutsättningar i jämförelse med de parametriska metoderna.
Dessutom är de icke-parametriska metoderna ofta enkla att förstå och beräkningarna enkla att utföra. I synnerhet är dessa metoder lämpliga vid
små stickprov. En nackdel är att det för de icke-parametriska testen är svårare att finna index på effekternas storlek.
I nedanstående ruta ges en översikt över de hypotesprövande metoder som
hittills tagits upp eller som kommer att diskuteras i det följande.
© Horst Löfgren
121
Ruta 4.1. Exempel på hypotesprövningsmetoder för ett eller flera stickprov vid olika typer av mätskalor
Ett stickprov
Skaltyp
Nominalskala 2-testet
(frekvensskala)
Ordinalskala
(rangskala)
2-testet
Cochran´s
Q-test
Run-testet; MannWilcoxon’s KruskalOne Sample Whitney; teckenrang- Wallis
Sign test
Kolmogo- test;
rovPaired Sign
Smirnov; Test
WaldWolfowitz
Runs
Friedman
Intervallt-test
eller kvotskala
4.1
Två stickprov
Tre eller flera stickprov
oberoende beroende oberoende beroende
2-testet
McNemar
t-test
tdiff-test
ANOVA ANOVA
ANOVA ANOVA
Analys av stickprovsdata i förhållande
till populationsdata
Dessa analyser svarar på frågan om ett valt stickprov kan tänkas tillhöra en
viss population. De icke-parametriska analyser, som här tas upp är av typen ”goodness-of-fit”, dvs. svarar på frågan om en observerad fördelning
endast slumpmässigt avviker från en teoretisk eller en under H0 förväntad
fördelning. Endast de mest vanligt förekommande testen ur Ruta 4.1 presenteras här.
122
© Horst Löfgren
4.1.1
Chi-kvadrat-testet för ett stickprov
Chi-kvadrat-testet (2) för ett stickprov kan användas vid analys av data på
nominalskalenivå, då populationen består av två eller flera klasser. Exempel på sådana klassifikationsvariabler är kön, civilstånd, socialgruppstillhörighet, boendeform och linjetillhörighet i gymnasieskolan. 2-testet är av
typen “goodness-of-fit“ och används för att jämföra en viss observerad
fördelning med en under nollhypotensen förväntad. Utgångspunkten är ett
antal observationer i två eller flera kategorier. Från totalantalet observationer beräknas de förväntade frekvenserna under H0 (dvs. om nollhypotesen gäller) för varje kategori. Med hjälp av 2-testet prövas om de observerade frekvenserna endast slumpmässigt avviker från de förväntade eller
om nollhypotesen måste förkastas. Nollhypotesen testas med:
(Oi - Ei)2
2=  ________ ; där E bör vara  5
(formel 4.1)
Ei
Oi = antal observationer i den i:te kategorin
Ei = förväntat antal observationer i den i:te kategorin under H0
 = summan av de ”k” kategorierna
De kritiska värdena för olika frihetsgrader finns tabellerade (Tabell D). För
olika frihetsgrader har 2 olika samplingfördelningar. Antalet frihetsgrader
visar hur många observationer, som kan variera efter att man bestämt antalet observationer i vissa kategorier. Om vi exempelvis har sammanlagt 30
observationer i två kategorier och observerat 18 i den ena, måste den andra
med nödvändighet innehålla 12 observationer. I detta fallet blir således
antalet frihetsgrader fg=1. En kategori är således fri att variera. När vi vet
antalet i denna kategori, så vet vi antalet i den andra, eftersom summan ska
bli 30.
Om vi istället haft fem kategorier med sammanlagt 30 observationer blir
fg = k-1, dvs. 4. Man kan variera frekvenserna i fyra av de fem kategorierna. Frekvensen i den sista kategorin är bestämd i och med att vi känner
frekvenserna i de övriga. För 2-testet finns kravet att de förväntade värdena (Ei) bör vara  5. Om så inte är fallet slår man helst samman kategorier så att kravet uppfylls.
I likhet med de tidigare avsnitten i denna bok exemplifieras varje presenterad statistisk bearbetningsmetod med ett exempel. I det här fallet tänker vi
© Horst Löfgren
123
oss en marknadsundersökning i vilken 100 kunder i en butik fick välja
mellan fyra olika mjölkförpackningar. Den frågeställning som ska prövas
är om man på basis av en sådan undersökning av en grupp slumpmässigt
utvalda kunder kan våga uttala sig mera generellt om preferensolikheter
vad gäller mjölkförpackningar. Följande resultat erhölls:
Tabell 4.1. Resultat av marknadsundersökning
Förpackning
Antal val
A
B
C
D
18
30
40
12
H0: De fyra olika alternativen är lika populära, dvs. i populationen
skulle man ha erhållit lika antal frekvenser (f1 = f2 = f3 = f4)
H1: De fyra olika alternativen är olika populära (åtminstone några
frekvenser är olika)
Signifikansnivå: = 0,01
Det kritiska värdet för 2 med 3 frihetsgrader är på denna signifikansnivå
11,34 (Tabell D). Om avvikelserna mellan de observerade frekvenserna
och de under H0 givna når upp till 11,34 eller mer måste nollhypotesen
förkastas.
____________________________________________________________
Observerade frekvenser:
Förväntade frekvenser:
paket A B C D
paket A B C D
____________________________________________________________
18 30 40 12
25 25 25 25
____________________________________________________________
2 =
(O - E)2
(18-25)2
__________
___________
E
124
=
25
(30-25)2
+
___________
25
(40-25)2
+
___________
25
(12-25)2
+
= 18,72***
25
___________
© Horst Löfgren
Eftersom vi observerat en större avvikelse mellan de fyra valbara alternativen att paketera mjölk än vad slumpen rimligen kan ha åstadkommit förkastas H0 (p<0,01). H0 hade också förkastats om vi valt =0,001
(p<0,001). Vi drar slutsatsen att de fyra alternativen är olika populära
bland konsumenterna.
4.1.2
Run-testet
Det finns flera metoder att bedöma slumpmässigheten i ett stickprov på
grundval av den ordningsföljd som observationerna har registrerats. Om
observationer samlas in i slumpmässig ordning borde materialet inte innehålla ett speciellt mönster. Om man t.ex. samlat in enkätdata från skolelever borde pojkars och flickors svar komma i slumpmässig ordning. Om
flickornas svar kommer först och därefter alla pojkarnas, har enkäterna
tydligen först sorterats. Om varannan enkät är från en pojke och varannan
från en flicka, kommer de ej heller i slumpmässig ordning utan verkar
också vara sorterade. Eftersom det i SPSS finns en metod, som grundar sig
på s.k. “runs“, Wald-Wolfowitz Runs för två oberoende stickprov, presenteras här en metod för att pröva slumpmässigheten i ett material med avseende på en dikotom eller dikotomiserad egenskap. Denna metod, det s.k.
run-testet, att studera en slumpmässig ordningsföljd belyses bäst med hjälp
av ett exempel.
Vid en lunchrast på en skola observerades de 25 första eleverna i matkön.
Man observerade den dikotoma variabeln kön. I matkön stod dessa 25
elever i följande ordning (P=pojke, F=flicka):
PPP F PPP FF PPPPP FFFF P FFFFFF
© Horst Löfgren
125
I denna kö finns åtta stycken s.k. “runs“, dvs. åtta grupper av samma kön. I
två av “grupperna“ finns visserligen endast en elev. I den första finns tre
pojkar, i den andra endast en flicka, i den tredje tre pojkar osv. Det totala
antalet “runs“ är ett bra mått på slumpmässigheten i ett material. Verkar
flickor och pojkar i detta exempel komma i slumpmässig ordning eller
finns det någon systematik i materialet? Om det finns få “runs“, så kan
man anta att ordningsföljden inte är slumpmässig. Likaså gäller om det
finns väldigt många “runs“. Om varannan i kön är pojke och varannan
flicka så är ordningsföljden systematisk.
H0: Ordningsföljden vad gäller kön är slumpmässig
H1: Ordningsföljden vad gäller kön är ej slumpmässig
Signifikansnivå: =0,05
I matkön fanns 12 pojkar (n1=12) och 13 flickor (n2=13). Det kritiska
värdet enligt Tabell H blir 8 respektive 19. Observera att Tabell H innehåller två kritiska värden, både för få och för många “runs“ tyder på att ordningsföljden inte är slumpmässig. Vi kan här observera att kön innehåller 8
“runs“. Om kön innehåller  8 eller  19 “runs“ finns troligen någon systematik i ordningsföljden. Vi måste därför förkasta nollhypotesen och drar
slutsatsen att ordningsföljden vad gäller kön inte är slumpmässig.
Om n1 och n2 är tillräckligt stora (>20) blir antalet “runs“ (R) approximativt normalfördelat enligt nedanstående formel:
z=
2 n1n2
R - ______ + 1 - 0,5
n1+n2
(formel 4.2)
2 n1n2 (2 n1n2 - n1 - n2)
(n1+n2)2 ( n1+n2 - 1)
Även numeriska observationer kan behandlas på liknande sätt om man
dikotomiserar den studerade variabeln. Man kan ange observationer över
respektive under medianen. Observationer exakt på medianen utesluts.
Vid en tentamen i statistik med fri skrivningstid registrerades i vilken ordning de 40 tentanderna lämnade in sina skrivningar. Den förste lämnade in
sin skrivning efter 2,5 timmar och den siste först efter 6 timmar. Efter att
skrivningen blivit rättad kunde man på ett enkelt sätt studera om skrivningsresultat var relaterat till inlämningstid. För att nu kunna använda
126
© Horst Löfgren
“run“-testet anges resultatet för varje tentand som över (Ö) eller under (U)
medianen. Följande resultat erhölls:
ÖÖ U ÖÖÖÖ UU ÖÖÖÖ UUU ÖÖÖ UU ÖÖ UUUU ÖÖÖ UUUU ÖÖ
UUUU
H0: Utnyttjad skrivningstid är ej relaterad till tentamensresultat
H1: Utnyttjad skrivningstid är relaterad till tentamensresultat
Signifikansnivå: =0,05
Kritiskt värde: z= +/- 1,96
Vi har här funnit 14 “runs“ och kan pröva nollhypotesen med z-testet. Enligt formel 4.2 erhålls:
z=
2 n1n2
R - ______ + 1 - 0,5
n1+n2
2 n1n2 (2 n1n2 - n1 - n2)
(n1+n2)2 ( n1+n2 - 1)
14 -
2 . 20 . 20
+ 1 - 0,5
20 + 20
= -2,08*
.
.
.
.
2 20 20 (2 20 20 -20 -20)
(20 + 20)2 (20 + 20 - 1)
Vi kan således förkasta nollhypotesen och dra slutsatsen att inlämningen
inte har skett i slumpmässig ordning i förhållande till skrivresultat
(p<0,05).
4.2
Analys av differensen mellan två
oberoende stickprov
I detta avsnitt ska vi ta upp några icke-parametriska metoder, som kan vara
lämpliga vid analys av skillnader mellan två oberoende stickprov. En vanlig situation är att vi ur en viss population har dragit två stickprov, som
behandlas på olika sätt (experiment- och kontrollgrupp), varefter vi prövar
om en eventuell differens på ett efterprov är signifikant eller ej. Det kan
också handla om en deskriptiv studie, i vilken man vill pröva om det finns
några säkerställda skillnader.
© Horst Löfgren
127
4.2.1
Chi-kvadrat-testet för två oberoende stickprov
2-testet kan användas på en nominalskalerad observationsvariabel för att
pröva skillnaden mellan två oberoende stickprov. Tillvägagångssättet är
analogt med fallet för ett stickprov. Vi har ett antal observationer i de två
stickproven fördelade på två eller flera rader (r) . Nollhypotesen testas med
nedanstående formel:
(Oij - Eij)2
2=  ________
fg= r-1
(formel 4.3)
Eij
Oij = antal observationer i den i:te raden av den j:te kolumnen
Eij = förväntat antal observationer i den i:te raden av den j:te kolumnen
 = summan av de ”k” raderna och de två kolumnerna
De förväntade värdena under H0 för varje cell (Eij) erhålls genom att multiplicera radsumman med kolumnsumman, för att därefter dividera denna
produkt med totalantalet observationer. De förväntade värdena (Eij) bör
vara  5.
Passagerare på en flygsträcka i Smokeland fick under en viss vecka besvara en enkät rörande vissa trivsel- och serviceförbättrande åtgärder, som
flygbolaget planerade att införa. För att få ett någorlunda representativt
urval delades enkäten ut till samtliga resenärer vid ett antal slumpmässigt
valda avgångar. En av frågorna gällde om rökning skulle totalförbjudas på
denna tre timmar långa flygsträcka. Respondenterna fick också ange om de
var rökare eller ej. Följande antal erhölls för de olika alternativen:
Tabell 4.2a. Enkätresultat rörande rökning på en viss flygsträcka
Observerade värden
Rökare
Icke-rökare
Rökning borde totalförbjudas
Rökning kunde tillåtas som nu
Ingen bestämd uppfattning
40
140
20
560
160
80
600
300
100
Totalt
200
800
1000
128
Summa
© Horst Löfgren
Det finns tydligen en majoritet för att man borde förbjuda rökning på
sträckan, men har passagerarnas åsikt samband med om de är rökare eller
ej?
H0: Det föreligger inget samband mellan inställning och tobaksvanor
H1: Det föreligger ett samband mellan inställning och tobaksvanor
Signifikansnivå: = 0,001
Kritiskt värde (Tabell D) för 2 (2 frihetsgrader): 13,82
Utifrån ovan observerade värden beräknas de under H0 förväntade värdena. För att beräkna den förväntade frekvensen i rad 1 och kolumn 1,
under förutsättning att det inte finns något samband mellan inställning och
tobaksvanor, multipliceras radsumman med kolumnsumman, varefter man
dividerar med totalsumman, dvs. 600 . 200 / 1000 = 120.
Tabell 4.2b. Teoretiska resultat om inget samband finns mellan de båda
studerade variablerna
Teoretiska värden (om H0 gäller)
Rökare Icke-rökare
Summa
Rökning borde totalförbjudas
Rökning kunde tillåtas som nu
Ingen bestämd uppfattning
120
60
20
480
240
80
600
300
100
Totalt
200
800
1000
(40-120)2
(560-480)2 (140-60)2 (160-240)2 (20-20)2
2 = ____________ + _____________ + ____________ + _____________ + _____________ +
120
480
60
240
20
+
2
(80-80)
___________
= 200,0***
80
H0
H1
Kr. v.
Obs. v.
_______________________x______________________x__________
2= 0
© Horst Löfgren
13,82
200,0
2= högt
129
Som redan framgår av de observerade värdena finns det ett tydligt samband mellan de två studerade variablerna. 2-värdet är självfallet signifikant, varför H0 måste förkastats (p<0,001). Här är ett bra exempel på att
en signifikansanalys bör åtföljas av ett mått på storleken i relationen mellan de studerade variablerna. Lämpliga index vid 2-analyser presenteras
senare (avsnitt 4.4).
4.2.2
2-analys av en 2x2 kontingenstabell
Då man vill testa nollhypotesen för observationsvariabler, som endast innehåller två kategorier bör man övergå till en alternativ beräkning av 2värdet, vilken ger en bättre approximation till 2-fördelningen. Detta kan
ses som ett specialfall av 2-analys vid oberoende stickprov. Observationer från två dikotoma eller dikotomiserade variabler kan sättas upp i en s.k.
fyrfältstabell.
Variabel 1
1
2
Summa
1
A
B
A+B
2
C
D
C+D
A+C
B+D
Variabel 2
Summa
N (|AD-BC| 
N
N
)2
2
2 = _____________________
(A+B)(C+D)(A+C)(B+D)
fg = 1
(formel 4.4)
Vid en simskola ville man pröva en ny metod för simundervisning. Därför
uttogs slumpmässigt två grupper av elever, som fick olika undervisning.
Efter kursens slut studerades simkunnigheten som ett mått på undervisningsmetodens effektivitet. Kan man våga påstå att metoderna är olika
effektiva?
130
© Horst Löfgren
Tabell 4.3. Resultat av simundervisning
Metod A
Antal simkunniga
Antal ej simkuniga
Metod B
35
5
25
15
H0: Det föreligger inget samband mellan simkunnighet och metod
H1: Det föreligger ett samband mellan simkunnighet och metod
Signifikansnivå: = 0,05
Kritiskt värde (Tabell D) för 2 (fg = 1): 3,84
80 2
)
2
2
2 = _____________________ = ______________________ = 5,40*
(A+B)(C+D)(A+C)(B+D)
60 . 30 . 40 . 40
N (|AD-BC| -

H0
N
)2
80 ( 35.15 – 25.5 -
H1
Kr. v.
Obs. v.
_______________________x___________x_______________
2= 0
3,84
5,40
2= högt
Sannolikheten att i ett stickprov erhålla ett 2-värde på 5,40, trots att det i
populationen inte finns någon skillnad mellan de båda metoderna (dvs.
2=0) är mindre än 5 % (p< 0,05). Vi förkastar därför H0 och drar slutsatsen att de två simundervisningsmetoderna leder till olika resultat.
4.2.3
Mann-Whitney U-test
Mann-Whitney är ett mycket effektivt test som kan användas vid två oberoende stickprov då observationsvariabeln är ordinalskalerad. Antag att vi
exempelvis har två stickprov, som erhållit olika behandlingar (experimentoch kontrollgrupp). Vi prövar nollhypotesen att de båda stickproven är
hämtade ur samma bakomliggande population. Det finns ytterligare några
© Horst Löfgren
131
icke-parametriska test, som har samma användningsområde som MannWhitney U-test., t.ex. Kolmogorov-Smirnov och Wald-Wolfowitz Runs.
Mann-Whitney testet baseras på förhållandet att om det finns en verklig
skillnad mellan två jämförda grupper, borde mätresultaten i det ena stickprovet oftare vara högre än i det andra stickprovet. Om då de två stickproven kombineras och mätresultaten läggs i rangordning från det lägsta till
det högsta, borde mätresultat från den ena gruppen mestadels ligga i den
ena svansen och den andra gruppens mätresultat i den andra svansen.
Skulle det inte finnas någon skillnad mellan grupperna kommer de rangordnade mätresultaten att ligga i blandad ordning.
Vi benämner antalet observationer i det första stickprovet n1 och antalet
observationer i det andra stickprovet för n2. Därefter kombineras de båda
stickproven, och de n1+n2 observationerna rangordnas. Varje individ i det
första stickprovet får en poäng för varje individ, som “besegras“ i det
andra stickprovet. Det totala antalet poäng för det första stickprovet kallas
U1. På liknande sätt beräknas poängen för det andra stickprovet U2. Det
minsta av dessa två värden kallas Mann-Whitney U.
För att erhålla det s.k. förarbeviset i en kurs i båtvett ville man pröva ett
nytt självinstruerande studiematerial. De 15 kursdeltagarna under vinterkursen i Segelstad delades slumpmässigt i två grupper, varefter den ena
gruppen fick det nya materialet medan den andra gruppen fick konventionell undervisning. Man betraktade därvid kursdeltagarna i Segelstad som ett
stickprov ur den grupp, som går motsvarande kurser på andra platser i
landet.
Tabell 4.4. Provresultat efter kurs i båtvett
____________________________________________________________
Experimentgrupp (n1=8)
Kontrollgrupp (n2=6)
(Självinstruerande studiematerial)
(Konventionell undervisning)
____________________________________________________________
24, 15, 18, 21, 26, 12, 28, 13
16, 8, 11, 14, 9, 15
____________________________________________________________
Kan man av ovanstående data dra slutsatsen att det förligger en skillnad
mellan metoderna?
H0: Det föreligger ingen skillnad mellan de båda metoderna
H1: Det föreligger en skillnad mellan de båda metoderna
Signifikansnivå: = 0,05
132
© Horst Löfgren
Kritiskt värde (enligt Tabell F): 8
Slår vi samman de båda grupperna och placerar resultaten i en lång rad
efter prestation erhålls nedanstående. För att särskilja grupperna har resultaten i grupp 1 placerats något ovanför resultaten i grupp 2. Observera att
två deltagare har samma resultat (15 rätt på efterprovet).
28 26 24 21 18 16 15 15 14 13 12 11 9 8
I grupp 1 har de första fem deltagarna bättre resultat än samtliga i grupp 2.
Den deltagare i grupp 1 som har resultatet 15 har bättre resultat än fyra
deltagare från grupp 2 samt delar placering med en i grupp 2. Denne deltagare erhåller sålunda 4,5 p. Följande U-poäng erhålls i de två grupperna:
Grupp 1: U1 = 6 + 6 + 6 + 6 + 6 + 4,5 + 3 +3 = 40,5
Grupp 1: U2 = 3 + 2,5 + 2 = 7,5
Det minsta av dessa summor kallas U. I det här fallet blir U=7,5. Ett ofta
snabbare sätt att beräkna U är genom att först rangordna i det sammanslagna materialet för att därefter summera rangtalen (R) för respektive
grupp (R). U1 och U2 beräknas som följer:
n1(n1+1)
U1= n1.n2 + ________ - R1 och
2
(formel 4.5a)
n2(n2+1)
U2 = n1.n2 + ________ - R2
2
(formel 4.5b)
I det här fallet erhålls:
U1= 8.6 + 8(8+1)/2 - (1+2+3+4+5+7,5+10+11) = 40,5
U2= 8.6 + 6(6+1)/2 - (6+7,5+9+12+13+14) = 7,5
U blir självfallet detsamma som vid det första beräkningssättet 7,5. I Tabell F finns de kritiska värdena för detta test på 10%, 5% och 1%-nivån.
Observera att ju lägre värde på U desto större skillnad är det mellan grupperna. Det innebär att H0 förkastas om det observerade värdet är lägre än
det kritiska. I det här fallet förkastas H0 (p<0,05), och vi drar slutsatsen att
de båda inlärningssätten ger olika resultat.
© Horst Löfgren
133
H0
H1
Kr.v.
Obs.v.
_____________x__x_______________
U= högt
8 7,5
U=0
För stora stickprov (n1 och n2 >8 observationer) blir U approximativt
normalfördelad och kan därför prövas med hjälp av z-testet. Om man endast har ett fåtal “ties“ blir denna z-formel som följer:
n1.n2
U - _______
2
z = __________________________
(formel 4.6)
.
n1 n2( n1 + n2 + 1)
12
I SPSS-programmet ges förutom resultatet på Mann-Whitney-testet också
resultatet av Wilcoxon´s test, vilket är en variant. Båda ger samma resultat
och i förekommande fall lika z-värdesapproximation.
4.2.4
Kolmogorov-Smirnov-testet för två oberoende
stickprov
För att jämföra resultaten (fördelningarna) från två oberoende stickprov,
dvs. pröva om dessa stickprov kan antas komma från en och samma population, kan även Kolmogorov-Smirnov-testet användas. Man beräknar i
detta fall den kumulativa frekvensen för de båda stickproven och bildar
Dmax, dvs. använder den maximala differensen mellan de kumulativa
fördelningarna som mått på likheten i stickproven. Om fördelningarna i de
båda stickproven är någorlunda lika blir differenserna i de kumulativa fördelningarna små.
Kritiska värden för olika signifikansnivåer erhållls i Tabell G. Vid stora
stickprov (n1 och n2 >40) kan de kritiska värdena beräknas. Exempelvis
blir det kritiska värdet för =0,05 som följer:
134
© Horst Löfgren
n1 + n 2
______
n1 . n2
Kr. v. (=0,05) = 1,36
(formel 4.7)
På ett prov i statistik omfattande 8 uppgifter jämfördes två grupper med
olika gymnasial utbildningsbakgrund.
Tabell 4.5a. Provresultat i statistik
Antal rätt
(x)
0
1
2
3
4
5
6
7
8
Grupp 1
(f)
Grupp 2
(f)
1
1
2
5
5
0
1
0
0
0
1
2
1
2
3
4
1
1
Kan man av ovanstående resultat påvisa en skillnad mellan gruppernas
resultat?
H0: Det föreligger ingen skillnad mellan de båda grupperna
H1: Det föreligger en skillnad mellan de båda grupperna
Signifikansnivå:= 0,05
Kritiskt värde (enligt Tabell G): 8
Efter beräkning av de kumulativa frekvenserna erhålls följande differenser
och maximala differens:
© Horst Löfgren
135
Tabell 4.5b. Provresultat i statistik, kumulativa frekvenser
___________________________________________________________
Antal rätt Grupp 1
Grupp 2
Diffkum
(x)
(f) (fkum)
(f) (fkum)
____________________________________________________________
0
1
1
0
0
1
1
1
2
1
1
1
2
2
4
2
3
1
3
5
9
1
4
5
4
5
14
2
6
8 =Dmax (8/15=0,533)
5
0
14
3
9
5
6
1
15
4
13
2
7
0
15
1
14
1
8
0
15
1
15
0
____________________________________________________________
Eftersom Dmax är lika med det kritiska värdet förkastas nollhypotesen
(p<0,05). Vi har således påvisat en skillnad mellan de båda grupperna.
4.2.5
Wald-Wolfowitz Runs
Detta test används för att pröva om två oberoende stickprov kan ha dragits
från samma bakomliggande population. Med tillräckligt stora stickprov
kan man pröva skillnader mellan stickproven vad gäller central tendens,
variation och i övrigt vad gäller fördelningarnas utseende. Data förutsätts
vara på lägst ordinalskalenivå. Tillvägagångssättet är mycket likt det tidigare presenterade “run“-testet för ett stickprov. Data från de båda stickproven rangordnas efter sammanslagning. Därefter bestäms antalet “runs“,
dvs. sekvenser av mätvärden tillhörande samma grupp. Kritiska värden för
vald signifikansnivå erhålls ur Tabell H.
I en undersökning studerades pojkars och flickors inställning till påföljder
av olika brott. Följande summaresultat erhölls på några frågor om inställning till butikssnatteri (högt värde innebär högre grad av fördömanden och
krav på straffpåföljd). Kan man av resultatet påvisa någon skillnad i inställningen mellan flickor och pojkar?
136
© Horst Löfgren
Tabell 4.6. Inställning till butikssnatteri; summaresultat
____________________________________________________________
Flickor
Pojkar
____________________________________________________________
5
7
13
5
13
6
10
8
14
8
9
4
15
5
11
4
10
12
13
3
____________________________________________________________
H0: Det föreligger ingen skillnad mellan de båda grupperna
H1: Det föreligger en skillnad mellan de båda grupperna
Signifikansnivå: = 0,05
Kritiskt värde (enligt Tabell H): 6
Efter rangordning av det sammanslagna materialet erhålls:
pojkar: 3 4 4 5
flickor:
56788
5
12
9 10 10 11
13 13 13 14 15
Antalet “runs“ blir således 6. Då det kritiska värdet på 5%-nivån är just 6,
måste vi förkasta H0 (p<0,05). Det finns således en systematisk skillnad
mellan flickor och pojkar vad gäller inställning till brott och straff i detta
sammanhang. För stora stickprov (n1 och n2 >20) är antalet “runs“
(RWW) approximativt normalfördelat enligt formel 4.8. Denna formel är
identisk med den som tidigare presenterats i samband med Run-testet för
ett stickprov (avsnitt 4.1.2).
© Horst Löfgren
137
2 n1n2
RWW - ______ + 1
n1+n2
- 0,5
z=
(formel 4.8)
2 n1n2 (2 n1n2 - n1 - n2)
(n1+n2)2 ( n1+n2 - 1)
4.3
Analys av differensen mellan två
beroende stickprov
En vanlig situation är att vi utsätter en och samma grupp individer för repeterad mätning med mellankommande behandling (förprov - påverkan efterprov). En annan likaledes vanlig situation är att vi utsätter två matchade grupper av individer för olika behandlingar (experiment- och kontrollgrupp) för att studera eventuella differenser på ett efterprov. I dessa
båda fall av undersökningar studerar vi ett slumpmässigt urval av en definierad population. För att kunna generalisera erhållna resultat till bakomliggande population kan vi använda oss av några icke-parametriska metoder. Observera att vi i detta avsnitt analyserar observationer från beroende
stickprov. Det kan synas underligt att man säger sig ha två stickprov vid
repeterad mätning av en och samma grupp. Det man avser är att man har
två uppsättningar av mätvärden.
4.3.1
McNemar-testet
McNemar-testet är ett test som kan användas vid repeterad mätning, t.ex. i
situationer då man vill studera förändringar med hjälp av en binär observationsvariabel. För att studera en förändring med denna metod sätter vi
upp resultaten i en fyrfältstabell av mätvärden.
138
© Horst Löfgren
Efter
k1
k2
k2
A
B
k1
C
D
Före
En individ i cell A har förändrat sig i ena riktningen (från kategori 2 till
kategori 1), och en individ i cell D har förändrats sig i motsatt riktning.
Individerna i cellerna B och C är oförändrade.
Om förändringen inte gått i någon bestämd riktning erhålls de förväntade
värdena ½ (A+D) i cell A och ½ (A+D) i cell D. Denna nollhypotes kan
testas med hjälp av 2-formeln, som då den appliceras på cellerna A och D
ger följande:
(O-E)2
2 = ______
E5
(formel 4.9)
E
Detta uttryck kan förenklas och efter kontinuitetskorrektion erhålls:
(|A-D| -1)2

2 = _________ fg = 1
(formel 4.10)
A+D
Observera att vi här endast undersöker de individer, som visat en förändring. Vi kan ta följande exempel som visar tillvägagångssättet. Ett studieförbund genomförde en kurs i invandrarkunskap. Före och efter kursen
insamlades deltagarnas åsikter om flyktingmottagning i den egna kommunen. Man registrerade om de var positiva eller negativa till en ökad mottagning. Det är knappast troligt att kursdeltagarna är att betrakta som ett
representativt stickprov av kommuninvånarna, men vi kanske kan betrakta
dem som ett stickprov av personer som söker sig till sådana här kurser.
Följande resultat erhölls i den här gruppen som bestod av 20 deltagare:
Efter
pos neg
neg
9
3
pos
11
17
Före
© Horst Löfgren
139
Kan man av ovanstående dra slutsatsen att det föreligger en systematisk
förändring i inställningen till flyktingmottagning?
H0: Det föreligger ingen systematisk påverkanseffekt
H1: Det föreligger en systematisk påverkanseffekt
Signifikansnivå: = 0,05
Kritiskt värde för 1 frihetsgrad: 3,84

( 9 – 17 - 1)2
2 = _________________ = 1,88 (-)
9 + 17
H0 kan ej förkastas (p>0,05). Man kan således inte dra slutsatsen att kursdeltagare förändrar sina åsikter på ett statistiskt signifikant sätt.
4.3.2
Wilcoxon’s teckenrangtest
Wilcoxon’s teckenrangtest är ett effektivt test, som används vid beroende
observationer på en ordinalskalerad variabel. Testet utnyttjar inte endast
differensernas riktning, utan tar även hänsyn till differensernas storlek. Det
enklare s.k. teckentestet (Sign Test) använder endast differensernas riktning, dvs. + och -. Detta test finns också i SPSS, men presenteras inte närmare här. Differensen mellan de parvisa observationerna beräknas. Därefter rangordnas differenserna oberoende av tecken, och den minsta differensen erhåller rangtal 1. Om differensen är 0 stryks observationsparet (s.k.
“ties“). Slutligen utsätts plus- och minustecken för differenserna vid rangtalen, varefter den lägsta summan av rangtalen med samma tecken beräknas (T). Om nollhypotesen gäller blir det väntade värdet av T lika med
hälften av den totala rangsumman. De kritiska värdena på T under H0 återfinnes i Tabell E. Antalet nolldifferenser (“ties“) bör ej vara för många.
Vid stora värden på n (n=antalet parvisa observationer) blir T approximativt normalfördelat, och nollhypotesen kan prövas med följande formel:
T - µT
T - n(n+1)/4
z = ______ = _____________

T
n(n+1)(2n+1)
24
140
(formel 4.11)
© Horst Löfgren
För att visa tillvägagångssättet väljer vi följande exempel. Ett slumpmässigt urval av vuxenstuderande arbetade under en termin med ett nytt självinstruerande material. Före kursens början och efter avslutad kurs fick de
studerande besvara ett attitydformulär. Resultatet på attitydskalan uttryckt i
summapoäng framgår av nedanstående. Låg poäng innebär en negativ inställning till ämnet. Kan man av nedanstående data dra slutsatsen att eleverna systematiskt förändrat sin inställning?
H0= Det föreligger ingen skillnad mellan attityderna före och efter
försöket
H1= Det föreligger en skillnad mellan attityderna före och efter
försöket
Signifikansnivå:  = 0,05
Kritiskt värde (Tabell E) för n = 26: T= 98
Tabell 4.7. Resultat av attitydmätning
____________________________________________________________
Elev
Före
Efter
Elev Före
Efter
____________________________________________________________
A
10
12
O
10
13
B
15
11
P
10
22
C
24
26
Q
20
17
D
14
18
R
12
16
E
17
20
S
11
18
F
15
15
T
15
20
G
18
21
U
17
21
H
6
14
V
19
20
I
20
21
X
15
8
J
21
20
Y
12
17
K
21
16
Z
18
13
L
10
10
Å
10
16
M
20
22
Ä
11
18
N
24
16
Ö
6
20
____________________________________________________________
© Horst Löfgren
141
____________________________________________________________
Elev Före Efter diff rang
Elev Före Efter
diff rang
____________________________________________________________
A 10
12
-2
-5,0
O 10
13
-3
-8,5
B
15
11
4
12,5
P
10
22
-12 -26,0
C
24
26
-2
-5,0
Q 20
17
3
8,5
D 14
18
-4
-12,5
R
12
16
-4 -12,5
E
17
20
-3
-8,5
S
11
18
-7 -22,0
F
15
15
0
--T
15
20
-5 -16,5
G 18
21
-3
-8,5
U 17
21
-4 -12,5
H
6
14
-8
-24,5
V 19
20
-1
-2,0
I
20
21
-1
-2,0
X 15
8
7 22,0
J
21
20
1
2,0
Y 12
17
-5 -16,5
K 21
16
5
16,5
Z
18
13
6 16,5
L
10
10
0
--Å 10
16
-6 -19,5
M 20
22
-2
-5,0
Ä 11
18
-7 -22,0
N 24
16
8
24,5
Ö
6
12
-6 -19,5
____________________________________________________________
Summan av rangtalen med samma tecken beräknas. T är den lägsta summan av rangtalen och blir här 102,5. Eftersom vi har 26 differenser > 0 blir
n=26.
H0
H1
Obs.v
Kr.v
_______________x_______x_______________________
T=hög
102,5
98
T= 0
H0 kan ej förkastas (p > 0,05)
Man kan således inte påvisa någon skillnad mellan attityderna före och
efter den självinstruerande undervisningen.
142
© Horst Löfgren
4.4
Några index byggda på 2
Under denna rubrik ska vi ta upp två index som är vanligt förekommande,
kontingenskoefficienten och Cramérs index. För frekvensdata uppställda i
en r x k-tabell kan ett beräknat 2-värde s a s översättas till en korrelationskoefficient. Ett erhållet 2-värde på exempelvis 24,5 tolkas genom att
man jämför med ett kritiskt värde för en viss vald signifikansnivå. Om vi
överför det observerade värdet till en korrelationskoefficient blir resultatet
lättare att tolka. Vi är mer bekanta med innebörden av ett sådant standardiserat mått som en korrelationskoefficient. Problemet med 2-test liksom
vid andra vanliga hypotesprövningsmetoder är att antalet observationer är
avgörande för om en viss differens ska betraktas som säkerställd eller ej.
Vid stora n-tal blir medelfelet mindre, vilket leder till att även en liten
skillnad kan bli signifikant.
4.4.1
Kontingenskoefficienten
En kontingenskoefficient (C) för data uttryckta i en tabell med r rader och
k kolumner beräknas utifrån ett 2-värde och antalet observationer (N),
som ingår i analysen.

2
C = ______
N + 2
(formel 4.12)
I en undersökning samlade man via en enkät in föräldrars och barns inställning till betyg i grundskolan. Resultatet av undersökningen presenteras
i Tabell 4.8.
Av analysen drar vi slutsatsen att det inte finns något signifikant samband
mellan socialgruppstillhörighet och inställning då det gäller barnen, men
väl då det gäller deras föräldrar. Denna slutsats drar vi, trots att vi här konstruerat data där elever och deras föräldrar har precis samma uppfattning.
Den relativa fördelningen av svar är exakt densamma. Skillnaden är att
föräldrarna är dubbelt så många som eleverna. Sambandet mellan variablerna för barn- respektive föräldragruppen måste självfallet bli lika högt,
men tydligen har 2-metoden för låg känslighet för att skillnaden ska bli
säkerställd för barngruppen.
© Horst Löfgren
143
Tabell 4.8. Barn och föräldrars inställning till betyg
____________________________________________________________
Barn:
Föräldrar:
SocialInställning
SocialInställning
grupp
neg ?
pos summa grupp
neg ?
pos summa
____________________________________________________________
1
3
2
15
20
1
6
4
30
40
2
10
10
20
40
2
20
20
40
80
3
12
13
15
40
3
24
26
30
80
____________________________________________________________
Summa 25
25
50
100
Summa 50
50 100
200
____________________________________________________________
2= 7,65
(p>0,05)
2= 15,3
(p<0,05)
För att göra jämförelser mellan grupper avseende samband mellan variabler måste vi överföra erhållna 2-värden till något korrelationsmått, t.ex.
kontingenskoefficienten “C“.
7,65
Cbarn = _________ = 0,27
100 + 7,65
15,3
Cföräldrar = _________ = 0,27
200 + 15,3
Av kontingenskoefficienterna framgår att sambandet mellan de studerade
variablerna i de båda grupperna är lika stort.
Det lägsta värde C kan anta är 0,00. Kontingenskoefficienten är alltid positiv, vilket är naturligt med hänsyn till att data är på ordinalskalenivå. Det
högsta möjliga värdet på C är emellertid beroende på ursprungstabellens
storlek. När tabellen har lika många rader som kolumner kan Cmax beräknas med hjälp av följande formel:
r -1
_____
(formel 4.13)
r
r = antal rader (eller kolumner)
Cmax =
För en 2x2-tabell blir Cmax således 0,707 och för en 3x3-tabell 0,816. Att
Cmax på detta sätt varierar med tabellens storlek medför att olika konting144
© Horst Löfgren
enskoefficienter inte blir direkt jämförbara, såvida de inte baseras på tabeller av lika storlek.
4.4.2
Cramérs index
I stället för att använda kontingenskoefficienten kan man i samma situationer lämpligen i stället utnyttja Cramérs index (CV). Den har fördelen att
inte ha olika max-värden för tabeller av olika storlek. Cramérs index varierar alltid mellan 0,00 och 1,00.

Cramérs V =
2
______
N.(s-1)
(formel 4.14)
N= stickprovsstorleken; s= minsta antalet av rader och/eller kolumner
Om vi applicerar Cramérs index på samma data som i det tidigare exemplet erhålls följande:
CV=
7,65
_______ = 0,20
100 . 2
CV=
15,3
______ = 0,20
200 . 2
Som tidigare nämnts är phi ett sambandsmått som används då man har två
nominalskalerade observationsvariabler. För att beräkna sambandet mellan
två variabler i en kontingenstabell kan man således använda phi. I en s.k.
fyrfältstabell, i vilken man har observationer från två dikotoma eller dikotomiserade variabler är phi-koefficienten identisk med Cramérs V.
4.5
Analys av differenser mellan tre eller
flera oberoende stickprov
I översikten för hypotesprövningsmetoder (Ruta 4.1) angavs några möjligheter att jämföra tre eller flera stickprov, både oberoende och beroende, för
observationer på olika skalnivåer. I detta avsnitt ska vi presentera de ickeparametriska metoder, som kan appliceras på nominal- och ordinal-
© Horst Löfgren
145
skalenivå. Liksom tidigare undersöks huruvida man kan dra slutsatsen att
stickproven härrör ur samma bakomliggande population.
4.5.1
Chi-kvadrat-testet för tre eller flera oberoende
stickprov
Vi kan här använda samma test, som utnyttjades för två oberoende stickprov, nämligen 2-testet. Formeln är densamma som tidigare med undantag av att vi nu summerar över k stickprov i stället för endast 2 stickprov.
(Oij-Eij)2
2
fg = (r-l) (k-l)
(formel 4.15)
 =  ________
Eij
r= antal rader; k= antal kolumner
Vi använder följande exempel: I ett kvasiexperiment med tre experimentgrupper önskade man kontrollera vissa bakgrundsvariabler. Sålunda studerade man socialgruppstillhörighet för att se huruvida man kunde betrakta
grupperna som slumpmässigt lika avseende denna variabel.
Tabell 4.9a. Erhållna resultat av socialgruppsjämförelse mellan de tre studerade grupperna
____________________________________________________________
Observerade frekvenser (O):
Socialgrupp
I
II
III
Summa
____________________________________________________________
Experiment- 1
14
21
15
50
grupp
2
8
17
25
50
3
5
25
20
50
____________________________________________________________
Summa
27
63
60
150
____________________________________________________________
Parentetiskt kan här nämnas att ett experiment i vilket man inte slumpmässigt kan fördela individerna till olika jämförelsegrupper kallas vanligen
för kvasiexperiment. Eftersom jämförelsegrupperna inte är lika inom
146
© Horst Löfgren
slumpens ram måste man kontrollera, om de kan anses vara lika i utgångsskedet.
Utifrån ovan observerade värden beräknas de under H0 förväntade värdena. För att beräkna den förväntade frekvensen i rad 1 och kolumn 1,
under förutsättning att det inte finns något samband mellan de båda variablerna, multipliceras radsumman med kolumnsumman, varefter man dividerar med totalsumman, dvs. 50 . 27/ 150 = 9.
Tabell 4.9b. Förväntade resultat om det inte finns skillnader mellan grupperna
____________________________________________________________
Förväntade värden (E):
Socialgrupp
I
II
III
Summa
____________________________________________________________
Experiment- 1
9
21
20
50
grupp
2
9
21
20
50
3
9
21
20
50
____________________________________________________________
Summa
27
63
60
150
____________________________________________________________
Enligt formel för 2 (4.15) erhålls:
2
(14-9)2
= __________
9
+
(21-21)2 (15-20)2 (8-9)2 (17-21)2 (25-20)2
+
+ ____________ + ________ + ___________ + ___________ +
21
20
9
21
20
___________
(5-9)2
(25-21)2
_________
____________
9
+
21
(20-20)2
+
___________
= 8,69
20
Eftersom vi i det här fallet vill undersöka om grupperna initialt är lika, bör
vi välja en signifikansnivå där -risken är hög. Det är bättre att felaktigt
förkasta H0 än att gå vidare i studien och felaktigt anta att grupperna är
© Horst Löfgren
147
lika. Kanske kan 10%-nivån eller rent av 20%-nivån vara en lämplig signifikansnivå.
H0: Det finns inget samband mellan experimentgrupp och socialgruppstillhörighet
H1: Det finns ett samband mellan experimentgrupp och socialgruppstillhörighet
Det kritiska värdet för 4 frihetsgrader på 10%-nivån är 7,78 och på 20%nivån 5,99, varför nollhypotesen i detta fall förkastas (p<0,10). Vi drar
slutsatsen att grupperna inte kan betraktas vara dragna ur samma population. Visserligen hade nollhypotesen inte kunnat förkastas, om -risken
hade bestämts till 5 %, men eftersom det här var fråga om en kontroll av
initialskillnader är = 0,20 mera lämplig. Med hjälp av Cramér’s index
kan vi beräkna sambandet mellan experimentgrupp och socialgruppstillhörighet (jfr avsnitt 4.4.2). I detta fallet blir sambandet 0,17. Det är visserligen inte något starkare samband, men för att vara på den säkra sidan vill vi
ej betrakta grupperna som lika vad avser socialgruppstillhörighet.
4.5.2
Kruskal-Wallis testet
För data på ordinalskalenivå finns några olika möjligheter. Ett av de mera
effektiva testen är Kruskal-Wallis testet eller som det ibland också kallas
H-testet. Detta är ett effektivt test och används då man har flera oberoende
grupper som ska jämföras. Samtliga observationer rangordnas över alla
grupper, och därefter studeras om rangsummorna för de olika grupperna
ungefärligen blir lika med hänsyn till antalet individer i grupperna. Om
nollhypotesen gäller och sålunda stickproven kommer från samma bakomliggande population bör rangsummorna bli ganska lika.
Hypotesen kan prövas med följande formel (om nj >5):
12
Rj2
H = _______  ___ - 3(n+1)
n(n+1)
nj
(formel 4.16)
Rj2 = summan av rangtalen i kvadrat för den j:te gruppen
nj = antalet individer i den j:te gruppen
148
© Horst Löfgren
H är 2-fördelad med k-1 frihetsgrader (k=antal grupper). Om det finns
många “ties“ kan man justera för dessa.
Ett exempel får belysa tillvägagångssättet av detta H-test. I en undersökning av ett nytt läkemedel ingick att testa detta på försöksdjur. Efter injicering av ett bestämt virus fick tre olika grupper av försöksdjur olika behandlingar. Efter försöksperiodens slut bedömdes effekterna i en sju-gradig
skala. Bedömaren kände ej till försöksdjurens grupptillhörighet. Följande
resultat erhölls vid bedömningen efter påverkansperioden:
Tabell 4.10a. Resultat av bedömningar av effekter
____________________________________________________________
Grupp 1
Grupp 2
Grupp 3
____________________________________________________________
3
1
5
1
5
6
2
1
7
3
4
5
4
2
7
2
6
6
____________________________________________________________
n1=6
n2=6
n3=6
____________________________________________________________
Kan man av ovanstående resultat dra slutsatsen att de tre behandlingarna
leder till olika resultat?
H0: Det finns ingen skillnad i mellan de tre grupperna (de kan även
efter medicinering betraktas tillhöra samma bakomliggande population)
H1: Det finns en skillnad mellan de tre grupperna
Signifikansnivå: =0,05
Eftersom vi här har tre grupper blir antalet frihetsgrader 2. Det kritiska
värdet för den valda signifikansnivån blir enligt Tabell D lika med 5,99.
Efter rangordning erhålls nedanstående värden.
© Horst Löfgren
149
Tabell 4.10b. Rangtal av bedömningar
____________________________________________________________
Grupp 1
Grupp 2
Grupp 3
____________________________________________________________
7,5
2,0
12,0
2,0
12,0
15,0
5,0
2,0
17,5
7,5
9,5
12,0
9,5
5,0
17,5
5,0
15,0
15,0
____________________________________________________________
36,5
45,5
89,0
____________________________________________________________
12
36,52 45,52
892
H = ________ ( _____ + _____ + ____ ) - 3(18+1) = 9,22**
18(18+1)
6
6
6
Då det kritiska värdet enligt 2-fördelningen på 5%-nivån för 2 frihetsgrader är 5,99 måste nollhypotesen förkastas, och vi drar slutsatsen att de tre
medicineringarna är olika effektiva (p<0,01).
4.6
Analys av differensen mellan tre eller
flera beroende stickprov
Som tidigare flera gånger har nämnts erhålls beroende stickprov antingen
genom repeterad mätning, dvs. samma grupp individer utsätts för flera
mätningar och dessa mättillfällen jämförs med varandra, eller genom
matchning varvid olika grupper av individer jämförs vid ett och samma
testtillfälle.
150
© Horst Löfgren
4.6.1
Cochran Q-test
Vid analys av två beroende stickprov kan man använda McNemar-testet.
Då vi har fler än två stickprov eller uppsättningar av beroende mätvärden,
väljer vi en vidareutveckling av McNemar-testet, nämligen Cochran Qtest. Detta test kan användas när data är på nominalskalenivå eller vid
diktomiserad ordinalskala. Data uttryckta i en dikotom skala kan endast
anta endera av två värden, t.ex. ja - nej, rätt - fel eller positiv - negativ.
Data sammanställs i en tabell innehållande r rader och k kolumner. Den
nollhypotes som prövas är om frekvenserna är slumpmässigt lika i de olika
kolumnerna. Ett Q-värde beräknas, vilket är approximativt 2-fördelat med
k-1 frihetsgrader.
(k-1) {k.Gj2 - (Gj)2}
Q = _______________________________
K .Li - Li2
(formel 4.17)
Gj = antal ja-svar (frekvensen i den ena dikotomin) i den j:te gruppen
Li = antal ja-svar i den i:te raden
Vid ett försök med självinstruerande material i matematik lät man eleverna
vid tre tillfällen ange huruvida de var positiva eller negativa till läromedlet
(Tabell 4.11).
H0: Det finns ingen skillnad mellan de tre mättillfällena
H1: Det finns en skillnad mellan de tre mättillfällena
Signifikansnivå: =0,05
(3-1) {3.(122 + 82 + 62) - 262}
Q=
________________________________________
= 7,0*
3.26 - 62
Då det kritiska värdet enligt 2-fördelningen på 5%-nivån för 2 frihetsgrader är 5,99, kan nollhypotesen förkastas (p<0,05), och vi drar slutsatsen att
inställningen till läromedlet har förändrats under den tid de arbetat med
materialet.
© Horst Löfgren
151
Tabell 4.11. Resultat av attitydmätning vid tre olika mättillfällen
(1= positiv inställning; 0= negativ inställning)
____________________________________________________________
Mättillfälle:
Elev
efter 1 mån efter 2 mån efter 3 mån
L
L2
____________________________________________________________
A
1
1
1
3
9
B
1
0
0
1
1
C
1
1
0
2
4
D
0
0
0
0
0
E
1
1
1
3
9
F
1
1
1
3
9
G
1
0
0
1
1
H
0
1
1
2
4
I
1
1
1
3
9
J
1
1
0
2
4
K
1
0
0
1
1
L
0
0
0
0
0
M
1
1
1
3
9
N
1
0
0
1
1
O
1
0
0
1
1
____________________________________________________________
Summa
12
8
6
26
62
____________________________________________________________
4.6.2
Friedman testet
Vid analys av data på ordinalskalenivå finns olika testmöjligheter vid tre
eller flera beroende stickprov. Här presenteras det mest vanliga, nämligen
Friedman testet eller som det ibland kallas Friedman’s två-vägs variansanalys.
Efter att data insamlats sätts observationsvärdenas upp i en “två-vägs“tabell, där raderna representerar olika individer och kolumnerna olika situationer. Man rangordnar mätvärdena inom varje rad, dvs. man rangordnar
individens (eller de matchade individernas) mätresultat i de k situationerna. Testet undersöker huruvida det finns någon skillnad mellan de k situationerna. Om det inte finns någon skillnad borde rangsummorna för de k
situationerna bli ungefärligen lika stora. En stor variation mellan rang152
© Horst Löfgren
summorna leder således till att nollhypotesen måste förkastas. Vid förkastande av nollhypotesen kan man gå vidare för att parvis undersöka mellan
vilka tillfällen skillnader finns.
Vi väljer ett exempel från en undersökning i vilken ett urval av studenter
fick genomgå fyra olika tentamensformer, nämligen individuell muntlig,
individuell skriftlig, grupptentamen och s.k. hemmatentamen (individuell
men med tillgång till hjälpmedel). Efter genomförd tentamen fick studenterna i en 5-gradig skala bedöma hur de hade upplevt tentamen. Vi får här
anta att de olika inlärningsmomenten är jämförbara eller i varje fall inte
har påverkat upplevelserna av själva tentamensformen.
Tabell 4.12a. Resultat av attityd till tentamensform
____________________________________________________________
Tentamensform
Tentamensform
Student I
II
III
IV
Student I
II
III
IV
____________________________________________________________
A
1
1
5
1
I
1
1
5
2
B
2
2
4
3
J
3
3
3
3
C
2
1
5
1
K
1
2
4
2
D
1
4
4
4
L
2
1
3
3
E
1
2
4
3
M
2
3
4
2
F
1
2
4
2
N
4
3
2
3
G
1
1
5
2
O
5
4
1
3
H
2
2
3
3
____________________________________________________________
Kan man på basis av ovanstående data dra slutsatsen att studenter har olika
inställning till de fyra skilda tentamensformerna?
H0: Det finns ingen skillnad i inställningen till de olika tentamensformerna
H1: Det finns en skillnad i inställningen till de olika tentamensformerna
Signifikansnivå: =0,05
Nu ska man rangordna bedömningarna för varje student. Student A har
bedömt tentamensformerna I, II och IV lika, medan tentamensform 3 fått
ett högre värde. De tre förstnämnda ska dela på rangplatserna 1, 2 och 3,
vilket innebär att de får genomsnittet av dessa, dvs. rangtal 2. Tentamens-
© Horst Löfgren
153
form III får rang 4. Efter rangordning av studenternas inbördes bedömningar erhålls följande:
Tabell 4.12b. Resultat efter rangordning
____________________________________________________________
Tentamensform, rangtal
Tentamensform, rangtal
Student I
II
III
IV
Student I
II
III
IV
____________________________________________________________
A
2
2
4
2
I
1,5 1,5 4
3
B
1,5 1,5 4
3
J
2,5 2,5 2,5 2,5
C
3
1,5 4
1,5
K
1
2,5 4
2,5
D
1
3
3
3
L
2
1
3,5 3,5
E
1
2
4
3
M
1,5
3
4
1,5
F
1
2,5 4
2,5
N
4 2,5
1
2,5
G
1,5 1,5 4
3
O
4
3
1
2
____________________________
H
1,5 1,5 3,5 3,5
Rj
29 31,5 50,5 39
____________________________________________________________
Vid ej alltför små stickprov (nj>9) kan visas att Friedman-testet är approximativt 2-fördelat med k-1 frihetsgrader enligt följande formel:

12
2F = _______ (Rj)2 - 3n (k+1)
nk (k+1)
(formel 4.18)
n = antalet rader (individer)
k = antalet kolumner (mättillfällen)
Rj = rangsumma för kolumn j
Med de ovan erhållna data erhålls:

12
2F = ______ (292+31,52+50,52+392) - 3.15.5 = 11,18*
15.4.5
Då det kritiska värdet enligt 2-fördelningen på 5%-nivån för 3 frihetsgrader är 7,81, måste nollhypotesen förkastas (p=0,05), och vi drar slutsatsen
att de fyra tentamensformerna är olika populära. Om man nu vill, kan man
gå vidare och parvis studera skillnader mellan tentamensformer.
154
© Horst Löfgren
Appendix
© Horst Löfgren
155
Ett förenklat exempel på varianskomponenter i variansanalys
För att förstå hur de olika variansdelarna beräknas, dvs. SST (den totala
kvadratsumman), SSM (kvadratsumman mellan grupper) och SSI (kvadratsumman inom grupper) ges här ett mycket förenklat exempel. I exemplet
finns tre grupper med endast två observationer i varje grupp. Egentligen
går det inte att använda variansanalys på så små grupper – resultatet kommer att bli mycket underligt – men för att förstå varifrån de olika variansdelarna kommer kan exemplet fungera. I analyser av en större mängd data
och där medelvärden inte är heltalssiffror används en förenklad beräkningsmodell enligt exemplet på s. 95 ff. Nedan presenteras design med
data inskrivna för resp. grupp.
A
a1
a2
a3
G1
G2
G3
1, 3
2, 4
3, 5
Totalmedelvärde = (1+3+2+4+3+5)/6 = 18/6 = 3,0
Medelvärden för de tre grupperna:
M1 = (1+3)/2 = 2,0; M2 = (2+4)/2 = 3,0; M3 = (3+5)/2 = 4,0
Eftersom SST (Sum of Squares total) är summan av de kvadrerade avvikelserna från totalmedelvärdet för varje observation erhålls:
SST = (1-3)2 + (3-3)2 + (2-3)2 + (4-3)2 + (3-3)2 + (5-3)2 = 10
SSM är summan av differenserna mellan gruppmedelvärdena och totalmedelvärdet. Eftersom det finns två observationer i varje grupp multipliceras
avvikelserna med 2.
SSM = 2(2-3)2 + 2(3-3)2 + 2(4-3)2 = 4
SSI är summan av de kvadrerade avvikelserna inom grupperna
SSI = (1-2)2 + (3-2)2 + (2-3)2 + (4-3)2 + (3-4)2 + (5-4)2 = 6
Anova-tabell (jfr s. 94 ff.)
Variationsorsak
SS
mellan grupper
4,0
inom grupper
6,0
total
156
10,0
df
2
3
MS
2,0
2,0
F
2,0/2,0=1,0
p
>0,05
5
© Horst Löfgren
Tabeller
Tabell A:
t-fördelningen
____________________________________________________________
Kritiska värden (+/-)
Kritiska värden (+/-)
vid tvåsidig mothypotes
vid ensidig mothypotes
____________________________________________________________
FrihetsSannolikhet p % ()
Sannolikhet p % ()
Grader
20
10
5
1
0,1
10
5
1
0,1
____________________________________________________________
5
1,48 2,01 2,57 4,03 6,87
1,48 2,01 3,37 5,89
6
1,44 1,94 2,45 3,71 5,96
1,44 1,94 3,14 5,21
7
1,42 1,90 2,36 3,50 5,41
1,42 1,90 3,00 4,79
8
1,40 1,86 2,31 3,36 5,04
1,40 1,86 2,90 4,50
9
1,38 1,83 2,26 3,25 4,78
1,38 1,83 2,82 4,30
10
1,37 1,81 2,23 3,17 4,59
1,37 1,81 2,76 4,14
11
1,36 1,80 2,20 3,11 4,44
1,36 1,80 2,72 4,03
12
1,36 1,78 2,18 3,06 4,32
1,36 1,78 2,68 3,93
13
1,35 1,77 2,16 3,01 4,22
1,35 1,77 2,65 3,85
14
1,34 1,76 2,14 2,98 4,14
1,34 1,76 2,62 3,79
15
1,34 1,75 2,13 2,95 4,07
1,34 1,75 2,60 3,73
16
1,34 1,75 2,12 2,92 4,02
1,34 1,75 2,58 3,69
17
1,33 1,74 2,11 2,90 3,97
1,33 1,74 2,57 3,65
18
1,33 1,73 2,10 2,88 3,92
1,33 1,73 2,55 3,61
19
1,33 1,73 2,09 2,86 3,88
1,33 1,73 2,54 3,58
20
1,32 1,72 2,09 2,84 3,85
1,32 1,72 2,53 3,55
25
1,32 1,71 2,06 2,79 3,73
1,32 1,71 2,48 3,45
30
1,31 1,70 2,04 2,75 3,65
1,31 1,70 2,46 3,38
40
1,30 1,68 2,02 2,70 3,55
1,30 1,68 2,42 3,31
60
1,30 1,67 2,00 2,66 3,46
1,30 1,67 2,39 3,23
120
1,29 1,66 1,98 2,62 3,37
1,29 1,66 2,36 3,16

1,28 1,64 1,96 2,58 3,29
1,28 1,64 2,33 3,09
____________________________________________________________
© Horst Löfgren
157
Tabell B:
z-fördelningen
____________________________________________________________
Kritiska värden (+/-)
Kritiska värden (+/-)
vid tvåsidig mothypotes
vid ensidig mothypotes
____________________________________________________________
Sannolikhet p % ()
Sannolikhet p % ()
20 10
5
1
0,1
10
5
1
0,1
____________________________________________________________
1,28 1,64 1,96 2,58 3,29
1,28 1,64 2,33 3,09
z-fördelningen (den standardiserade normalfördelningen): Andel i % av
fördelningen som ligger till vänster om ett visst z-värde.
____________________________________________________________
z andel i % z andel i % z andel i % z
andel i %
____________________________________________________________
-3,0
0,1
-1,4
8,1 +0,2
57,9 +1,8
96,4
-2,9
0,2
-1,3
9,7 +0,3
61,8 +1,9
97,1
-2,8
0,3
-1,2
11,5 +0,4
65,5 +2,0
97,7
-2,7
0,4
-1,1
13,6 +0,5
69,1 +2,1
98,2
-2,6
0,5
-1,0
15,9 +0,6
72,6 +2,2
98,6
-2,5
0,6
-0,9
18,4 +0,7
75,8 +2,3
98,9
-2,4
0,8
-0,8
21,2 +0,8
78,8 +2,4
99,2
-2,3
1,1
-0,7
24,2 +0,9
81,6 +2,5
99,4
-2,2
1,4
-0,6
27,4 +1,0
84,1 +2,6
99,5
-2,1
1,8
-0,5
30,9 +1,1
86,4 +2,7
99,6
-2,0
2,3
-0,4
34,5 +1,2
88,5 +2,8
99,7
-1,9
2,9
-0,3
38,2 +1,3
90,3 +2,9
99,8
-1,8
3,6
-0,2
42,1 +1,4
91,9 +3,0
99,9
-1,7
4,5
-0,1
46,0 +1,5
93,3
-1,6
5,5
0
50,0 +1,6
94,5
-1,5
6,7 +0,1
54,0 +1,7
95,5
____________________________________________________________
158
© Horst Löfgren
Tabell C:
F-fördelningen
____________________________________________________________
Kritiska värden för tvåsidig mothypotes
Sannolikhet p %: första raden =0,10, andra raden=0,05, tredje raden
=0,01, fjärde raden =0,001
fgt= antalet frihetsgrader i täljaren; fgn= antalet frihetsgrader i nämnaren
____________________________________________________________
fgt
fgn p % 1
2
3
4
5
6
____________________________________________________________
5
10
5
1
0,1
4,06
6,61
16,3
47,2
3,78 3,62
5,79 5,41
13,3 12,1
37,1 33,2
3,52
5,19
11,4
31,1
3,45
5,05
11,0
29,7
3,40
4,95
10,7
28,8
6
3,78
5,99
13,7
35,5
3,46 3,29
5,14 4,76
10,9
9,78
27,0 23,7
3,18
4,53
9,15
21,9
3,11
4,39
8,75
20,8
3,05
4,28
8,47
20,0
7
3,59
5,59
12,2
29,2
3,26 3,07
4,74 4,35
9,55 8,45
21,7 18,8
2,96
4,12
7,85
17,2
2,88
3,97
7,46
16,2
2,83
3,87
7,19
15,5
8
3,46
5,32
11,3
25,4
3,11 2,92
4,46 4,07
8,65 7,59
18,5 15,8
2,81
3,84
7,01
14,4
2,73
3,69
6,63
13,5
2,67
3,58
6,37
12,9
9
3,36
5,12
10,6
22,9
3,01 2,81
4,26 3,86
8,02 6,99
16,4 13,9
2,69
3,63
6,42
12,6
2,61
3,48
6,06
11,7
6,55
3,37
5,80
11,1
© Horst Löfgren
159
____________________________________________________________
fgt
fgn p % 1
2
3
4
5
6
____________________________________________________________
10 10
5
1
0,1
3,28
4,96
10,0
21,0
2,92 2,73
4,10 3,71
7,56 6,55
14,9 12,6
2,61
3,48
5,99
11,3
2,52
3,33
5,64
10,5
2,46
3,22
5,39
9,92
11
3,23
4,84
9,65
19,7
2,86 2,66
3,98 3,59
7,21 6,22
13,8 11,6
2,54
3,36
5,67
10,3
2,45
3,20
5,32
9,58
2,39
3,09
5,07
9,05
12
3,18
4,75
9,33
18,6
2,81 2,61
3,89 3,49
6,93 5,95
13,0 10,8
2,48
3,26
5,41
9,63
2,39
3,11
5,06
8,89
2,33
3,00
4,82
8,38
15
3,07
4,54
8,68
16,6
2,70
3,68
6,36
11,3
2,49
3,29
5,42
9,34
2,36
3,06
4,89
8,25
2,27
2,90
4,56
7,57
2,21
2,79
4,32
7,09
20
2,97
4,35
8,10
14,8
2,59
3,49
5,85
9,95
2,38
3,10
4,94
8,10
2,25
2,87
4,43
7,10
2,16
2,71
4,10
6,46
2,09
2,60
3,87
6,02
30
2,88
4,17
7,56
13,3
2,49
3,32
5,39
8,77
2,28
2,92
4,51
7,05
2,14
2,69
4,02
6,12
2,05
2,53
3,70
5,53
1,98
2,42
3,47
5,12
40
2,84
2,44 2,23
2,09
2,00
1,93
4,08
3,23 2,84
2,61
2,45
2,34
7,31
5,18 4,31
3,83
3,51
3,29
12,6
8,25 6,60
5,70
5,13
4,73
____________________________________________________________
160
© Horst Löfgren
____________________________________________________________
fgt
fgn p % 1
2
3
4
5
6
____________________________________________________________
60 10
5
1
0,1
2,79
4,00
7,08
12,0
2,39
3,15
4,98
7,76
2,18
2,76
4,13
6,17
2,04
2,53
3,65
5,31
1,95
2,37
3,34
4,76
1,87
2,25
3,12
4,37
120
2,75
3,92
6,85
11,4
2,35
3,07
4,79
7,32
2,13
2,68
3,95
5,79
1,99
2,45
3,48
4,95
1,90
2,29
3,17
4,42
1,82
2,18
2,96
4,04

2,71
2,30 2,08
1,94
1,85
1,77
3,84
3,00 2,60
2,37
2,21
2,10
6,63
4,61 3,78
3,32
3,02
2,80
10,8
6,91 5,42
4,62
4,10
3,74
___________________________________________________________
____________________________________________________________
fgt
fgn p % 7
8
10
12
20

____________________________________________________________
5
6
10
5
1
0,1
3,37
4,88
10,5
28,2
3,34 3,30
4,82 4,74
10,3 10,1
27,6 26,9
3,27
4,68
9,89
26,4
3,21
4,56
9,55
25,4
3,10
4,36
9,02
23,8
3,01
4,21
8,26
19,5
2,98 2,94
4,15 4,06
8,10 7,87
19,0 18,4
2,90
4,00
7,72
18,0
2,84
3,87
7,40
17,1
2,72
3,67
6,88
15,7
7
2,78
2,75 2,70
2,67
2,59
2,47
3,79
3,73 3,64
3,57
3,44
3,23
6,99
6,84 6,62
6,47
6,16
5,65
15,0
14,6 14,1
13,7
12,9
11,7
____________________________________________________________
© Horst Löfgren
161
____________________________________________________________
fgt
fgn p % 7
8
10
12
20

____________________________________________________________
8
2,62
3,50
6,18
12,4
2,59 2,54
3,44 3,35
6,03 5,81
12,0 11,5
2,50
3,28
5,67
11,2
2,42
3,15
5,36
10,5
2,29
2,93
4,86
9,34
9
2,51
3,29
5,61
10,7
2,47
3,23
5,47
10,4
2,42
3,14
5,26
9,89
2,38
3,07
5,11
9,57
2,30
2,94
4,81
8,90
2,16
2,71
4,31
7,81
10
2,41
3,14
5,20
9,52
2,38
3,07
5,06
9,20
2,32
2,98
4,85
8,75
2,28
2,91
4,71
8,44
2,20
2,77
4,41
7,80
2,06
2,54
3,91
6,76
11
2,34
3,01
4,89
8,66
2,30
2,95
4,74
8,35
2,25
2,85
4,54
7,92
2,21
2,79
4,40
7,62
2,12
2,65
4,10
7,01
1,97
2,40
3,60
6,00
12
2,28
2,91
4,64
8,00
2,24
2,85
4,50
7,71
2,19
2,75
4,30
7,29
2,15
2,69
4,16
7,01
2,06
2,54
3,86
6,40
1,90
2,30
3,36
5,42
15
2,16
2,71
4,14
6,74
2,12
2,64
4,00
6,47
2,06
2,54
3,80
6,08
2,02
2,48
3,67
5,81
1,92
2,33
3,37
5,25
1,76
2,07
2,87
4,31
20
2,04
2,51
3,70
5,69
2,00
2,45
3,56
5,44
1,94
2,35
3,37
5,08
1,89
2,28
3,23
4,82
1,79
2,12
2,94
4,29
1,61
1,84
2,42
3,38
162
© Horst Löfgren
____________________________________________________________
fgt
fgn p % 7
8
10
12
20

____________________________________________________________
30
1,93
2,33
3,30
4,82
1,88
2,27
3,17
4,58
1,82
2,16
2,98
4,24
1,77
2,09
2,84
4,00
1,67
1,93
2,55
3,49
1,46
1,62
2,01
2,59
40
1,87
2,25
3,12
4,44
1,83
2,18
2,99
4,21
1,76
2,08
2,80
3,87
1,71
2,00
2,66
3,64
1,61
1,84
2,37
3,15
1,38
1,51
1,80
2,23
60
1,82
2,17
2,95
4,09
1,77
2,10
2,82
3,87
1,71
1,99
2,63
3,54
1,66
1,92
2,50
3,31
1,54
1,75
2,20
2,83
1,29
1,39
1,60
1,89
120
1,77
2,09
2,79
3,77
1,72
2,02
2,66
3,55
1,65
1,91
2,47
3,24
1,60
1,83
2,34
3,02
1,48
1,66
2,03
2,53
1,19
1,25
1,38
1,54

1,72
1,67 1,60
1,55
1,42
1,00
2,01
1,94 1,83
1,75
1,57
1,00
2,64
2,51 2,32
2,18
1,88
1,00
3,47
3,27 2,96
2,74
2,27
1,00
____________________________________________________________
© Horst Löfgren
163
Tabell D:
2-fördelningen
____________________________________________________________
Kritiska värden vid tvåsidig mothypotes:
____________________________________________________________
FrihetsSannolikhet p %
Grader
20
10
5
1
0,1
____________________________________________________________
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
164
1,64
3,22
4,64
5,99
7,29
8,56
9,80
11,03
12,24
13,44
14,63
15,81
16,99
18,15
19,31
20,47
21,62
22,76
23,90
25,04
26,17
27,30
28,43
29,55
30,68
31,80
32,91
34,03
35,14
36,25
47,27
58,16
2,71
4,61
6,25
7,78
9,24
10,64
12,02
13,36
14,68
15,99
17,28
18,55
19,81
21,06
22,31
23,54
24,77
25,99
27,20
28,41
29,62
30,81
32,01
33,20
34,38
35,56
36,74
37,92
39,09
40,26
51,81
63,17
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
55,76
67,51
6,63
9,21
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
10,83
13,82
16,27
18,47
20,52
22,46
24,32
26,13
27,88
29,59
31,26
32,91
34,53
36,12
37,70
39,25
40,79
42,31
43,82
45,32
46,80
48,27
49,73
51,18
52,62
54,05
55,48
56,89
58,30
59,70
73,40
86,66
© Horst Löfgren
____________________________________________________________
FrihetsSannolikhet p %
Grader
20
10
5
1
0,1
____________________________________________________________
60
68,97
74,40
79,08
88,38
99,61
70
79,72
85,53
90,53
100,43
112,32
80
90,41
96,58
101,88
112,33
124,84
90
101,05
107,57
113,15
124,12
137,21
100
111,67
118,50
124,34
135,81
149,45
150
164,35
172,58
179,58
193,21
209,26
200
216,61
226,02
233,99
249,45
267,54
____________________________________________________________
© Horst Löfgren
165
Tabell E:
Kritiska värden för Wilcoxon's teckenrangtest
____________________________________________________________
Sannolikhet p %
Sannolikhet p %
vid tvåsidig mothypotes
vid ensidig mothypotes
____________________________________________________________
n
10
5
1
0,1
5
1
____________________________________________________________
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
166
2
3
5
8
10
13
17
21
25
30
35
41
47
53
60
67
75
83
91
100
110
119
130
140
151
163
175
187
0
2
3
5
8
10
13
17
21
25
29
34
40
46
52
58
65
73
81
89
98
107
116
126
137
147
159
170
0
1
3
5
7
9
12
15
19
23
27
32
37
42
48
54
61
68
75
83
91
100
109
118
128
138
0
1
2
4
6
8
11
14
18
21
25
30
35
40
45
51
57
64
71
78
86
94
102
2
3
5
8
10
13
17
21
25
30
35
31
47
53
60
67
67
83
91
100
110
119
130
140
151
163
175
187
0
1
3
5
7
9
12
15
19
23
27
32
37
43
49
55
62
69
76
84
92
101
110
120
130
140
151
© Horst Löfgren
____________________________________________________________
Sannolikhet p %
Sannolikhet p %
vid tvåsidig mothypotes
vid ensidig mothypotes
____________________________________________________________
n
10
5
1
0,1
5
1
____________________________________________________________
34
200
182 148
111
200
162
35
213
195 159
120
213
173
36
227
208 171
130
227
185
37
241
221 182
140
241
198
38
256
235 194
150
256
211
39
271
249 207
161
271
224
40
286
264 220
172
286
238
41
302
279 233
183
302
252
42
319
294 247
195
319
266
43
336
310 261
207
336
281
44
353
327 276
220
353
296
45
371
343 291
233
371
312
46
389
361 307
246
389
328
47
407
378 322
260
407
345
48
426
396 339
274
426
362
49
446
415 355
289
446
379
50
466
434 373
304
466
397
____________________________________________________________
© Horst Löfgren
167
Tabell F:
Kritiska värden för Mann-Whitney vid
tvåsidig mothypotes
____________________________________________________________
Sannolikhet p %:
första raden =0,10, andra raden=0,05, tredje raden =0,01
____________________________________________________________
n2 p % n1 2
3
4
5
6
7
8
9
10
____________________________________________________________
2 10
0
0
0
1
1
1
5
0
0
0
1
3
10
5
1
-
0
-
0
-
1
0
-
2
1
-
2
1
-
3
2
-
3
2
0
4
3
0
4
10
5
1
-
0
-
1
0
-
2
1
-
3
2
0
4
3
0
5
4
1
6
4
1
7
5
2
5
10
5
1
0
-
1
0
-
2
1
-
4
2
0
5
3
1
6
5
1
7
6
2
8
7
3
11
8
4
6
10
5
1
0
-
2
1
-
4
2
1
6
3
1
8
5
2
11
6
3
13
8
4
15
10
5
17
11
6
7
10
5
1
0
-
2
1
-
4
3
0
6
5
1
8
6
3
11
8
4
13
10
6
15
12
7
17
14
9
8
10
5
1
1
0
-
3
2
-
5
4
1
8
6
2
10
7
4
13
10
6
15
13
7
18
15
9
20
17
11
9
10
5
1
1
0
-
3
2
0
6
4
1
9
7
3
12
10
5
15
12
7
18
15
9
21
17
11
24
20
13
168
© Horst Löfgren
Tabell G: Kritiska värden (Dmax) för KolmogorovSmirnov-testet för två stickprov
____________________________________________________________
Sannolikhet p %
Sannolikhet p %
vid tvåsidig mothypotes
vid ensidig mothypotes
n
5
1
5
1
____________________________________________________________
5
5
5
4
5
6
5
6
5
6
7
6
6
5
6
8
6
7
5
6
9
6
7
6
7
10
7
8
6
7
11
7
8
6
8
12
7
8
6
8
13
7
9
7
8
14
8
9
7
8
15
8
9
7
9
16
8
10
7
9
17
8
10
8
9
18
9
10
8
10
19
9
10
8
10
20
9
11
8
10
25
10
12
9
11
30
11
13
10
12
35
12
14
11
13
____________________________________________________________
För stora stickprov gäller följande kritiska värden:
____________________________________________________________

tvåsidigt test
ensidigt test
____________________________________________________________
0,10
0,05
0,01
0,001
n1+n2
1,36 n1+n2
1,63 n1+n2
1,95 n1+n2
1,22
n1+n2
1,22 n1+n2
1,52 n1+n2
1,86 n1+n2
1,07
____________________________________________________________
© Horst Löfgren
169
Tabell H: Kritiska värden för Run-testet för =0,05
Antal “runs“ färre eller lika med nedan angivna kritiska värden är signifikanta på 5%-nivån
____________________________________________________________
n2
2
3
4
5
6
7
8
9
10
n1
____________________________________________________________
3
2
2
2
2
2
4
2
2
2
3
3
3
5
2
2
3
3
3
3
3
6
2
2
3
3
3
3
4
4
7
2
2
3
3
3
4
4
5
8
2
3
3
3
4
4
5
5
9
2
3
3
4
4
5
5
5
10
2
3
3
4
5
5
5
6
11
2
3
4
4
5
5
6
6
12
2
2
3
4
4
5
6
6
7
13
2
2
3
4
5
5
6
6
7
14
2
2
3
4
5
5
6
7
7
15
2
3
3
4
5
6
6
7
7
16
2
3
4
4
5
6
6
7
8
17
2
3
4
4
5
6
7
7
8
18
2
3
4
5
5
6
7
8
8
19
2
3
4
5
6
6
7
8
8
20
2
3
4
5
6
6
7
8
9
____________________________________________________________
____________________________________________________________
n2 11
12
13
14
15
16
17
18
19
20
n1
____________________________________________________________
2
2
2
2
2
2
2
2
2
2
3
2
2
2
2
3
3
3
3
3
3
4
3
3
3
3
3
4
4
4
4
4
5
4
4
4
4
4
4
4
5
5
5
6
4
4
5
5
5
5
5
5
6
6
7
5
5
5
5
6
6
6
6
6
6
170
© Horst Löfgren
____________________________________________________________
n2 11
12
13
14
15
16
17
18
19
20
n1
____________________________________________________________
8
9
10
11
12
13
14
15
16
17
18
19
20
5
6
6
7
7
7
8
8
8
9
9
9
9
6
6
7
7
7
8
8
8
9
9
9
10
10
6
6
7
7
8
8
9
9
9
10
10
10
10
6
7
7
8
8
9
9
9
10
10
10
11
11
6
7
7
8
8
9
9
10
10
11
11
11
12
6
7
8
8
9
9
10
10
11
11
11
12
12
7
7
8
9
9
10
10
11
11
11
12
12
13
7
8
8
9
9
10
10
11
11
12
12
13
13
7
8
8
9
10
10
11
11
12
12
13
13
13
7
8
9
9
10
10
11
12
12
13
13
13
14
____________________________________________________________
Antal “runs“ fler eller lika med nedan angivna kritiska värden är signifikanta på 5%-nivån
____________________________________________________________
n2
4
5
6
7
8
9
10
11
12
n1
____________________________________________________________
4
9
9
5
9
10
10
11
11
6
9
10
11
12
12
13
13
13
13
7
11
12
13
14
14
15
15
16
8
11
12
13
14
14
15
15
16
9
13
14
14
15
16
16
16
10
13
14
15
16
16
17
17
11
13
14
15
16
17
17
18
12
13
14
16
16
17
18
19
13
15
16
17
18
19
19
14
15
16
17
18
19
20
15
15
16
18
18
19
20
16
17
18
19
20
21
© Horst Löfgren
171
____________________________________________________________
n2
4
5
6
7
8
9
10
11
12
n1
____________________________________________________________
17
18
19
20
-
-
-
-
17
17
17
17
18
18
18
18
19
19
20
20
20
20
21
21
21
21
22
22
____________________________________________________________
____________________________________________________________
n2
13
14
15
16
17
18
19
20
n1
____________________________________________________________
7
8
9
10
11
12
13
14
15
16
17
18
19
20
15
16
17
18
19
19
20
20
21
21
22
22
23
23
15
16
17
18
19
20
20
21
22
22
23
23
23
24
15
16
18
18
19
20
21
22
22
23
24
24
24
25
17
18
19
20
21
21
22
23
23
25
25
25
25
17
18
19
20
21
22
23
23
24
25
25
26
26
17
18
19
20
21
22
23
24
25
26
26
26
27
17
18
20
21
22
23
23
24
25
26
26
27
27
17
18
20
21
22
23
24
25
25
27
27
27
28
____________________________________________________________
172
© Horst Löfgren
Enkät och övningsuppgifter
Nedan följer ett utdrag ur en elevenkät från ett internationellt projekt ”IEA
-Written Composition”. I Sverige har enkäten besvarats av 546 elever,
slumpmässigt valda ur grundskolans årskurs 9. Den datafil som finns att
tillgå baserar sig således på verkliga data. Observera dock att det finns
internt bortfall på en del variabler, i vissa fall så stort att det kan få konsekvenser för möjligheten att dra korrekta slutsatser. Filen kan hämtas ner
från min webbsida på Internet. Sök på http://fmweb.mah.se/perslista/ och sök
i databasen efter Horst Löfgren. Klicka därefter på egen webbplats, gå till
länken och ladda ner filen IEA9Sv.sav.
Datafil: IEA9Sv.DAT
Kolumn nr Siffrorna inom parentes visar vilket variabelvärde som skrivits in i filen. Vid internt bortfall (Missing) finns inget variabelvärde utan en speciell markering.
1.
Är du pojke eller flicka?
(1) Pojke
(2) Flicka
2.
Vilken är den högsta utbildning som din mor har (eller den som är i
din mors ställe)?
(1) Folkskola
(2) Yrkesskola/lärlingsskola/1-årig handelsskola
(3) Realskola/enhetsskola/grundskola
(4) Flickskola/folkhögskola/fackskola
(5) Gymnasium
(6) Högskola eller universitet
(-) Vet ej
3.
Vilken är den högsta utbildning som din far har (eller den som är i
din fars ställe)?
(1) Folkskola
(2) Yrkesskola/lärlingsskola/1-årig handelsskola
(3) Realskola/enhetsskola/grundskola
(4) Flickskola/folkhögskola/fackskola
(5) Gymnasium
(6) Högskola eller universitet
(-) Vet ej
© Horst Löfgren
173
4-9.
4.
5.
6.
7.
Hur ofta gör barn och vuxna i din familj följande saker tillsammans?
Talar tillsammans om
vad som händer på
arbetet och i skolan
Talar tillsammans om
familjeangelägenheter,
t.ex. om hushållet,
släkten, ekonomin
Gör upp planer tillsammans, t.ex. för
veckohelg eller
semester, och
diskuterar olika
alternativ
Diskuterar allmänna
angelägenheter,
t.ex. moral,
religion, politik
Högst en
eller två
gånger
om året
Flera
gånger
om
året
En eller
två gånger
i månaden
En eller
Varje
två gånger eller
i veckan nästan
varje dag
(1)
(2)
(3)
(4)
(5)
(1)
(2)
(3)
(4)
(5)
(1)
(2)
(3)
(4)
(5)
(1)
(2)
(3)
(4)
(5)
8.
Diskuterar en bok som
någon av er har läst
(1)
(2)
(3)
(4)
(5)
9.
Diskuterar TV- eller
radioprogram
(1)
(2)
(3)
(4)
(5)
10. När detta året har gått, hur många fler års utbildning på heltid räknar
du med? Du ska räkna in studieår efter gymnasieskolan, om sådana
ingår i dina planer.
1
2
3
4
5
6
7
8
9
10 eller mer
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
174
© Horst Löfgren
11. Ungefär hur lång tid på dagen använder du hemma till att göra läxor i
alla ämnen?
(1)
(2)
(3)
(4)
(5)
Ingen tid alls
Ca 1/2 timme
Ca I timme
Ca 1 1/2 timme
Ca 2 timmar eller längre
12. Ungefär hur många timmar i veckan använder du till att läsa böcker,
artiklar och dylikt, som du fått i uppgift att läsa av dina lärare?
(1)
(2)
(3)
(4)
(5)
Ingen tid alls
Ca 2 timmar
Ca 4 timmar
Ca 6 timmar
Ca 8 timmar eller längre tid
13. Ungefär hur många timmar i veckan använder du till skriftliga hemuppgifter i olika ämnen?
_________ timmar i veckan
14. Hur många timmar brukar du titta på TV under en skoldag?
(1)
(2)
(3)
(4)
(5)
Tittar inte alls
Ca 1 timme eller kortare tid
Ca 2 timmar
Ca 3 timmar
Ca 4 timmar eller längre tid
15. Hur många timmar brukar du titta på TV under en dag då du inte går i
skolan?
(1) Tittar inte alls
(2) Ca I timme eller kortare
(3) Ca 2 timmar
(4) Ca 3 timmar
(5) Ca 4 timmar eller längre tid
© Horst Löfgren
175
16. Att skriva tycker jag är
(5) Mycket roligt
(4) Roligt
(3) Varken roligt eller tråkigt
(2) Tråkigt
(1) Mycket tråkigt
17. Många unga människor tycker om att skriva för sitt eget nöjes skull.
Kryssa för allt det som du tycker om att skriva. Du kan alltså välja
mer än ett svar. (Här fanns många situationer, varav endast en finns
med här.)
( ) Skriva berättelser (1=nej, 2=ja)
18. Hur tycker du själv att du kan skriva?
(4)
(3)
(2)
(1)
Jag är bra på att skriva
Jag är ganska bra på att skriva
Jag är ganska dålig på att skriva
Jag är inte alls bra på att skriva
19. Hur rolig eller tråkig fann du uppgiften?
(1) Tråkig
(2) Ganska tråkig
(3) Varken rolig eller tråkig
(4) Ganska rolig
(5) Rolig
20-21. Många unga människor tycker om att skriva för sitt eget nöjes
skull. Kryssa för allt det som du tycker om att skriva. Du kan alltså
välja mer än ett svar.
20. ( ) Skriva dagbok (1=ja; 2=nej)
21. ( ) Brevväxla regelbundet med en vän (l=ja; 2=nej)
22-25. Betyg på uppsats nr 6 (beskrivande, berättande)
22.
23.
24.
25.
176
Allmän bedömning (1-5)
Innehåll (1-5)
Disposition (1-5)
Stil och språkriktighet (1-5)
© Horst Löfgren
Övningsuppgifter
Uppgift 1-19 ska besvaras med hjälp av datafilen IEA9Sv
1. Beskriv betygsresultat på uppsatsskrivning (v22)
a) för totalgruppen
b) för pojkar och flickor separat
2. Visa med hjälp av lämpligt diagram resultatet för totalgruppen. Ge argument för valt diagram.
3. Du ska presentera utfallet av svaren på ”attityder till skrivning” (v16)
för en grupp åhörare. Gör lämpliga beräkningar och presentera resultatet.
4. Beskriv sambandet mellan TV-tittande på vardagar (v14) och resultat
på uppsatsprovet (v22) samt tolka resultatet.
5. Visa i en interkorrelationstabell sambanden mellan uppsatsskrivning
(v22), antal timmars läxläsning per dag (v11), antal timmar per vecka
till skriftliga hemuppgifter (v13) och självskattning av skrivförmågan
(v18). Kommentera tabellen.
6. Hur många pojkar resp. flickor skriver berättelser för sitt eget nöjes
skull (v17)?
7. Finns det något samband mellan kön och skriva berättelser för sitt eget
nöjes skull? (Ledtråd: Observera att det här rör sig om kategorivariabler.)
8. Du vill predicera resultaten på uppsatsskrivning (v22) utifrån kön (v1),
antal timmar per vecka till skriftliga hemuppgifter (v13) och attityder
till skrivning (v16).
a) Vilka variabler är oberoende resp. beroende?
b) Är det möjligt att predicera resultaten i uppsatsskrivning utifrån de
valda variablerna och i så fall hur mycket?
c) Vilken variabel är den bästa resp. sämsta prediktorn?
d) Hur stor del av variansen i variabel 22 kan prediceras utifrån de tre
prediktorerna?
© Horst Löfgren
177
9. Finns någon signifikant skillnad mellan pojkar och flickor vad gäller
uppsatsresultat (v22)?
a) Formulera den hypotes som ska prövas!
b) Identifiera de variabler som ingår (ober, ber, skalnivå)!
c) Vilka statistiska test kan användas för prövning av nollhypotesen?
d) Utför prövningen med hjälp av t-test och variansanalys och tolka resultaten!
e) T-testet ger ett t-värde och ANOVA ett F-värde. Hur förhåller sig t
och F till varandra?
10. Hur många pojkar resp. flickor skriver dagböcker? Ange både frekvens och i procent.
a) Finns någon signifikant relation mellan kön och dagboksskrivande?
b) Formulera hypoteserna (noll- och mothypotes).
c) Ange variabeltyp!
d) Testa hypotesen!
e) Om du finner en signifikant relation bör man ange ett storleksmått
på relationen. Vilket mått är lämpligt i detta sammanhang?
11. Eleverna har gjort en självskattning hur bra de är på uppsatsskrivning
(v18). Pröva om det också finns en verklig skillnad (v22) mellan dem
som skattar sig i de fyra kategorierna ”bra”, ”ganska bra”, ”ganska dålig” och ”inte alls bra”.
a) Ange hypotes!
b) Ange typ av variabler!
c) Pröva hypotesen!
d) Om det finns en signifikant skillnad, bör du ange ett storleksmått
på denna skillnad, vilket? Vad säger detta storleksmått?
12. Använd Pearson Corr för att erhålla sambandet mellan v18 och v22.
Jämför resultatet med utfallet av analysen i uppgift 11!
13. Pröva om det finns en skillnad mellan pojkar och flickor vad gäller
attityder till skrivning (v16). Presentera resultatet av analysen!
178
© Horst Löfgren
14. Finns någon skillnad i uppsatsresultat (v22) mellan grupper som lägger ner olika mycket tid på läxor (v11)? Presentera resultatet av analysen!
15. Pröva i en och samma analys skillnaden mellan pojkar och flickor på
uppsatsresultat (v22) och mellan grupper som lägger ner olika mycket
tid på läxor (v11)! Pröva också samtidigt eventuella samspelseffekter!
a) Ange samtliga hypoteser som prövas!
b) Presentera resultaten!
16. Bilda en ny variabel genom att summera de två frågorna om TVtittande (v14 och v15). Kalla denna variabel TVSUM. Gör en klassindelning av denna nya variabel genom att ge 0-5 timmar värdet 1, 6-7
timmar värdet 2 och mer än 8 timmar värdet 3. Pröva därefter om det
finns skillnader mellan dessa tre grupper vad gäller resultatet på uppsatsskrivning (v22) och presentera resultaten.
17. Försök med hjälp av faktoranalys att få grepp om vad instrumentet
försöker fånga in för områden (v2 tom v25). Försök att tolka utfallet.
a) Finns någon faktor som kan tolkas som hemkulturförhållanden?
b) Finns någon attitydfaktor?
c) Mäter variablerna 23 (innehåll), 24 (disposition) och 25 (stil och
språkriktighet) olika delar av förmågan?
18. Är det möjligt att använda summapoäng som är rimligt mätsäkra vad
gäller variablerna 4-9, variablerna 14-15 och variablerna 11-13?
19. Antag att mätvariabeln (den beroende variabeln) i uppgift 13 och 16
är sådan, att du endast vill använda en icke-parametrisk metod. Lös
uppgiften med lämpligt test och jämför med erhållet resultat med den
parametriska metoden.
© Horst Löfgren
179
20. I en undersökning studerades två olika inlärningssätt i matematik. På
ett efterföljande test erhölls följande resultat (observera att du i denna
övningsuppgift måste bygga upp egna datafiler, olika filer för a och
b):
Grupp 1
Grupp 2
1
3
4
4
6
6
6
7
7
7
7
8
8
9
10
0
3
5
5
6
6
7
7
8
8
8
9
9
10
11
a) Pröva om det finns någon signifikant skillnad i resultat mellan de
två metoderna, om eleverna har blivit parvis matchade.
b) Pröva om det finns någon signifikant skillnad i resultat mellan de
två metoderna, om eleverna inte blivit parvis matchade utan är
oberoende observationer.
21. Beräkna ett storleksmått på det speciella förklaringsexemplet på s.
154. Skriv gärna in data i en ny datafil och gör beräkningarna med
hjälp av SPSS. Förklara varför man erhåller en icke-signifikant skillnad (p=0,465) men samtidigt visar ett storleksmått på mycket stora
skillnader mellan grupperna.
180
© Horst Löfgren
Index
alpha-koefficient 59
-risk 79
additionssatsen 68
ANOVA 93
ANCOVA 116
ß-risk 79
beskrivande statistik 12
Chi-kvadrat-testet 121
Cochran Q-test 149
Cramérs index 143
Cronbach´s alpha 59
deskriptiv statistik 9
dummy-variabler 45
effektstorlek 103
egenvärde 52
enfaktors ANOVA 95
eta-kvadrat 102
faktor (oberoende variabel) 94
faktoranalys 47
fix modell 95
F-kvot 97
frekvenspolygon 20
frekvenstabell 19
Friedman testet 150
histogram 20
hypotetiska begrepp 47
hypotetiska variabler 47
© Horst Löfgren
icke-parametriska metoder 119
inferensstatistik 9
intervallskala 11
klusterurval 67
Kolmogorov-Smirnov testet 132
komponent 50
konfidensintervall 74
kontingenskoefficient 141
kontingenstabell 128
kovarians 23
kovariansanalys 116
korrelation 21
korrelationskvot 102
Kruskal-Wallis testet 146
kurvlinjärt samband 28
kvartilavvikelse 13
kvotskala 11
latent variabel 47
linjärt samband 28
Mann-Whitney U-test 129
matchning 94
McNemar-testet 136
medelfel 71
medelvärde 12
medelvärdesdiagram 111
medianvärde 13
mothypotes 76
multipel korrelation 36
multipel regression 36
multiplikationssatsen 69
mätmodell 47
181
nollhypotes 76
nominalskala 10
normalfördelning 14
obundet slumpmässigt urval 64
omega-kvadrat 101
ordinalskala 10
t-test 85
tillfälligt urval 67
tvåfaktors ANOVA 105
typ l-fel 80
typ lI-fel 80
typvärde 13
urvalsmetoder 64
population 9
prickdiagram 22
principalkomponent 50
produkt-moment korrelation 21
rangkorrelation 29
regression 31
regressionsskattning 32
regressionslinje 32
reliabilitet 57
repeterad mätning 91
rotering 52
run-testet 123
varians 14
variansanalys 93
varianskomponenter 96
variationsvidd 13
Wald-Wolfowitz Runs 134
Wilcoxon’s teckenrangtest 138
z-poäng 30
samplingfördelning 69
sannolikhet 68
signifikansnivå 78
skalvärden 10
skattningar 72
Spearman’s rangkorrelation 29
split-half-reliabilitet 58
standardavvikelse 14
standardpoäng 31
stegvis regressionsanalys 39
stickprov 9
stokastisk modell 95
stolpdiagram 20
stratifierat urval 66
systematiskt urval 65
180
© Horst Löfgren