Bachelor final
Transcription
Bachelor final
Professionsbachelorprojekt Martin Bo Nielsen Navn: Martin Bo Nielsen Studienr.: A110407 Fag: Geografi Faglig vejleder: Jette Reuss Schmidt Pædagogisk vejleder: Carsten Fonsmark Antal sider i alt, inkl. Forsiden 35 Titel på bacheloropgaven Vurderingernes faldgruber (kommer til at stå på eksamensbevis) “Min opgave må senere benyttes til undervisningsog/eller udviklingsformål” Accept ved min underskrift Begrundelse ............................................................................................................................... 3 Påstand ...................................................................................................................................... 3 Kloge mennesker og tankerne bag målinger ............................................................................... 4 Den ”rene” pædagogik ..................................................................................................................... 4 Den ”urene” pædagogik ................................................................................................................... 5 Sammenfatning ................................................................................................................................ 9 Hattie – Messias ....................................................................................................................... 10 Metastudier .................................................................................................................................... 11 Effektstørrelser ............................................................................................................................... 11 Kooperativ vs.iIndividualistisk læring ............................................................................................. 12 Datagrundlaget ............................................................................................................................... 13 Evidens – konklusion ...................................................................................................................... 15 Min evidens ............................................................................................................................. 16 Forløbet – den tvedelte opgave ..................................................................................................... 16 Karaktergivning og koldsved .......................................................................................................... 17 Det umulige spørgeskema .............................................................................................................. 19 De nationale test og den falske tryghed .................................................................................... 21 Hvad bruger vi de nationale tests til? ............................................................................................ 22 Kontrol og konkurrence.................................................................................................................. 23 Ups .................................................................................................................................................. 24 Kohærens........................................................................................................................................ 25 Jeg fik bare 12 ................................................................................................................................. 26 PISA - ødelæggeren .................................................................................................................. 26 Statistiske og logiske uforståeligheder........................................................................................... 27 Validering af PISA ........................................................................................................................... 27 Hvor er forsvaret? .......................................................................................................................... 28 Geografis prøveform ................................................................................................................ 30 ”Geografi”-eksamen ....................................................................................................................... 30 Sammenfatning ........................................................................................................................ 32 Perspektivering ........................................................................................................................ 34 Litteraturliste ........................................................................................................................... 36 Bøger .............................................................................................................................................. 36 Links................................................................................................................................................ 36 Martin Bo Nielsen Bachelor A110407 Begrundelse Siden vi på studiet stiftede bekendtskab med John Hattie og evidenspædagogikken, har jeg tænkt over hvilke argumenter der er for, at vi kan påstå at noget virker. Hvis man læser John Hatties ”Synlig Læring-for lærere”, ser man at han på baggrund af 250 millioner elevers præstationer, målt på 43000 effekter osv., konkluderer på forskellige tiltag, undervisningsmetoder, arbejdsmetoder osv. Disse sættes op, sammenlignes, og bliver tildelt en score, der så skal inspirere os lærere til at vælge det der, ifølge Hatties metastudier, virker. Men hvor er Hatties kontrol af de parametre som hans metaundersøgelse er baseret på? De er der ikke, og det er det, der er bekymrende. Hattie ved ikke hvordan der er blevet spurgt og målt, han videreformidler blot data, og konkluderer på det. Og resultatet er, om ikke direkte fejlagtigt, så mangelfuldt. Den samme kritik kan rejses overfor andre evalueringssystemer. Jeg har valgt at fokusere på tre niveauer af evalueringer, nemlig eksaminer, nationale tests og så PISA. Påstand De undersøgelser, vi lægger til grund for beslutninger om ændringer i folkeskolen, er ikke gode nok. De viser intet om elevernes kunnen, men giver os kun en biopsi, der kan tolkes som man vil, af elevernes viden. PISA, de nationale tests og eksamensscorer er alle konstruktioner, der giver os et ufuldstændigt billede af elevernes viden og evne til at deltage i det danske samfund, herunder demokratiet og arbejdsmarkedet. De bør alle afskaffes, og bedømmelsen af elevernes evner bør ligge i elevens lærerteams hænder, med en opmand, der skal sikre en fair bedømmelse. Denne bedømmelse skal ikke munde ud i nogen karakter, men i en, til eleven (og dennes forældre), stilet anbefaling af i hvilken retning eleven får størst udbytte af at bevæge sig mod, efter endt uddannelse. Derfor spørger jeg: A: Hvilken tankegang ligger bag det nuværende syn på testning? B: Hvilke argumenter er der for at bruge de overnævnte evalueringsværktøjer? C: Giver de overnævnte testværktøjer et retvisende billede af elevens kunnen? D: Hvad kan vi sætte i deres sted? 3 Martin Bo Nielsen Bachelor A110407 Kloge mennesker og tankerne bag målinger Jeg har nævnt nogle af ulemperne tidligere, i indledningen, men disse var blot overfladiske betragtninger, nogle jeg med en kort brainstorm selv har udtænkt. Heldigvis er der andre, klogere mennesker, der har en holdning til dette emne, og disse klogere mennesker bruger udtrykket ”ren” og ”uren” pædagogik. Den definition, jeg vil tage udgangspunkt i, er brugt i antologien ”Uren pædagogik” fra 2011. Den ”rene” pædagogik Et lidt underligt udtryk, men det dækker over en pædagogik uafhængig af stof, uafhængigt af elevmassen og uafhængighed af læreren og miljøet også. I den rene pædagogik findes en række undervisningsformer og metoder, der virker hvor som helst og når som helst og på hvem som helst. Thomas Aastrup Rømer, Lene Tanggaard og Svend Brinkmann1 gør et forsøg på at definere den rene pædagogik, historisk og nutidigt. Med udgangspunkt i Platon, Kant, kontruktivismen (og de tilhørende konstruktivister) og andre, gives en teoretisk platform til at forstå emnet, der på mange måder siger den samme ting: At den ”rene” pædagogik koncentrerer sig om en kerne i eleven, et område hvor de basale kognitive funktioner i elevens hjerne, er ens hos alle elever, og med udgangspunkt i denne kerne, skal undervisning og metoder planlægges. En anden sammenligning Tanggaard og Brinkmann bruger, er et netværk af computere, hvor alle computere på dette netværk vil løse samme opgave, på samme måde. Jeg er ikke selv sikker på, at dette er den opfattelse evidenspædagogiske forskere har om læring og elever. Jeg vil kigge nærmere på dette, men blot foreslå at evidenspædagogiske forskere måske tager udgangspunkt i statistiske data om undervisningsmetoder og læring, og ud fra disse statistikker mener at kunne læse et mønster, der giver en fællesnævner man didaktisk kan tage udgangspunkt i. Med det mener jeg at evidenspædagogikken udmærket kan acceptere at al læring er situeret, og dermed være helt enig med det socio-kulturelle standpunkt, men blot ikke interesserer sig for dette, fordi man statistisk kan påvise visse metoder der synes at virke på en bred elevmasse. Jens Rasmussen, Institut for Uddannelse of Pædagogik, Århus Universitet, regnes for at være en af disse ”rene” pædagoger. Han skriver i sin blog på folkeskolen.dk (om læreruddannelsen vel at mærke): ”Intentionen med den nye uddannelse er, at de nye kompetencemål ved deres kombination af viden og færdigheder bedre sætter de kommende lærere i stand til at undervise på grundlag af den nyeste og bedste viden om, hvad der virker, såvel som på grundlag af den erfaringsbaserede viden, som professionen hele tiden selv udvikler. For pædagogisk praksis orienterer sig ikke alene efter, om noget virker, men også efter om det virker med rimelighed; om det synes 2 brugbart i den konkrete kontekst med de konkrete elever.” 1 2 Rømer, Thomas Aastrup m. fl. (2011), Uren Pædagogik, Klim s. 18 ff Rasmussen, Jens, Kompetencer og præstationer, http://www.folkeskolen.dk/529678/kompetencer-og-praestationer 4 Martin Bo Nielsen Bachelor A110407 Der er to ting der er særligt interessante i dette citat. Først og fremmest taler han om ”…den nyeste og bedste viden om hvad der virker”. Det andet er modereringen ”…virker med rimelighed; om det synes brugbart i den konkrete kontekst med de konkrete elever.”3 Jens Rasmussen er altså ikke uinteresseret i konteksten der undervises og læres i, han opdeler i stedet argumentet i to dele, først og fremmest skal tiltaget virke, herefter skal tiltaget analyseres på baggrund af den kontekst det skal bruges i. Altså ikke en afvisning af at læring som sådan er situeret, blot skal ens værktøjer virke, måske endda være godkendt af forskningen. Hvordan man finder ud af, hvad der virker, vil vi diskutere senere, det lyder så enkelt, men er det ikke. Andre tilhængere af evidenspædagogikken, Lars Qvortrup og Niels Egelund, skriver i forordet til Hatties ”Synlig læring – for lærere”,4 at ”Undervisning er en kompleks størrelse, der er afhængig af den konkrete situation”5. Læring er derfor situeret, og evidensen skal kun bruges som et pejlemærke for, hvor sandsynligt det er, at det ene eller andet tiltag, vil virke i den givne situation. Vender vi tilbage til Tanggard og Brinkmanns sammenligning med computere i et netværk, ser man, at heller ikke her finder vi den ”rene” pædagogik repræsenteret af en eller flere personer. Den ”urene” pædagogik Defineret som modpol til den ”rene” pædagogik, har vi den ”urene”. Måske for at signalere en vis foragt for det bestående, bruges denne diskurs. I denne opgaves kontekst, bruges udtrykket ”uren” pædagogik om den grundholdning til lærerpraksis, at al læring er situeret, den kan ikke løsrives fra kontekst. Rømer, Tanggaard og Brinkmann beskriver ”uren” pædagogik som: ”…en kritik af antagelsen om, at det er muligt i en pædagogisk videnskab at identificere rene pædagogiske metoder, der virker uafhængigt af, hvad og hvor der læres.”6 Stof, lærer, elev – den didaktiske trekant, har alle indflydelse på læring, og man kan føje flere kanter til trekanten, efterhånden som man løfter blikket op fra klasseværelset, og flytter opmærksomheden til skolen, hjemmet, samfundet og andre socialiseringsfaktorer. Alle har indflydelse på den enkelte elev, nogen gange negativt, andre positivt, men påvirkningen er der. Jeg vil kigge på det senere, når jeg bevæger mig ned i de mørke krypter under undervisningssektoren, og beskæftiger mig med forskellige evalueringsværktøjer i form af eksaminer, nationale tests og PISA. 3 Rasmussen, Jens, Kompetencer og præstationer Hattie, John, (2013), Synlig læring – for lærere, Dafolo, s. 9ff 5 Hattie, (2013), s. 11 6 Uren pædagogik(2011), s.7 4 5 Martin Bo Nielsen Bachelor A110407 Tidligere i opgaven har jeg diskuteret evidenspædagogernes argumenter for at bruge empiri i didaktiske overvejelser. Et udtryk der ofte høres er, at empirien klarlægger ”hvad der virker”, og dette udtryk angribes også fra ”uren” side. Ikke bare finder forfatterne bag ”Uren pædagogik” den ”rene” pædagogiks grundholdninger asynkrone med virkeligheden, de angriber også selve de data evidenspædagogikken bruger som udgangspunkt. I ”Uren pædagogik 2”, fremlægger Gert Biesta flere argumenter for, at den dataindsamling, evidenspædagogikken baserer sig på, er utilstrækkelig, måske endda fejlagtig. Først og fremmest kritiserer han, med udgangspunkt i systemteori, den opfattelse af data, tilhængerne af evidensbaseret undervisning har. ”Hvad der virker” udtrykket, som tidligere beskrevet, synes at indikere et lukket isoleret system, hvor vi kan forvente at ”hvad der virker”, vil virke. Men Biesta anfører at vi i folkeskolen sjældent, om nogen sinde, er en del af et sådan lukket system. Derimod bevæger vi os i åbne systemer, der konstant ændres under påvirkninger udefra, og målinger på et sådant system, kan i bedste fald munde ud i sandsynligheder7. Og så er der tidsfaktoren. I et lukket determineret system, burde man kunne forudse bestemte resultater på baggrund af tidligere forskning, men i et åbent (rekursivt, semiotisk system) ender vi med sandsynligheder for at ”hvad der virker” virker, og det er baseret på erfaring, ikke på at vi kan forvente samme resultat hver gang. Men accepterer vi den påstand helhjertet, kan vi jo ikke måle vores elevers fremskridt. Selv som lærer i klassen, indgår man i det åbne system, og ens blik på eleverne påvirkes også. Biesta stiller selv spørgsmålet, om hvordan man så ved man opnår fremskridt med eleverne? Kompleksitetsreducering er svaret. Når en elev optages i uddannelsessystemet, bliver han/hun øjeblikkeligt udsat for en løsrivelse fra hverdagen. Ritualer indføres og håndhæves, med det formål at gøre skoledagen enklere for eleven. Og for læreren, der vil opdage at tidligere indførte ritualer, hjælper med at holde ro i undervisningen. Med til samme kompleksitetsreducering hører også skolen, klassen, regler, læreplaner, årsplaner, målstyring osv8. Og kun ved at skabe et miljø der begrænser påvirkninger udefra, og i mellem eleverne, i klassen og andet, kan vi måle på eleven. Det vil sige, at for at kunne få et brugbart resultat ved evaluering, er vi nødt til at forsøge på at lukke det åbne system til. Men når vi gør det, er vi også nødsaget til at blive uinteresserede i en stor del af den formelle og uformelle læring eleven opnår. Denne uinteresserethed afspejles tydeligst i de nye forenklede mål, der træder i kraft fra august 2015. Her tillægges den viden, fagkonsulenter og Undervisningsministeriet har defineret, værdi, og den resterende viden eleven har opnået, ingen værdi. Med andre ord: Fordi vi vil måle på eleven, begrænses dennes læring. Det er et kritikpunkt jeg vil vende tilbage til igen og igen i denne opgave, nemlig at tests, udover at være relativt ubrugelige, skader elevens læring gennem den begrænsning de fordrer. Den læring 7 8 Uren Pædagogik 2 (2014), s. 46 Uren pædagogik 2 (2014), s. 48 6 Martin Bo Nielsen Bachelor A110407 der går tabt, fordi den ikke tillægges værdi, kan vi ikke vide om eleven får brug for senere i livet, og fra et samfundsperspektiv kan man argumentere for, at vi bliver fattigere og mindre tilpasningsdygtige overfor de ændringer verden konstant undergår. Jeg vil også argumentere for, at resultaterne af forskning kan forpligte forandringsagenterne9 i skolesystemet til at nytænke sin praksis, og at lærerens professionelle autoritet kan undergraves, såfremt læreren vælger at ignorere forskningen. Tager man forskningens resultater for gode varer, vil man kunne argumentere for en best practice, altså en måde hvor man foretager nogle didaktiske valg, der er vurderet til at være de bedste. Jeg vil undersøge hvad der ligger bag begrebet best practice, med udgangspunkt i Nina Bonderup Dohns afsnit i ”Uren pædagogik”. Begrebet best practice kan, ifølge Dohn, forstås som enten et interessant eksempel, eller meget bogstaveligt som bedste praksis. I managementdiskursen, hvor begrebet er hentet, hentyder begrebet bogstaveligt taget til den bedste praksis. I Dohns redegørelse for begrebets problemer, bruger hun eksempelvis EMU som udgangspunkt, også her bruges begrebet bogstaveligt: ”… at der er en teknik, en metode, en proces, en aktivitet eller en belønning som er mere effektiv i forhold til at levere et bestemt output end enhver anden teknik, metode, proces etc.” 10 Men sådan er det ikke nødvendigvis, der er nemlig en hel række kriterier som skal opfyldes, for at man kan påhæfte vurderingen best practice på undervisning. Dohn analyserer den fulde ordlyd af EMUs definition og finder at11: - Det er muligt i en given situation at eksplicitere klare mål (de ønskede resultater) uafhængigt af metoder for at opnå dem Opnåelsen af et givet mål er et spørgsmål om instrumentel problemløsning, hvor problemet er, hvordan målet nås, og løsningen består i at finde en metode dertil Der gives sædvanligvis (altid?) én metode, der er den mest hensigtsmæssige til at nå målet med i den givne kontekst; dvs. problemet har én bedste løsning Det er muligt entydigt at teste, både om en metode leder til et givet mål, og om den gør det mere hensigtsmæssigt end andre metoder Det er muligt at eksplicitere metoden i en grad. Så den kan reproduceres af andre Hensigtsmæssighed er et spørgsmål om effektivitet Analysen er jeg enig i, og man kan umiddelbart se den ”rene” pædagogiks grimme ansigt her. Der er en stærk lugt af kausalitet i luften, og dermed melder problemerne sig. Vi har her at gøre med Undervisningsministeriets vidensportal, der anskuer undervisning på en måde som ikke engang forskningen kan stå inde for. Det samme gælder for uvm.dk, der med en hurtig google-søgning afsløres som en flittig bruger af dette begreb. Måske er det denne bevægelse mod moderne 9 Hattie’s udtryk for variable i klasselokalet Uren pædagogik (2011), s. 163 11 Uren pædagogik (2011), s. 163ff 10 7 Martin Bo Nielsen Bachelor A110407 managementteorier, forfatterne bag ”Uren pædagogik” fornemmer, og protesterer mod? Denne djøfisering som synes at hærge i det offentlige i denne tid? Det synes sandsynligt. Men hvilken indflydelse har best practice på underviseren? Dohn har teorier om dette og disse indebærer, at jeg må opfinde en case. Jeg vil kalde den: ”Tidsaspektet i geografi og den uheldige gramsen i posen”. Jeg valgte at skrive denne opgave i geografi, fordi faget er et syntesefag. Med det menes det at her smelter kulturfag og naturfag sammen i ét fag, en slags brobygger kan man sige. Geografi er et selvstændigt fag, men for at forstå hoved- og underemnerne man kommer ind på i faget, er man nødt til at bruge elementer fra dansk, historie, samfundsfag, religion sammen med fysik/kemi, biologi og N/T. Der fordres altså en bred viden for at forstå faget til fulde, og faget byder på en metoderigdom, som de fleste andre fag ikke kan følge med i. Der er tegn på, at faget ikke i al fremtid vil være sådan, den kulturgeografiske dimension synes under pres af tankerne om hvordan naturfag skal gøres interessante for unge fremover. En af ideerne er her, at naturfagene samles i et science fag på læreruddannelsen (og måske senere i skolen), og måske gøres 2-årigt, da nogle af synteseaspekterne sikkert kan overtages af de andre fag12. Men som faget står nu, er det interessant at undersøge, også på grund af eksamensformen i faget, der p.t. er multiple choice. Minimumstimetallet for geografi er i 7. klasse 30 timer, 8. klasse 60 timer og i 9. klasse 30. Dette er et minimumstal, skolerne kan selv vælge at sætte tallet op. Det er ikke mange timer, til de mange emner geografi kan beskæftige sig med, derfor må undervisningen, naturligvis, være af høj kvalitet. Lærer X er ny i sit job, og skal undervise en 7. klasse i geografi, emnet er underordnet, men det er kvaliteten af undervisningen ikke. Lærer X søger inspiration på internettet og falder over EMU.dk, og ser til sin store lykke, at her, fra ministeriel side, er der endda også eksempler på best practice. Lærer X vælger en undervisningsplan med en blåstempling fra Undervisningsministeriet, og opnår den bedst mulige undervisning, skulle man tro. Nej, siger Dohn. Om end det er forståeligt, at en lærer vælger den allerede trådte sti, for at sikre kvaliteten i sin undervisning (eller, som i Dohns eksempel, på grund af tidsnød), så opnår man derved allerhøjest den næstbedste praksis. Grunden hertil er ganske simpel, og jeg har beskæftiget mig med den før, nemlig at hver situation er unik, med unikke agenter og med skiftende baggrunde13: ”For det første kan enhver kendsgerning, uanset hvor irrelevant den måtte synes, potentielt være eller blive et ’situationselement’. For det andet er ’kendsgerninger’ ofte ikke objektivt givne, men bliver i mange tilfælde først kendsgerninger i kraft af den generelle meningsmæssige sammenhæng, og situationens overordnede gestalt.”14 Der er 2 punkter mere, men de er variationer over et tema. 12 Christensen, Jonas Straarup, Nyt naturfag i folkeskolen – hvad så med læreruddannelsen?, http://www.folkeskolen.dk/540453/nyt-naturfag-i-folkeskolen---hvad-saa-med-laereruddannelsen 13 Uren pædagogik (2011), s. 171 14 Uren pædagogik (2011), s. 170 8 Martin Bo Nielsen Bachelor A110407 Dohn bringer ikke noget nyt til vores argumentation, hvad angår kritikken af den ”rene” pædagogik, men hun påpeger det interessante faktum, at den behavioristiske tankegang der ligger bag, allerede er en del af diskursen på uddannelsesområdet. Fra før, hvor de rene pædagoger ikke var at finde, til nu, hvor man ser tydelige tegn på deres eksistens, er noget forandret. Det Dohn har gjort anderledes end mig, er, at hun har flyttet opmærksomheden fra selve kernen i skolesystemet (elever, lærere, skolen og, til en vis grad, også forskerne), til periferien, der hvor politik møder praksis. Eksemplerne fra best practice-eftersøgningen, Dohn udførte tidligere, er fra ministeriets hjemmesider, fra forlags e-bog systemer og fra universiteterne15. Jeg selv er ikke sikker på at Dohns argumentation holder til den praktiske virkelighed. Ja, der er ”best practice” eksempler på de ministerielle hjemmesider, men jeg tvivler på de bliver fulgt. En lærer ville nok allerhøjest bruge dem som inspiration, og kassere de elementer der ikke passer til han/huns opfattelse af hvad klassen kan håndtere. Dohn selv, kommer ind på netop dette, og nævner selv mulige scenarier hvor man, enten som uerfaren eller i kraftig tidsnød, kunne fristes af disse16. Men som en erfaren lærer, vil man styre klar af disse eksempler på bedst muligt udkomme, hvad det så end er. Sammenfatning Vi har nu forsøgt, at få et overblik over de stridspunkter der findes mellem tilhængerne af en evidensstyret pædagogik, og deres modstandere. Det har ikke været let at se konflikten, ingen af evidenstilhængerne synes at rammes af modstandernes angreb, fordi de stort set er enige med dem. Modstanderne, her forstået som forfatterne bag antologierne ”Uren pædagogik 1 og 2”, afviser et kausalitetsforhold mellem generalisering af forskningsresultater og praksis, deres hovedargument findes i at læring er situeret, læring kan ikke fjernes fra den kontekst den virker i. Logisk set er der intet galt i det udsagn, men at det skulle stå i modsætning til evidenspædagogernes syn på læring, er forkert. Jeg har undersøgt og analyseret tre af de forskere der oftest angribes for deres forsvar for evidenspædagogikken, og alle som én afviser at der er et direkte kausalitetsforhold mellem deres, eller andres, forskningsresultater og hvad der vil virke i praksis. De er altså ikke modstandere af tanken om at læring er kontekstafhængig, tværtimod, de accepterer dette, men anfører at forskningsresultaterne alligevel kan bruges som inspiration i lærerens didaktiske overvejelser. Men vi fandt til sidst en skygge af et behavioristisk syn på læring, nemlig på ministeriets hjemmesider i form af best practice-eksempler, altså i periferien af undervisningssystemet, der hvor Undervisningsministeriet møder praksis, politik møder skolen. Dog er dets betydning, efter min vurdering, og mellem linjerne også Dohns, begrænset. Alligevel er den der, tanken om at man 15 16 Uren pædagogik (2011), s. 160ff Uren pædagogik (2011), s.183 9 Martin Bo Nielsen Bachelor A110407 uden videre kan genbruge andres arbejde, og lignende tanker så vi i den offentlige debat, før og efter arbejdstidsreformen for lærerne i 2013, altså efter Dohn skrev dette indlæg. I et radioprogram (P1 Morgen 10/3-15), blev Christine Antorini interviewet angående et forskningsprojekt, med 500 klasser hun for nyligt godkendte. Hvad projektet handlede om, er for os uinteressant (social arv), men det ministeren gav udtryk for var, at ”…det er ikke sådan at der bliver metodetvang, det er der ikke nogen gode erfaringer med, men det gør ikke noget at man går fra metodefrihed, til metodeansvar. Man vælger imellem metoder man ved, at de her har altså en meget høj sandsynlighed for at de virker”. Man kan vælge at tolke ministerens ord på to måder. Den ene måde er at ”metodeansvar” dækker over hvad læreren ved sandsynligvis virker, den anden måde, og denne finder jeg mest sandsynligt på grund af ministerens tidligere handlen, er hvad forskningen mener sandsynligvis virker. Og er den sidste tolkning den rigtige, er metodetvang en realitet. I næste afsnit, kigger vi på ”hvad-der-virker”, når introduktionen af John Hatties forskning bliver foretaget. Her borer vi i validiteten af Hatties studier, og vi stiller spørgsmål ved Hatties kontrol over variabler. Vi vil sammenholde det med vores analyser af de urene pædagoger, der ret bastant afviser forskningen. Hattie – Messias New Zealænderen John Hattie er virkelig en kolos. ”Times Educational Supplement” bragte et interview med den celebre forsker med overskriften: “Hes not the messiah…but for many policymakers he comes close.”17 Gennem de sidste par år har hans forskningsresultater lagt grund til megen debat og megen reformering af skolesystemer kloden rundt. Jeg har nævnt ham tidligere i opgaven, både i begrundelsen og også i starten af dette kapitel, især har jeg med en vis syrlighed bemærket de imponerende tal, der nævnes i forbindelse med hans forskning. Hattie er nok det tætteste vi kommer på en egentlig praktiserende ”ren” pædagog. Jens Rasmussen har vi tidligere sat i samme bås, men afvist at han skulle være en ubesmittet ”ren” pædagog, på grund af den moderering han bruger i sin diskurs, at noget skal virke med ”rimelighed”. ”Hvad-der-virker” er et udtryk vi ofte har hørt, og Hattie er hovedårsagen til at nogen mener at vide ”hvad-der-virker”. Men hvordan ved Hattie så hvad der virker? Lad os se på de imponerende tal fra begrundelsen tidligere i opgaven, og senere sætte det op mod det eksempel nævnt samme sted, herefter skal vi se på Hatties ranking af de forskellige tiltag. Forskningen er som sagt baseret på: 17 800 metastudier af 50.000 forskningsartikler 150.000 effektstørrelser Evans, David, He’s not the messiah…, https://www.tes.co.uk/article.aspx?storycode=6290240 10 Martin Bo Nielsen - Bachelor A110407 Målt på intet mindre end 240.000.000 elever18 Metastudier Et begreb der dækker over at Hattie har brugt andres forskningsresultater i sin egen forskning. De 50.000 forskningsartikler er hver især kommet med en konklusion på deres emne, og Hattie har brugt disse konklusioner i sin forskning. Effektstørrelser Hattie forklarer at hans forskningsresultater er baseret på tests, hvor man måler effekt på baggrund af tidligere tests. Effekten d måles ved: (Testscore før – Testscore efter)/Standardafvigelse19, hvor minimumsgrænsen for at man bør forfølge et tiltag er d=0,40. Denne minimumsgrænse skulle efter sigende være det samme som et års fremgang (og så er d=0,60 1,5 års fremgang), under dette (d=0,40) er effekten for lille til at tiltaget burde iværksættes, over dette, viser Hatties forskning at du får succes. Men, siger Hattie, denne effektstørrelse skal ikke være et facit for hvordan undervisning skal planlægges, effektstørrelsen skal kun bruges som et udgangspunkt for diskussionen om hvordan man påvirker eleverne.20 Hattie er altså ikke helt ren, men indser begrænsningen af sin forskning, dog er det hans holdning, at man skal sigte på en effekt på d=0,40 og derover. Dermed gør han sig til dommer over hvilke metoder og tiltag der kan bruges. Hatties rangliste over effekter er lang, men under dette referencepunkt (d=0,40) ligger eksempelvis ”tidsforbrug på opgaven (forberedelsestid?)”, ”Computerassisteret undervisning” og ”reduktion af forstyrrende adfærd” og ”sommerferie”. Men ved testning mister man også en del interessant information. Tests er meget nøgne i sig selv, de viser blot en præstation i forhold til et enkelt emne på et givent tidspunkt. Eleven kan lige nu, ikke om 2 måneder eller 2 år, beskrive et begreb/klikke på det rigtige svar/og så videre. Elevens dejlige puddelhund Fifi, afgik ved døden på brutal vis dagen før den første test, men præsterer så mærkbart bedre ved anden test (Eleven, ikke pudlen Fifi), og klarer sig nu bedre. Meget bedre. Og dermed bliver resultatet for hele klassen bedre. Bedre end den burde. Og hvad var det så der virkede? Det kan man ikke se i resultaterne. Har klassen fået en ny idrætslærer, der har forbedret klassens trivsel markant? Er skolen blevet ombygget og dermed skabt et helt nyt undervisningsmiljø? Eller er det din undervisning, i det emne, der har givet dine elever en præstationsforbedring? Hver af disse er særligt interessante tiltag, der burde analyseres grundigt, men de er ikke at se i de rigide tal en tests output er. 18 Hattie (2012) s. 24 Hattie (2012) s. 297 20 Hattie (2012) s. 40 19 11 Martin Bo Nielsen Bachelor A110407 Kooperativ vs.iIndividualistisk læring Dykker man ned i Hatties rangliste, og benytter Hatties kriterier for valg af tiltag (d=0,40 og derover), finder man som nævnt ovenfor, en række overraskende resultater. Mange af disse emner på ranglisten giver ikke mening uden nærmere forklaring, fra forskerteamet eksempelvis. Hvad betyder for eksempel ”karriereinterventioner” eller ”Simulationer” eller ”Etnicitet”? Men vi kender kooperativ læring!. Her viser Hatties forskning en klar effekt, sat over for hinanden scorer kooperativ læring d=0,58. For at skære det ud i pap, hvis man dyrker individualistisk læring i én klasse, og kooperativ i en anden, vil den kooperative klasse være næsten 1,5 år længere fremme i sin skolegang! Den opmærksomme læser begynder allerede nu at stille spørgsmål. Det første spørgsmål der bør stilles er: Hvilken form for kooperativ læring er der blevet målt på? Er det den israelske form, opstået i 1979 i kibbutzerne? Er det en særlig tysk udgave, der også findes i den danske folkeskole? Eller er det (nok mest sandsynligt) Spencer Kagans undervisningssystem?21 Om end det kun er få detaljer der adskiller de forskellige udgaver af CL, er det ikke et ligegyldigt spørgsmål. Og næste spørgsmål bør være: Hvilke elementer i CL er det der skaber det gode resultat? Læser man Bjarne Wahlgrens forskningsoversigt: ”Effekterne af Cooperative Learning – Set i et voksenundervisningsperspektiv”, opdager man at billedet af CL er mere broget end som så. For eksempel viser det sig, at homogene grupper og heterogene grupper præsterer ens, at kønshomogene grupper præsterer bedre end de modsatte, at pararbejde virker bedre end firmandsgrupper22. Hele Kagans definition af CL baseres på at eleverne, så ofte som muligt, skal befinde sig i zonen for nærmeste udvikling, som vi kender fra socialkonstruktivismen, men det bryder sammen under vægten af disse forskningsresultater (hvis de er korrekte). Og måske er Hatties metaanalyse af CL i høj grad baseret på Spencer Kagans egne forskningsresultater, resultater der måske ikke er så uafhængige, som de burde være. En dybere analyse af CL har jeg ikke plads til, men Lars Qvortrup har. Han skriver: ” CL er ikke et særligt fremragende stykke teknologi, det leverer snarere et relevant repertoire af metoder, planer og teknologier til god klasseledelse!” Tænker man videre, kan man konkludere, at det måske ikke er CL der som sådan virker, men nærmere at læreren gennem CL, er nødt til at forholde sig til sin undervisning, sine elever og sine metoder på engageret vis. Og det er da et mere interessant resultat end d=0,58, ikke? 21 Andersen, Frans Ørsted, Kooperativ læring i skolernes hverdag, http://www.katafonden.dk/lib/file.aspx?fileID=243&target=blank s. 8 22 Wahlgren, Bjarne, Effekterne af cooperative Learning – Set i et voksenundervisningsperspektiv, http://nck.au.dk/fileadmin/nck/CL/Forskningsoversigt__effekterne_af_CL_set_i_et_voksenundervisningsperspektiv.pdf s. 17 12 Martin Bo Nielsen Bachelor A110407 Datagrundlaget Jeg skal ikke lægge skjul på, at den behavioristiske grundholdning til læring og uddannelse, som studierne synes at understøtte, fra starten af tiltalte mig som naturfagselsker, statistik og tal kunne gøre det enklere at være underviser. Og så bruges ordet evidens ofte, og jeg tænker da på den naturvidenskabelige metode, og den er jo så smuk. Men som jeg modnedes som lærerstuderende, kom jeg til at stå i opposition til denne ”evidenspædagogik”. Jeg synes at se åbenlyse mangler i den tænkning som Hattie repræsenterer. Stefan Hermann, journalist på Information, kalder den naiv rationalisme23. Naiv fordi den forsøger at reducere de uhyggeligt komplicerede systemer og sammenhænge elever og lærere færdes i, til tal. Og det er det, der er det tungtvejende argument, at den kompleksitet ikke kan måles tilfredsstillende, og at de resultater målingerne viser, er ubrugelige. Som sagt, stiller jeg mig tvivlende overfor Hatties evidens, enhver kan jo regne ud at han ikke kan måle på så komplicerede systemer, og kausalhændelser, en enkelt skoledag repræsenterer for den enkelte elev. Og jo længere væk man kommer fra klasselokalet, jo mindre kontrol har man over data, derfor er metastudier af metastudier nok det fjerneste man kommer fra virkeligheden, medmindre man laver en metaundersøgelse af metaundersøgelsen af den første metaundersøgelse, så er den fjernest fra virkeligheden. Desværre har jeg ikke kunne finde mange undersøgelser, der specifikt kritiserede Hatties metastudier, det jeg finder er mere generelle kritikpunkter af metastudier, ikke Hatties studier direkte. Et eksempel er Hatties egen dataudvælgelse. Metaanalyser kan være gode til nogle ting, men dårlige til andre. En generel kritik af metastudier handler om personen bag dataudvælgelsen. Hattie er, som jeg er, et produkt af sin egen skolegang, hans omgivelser og tiden han lever i. Bourdieus feltteori beskriver det samme, at vi alle bevæger os i forskellige felter, med forskellige sociale og kulturelle normer, med forskellige organisationsformer osv. I de forskellige områder er der forskellige kapitalformer, hvor eksempelvis viden om geologi er værdifuld i ét felt, kan det være ganske værdiløst i andre felter. Hattie har, som jeg, gennemgået en socialisering i forskellige felter, og ud fra disse felters sociale og kulturelle normer, dannet sig en forforståelse af verden, som med sikkerhed er anderledes fra min. Derfor mener Hattie at det vigtigste i uddannelsessystemet lige pt. er at bruge evidens i sin undervisningsplanlægning, og praksis, mens jeg mener det er absolut vigtigt at læreren ignorerer denne evidens, og fokuserer på hvad der virker for ham/hende i den bestemte klasse, på det bestemte tidspunkt beslutningen tages på. Evidensen er ligegyldig, læreren ved hvad der er bedst, baseret på de data læreren indsamler bevidst og ubevidst gennem sit arbejde med klassen/eleven. 23 Hermann, Stefan, Et grumset angreb på den rene pædagogik 13 Martin Bo Nielsen Bachelor A110407 Det er denne forskel i tankemønstre, der indirekte kan betyde, at Hattie i sine metaanalyser finder nogle undersøgelser mindre vigtige end andre. Et studie kan for eksempel vise, at Cooperative Learning kun virker, fordi læreren ændrer fokus på undervisningssituationerne og engageres, men dette studie er for Hattie ikke vigtigt, fordi det ikke har indebåret testresultater. Jeg, derimod, mener at det er altafgørende. Så Hattie kan have udvalgt visse studier for at fremme sine egne argumenter, bevidst eller ubevidst. “The most severe fault in meta-analysis often occurs when the person or persons doing the metaanalysis have an economic, social, or political agenda such as the passage or defeat of legislation”24 Et citat, taget ud af en sammenhæng fra Wikipedias side om metaundersøgelser, fra afsnittet ”Agenda-driven bias” for at illustrere at metaanalyser ikke nødvendigvis er sikre. Artiklen fortsætter med at redegøre for forskning i metaanalyser der viser, at interessekonflikter sjældent opdages eller afsløres. Og her behøver det ikke være Hatties egne interessekonflikter, men forfatterne til de oprindelige forskningspapirer. Kirsten Hyldahl Petersen omtaler nogle kritikpunkter af Hatties metaanalyser (tre), i sin specialeafhandling der omhandler en kritisk analyse af Hatties feedback model. Jeg vil behandle de samme punkter her og udbygge dem lidt. En specifik kritik af Hatties metaanalyser går på, at man ikke umiddelbart kan sammenligne så forskellige studier, som Hattie gør. Det er som at sammenligne æbler og pærer.25 Et studie kan være sat op på én måde, et andet på en anden. Derfor kan outputtet være forskelligt. Hattie selv ser ikke disse forskelle som problematiske, hvert studies opsætning er forskelligt, uanset om udførelsen af opsætningen er identisk med et andet, Personerne og lokaliteten varierer, det er derfor absurd kun at sammenligne ens studier, siger Hattie.26 Jeg synes ikke det er rimeligt at afvise kritikken så nonchalant. Det er jo ikke uvigtigt at personer og lokaliteter varierer, jeg vil hævde at det er altafgørende for udkommet af en undersøgelse. Laver man en undersøgelse på Tornhøjskolen i Aalborg Øst, og en på Gistrup skole i omegnen af Aalborg, så får man med sikkerhed forskellige resultater. Tornhøjskolen er lokaliseret i et socialt belastet område, med mange tosprogede børn, der ikke, som danske børn, konstant udsættes for det danske sprog (det såkaldte sprogbad). Dette medvirker at mange begreber, som man ville tage for givet at børn kender til i Gistrup, først skal forklares og indlæres på Tornhøjskolen. I Gistrup derimod, vil langt størstedelen af børnene kende disse begreber, og undersøgelsen starter et helt andet sted. Og det på trods af at de to skoler befinder sig kun tre kilometer fra hinanden. Mens du på Tornhøjskolen også bruger en hel del tid på håndtering af elever i din undervisning, er eleverne 24 http://en.wikipedia.org/wiki/Meta-analysis Pedersen, Kirsten Hyldahl, Formativ feedback, http://projekter.aau.dk/projekter/files/63452603/Formativ_Feedback.pdf s. 24 26 Pedersen, Kirsten Hyldahl, Formativ feedback, s. 24 25 14 Martin Bo Nielsen Bachelor A110407 på Gistrup fokuserede, og du kan koncentrere dig om det faglige. Eller måske skulle jeg sige, at størstedelen af eleverne på Gistrup Skole er i stand til at modtage undervisning i længere tid ad gangen, end størstedelen af eleverne på Tornhøjskolen. Sådan er min personlige erfaring fra praktik begge steder, i hvert tilfælde. Og det stiller jo undersøgelsens validitet i et andet lys, udgangspunkterne er vidt forskellige. Kirsten Hyldahl Petersens kritikpunkt nummer 2, omhandler målinger af isolerede effekter. Jeg har redegjort for den samme tanke tidligere, og har foretaget en dybere analyse af Cooperative Learning. Så vi kan blot huske på at man ikke kan se på effektstørrelserne isoleret set, elevens hverdag er jo kompleks, og at effektstørrelserne som sådan enten er uforståelige, eller ikke viser hvad man tror de viser (jævnfør analysen af Kooperativ vs individualistisk læring). Jeg vil derfor ikke beskæftige mig mere med dette. Garbage in-garbage out er det tredje kritikpunkt. Men det hører til en generel kritik af metastudier, ikke Hatties specifikt. Jeg har tidligere behandlet dette, men der snakkede vi om udvælgelser af studier til metaanalysen, og den afhængighed en forsker muligvis har af interessenters velvilje. Garbage in/out handler om at man i metaanalyser ikke skelner til, eller har kontrol med, enkeltstudiernes kvalitet. Og studier med lav kvalitet vil påvirke metaanalysen så den også bliver af lav kvalitet. Hattie mener at den sammenhæng ikke gælder, man kan: ”…med metaanalytiske teknikker klarlægge i hvilket omfang at effektstørrelserne er påvirket af kvalitet.”27 Evidens – konklusion I dette afsnit har vi forsøgt at gennemskue hvad-der-virker. Bindestregerne indikerer et samlebegreb, og det kommer fra de hjemlige tilhængere af evidensbaseret undervisning, Jens Rasmussen har brugt det for eksempel. Vi har forsøgt at kaste et kritisk blik på argumenterne for, at man kan påstå at noget virker, og vi har rettet dette blik mod den største samtidige evidenspædagog vi kunne finde, John Hattie. Vi har kritiseret forskellige niveauer i hans forskning, med udgangspunkt i Kirsten Hyldahl Pedersens specialeafhandling og Wikipedias side om metastudier fundet, at metastudier let kan forurenes (Garbage in/out), at studierne i metastudierne, bevidst eller ubevidst, kan udvælges så de passer efter forgodtbefindende. At sammenligningen af studier i en metaanalyse er problematisk, som at sammenligne æbler og pærer, og sidst har vi kritiseret selve forskningsresultaterne i vores dybere analyse af effekten af kooperativ læring vs individualistisk læring. Alt i alt står tilbage, at Hatties forskning, om end formentlig grundig, kan udsættes for kritik. Argumentet for at læring er situeret og kontekstafhængig står stadig, og værdien af studier som Hatties, er for folkeskolelæreren til at overse. Men Hattie har vist sig at være et værktøj som politikere kan bruge til at reformere folkeskolen. Om end han selv fraråder brugen af den, har Hattie forfattet en rangliste, der kan bruges som en facitliste for folk udenfor skolesystemet, til at 27 Pedersen, Kirsten Hyldahl, Formativ feedback, s. 25 15 Martin Bo Nielsen Bachelor A110407 påtvinge folkeskolen ændringer, selvom en smule kritisk tænkning og analyse, kan bringe listen i miskredit. Og så gør Hattie sig også til dommer over metoder og tiltag, der ellers kunne virke fint i nogen sammenhænge, ved at opfordre lærerne til at gå efter en effekt på d=0.40. Altså kan vi fastsætte effekten af at bruge Hatties forskning i sin praksis til d=0.22 (Helhedsreformer i undervisningen), væsentligt under d=0.40 og derfor ikke værd at bruge tid på. Min evidens Jeg forsøgte i min praktik at indsamle data til denne opgave. Jeg havde en ide om at jeg ville teste testningen, tests indflydelse på eleverne, tests brugbarhed og testenes validitet. Jeg ville gribe det an på tre måder. Den ene var et spørgeskema (beskrivelse nedenfor) der skulle klarlægge elevernes forhold til tests. Min tanke var at de kære små ville lade sig påvirke psykologisk af at blive testet. Jeg selv oplever eksaminer som værende meget stressende og psykisk belastende, men hvordan har eleverne det med dem? Der er naturligvis forskel på at blive testet formativt, og på en eksamen, de formative tests betyder mindre. Men eleverne i min praktik var unge, de gik i 8. klasse, hvordan reagerer de på dårlige resultater? Hvad betyder det for deres motivation og selvopfattelse? Kan testene virke negativt på deres skolegang? Jeg forestiller mig at en elev der konstant scorer under middel, ikke kaster sig ud i et arbejdsraseri for at komme på middel og over, jeg tror nærmere eleven henfalder til passiv accept af sin egen mangel på kunnen. Og denne elev kan vise sig at have helt ekstraordinære evner som opfinder, sælger, håndværker, men testene fanger det ikke. Og troen på egne evner har testene jo fjernet, så eleven kan, som jeg selv personligt oplevede, måske først meget sent opdage disse evner, og dermed have spildt en stor del af sit liv på et arbejde man ikke har nogen passion for. Med passion mener jeg lysten til at tænke og udvikle sit personlige virke, sin praksis, forbedre sig, ens omgivelser og det man nu producerer. Mere om det senere. Forløbet – den tvedelte opgave Den anden måde var gennem opgaver. Når vi måler på noget, måler vi det som regel i forhold til nogle mål. Har eleven opfyldt målene, skal vi bedømme dem positivt, har de ikke, negativ osv. Så jeg gjorde mit geografiforløb tvedelt. I den første del fik eleverne en ret afgrænset opgave, de skulle i grupper undersøge nogle foruddefinerede landskabstyper, og jeg formulerede nogle klart definerede mål for hvad de skulle kunne svare på. Disse mål skulle opfyldes og bedømmes gennem en fremlæggelse for klassen. Opgaven kan ses på bilag 2. ”Det særligt interessante ved jeres type er hvordan den er dannet, hvornår den blev dannet, hvordan den ser ud (og hvordan man genkender den), hvor i Danmark den findes, og hvorfor. Et godt eksempel er altså nødvendigt.”28 28 Bilag 1 Opgaveformuleringer 16 Martin Bo Nielsen Bachelor A110407 Målopfyldelseskriterierne er ret tydelige, og mange elever kunne løse denne opgave på blot en dobbelttime. Nogle kunne nøjes med at svare direkte, det eneste komplicerede i denne opgave er forklaringen af hvordan landskabstypen bliver dannet. Google er elevernes bedste ven, og en masse oplæsning, eller let omskrevet udenadslæring er i vente. Mine meget tydelige mål begrænser her elevens virkeområde, for at opfylde målene behøver eleven ikke anstrenge sig synderligt, elevens viden for at kunne afholde en godkendt fremlæggelse, behøver hverken være særlig dyb eller særligt bred. Anden del af forløbet blev en del mere komplekst. Opgaveformuleringen er at finde i bilag 2, og den er lang. Opgaven er formuleret i 3 dele, en del der omhandler de personlige læringsmål for eleven, en del med krav til modellen og sidst en beskrivelse af arbejdsgangen. Der er mange punkter, men fælles for dem alle er at de er bredt formulerede (undtagen arbejdsgangen!). Her kan ikke gives rigtige svar fundet på google. Man er faktisk nødt til at forstå landskabstyperne og deres dannende processer, for at kunne bygge en model. Og så er der lærerrollen, den er tilbagetrukket og stum. Jeg skal ikke lægge skjul på at den anden del, opgave 2, var den hvor jeg kunne se mest læring, og det som en passiv observatør. Diskussionerne jeg kunne overhøre, de forskellige gruppemedlemmers roller i gruppen, afslørede nye sider jeg ikke kunne se på en test. Eksemplet elev J var særligt opløftende. En fagligt svag elev, der normalt bare er en distraktion for den gruppe han nu havner i, overtog fuldstændigt ledelsen af det praktiske arbejde. Hans opfindsomhed og løsningsforslag var gode, og de fagligt stærke piger han delte gruppe med, trådte klogelig i baggrunden. Deres rolle transformerede sig fra lokomotiv til påhæng. Rutinerne blev brudt, og man kan med rette påstå at Js sociale kapital voksede. Jeg har senere tænkt meget over det forløb. Jeg ved, de lærte meget, men det var jo ikke særligt målbart. Der er kun min fornemmelse, sammensat af alle mulige indtryk, opfattet bevidst eller underbevidst, af at de har lært. Og hvad har de lært? Hvordan landskaber er opstået, hvilke processer der dannede dem, og så den, ifølge mit værdisæt, vigtigste ting: At samarbejde om ideer, at man ikke skal skue hunden på hårene, at forskellige individer er værdifulde i forskellige kontekster. At den elev der ikke er bogligt stærk, ikke er dum. Måske jeg skulle have sat det som mål? Dette forløb viste mig, at når man værdisætter en specifik viden, devaluerer man alt den uformelle læring, eleven opnår gennem samarbejde med bredt formulerede mål. Hvis man virkelig ønsker, at elever lærer mere, skal man sætte undervisningen fri. Fri fra mål og politisk indblanding. Karaktergivning og koldsved Den tredje måde var ved at give karakterer for deres præstationer. Jeg talte med min praktiklærer om dette, og vi var enige om at køre to parallelle bedømmelser. Jeg lavede min egen, han lavede sin. Det viste sig at vi aldrig var uenige, der var højst et trin imellem vores bedømmelser, og generelt lå jeg højest. Vi var enige om at der skulle gives en gennemsnitskaraktér hvor fremlæggelsen, deltagelsen i arbejdet og modellen skulle indvirke, med lige stor vægt. 17 Martin Bo Nielsen Bachelor A110407 Det lyder jo meget idyllisk, men var det langt fra. Jeg var konstant i tvivl om hvad eleverne fortjente. Jeg vaklede hele tiden mellem 10 og 7, 7 og 4, 4 og 02 osv. Og alle de her beslutninger om hvilken karakter jeg valgte, var baseret på intuition. Og så var der også min praktiklærer og hans indflydelse. Mens han var striks med karakterer, var jeg mere large. Det er meget svært at sige, at han ikke påvirkede mig, til generelt at sænke niveauet. På det punkt var vi meget forskellige, men vi giver jo begge karakterer, så hvordan kan vi bruge det som en fælles målestok? Et andet problem var mit forhold til den enkelte elev. Jeg reflekterede over dette i min praktikportfolio. Her tænker jeg på eleven E, der normalt er en 10/12 tals pige, men jeg gav hende kun 4. Og så er der eleven M, som ikke gad mig, ham gav jeg 02. Et citat: ”Jeg er forvirret. Foran mig, på skærmen, har jeg givet E 4. E er ikke en 4-tals elev. Hun er 10-12 som regel, men alligevel står der 4. Jeg prøver at tænke tilbage, men det er svært, jeg har haft 12 fremlæggelser med 2-3 elever i hver. Det giver i omegnen af 30 elever, nok nærmere 32. E, som altid smiler og er imødekommende, hun der altid får en til at føle sig velkommen i klassen, har hun kun fået 4? Jeg beslutter at jeg må have forbyttet tallene, så jeg skriver 7. Jeg tænker tilbage på Ma, han er Es modsætning. Han gider mig ikke, og geografi. Sidder altid halvt vendt væk fra mig, svarer altid en smule aggressivt, hvad gav jeg egentlig ham? Var det 02? Var han egentlig ikke bedre end det? Jeg vender tilbage til noterne, jeg kan se at mit sprogbrug er helt forskellig overfor de to elever. Hos M er jeg kortfattet og præcis, hos E forklarende lange sætninger. Mit billede af Ma er bekræftende, hos E er det forvirret.”29 Og der er andre eksempler, og andre faldgruber. Der er J der, når hun gider, er dygtig og trækker alle eleverne i sin gruppe op. Me, der var i gruppe med Julie, nød godt af dette. Hun ligger normalt under middel, men sammen med J scorer hun 10. Og det var der ingen tvivl om at hun skulle have, men hvad nu hvis J i dette tilfælde ikke gad? Min egen oplevelse er karaktergivningen er altså, at den er subjektiv. Lad mig kort liste de fejlkilder jeg kan se i min egen praksis: - - 29 Der er kun tid til at fremlægge i grupper, derfor bliver elevernes indbyrdes påvirkning af hinanden en fejlkilde. Me sammen med J får 10, Me uden ligger under middel. Karakteren fortæller altså kun noget om Me i dén sammenhæng. Men hvilken er den rigtige? Me kommer jo ikke til at virke isoleret i samfundet fremadrettet. Min egen sindsstemning mod eleven og klassen spiller ind. I eksemplet E vs Ma, ser det ud til at mit eget positive og negative forhold til visse elever, har indflydelse på karakteren. Tredelingen af bedømmelsen forsøger at måle eleverne så præcist som muligt. Men det betyder også at læreren mister overblikket over de indbyrdes forhold i gruppen. J laver ikke Mig selv. 18 Martin Bo Nielsen - Bachelor A110407 det store i den bundne opgave, men alt i den frie. Læreren kan ikke være over det hele, og derfor må bedømmelsen af arbejdsindsatsen bero på punktnedslag og fornemmelser. Eleven kan eksempelvis ikke arbejde ordentligt, når læreren ser på (han/hun bliver nervøs), men sagtens når læreren er væk. Og omvendt. Karakterer påvirkes af lærerens grundsyn. Forlanger læreren meget eller lidt af eleverne? En tidligere nævnt problematik er at elever ikke befinder sig i et vakuum, de påvirkes af deres omgivelser, og de påvirkninger kan ses i præstationen Jeg vil senere vende tilbage til problematikken i vores analyse af eksaminerne. Hvis man accepterer mine argumenter for karakterers subjektivitet, så fordrer det jo også at eksamenskarakterer er ret ubrugelige. Hvorfor er det så vi bruger dem som adgangsgivende til uddannelser? Og som måling for om én jobsøgende er bedre end en anden? Det umulige spørgeskema Jeg havde som tidligere formuleret, en forforståelse af at tests stressede eleverne. Konstant at skulle præstere for en belønning, det lyder ikke rart. Så jeg forsøgte at formulere et spørgeskema (bilag 1), der kunne klarlægge dette. Jeg har lavet det som en skriftlig opgave, hvori eleverne var nødt til at formulere deres svar selv. Jeg ville så tæt på deres virkelighed som muligt, ikke lægge dem ord i munden ved at bruge multiple choice eksempelvis. Jeg forsøgte at formulere spørgsmålene så neutralt som muligt, da min forventning ville være at de generelt ikke gider testene, men deri tog jeg fejl, medmindre de små altså taler mig efter munden. Jeg informerede klassen om, at kun jeg ville se besvarelserne, for at sætte eleverne fri af den forpligtelse de end måtte føle for deres lærer, men besvarelserne viser at det måske ikke lykkedes. For de er jo stadig i klassen, og praktiklæreren sidder bagest, eller også er de for prægede af den diskurs der er omkring tests. Eller også er svarene helt deres egne, jeg kan ikke vide det. Analyse af data (alle klasser ca. 90 besvarelser): Generelt: - Langt størstedelen har intet imod at blive testet, få svarer at testene ligger for tæt, men der er ikke den store begejstring, det synes at være en del af skoledagen, en opgave. Korte besvarelser hos alle klasser (Bilag 8 viser et eksempel), undtagen C-klassen (Bilag 6 & 7), der stikker voldsomt ud med detaljerede besvarelser Man gør sig umage med tests, der skal ikke slingres, nogle forbereder sig grundigt Med få variationer nøjagtigt samme svar på spørgsmål 9: ”jeg får at vide hvordan jeg ligger og kan forbedre mig”, det virker tillært, de har selv stillet samme spørgsmål og fået den forklaring. Nogle ved ikke hvad de får ud af det (særligt i b-klassen), andre (meget få) siger de ikke får noget ud af det 19 Martin Bo Nielsen - Bachelor A110407 Ingen valgte at bruge lyd eller video til at besvare, det ses at de der staver skidt besvarer ultrakort. Ingen synes at lade sig røre af en dårlig karakter, nogle vil blive skuffet (især de der præsterer højt), de fleste er ligeglade. I den faglige del af testen, er svarene generelt kortfattede, men korrekte Eleverne syntes at have vænnet sig til tests. Der er ikke de store protester, blot nogle få der synes der er for mange, og at de falder for tæt. Besvarelserne fra tre af klasserne bærer præg af, at være en opgave der blot skal løses, mens C-klassen synes at tage det hele mere alvorligt. Næsten alle elever skriver at de forbereder sig til tests, og at de gør sig umage med dem. Man bruger samme formulering om hvad man får ud af at blive testet, og fejler man i testen vender man bebrejdelserne indad, ikke udad. Det er ens eget ansvar at præstere godt, læreren har i deres øjne ikke et ansvar, men er en slags neutral dommer. Men dette gælder kun de dygtige elever, de knap så dygtige lader sig ikke mærke med et dårligt resultat, de er jævnt hen ligeglade. Der er tonsvis af spørgsmål der kan stilles til denne undersøgelse, men der er ikke plads. Hvis karakterer bruges som et behavioristisk redskab til at motivere elever til at præstere bedre, ser de ikke ud til at virke. Generelt bruger eleverne dem blot til en slags formativ selvevaluering, men forventer egentlig bare at blive bekræftet af dem. Fejlkilder til spørgeskemaet: - Flere af punkterne giver jeg forklaringer til. Noget der af eleverne bliver betragtet som en slags valgmuligheder. Spørgeskemaet kan ikke tage højde for den diskurs der tidligere har været omkring testningen, den kan være italesat på en positiv eller negativ måde. Elever der er svage til at formulere sig skriftligt, kan kun give begrænsede besvarelser. Spørgeskemaet er skriftligt, og selvom jeg forsøger at bruge et overkommeligt sprog, kan nogle elever finde det svært at forstå spørgsmålene. Når jeg ser tilbage på min dataindsamling, opdager jeg hvor svært det er at give en retfærdig bedømmelse. Jeg forsøgte på 3 måder at hente brugbare data ud af praktikken, men fejlkilderne kommer i vejen. Er spørgeskemaet godt nok? Når jeg betragter det i retrospektiv, kan jeg se at der i nogle af spørgsmålene, er en tendens. Jeg ved jo, hvad jeg gerne vil have ungerne til at svare. Og jeg prøvede endda meget grundigt at undgå dette. Så grundigt at det modsatte af min egen holdning træder frem, eksempelvis parentesen til spørgsmål 6: (hvis ja: nævn et eksempel, hvis nej: hvorfor ikke?). Hvad skal eleven svare ved ”nej”? Fordi jeg er doven? At få eleverne til at besvare skriftligt/med lydfil/video på et andet medie, havde til hensigt at løsrive dem fra automatsvar. Jeg ville have dem til at svare med deres egne ord. Jeg lavede mange punkter for at skjule min egen tendensiøsitet. Og spørgsmålsarkets sammenblanding mellem forholdet til tests, og en lille test med fagligt indhold, havde til formål at se hvordan de besvarede disse tests, og hvad jeg kunne få ud af dem. Som man kan se, brugte jeg en del tid på dette spørgeskema, men 20 Martin Bo Nielsen Bachelor A110407 kunne ikke beskytte mig mod den diskurs der var omkring testning. Og de data jeg fik, trods mit forarbejde og min omtanke, var forurenede af mig, af skolen og af eleven, af den kontekst den blev stillet i. Formålet med undervisningsforløbet var, som sagt, at gå fra forsimplende målstyring, til større kompleksitet og forhåbentlig dermed bredere viden. Jeg synes jeg lykkedes her, men tænker også at det ene måske ikke ville have været muligt uden det andet. Jeg så tydeligt at opfyldelsen af målene gjorde alt anden viden ligegyldig, målene var opgaven, opgaven skulle løses. Da jeg slækkede på målene, fik jeg et ret godt resultat ud af det. Men jeg er nu, til denne dag, stadig i tvivl om hvad jeg gjorde. Jeg satte jo også mål for anden del af forløbet, var de bare bedre formuleret til opgaven? Var de i virkeligheden så brede som jeg forestillede mig dem? Og sidst men ikke mindst: At jeg var ligeglad med hvordan eleverne opfyldte de mål, betyder det så ikke at målstyringen bestod, kravene blev skærpet (man skal vide mere for at opfylde dem), og at selve opgaveformuleringen bare passede bedre til det output jeg ønskede? Jeg havde en intention om at undersøge, hvordan eleverne klarede sig når man satte dem fri, men jeg satte dem jo ikke fri. Så man kan enten konkludere at det virkede efter hensigten, eller at den ene opgave var bedre gennemtænkt end den anden. Eller at målstyring ikke behøver at være ensrettende og favorisere viden, hvis bare målene er formuleret godt nok. Selve karaktergivningen var som forventet. At karakterer i høj grad er en subjektiv tilkendegivelse er ikke nogen overraskelse, det der overrasker, er hvor glade nogle elever er for dem, og hvor ligeglade de svage elever er med dem. Karakterer som motiverende for arbejdsindsats ser jeg ingen tegn på. At vi som samfund lægger så meget vægt på disse tal, undrer mig til stadighed. Nu hvor jeg selv har prøvet at indsamle brugbare, solide data, og uden det store held i øvrigt, så lad os se på andre forsøg på samme. Vi har tidligere dækket Hattie, der indsamler umådelige mængder af data, konkluderer på dem med en, ifølge mine argumenter, solid fejlmargen, og offentliggør konklusioner man med en smule opfindsomhed kan rive fra hinanden. Lad os tage hjem fra Australien til Danmark og se på de nationale test (eller nationale tæsk, som lærerne kalder dem). De nationale test og den falske tryghed ”De nationale test er et værktøj til den løbende evaluering i folkeskolen. Testene er et pædagogisk redskab til lærerne, og de kan bidrage til den videre tilrettelæggelse af undervisningen.”30 Det lyder pragtfuldt med sådan et værktøj, og så til den formative evaluering endda, så det må jo være noget vi gør ofte. Når man står i et klasseværelse evaluerer man hele tiden. Man spørger eksempelvis klassen om noget fagligt, klassen svarer eller svarer ikke, og så tilpasser man sin undervisning herefter. Mit forhåndskendskab til elev A, fordrer at jeg overfor ham præsenterer 30 http://uvm.dk/Uddannelser/Folkeskolen/De-nationale-test-og-evaluering/De-nationale-test 21 Martin Bo Nielsen Bachelor A110407 stoffet på denne måde, overfor elev B på en anden. Elev C forstår ikke hvad jeg taler om, hun sidder og ryster forvirret på hovedet, jeg tager fat på hende efter gennemgangen. Så nu har jeg formativt evalueret min egen undervisning, elevernes udbytte og stoffets sværhedsgrad, det tog mig måske 20 sekunder. Og det er jo svært at overskue måske 24 elevers forståelse af stoffet, derfor må en test som overnævnte være som sendt fra himlen. Rå ministerielle data, direkte fra ministeriet! Derfor kommer det som skuffelse, når man erfarer, at ministeriets opfattelse af formativ evaluering er, at eleverne skal testes én gang i naturfagene i udskolingen. De skal slet ikke testes i matematik efter 6. klasse. Når skuffelsen har fortaget sig, begynder man måske at overveje hvad de nationale test så egentlig kan bruges til? Jeg er jo bare en ydmyg lærerstuderende, uden den store praksiserfaring, så jeg prøver at spørge de mere praksiserfarne lærere i mit team under praktikken. En hurtig syntese af svarene på spørgsmålet: Hvad bruger du de nationale tests til? Er: Vi bruger dem ikke til noget. Hvad bruger vi de nationale tests til? Da jeg er (eller har været) tilknyttet andre skoler, har jeg spurgt der, og på mine egne ungers skole, og alle steder er svaret det samme. De nationale tests er dem påtvunget, og resultaterne bruges ikke. Derfor spurgte jeg viceskolelederen på mit seneste praktiksted, og svaret er det samme. Så jeg ændrede spørgemåden og spurgte hvad de kan bruges til. Svaret var her at de kan bruges hvis deres (skolens) placering på kommunens rangliste, ændrede sig negativt. Så kunne man se efter alarmerende udviklinger osv. Jeg forsøgte at bore i, om hvad ledelsen så ville gøre, ville man indkalde eksempelvis en lærer til kammeratlig samtale? Men her klappede viceskolelederen i. Alle udsagn kom til at ende i ”Vi kan altid blive bedre til at bruge dem (de nationale tests)”. Vi kan blive bedre. Det minder om analysen af spørgeskemaets spørgsmål 9, hvor en andens diskurs gik igen og igen. Men man forstår jo godt at ledelsen er nødt til at træde forsigtigt. I min forberedelse til Almen Didaktik eksamen 2014, kom vi i studiegruppen ind på det samme. Formativ evaluering er ikke noget man foretager på årsbasis, det er noget man gør her og nu, med udgangspunkt i det stof man har undervist i, nogle gange midt i et forløb, nogle gange med sekunders mellemrum i timerne. Praksisnærhed er vigtigt, ellers er det et for elever og lærer, ubrugeligt resultat. Således fyldt med naiv undren, spurgte vi Undervisningsministeriet. Titlen i min mail blev mærket: Hasteforespørgsel! Der er noget konsekvent over ministeriets tidsopfattelse (jævnfør dets holdning til formativ evaluering), vi fik svar en uge senere: 22 Martin Bo Nielsen Bachelor A110407 Da vi allerede har afvist, at testen er brugbar som formativ evaluering for lærerne, må vi fokusere på de andre udsagn i mailen. Et ord der går igen er kvalitetssikring. Jeg vil være lidt fræk og oversætte det til kontrol. Skoleledelsen skal bruge resultaterne til at opnå en vis udefineret kvalitet. Den kommunale forvaltning ligeså. Og hvad sker der så hvis kvaliteten ikke opnås? Med lidt kritisk tænkning kan man forestille sig to reaktioner. Den ene er at ledelsen tager resultatet på sin kappe, den anden at fokus rettes mod læreren. Og hvis nu kvaliteten hos en enkelt lærer generelt ligger mærkbart højere, så kan samme scenarier forestilles. Kontrol og konkurrence Det jeg læser ud af denne mail er at de nationale tests har to formål. Det ene er kontrol, på forskellige niveauer, det andet er som konkurrenceparameter. Kontrollen er beskrevet i mailen, mens konkurrenceparametret endnu ikke er indført, trods adskillige forsøg fra Venstre og Konservative. Det er nemlig ikke tilladt at offentliggøre resultaterne af de nationale tests, men at det var en af årsagerne til at man i første omgang indførte dem, står uden for enhver tvivl. Lars Løkke Rasmussen (V) har gentagende gange foreslået offentliggørelse med dertilhørende skolerangering, og øget konkurrence mellem elever, lærere og skoler skulle så forbedre kvaliteten af undervisningen og skolerne. Man kan forholde sig tvivlende til ønskværdigheden af at lærere, for hvem samarbejde er essentielt for at sikre barnets tarv, skal til at konkurrere og måske modarbejde hinanden, for at få bedre resultater. Det der står tilbage, er at de nationale tests, som de er nu, kun kan bruges som en kontrolinstans, og da de kun bliver brugt i det fald der er udsving i forhold til normalen, kan man diskutere værdien i at bruge tid på dem. 23 Martin Bo Nielsen Bachelor A110407 Ikke desto mindre er de nationale tests med den nyeste folkeskolereform, igen centrum for opmærksomhed. For mens de praksisnære ikke bruger dem, og sjældent kan se meningen med dem, er politikerne glade for dem. I hvert tilfælde er det med de nationale tests, at folkeskolereformens succes, eller mangel på samme, skal måles. Og man ville måske tro, at et så upræcist værktøj ville lide glemslens stille død, men: ”I reformens aftaletekst står der, at »målene for elevernes faglige udvikling vil blive opgjort på baggrund af elevernes resultater i de nationale test«”31 Samme artikel nævner flere problemer med de nationale tests. Et eksempel med en matematiklærer, der lader sin klasse tage samme test to gange med tre dages mellemrum og får en resultatmæssig forskel på 20 %, at testen ikke kan måle de stærkeste og svageste elever (der er ikke trin nok, den adaptive algoritme kan vælge imellem), at lærere oplever stor forskel på deres egen opfattelse af eleven og de nationale tests oplevelse af samme. Og så at de nationale tests vil medføre at lærere begynder teaching-to-test. Ups Er man bekymret over det fokus politikerne har på de nationale tests, beroliger det nok ikke at høre, at man i Aalborg Kommune nu gør det obligatorisk at tage de frivillige nationale tests også. I en mail til alle skoleledere 14/11-2014 (Bilag 3), beder læringschef for Aalborg Kommune, Kristina Kristoffersen, skolerne implementere de frivillige tests. Tanken er at man i Aalborg vil gå forrest med at forbedre kontrollen med elevernes læringsprogression, og dermed overhale regeringen med 2 år, de samme tiltag forventes implementeret på landsplan i 2017. I én af de vedhæftede filer (Bilag 4) står der: ”Det er en kendt sag, at der er en betydelig statistisk usikkerhed, når man måler elevers dygtighed, uanset hvilket testsystem man anvender.”32 Det er altså ikke en ukendt problematik, at testning af elever medfører en ”betydelige statistisk usikkerhed”. Og selv om man adresserer usikkerhederne, benægter man ikke at de nationale tests lider under dem, og i denne mail bruger man ikke tid på at forsvare testens manglende evner for tilpasning i forhold til de stærkeste og svageste elever. Men læg mærke til, at de fagområder der er fokus på er dansk, læsning, matematik og engelsk. De resterende fags resultater er altså ligegyldige for målingerne, og folkeskolereformens evaluering. Dermed rammer man ned i det, efter min mening, største problem med evidensbaseret undervisning og testning. At man ved ensidig fokusering på disse måleredskaber, ensretter undervisningen mod de emner, som man fra ministeriet finder interessante lige nu. Vi ser det i de forenklede mål, og vi ser det i skiftende regeringers konstante fokus på kortsigtede rentable 31 32 Bennike, Christian, Nationale tests gavner hverken elever eller lærere, http://www.information.dk/516025 Bilag 4 24 Martin Bo Nielsen Bachelor A110407 uddannelser, på naturvidenskab og innovation. Man lukker uddannelser, fordi de uddanner til arbejdsløshed, man sænker adgangskrav til uddannelser, der lige nu er efterspurgt af erhvervslivet og skærper dem for andre, der ikke er. Man prøver at forberede sig til en fremtid, man ikke aner hvordan ser ud, man aner ikke hvad der kræves for at overleve der. Al den viden der ikke længere er værdsat, vil glide i baggrunden, og tilbage står vores samfund svækket, og ude af stand til tilpasning til nye situationer. Og her er det ikke samfundets velstand, jeg er interesseret i, det er dets overlevelse. Vi er nødt til at have så bred en viden som muligt, for at kunne imødegå hvad der end kommer af problemer i fremtiden, ikke en fra ministeriets side smal defineret viden. Kohærens Thomas Bech Lillelund Andersen (TBA) har i NTS Centrets webantologi beskrevet den konflikt, der er imellem hvad vi underviser, og hvad vi tester. Meget simpelt sat op handler konflikten om, at vi underviser i én læringsteoretisk tradition, for eksempel kontruktivismen, mens vi tester i den behavioristiske læringsteoretiske tradition. Udtrykket der bruges her er kohærens, og det betegner at der er en sammenhæng imellem hvad der undervises i, og det der testes i. Og er der ikke kohærens, er der ingen gyldighed. Med gyldighed menes her at resultatet af evalueringen er brugbar. Eksempler på tests med manglende kohærens, er for eksempel de nationale tests og afgangsprøven i folkeskolen. Om dem skriver TBA: ”Den viden, eleverne testes for, står oftest ikke i målsætningen for faget, Forenklede Fælles mål. Igen er problemet, at en del af de centrale evalueringsformer i naturfag ikke frembringer valide resultater, da der ikke er kohærens mellem krav til undervisning og de nationale evalueringer.”33 Og derfor er det også, at vi er nødt til at droppe de tests. Vi har påvist utallige usikkerheder ved dem, og ved den evidenspædagogiske forskning også, og værdien af dem kan ikke spores nogen steder. Kun som et kontrol- og styringsværktøj for politikere der, af årsager vi kun kan gisne om, har mistillid til at lærerne i folkeskolen kan løfte deres opgave. Betyder det så at vi ikke skal teste? Bestemt ikke, men det jeg har forsøgt at påvise er, at det ikke giver mening at teste eleverne fra centralt hold. Det er kun læreren i klassen der kan opnå et meningsfuldt resultat af evalueringen, det er kun læreren der kan overskue alle fejlkilderne, og de fleste af de kausale hændelser eleven kan være udsat for, før evalueringen. Jeg skriver de fleste, for jeg oplevede jo selv hvor svært det var at evaluere de unge, at give dem en retfærdig karakter. Jeg, som eleverne, virker jo ikke i et vakuum. Men det som læreren kan, som ministeriet og PISA ikke kan, det er at kende eleven. Og det er kriteriet for at du kan evaluere en elev meningsfuldt. Denne evaluering, lærerens evaluering, må ikke forsimples. I min egen empiri så vi forsøget på at sammenkoble arbejdsindsats, proces og produkt i et enkelt tal. Det var svært og i høj grad baseret på intuition. Og så er tallet, karakteren, intetsigende. Jeg ved, fra min praktik, at ungerne er helt 33 Andersen, Thomas Bech Lillelund, Evaluering for læring i naturfagene, http://ntsnet.dk/sites/default/files/Evaluering%20for%20l%C3%A6ring%20i%20naturfagene_TBA.pdf s. 6 25 Martin Bo Nielsen Bachelor A110407 vilde med dem (især de stærkeste), men jeg ved også, at de for hvem karakteren fungerer som en ydre motivation, er den en hård herre. Kampen for den gode karakter er lang og nådesløs, og fyldt med tvivl om det man ved nu også er nok. På et forældremøde, under praktikken, var to af de dygtige pigers forældre især aktive i deres opfordring til klasselæreren om at tage det roligt, og tæmme karakterræset. Den ene, JU, fortalte at ”…der har været tårer, derhjemme, og sene aftener”. Jeg fik bare 12 Et eksempel på det usunde fokus på karakterer, finder man i gymnasieeleven Anna TorpPedersens debatindlæg i Information 5/7-2014: Kun hvis jeg får 12, er jeg god nok.34 Debatindlægget fortæller om hendes, og andres, jagt på karakteren 12. Hun skriver: ”12-tallerne har ikke den samme glans over sig som i 9. klasse. For tiden er de faktisk bare blevet et middel til at blåstemple mig selv. Så længe jeg får 12, er jeg god nok, og så er det jo lige meget, hvad jeg har lært.” Vi ser samme tendens i min empiri, hvor jeg konkluderede at: ”Generelt bruger eleverne dem (karaktererne) til en slags formativ selvevaluering, men forventer egentlig bare at blive bekræftet af dem.” Når man nu ikke kan påvise, at disse tal siger noget brugbart om elevens kunnen, og i visse tilfælde er skadelige for børnene, i andre tilfælde ligegyldige, så er det fristende at foreslå et alternativ til disse tal. Vi er jo ikke kun interesseret i hvad eleven præsterer, i et givent emne, på en given dag, vi er interesseret i hele pakken, så at sige. Eksamen kan sammenlignes med en biopsi, taget i blinde, mens det vi har brug for er en scanning af hele elevens organisme. Der er jo også årskarakterer, men også de er for smalle, deres output er jo også bare et tal, om end et bedre funderet tal. Derfor foreslår jeg en anden vej, nemlig at elevens lærere går i samråd, og vurderer elevens styrker og svagheder. En udtalelse er målet, et ikke-bindende råd om hvad eleven kan være bedst tjent med at forfølge. Eller rettere et forslag for videre uddannelse (eller ikke). Elev X synes at være disponeret for naturfagene, men lærerne synes at han bør modnes før han søger ind på en videregående uddannelse. Han har intelligensen, men motivationen er i bund. Elev X er også god til at finde ud af det tekniske, måske han burde tage et års praktik hos et eller andet sted. Jeg skriver tidligere, at politikere synes at have mistillid til lærernes evner, af årsager vi kun kan gisne om. Én årsag vi kan gisne om, er PISA. PISA - ødelæggeren Når man nu taler om manglende kohærens, så er PISA nok den største synder. Baseret på en meget bred definition af hvad man skal kunne i 9. klasse, har OECD indført en test, hvis formål er 34 Torp-Pedersen, Anna, Kun hvis jeg får 12, er jeg god nok, http://www.information.dk/502854 26 Martin Bo Nielsen Bachelor A110407 at sammenligne elever med andre landes ditto. Testen tager ikke hensyn til hvilke læseplaner de enkelte lande har, hvilken skolekultur de har, hvilke naturfaglige styrker den region eleverne er situeret i giver dem (og svagheder). Der er slet ikke nogen sammenhæng mellem undervisning og tests. Ser man på debatten omkring PISA, skulle man næsten tro at PISA testen er blevet et politisk redskab, snarere end et forskningsmæssigt. I hvert tilfælde er kritikken af testen massiv fra forskere og statistikere, men den bruges stadig af politikere som måleværktøj for, om vores unger nu kan konkurrere med andre landes i forskellige discipliner. For hver offentliggørelse af PISA resultaterne, lyder der et ramaskrig og der skændes hjerteligt om testens brugbarhed, og alt for store indflydelse. Statistiske og logiske uforståeligheder Statistiker Svend Kreiner fra Københavns Universitet, har påvist at data fra testen kan placere Danmark på enten en 3. plads eller 42. plads alt efter hvordan man bruger dem. Svein Sjöberg revser også testen i sin bog ”Naturfag som almendannelse”. Sammenligninger mellem lande og kulturer er mildt sagt besværlige, testen strider mod den dansk/norske opfattelse af naturfag – den er skriftlig (ikke eksperimentel), tilgangen til testning er forskellig fra land til land, OECDs anbefalinger er direkte modsat hvad nr. 1 på listen, finnerne, gør. Danske og norske børn elsker skolen, finnerne hader den osv. Han slutter af med et retorisk spørgsmål jeg fuldt ud kan tilslutte mig: ”Er dette noget vi ønsker at kopiere? Tror vi, at mere disciplin, hårdere fremdrift, mere katederundervisning, flere tests, mindre tid til laboratoriearbejde og udforskning vil stimulere interessen for og rekrutteringen til naturfag eller andre studier?”.35 Underforstået at det er de tiltag der skal til for at forbedre vores PISA ranking (baseret på en analyse af landene der ligger i top på ranglisten). Disse to kritikere er få blandt mange. Kreiner kritiserer selve datagrundlaget og den statistiske model, Sjöberg kritiserer testens udformning og rationale. Men der er andre angrebsvinkler: Lars Brian Krogh og Jens Dolin har forfattet en rapport ved navn Validering af PISA. Navnet afslører rapportens hensigt, det handler om, at undersøge om PISA lever op til egne målsætninger og om testen er relevant i et dansk perspektiv? Og så nok det vigtigste: Giver PISA testen et retvisende billede af de danske elevers kunnen i naturfag? Validering af PISA Til formålet har forskerne udtrukket 120 elever der allerede har gennemgået PISA testen, og sat dem i en ny testsammenhæng, VAP-testen. Omdrejningspunktet for VAP-testen er at forøge testens validitet. Vi har tidligere beskæftiget os med den diskrepans der er imellem at teste i ét læringsteoretisk regime, mens undervisningen har foregået i et andet. Det er vigtigt at der er kohærens mellem disse regimer, og det er det VAP-testen forsøger. Krogh og Dolin betegner PISA som et værktøj formet i det post-positivistiske evalueringsparadigme, der kendetegnes ved at 35 Sjöberg (2012): Naturfag som almendannelse – en kritisk fagdidaktik, Klim, s. 167ff 27 Martin Bo Nielsen Bachelor A110407 være non-interaktiv, non-kollaborativ, statisk, produkt-orienteret, med begrænset brug af værktøjer, ligesom at det er løsrevet fra praksis. Et samlebegreb man ofte støder på er papir-ogblyant test. Modsætningen, det sociokulturelle evalueringsparadigme der kendetegnes ved at være det modsatte, altså interaktiv, kollaborativ, dynamisk, proces-orienteret, med udstrakt brug af værktøjer, situeret. Det er i det sociokulturelle evalueringsparadigme VAP-testen foregår, og derfor er setuppet ganske anderledes end PISAs. De udvalgte elever indgår nu i et dialogisk samarbejde med en interviewer om at løse PISA testens spørgsmål. Herudover får VAP-testen en praktisk dimension, hvor eleven, i samarbejde med en anden elev, skal arbejde eksperimentelt. Herudover blev alt videofilmet, for at sikre at den hermeneutiske behandling af data ligger så tæt på virkeligheden som muligt. Konklusionen blev meget mærkelig. Det viser sig nemlig at PISA testen både er for nem, og for svær. Et eksempel er de multiple choice områder af PISA-testen, der har meget forkerte svarmuligheder, sammen med det rigtige svar. Mens man i det post-positivistiske testformat honorerer et rigtigt svar fuldt ud, vil man i det sociokulturelle fange de elever, der med logisk deduktion, har svaret rigtigt men reelt intet ved om emnet. Her er PISA testen, sammenlignet med fælles mål, for nem. Mens den er for svær for danske elever alene i kraft af testformatet. 36 Krogh og Dolin fandt, at ændrer man bare en smule på testens ordlyd og udformning så: ”Ændringer i opgavernes overfladetræk og sproglige formuleringer giver signifikante ændringer i testresultatet.”37 Der er mange delkonklusioner på PISA testens manglende evne til at indfange elevernes reelle kunnen, og vi skal ikke behandle dem her. Blot skal vi have det samlede resultat af undersøgelsen, baseret på PISA testens svar og pointsystem: ”I en direkte sammenligning efter PISAs scoringskriterier klarer eleverne sig ca. 25 % bedre, når de får lov til at udfolde sig i et sociokulturelt orienteret testformat.”38 Bemærkelsesværdigt, men ikke overraskende, når vi tager testens mangel på kohærens i betragtning. Forfatterne leger med tanken om Danmarks rangliste placering, hvis kun vi blev testet i det sociokulturelle regime, og resten af landene måtte døje med PISAs nuværende format. Her ville Danmark ligge på den absolutte førsteplads, med langt ned til nummer 2, de stakkels finner. Hvor er forsvaret? Som du, kære læser, måske lægger mærke til, så har det været småt med tilhængere af PISA testens validitet her i opgaven. Det har heller ikke været nemt at finde nogen, der har kunnet svare på den kritik, testen rammes af fra alle sider. Vi har set på statistikere, didaktikere og 36 Krogh, Lars Brian, Dolin, Jens, PISA 2006 Science testen og danske elevers naturfaglige formåen, http://www.ind.ku.dk/forskning/projekter/vap-projektet/VAPrapport3_FINAL_19_maj_2011.pdf s. 90 37 Krogh, Lars Brian, Dolin, Jens, PISA 2006 Science testen og danske elevers naturfaglige formåen, s. 88 38 Krogh, Lars Brian, Dolin, Jens, PISA 2006 Science testen og danske elevers naturfaglige formåen, s. 84 28 Martin Bo Nielsen Bachelor A110407 uddannelsesforskere, og alle har sagt det samme: Testen virker ikke, den viser ikke hvad den hævder at gøre, dens rationale er forkert. Årsagen til den kritiske opmærksomhed skal findes i den magt testen har. Medier og politikere, videregiver ukritisk resultaterne fra PISA som fakta, der skal bruges til at reformere, eller bruges som instrument i den evige politiske kamp om folkeskolen. Det er jo kutyme at finde en eller flere repræsentanter for begge sider i en diskussion, men jeg har, efter lang søgen, ikke kunne finde nogen der har tilbagevist Kreiners kritik. Og jeg har heller ikke kunne finde nogen, der kan tilbagevise Krogh og Dolins rapport. Det skorter ellers ikke på støtte til den, ved en hurtig søgning finder man tonsvis af referencer til PISA. De danske skolebørn er for dårlige, siger PISA, den danske folkeskole skal niveaudeles, siger Venstre, nej siger PISA resultaterne. Kun Dansk Arbejdsgiverforenings nyhedsbrev ”Agenda”, påstår direkte at PISA virker, men ikke hvorfor og hvordan. Her forsvares PISA noget vagt; at der synes at være en sammenhæng mellem læsescore i PISA og længden af uddannelse.39 Udtalelsen kommer fra det danske PISA konsortiums formand, Niels Egelund. Selvom forskning har efterladt PISA undersøgelsen som et blødende, groggy ringvrag, så virker undersøgelsens magt usvækket. Den fortsætter med at have den indflydelse, den indtil nu har haft, på trods af den ret bastante kritik. Fra uventet hold, er der dog forskningsmæssigt funderet støtte til PISA. Svein Sjöberg udgav i 2015 en artikel i ”Eurasia Journal of Mathematics, Science & Technology Education”, med samme budskaber som hans PISA afsnit i ”Naturfag som Almendannelse – en kritisk fagdidaktik”. Her kritiseres PISA testens følger, og misbrug af den. Men Sjöberg kommer også tanken bag PISA testen til undsætning: “The positive virtues of PISA should not be ignored. The PISA project has led to an increased interest in, and concern for, education and the competencies that young people need to develop to achieve the different “literacies”‖ that are needed for their future life as well as for the 40 wellbeing of their societies.” Herudover roser Sjöberg de mængder af data der er indsamlet, de kan bruges til interessante studier senere, ligesom at internationale sammenligninger kan åbne for nye tanker og politikker. Jeg slutter behandlingen af PISA af med to citater, der omhandler PISAs skadelige indvirkning på folkeskolen. Dem burde vi have læst nok af indtil nu, skulle man mene, men det interessante ved netop disse citater er ophavsmændene: ”Der sker nærmest en tabloidisering af PISA-resultaterne i den offentlige debat. Når man i lande som Sverige og Danmark tolker sine placeringer som dårlige eller katastrofale, behøver de ikke nødvendigvis at være en katastrofe. Men der er sket det med PISA, at alle lande forsøger at styre deres uddannelses mod et godt PISA-resultat” Citat: Ulf Lundgren, medgrundlægger af PISAtesten. 39 Skov, Christian, PISA virker I virkeligheden, http://www.agenda.dk/2011/09/laesning/ Sjöberg, Svein, PISA and Global Educational Governance – A Critique of the Project, its Uses and Implications https://www.academia.edu/10486753/PISA_and_Global_Educational_Governance_A_Critique_of_the_Project_its_Us es_and_Implications s. 124 40 29 Martin Bo Nielsen Bachelor A110407 ”Politikernes fokus er på PISA-resultaterne og kun dem. Men PISA er et primitivt redskab til at måle elevers samlede, generelle kompetencer.” Citat: Niels Egelund, formand for det danske PISA konsortium. Geografis prøveform Geografi er i særlig grad et fag der baseres på forståelse af sammenhænge. Geografi er et syntesefag, der indeholder elementer af både naturvidenskaberne og samfundsvidenskaberne, i ét fag samles kultur og natur, mennesket og miljøet. Fra ikke at have været et prøvefag længe, blev faget i 2007 indført som et eksamensfag med lodtrækning. Forud var gået en lang diskussion om hvordan prøven skulle se ud, der var generelt stemning for en tværfaglig prøve med fysik/kemi og biologi. Men trods dette, valgte Undervisningsministeriet i stedet en noget billigere løsning: En multiple choice-test. I bogen ”Eksamen og Eksamensformer”, af Hanne Leth Andersen og Jens Tofteskov, analyseres forskellige prøveformer, baseret på tre kriterier: Reliabilitet, gyldighed og økonomi41. Reliabilitet dækker over om eleverne testes på samme måde og retfærdigt, gyldighed dækker over hvor tæt resultatet kan siges at ligge på elevens reelle kunnen, og økonomi er en målestok for hvor dyr en testform er at udføre. Om multiple choice tests skriver de: ”Den altafgørende styrke ved multiple choice tests er at de med anvendelse af den fornødne teknologi er billige.”42 Og ”En anden styrke er at reliabiliteten er høj. Bedømmelsen af besvarelsen kan foregå maskinelt uden bedømmeres fortolkninger.”43 Fordelene er til at tage og føle på. Desværre er det så som så med gyldigheden. Oftest er det der testes paratviden, ikke sammenhænge. Og gyldigheden er, i test med højt kognitivt niveau, meget lav. Har testen derimod at lavt kognitivt niveau, vurderer forfatterne at MC har en høj gyldighed. ”Geografi”-eksamen Sådan gælder det for multiple choice generelt, men hvad med geografifagets? I folkeskolens afgangsprøve fra 2012, finder vi et eksempel på en multiple choice test, der forsøger at fange fagets kompleksitet. Men testen viser nogle skævheder. Ud af 20 spørgsmål, finder man kun 5 udprægede kulturgeografiske spørgsmål, herefter er der en del i gråzonen, hvor man skal placere byer på kort, eller udregne og sammenligne afstande. Retfærdigvis skal det siges at prøverne for 2013 og 2014 har forsøgt at rette op på dette. I prøven fra 2013 er det næsten kun kulturgeografi, 41 Andersen, Hanne Leth & Tofteskov, Jens (2008), Eksamen og eksamensformer, Samfundslitteratur s. 47 Eksamen og Eksamensformer s. 75 43 Eksamen og Eksamensformer s. 74 42 30 Martin Bo Nielsen Bachelor A110407 med få forsøg på at gøre spørgsmålene interdisciplinære, det samme gælder den fra 2014. Lad os se på et eksempel (fra 2012): Hvad skal eleven vide for at løse denne opgave? Det eneste krav til elevens kunnen er: a. Hvordan man læser, b. at bruge sine øjne. Og hermed har eleven scoret 100 % rigtige på dette spørgsmål. Der er flere lignende eksempler, men også nogle bedre forsøg på at gøre prøven relevant, som dette: Men det kræver ikke stor geografifaglig viden at løse dette heller. Jeg ville være mere interesseret i at diskutere hvad eleven mener om følgerne af albedoens ændringer i udstrækning. Og jeg ville også gerne have eleven til at fortælle mig om de kulturgeografiske konsekvenser af dette, altså tænke i sammenhænge. Til sidst vil jeg fremhæve et nærmest kriminelt eksempel på ligegyldighed overfor fagets kompleksitet: 31 Martin Bo Nielsen Bachelor A110407 Der er hele to rigtige svar, og selvom dette er et af de mere komplicerede emner indenfor geografifaget, er de til at regne ud med en smule sund fornuft. Ingen steder fremgår frizoner, arbejdsmiljøkrav, miljøkrav, ressourcer, subsidiering, som også er en del af overvejelserne når man outsourcer. Og ingen steder kan man diskutere de etiske aspekter ved outsourcing, eller inddrage viden fra andre fag. Her, i dette spørgsmål, ses selve problemet med MC tests i sin fulde udfoldelse. Der er reelt ingen måling af viden. Elevens refleksioner over svaret, kender vi ikke. Elevens reelle viden, kender vi ikke. Elevens evne til at sætte emnet ind i en større sammenhæng, kender vi heller ikke. Outputtet af denne test er altså fattigt, og reelt også ligegyldigt. Men alligevel tillægger vi det værdi, da eleven får en karakter tilbage, baseret på en ringe test. I ”Geografiundervisning – en fagdidaktisk grundbog”, beskrives en række emner og centralt stillede mål, MC tests ikke kan måle på. Discipliner indenfor faget, der har med praktisk arbejde at gøre, kan for eksempel ikke testes. Feltarbejde, evner for hypotesedannelse, problemformuleringskompetence og sidst, men ikke mindst, evnen til at bruge geografiske begreber i sammenhæng, kan ikke ses af disse tests.44 Derfor er det svært at forstå rationalet bag brugen af MC som prøveform. Tidligere så vi, at de gode argumenter gik på økonomi og reliabilitet, ikke på gyldighed (Andersen & Tofteskov). Så det vi tester til geografieksamen er egentlig elevernes evne til at gætte og deducere. Det er ikke godt nok. Sammenfatning Denne opgave har centreret sig omkring to overordnede tanker. Den ene handler om evidensforskningens baseren sig på testresultater. Den anden tese omhandler grundlaget for at tillægge disse tests værdi. I første omgang så vi på de tankegange, der ligger bag testningen af 44 Kristensen, Poul m.fl.(2011): Geografi undervisning - Fagdidaktisk grundbog, Geografforlaget s. 82 32 Martin Bo Nielsen Bachelor A110407 vores elever. Her beskæftigede vi os med den rene pædagogik, den tanke at tiltag og metoder kan måles, værdisættes og derefter anvendes i alle tænkelige situationer. Det handlede om at finde tilhængerne af den idé, og dermed påvise at dette syn bruges i praksis, men det mislykkedes. Og dog så vi spor af den ”rene pædagogik”, der hvor grænsen mellem praksis og ministeriet ligger. Med Dohn som hjælper kan man se tankegangen afspejlet i best practice-begrebet. Men hos de praksisnære, er tilslutningen til tankegangen begrænset. John Hattie ligner også en ren pædagog, men er meget forsigtig med at tilslutte sig dette fuldstændigt. Ikke desto mindre opfordrede han de praksisnære til at gå efter en effekt på d=40, og satte sig dermed til doms overfor hvilke metoder og tiltag man bør bruge. Og de ”godkendte” metoder og tiltag, kunne vi finde på en rangliste, han selv har forfattet. Samme rangliste fandt jeg ret intetsigende, og borer man i de emner man umiddelbart kan forstå, falder den fra hinanden, jævnfør eksemplet med kooperativ vs individualistisk læring. Analysen af den ”rene” pædagogiks modsætning, den ”urene” pædagogik, viste flere problemer i forhold til den evidensbaserede undervisning. Her undersøgte jeg Gert Biestas kritik af selve de data den evidensbaserede forskning baserer sig på. Biesta fremhævede særligt de lukkede systemer, der må være en forudsætning for at kunne reproducere resultater, som værende ikkeeksisterende i skolesammenhæng. Sandsynligheder er det tætteste vi kommer på at kunne bruge data til, og disse sandsynligheder vil være baseret på erfaring, ikke evidens. Biesta argumenterede for at vi, i skolesammenhæng, altid befinder os i åbne systemer. Og bruger man hans egen logik, vil man derfor ikke kunne opnå og måle fremskridt og analysere hændelser i egen praksis. Som modsvar til denne problematik, introducerer Biesta begrebet kompleksitetsreducering. Dette begreb dækker over de regler og ritualer, ændring af setting osv, der alle har at gøre med forenkle hverdagen, således at vi kan måle på eleven. Denne kompleksitetsreducering kritiserer jeg selv. Med opstilling af centrale målparametre går en masse tabt, og en masse uformel læring mister værdi. Når man fra centralt hold opstiller mål for elevens kunnen, indsnævrer det fokus på den viden der for Undervisningsministeriet er vigtigt, men ikke nødvendigvis for eleven fremadrettet. Vi kan ikke spå om fremtiden, og vil gøre os selv en tjeneste, såfremt at vi afstår fra centralt stillede mål, og lader den del af skolegangen være op til fagpersonerne i elevernes nærhed. Jo større bredde der er på vores samlede viden, jo større muligheder er der også for at tilpasse os de krav, fremtidens samfund vil stille os. Min egen empiri blev brugt til at belyse problemerne ved at vurdere eleven. Det viste sig at være svært at sikre en fair vurdering. Spørgeskemaet var én ting, den afsluttende evaluering en anden. Det viste sig at være svært at give karakterer, det viste sig at være svært at vurdere neutralt, uafhængigt af min forforståelse af eleverne. Men der var i empirien også et smukt eksempel på karaktersystemets utilstrækkelighed. Eksemplet Me og J, hvor J præsterede hvis hun gad, mens Me præsterede godt i samarbejde med netop J (men ikke alene). Som en bonus behandlede jeg også mit undervisningsforløb i forhold til de mål jeg stillede, men her kunne jeg ikke konkludere 33 Martin Bo Nielsen Bachelor A110407 endeligt. Tanken var, at undervisningsforløbet skulle vise større læring, jo mindre jeg blandede mig i deres metoder, men desværre viste fejlkilderne sig at være for store. Den del af min praktik var ikke gennemtænkt nok. Til sidst analyserede og diskuterede jeg de nationale tests, eksaminerne, PISA-testen og afgangsprøven i geografi. Der kan rettes en række væsentlige kritikpunkter imod alle disse testformer. De data man får ud af dem er ubrugelige, og i mange af tilfældene kan selve prøveformen let pilles fra hinanden, ligesom at grundlaget for at kalde disse testresultater gyldige, er ikkeeksisterende. Jeg indførte kendskab til eleven som værende det mest gyldige parameter for vurdering. Derfor kan man konkludere, at den udbredte testning i folkeskolen simpelthen savner begrundelse. PISA, de nationale tests og vores nationale eksamensresultater, tillægges alle værdi, som er det virkeligheden de beskriver. Det samme gælder for forskningen. Hatties skjulen sig bag enorme mængder af data, tilslører ikke det faktum at hans analyser er utilstrækkelige, hans kontrol med variable findes ikke, og hans kendskab til den enkelte elev er ikke-eksisterende. Mine analyser viser, at disse resultater allerhøjest kan give os et forvansket billede af virkeligheden, et billede der ikke er i nærheden af at være godt nok. Og samme kritik gælder for PISA-testen, de nationale tests og eksamensresultaterne. Perspektivering Hvad kan man så bruge denne opgave til? Jeg foreslog det selv tidligere, i indledningen, og som delkonklusion. Det handler jo egentlig om at vi er alt for uambitiøse når vi vil vurdere eleven. En karakter er et rigidt tal, der reelt ikke fortæller noget om eleven. Det er en biopsi, hvor vi har brug for en fuld skanning af eleven. Vi har set at, de data vi kan hente ud af de nationale tests og eksaminerne, ikke giver et retvisende billede af elevens virkelige evner, mens PISA er helt ude i periferien og grundigt forslået. Vi har også set, hvor svært det er for evidensforskningen at hente valide data, og ikke mindst brugbare data. Derfor foreslår jeg en anden vej. I stedet for at vurdere eleverne fra centralt hold, bør vi lade vurderingen foretages af de fagpersoner, der kender eleven. Dette kendskab er det vigtigste kriterium for vurdering, og derfor bør vi afvikle vores deltagelse i de nationale test, PISA-testen og eksaminerne, som de ser ud i dag. I stedet bør elevens lærere i samråd vurdere elevens styrker og svagheder (hvis relevante). En udtalelse er målet, et ikke-bindende råd om hvad eleven kan være bedst tjent med at forfølge. Eller rettere et forslag for videre uddannelse (eller ikke). I eksemplet med Me og J, kunne udtalelsen have lydt således: Me er dygtig i samarbejder, hun bidrager til fællesskabet ved gruppeopgaver. Står hun alene har Me en tendens til at tvivle på sin egen kunnen, og er derfor mindre produktiv. Me har gode evner for at begå sig i sociale sammenhænge, hun er især dygtig til 34 Martin Bo Nielsen Bachelor A110407 sprog, men kan begå sig i alle fag med den rigtige samarbejdspartner. Et gymnasium med fokus på samarbejde, men med begrænset lektiebyrde, vil ifølge vores vurdering være et godt sted for Me. På den måde kan elevens fulde styrke opdages og aktiveres, til gavn for eleven, samfundet og dettes fremtid. Og dermed kan store summer spares, både ved afskaffelse af eksaminerne, men vigtigere: Ved at eleven tidligere opdager og realiserer sit potentiale, og måske endda bliver et lykkeligere menneske derved. Hermed forbedret trivsel, kortere vej gennem uddannelsessystemet, større produktivitet, mindre belastning på sundhedssystemet og meget mere. 35 Martin Bo Nielsen Bachelor A110407 Litteraturliste Bøger Andersen, Hanne Leth & Tofteskov, Jens (2008), Eksamen og eksamensformer, Samfundslitteratur, 1. udgave Hattie, John, (2013), Synlig læring – for lærere, Dafolo, 1. udgave, 4. oplag Kristensen, Poul m.fl.(2011): Geografi undervisning - Fagdidaktisk grundbog, Geografforlaget, 1. udgave, 1. oplag Rømer, Thomas Aastrup m. fl. (2011), Uren Pædagogik, Klim, 1. udgave Rømer, Thomas Aastrup m. fl. (2014), Uren Pædagogik 2, Klim, 1. udgave, 1. oplag Slemmen, Trude (2012), Vurdering for læring i klasserummet, Dafolo, 1. udgave, 1. oplag Sjöberg, Svein (2012), Naturfag som almendannelse – en kritisk fagdidaktik, Klim, 2. udgave, 1. oplag Links Andersen, Frans Ørsted, Kooperativ læring i skolernes hverdag, http://www.katafonden.dk/lib/file.aspx?fileID=243&target=blank Andersen, Thomas Bech Lillelund, Evaluering for læring i naturfagene, http://ntsnet.dk/sites/default/files/Evaluering%20for%20l%C3%A6ring%20i%20naturfagene_TBA. pdf Bennike, Christian, Nationale tests gavner hverken elever eller lærere, http://www.information.dk/516025 Christensen, Jonas Straarup, Nyt naturfag i folkeskolen – hvad så med læreruddannelsen? http://www.folkeskolen.dk/540453/nyt-naturfag-i-folkeskolen---hvad-saa-med-laereruddannelsen Evans, David, He’s not the messiah…, https://www.tes.co.uk/article.aspx?storycode=6290240 Hermann, Stefan, Et grumset angreb på den rene pædagogik, http://www.information.dk/283449 36 Martin Bo Nielsen Bachelor A110407 Krogh, Lars Brian, Dolin, Jens, PISA 2006 Science testen og danske elevers naturfaglige formåen http://www.ind.ku.dk/forskning/projekter/vap-projektet/VAPrapport3_FINAL_19_maj_2011.pdf Pedersen, Kirsten Hyldahl, Formativ feedback, http://projekter.aau.dk/projekter/files/63452603/Formativ_Feedback.pdf Rasmussen, Jens, Kompetencer og præstationer, http://www.folkeskolen.dk/529678/kompetencer-og-praestationer Sjöberg, Svein, PISA and Global Educational Governance – A Critique of the Project, its Uses and Implications https://www.academia.edu/10486753/PISA_and_Global_Educational_Governance_A_Critique_of _the_Project_its_Uses_and_Implications Skov, Christian, PISA virker I virkeligheden http://www.agenda.dk/2011/09/laesning/ Torp-Pedersen, Anna, Kun hvis jeg får 12, er jeg god nok http://www.information.dk/502854 Wahlgren, Bjarne, Effekterne af Cooperative Learning – Set i et voksenundervisningsperspektiv http://nck.au.dk/fileadmin/nck/CL/Forskningsoversigt__effekterne_af_CL_set_i_et_voksenundervisningsperspektiv.pdf www.en.wikipedia.org http://uvm.dk/Uddannelser/Folkeskolen/De-nationale-test-og-evaluering/De-nationale-test 37