Månadsarkiv: oktober 2012

Skrämseltaktik om evidensbaserade studier i skolan?

För någon tid sedan skrev Lars Pålsson Syll en artikel på debattsidan Skola och samhälle som handlade om den nutida fascinationen för evidensbaserade studier inom svensk skoldebatt och skolforskning. I artikeln redogör han för vissa centrala problem för evidensbaserade studier och konkluderar att det vore bättre om lärarna fick ägna sig åt det de gör bäst, nämligen att försöka undervisa eleverna på bästa tänkbara sätt efter deras behov. Förhoppningsvis, menar Syll, får inriktningen på evidensbaserade studier i skolforskningen inga effekter alls, i värsta fall kan det leda in på villospår.

Jag tänkte med det här inlägget låta mig själv breda ut texten lite och i några centrala punkter peka på sådant som jag själv uppfattar som brister i Sylls artikel samt försöka visa på, dels vad Syll (förmodligen medvetet) utelämnar i sin metodologiska diskussion, dels hur resonemanget gällande den evidensbaserade forskningen nästan i större grad är giltig för den pedagogiska forskningen i stort och inte specifikt för evidensbaserad forskning.

Låt oss börja med att reda ut vad som menas med ”evidensbaserad forskning”. Den grundläggande idén kommer från medicinsk forskning där evidensbaserade studier är ett viktigt redskap för att testa ut nya mediciner och behandlingsmetoder. Det centrala inslaget i evidensbaserade studiers metod är att de använder sig av randomiserade försök, det vill säga att man har ett slumpmässigt urval av personer som har en viss åkomma gemensamt och som behandlingsmetoden (intervention) sedan testas på. Parallellt har man sedan också en kontrollgrupp av personer som inte mottar interventionen. Härigenom framkommer möjligheten att jämföra eventuella effekter grupperna emellan och de effektskillnader man som forskare uppmäter är (förhoppningsvis) ett resultat av interventionen. Om de uppmätta effekterna är stora på de områden man önskar kan det vara värt att fortsätta använda metoden. Att man kallar forskningen för ”evidensbaserad” är alltså för att markera att det ”finns evidens” för att den undersökta metoden (interventionen) har haft effekt.

Redan i denna beskrivning av evidensbaserade studier kan vi identifiera några av de delar som Syll kritiserar. Syll påpekar att det kan finnas en svårighet i att veta att det just är interventionen som har haft effekt, tänk om det var något annat? Om exemplet ovan handlar om utprövning av nya blodförtunnande mediciner är det rimligt att tänka sig att samtliga deltagares ålder, kondition, tidigare leverne, tidigare sjukdomar och så vidare påverkar effekterna av interventionen. Det vi tror är stora effekter av interventionen skulle egentligen, menar Syll, kunna vara en effekt av att ett gäng gubbar och gummor i studien helt plötsligt fått för sig att börja jogga igen, och därigenom uppvisar förbättrat hälsotillstånd.

Detta skulle kunna föranleda oss att göra politiska felsteg. Om vi, i villfarelsen att det var interventionen som hade stora effekter, börjar skriva ut den nya medicinen i stor skala så har vi missat vad vi verkligen borde ordinera – mer motion (paradoxalt nog är detta precis sådan kritik som också riktas mot icke-evidensbaserad forskning, se exempel på forskning.se).

Syll är dock finurlig när han lägger fram denna kritik. Detta är nämligen problem som länge har gäckat alla de som sysslar med kvantitativa metoder och han, i sin roll som nationalekonom, är väl medveten om hur man gör för att kontrollera för olika variabler i analysen (den som är intresserad av hur detta går till rekommenderas varmt att läsa denna exemplariska beskrivning i SPSS-akuten. Bilden intill är hämtad därifrån.).

Det finns dock ett djupare problem kopplat till detta, som faktiskt många kvantitativa studier inom flertalet discipliner – inte endast pedagogik och ämnesdidaktik – lider av. Det är att utforma studierna till att vara hypotesprövande. Att rigga studier till att vara just hypotesprövande slarvas det något alldeles otroligt med, trots att många av grundskolans lärare i naturvetenskapliga ämnen idogt tjatat på elevgeneration efter elevgeneration att de måste ställa upp en hypotes innan de kör igång med laborationerna (det gjorde i alla fall min NO-lärare, om du läser det här Anna – tack!).

Som det framgår av ordet i sig självt så handlar hypotesprövning om att först ställa upp en hypotes (givet att premiss A och B gäller så förväntar jag mig att X kommer att ske, eller översatt: Givet rätt atmosfäriskt tryck (A) och tillräckligt tillförd värme (B) så förväntar jag mig att vattnet kommer att koka (X)) och sedan via ett försök, en observation, en statistiskt undersökning eller annat undersöka om hypotesen stämmer eller ej.

Det som gör hypotesprövningen centralt för den här diskussionen, kopplat till Sylls artikel, är att om vi inte först ställer upp en hypotes, utan bara planlöst börjar söka efter samband mellan olika företeelser så är risken stor att vi råkar trilla över ett såkallat spuriöst samband, eller på ren svenska – ett nonsenssamband. Låt mig ge ett exempel: Anta att jag har ramlat över en spännande datauppsättning som innehåller drunkningsolyckor i Sverige för åren 1998-2008. Jag studerar variationen i statistiken och upptäcker att det finns ett visst mönster i variationen, i synnerhet mellan sommar och vinter. Detta måste bero på något! Glad i hågen söker jag planlöst runt på internet tills jag ramlar över statistik över GB:s glassförsäljning för tidsperiod. Spännande tänker jag och gör korrelations- och regressionsanalyser mellan drunkningsolyckor och glassförsäljning och döm av min förvåning när analysen svart på vitt visar att glassförsäljningen har ett mycket gott förklaringsvärde på antalet drunkningsolyckor; ökad glassförsäljning orsakar fler drunkningsolyckor! (den som vill fördjupa sig i detta rekommenderas att läsa den formidabla skriften ”Konsten att vara vetenskaplig” av filosofen och vetenskapsteoretikern Sven Ove Hansson. Gällande hypotesprövning mm, se i synnerhet s.75-80).

Det hypotesprövningen bidrar med är därför i stort att forskaren binder sin kommande studie till en viss teoribildning eller tidigare empiriska fynd som avser kunna förklara ett visst fenomen och resultaten i studien bedöms just efter om de belägger eller vederlägger hypotesen.

För att sammanfatta det jag har skrivit hittills: Ja, Syll för fram rättmätig kritik mot många evidensbaserade studiers metodik, men det är i stor grad möjligt att undvika dessa problem genom att alltid utgå från en noggrant formulerad hypotes som också försöker förutsäga vilka kontrollvariabler som kommer att vara betydelsefulla för analysen.

Jag ska avslutningsvis adressera en annan del av Sylls kritik som handlar om den ”externa validiteten” i evidensbaserade studier. Extern validitet kan i princip översättas till huruvida resultaten från en studie på en viss population är överförbar till en annan, eller på ytterligare annat sätt: Om resultaten är generaliserbara. På denna punkt har Syll helt rätt i strikt vetenskaplig mening – resultaten från en studie på ett slumpmässigt urval personer kan med ytterligt stor sannolikhet inte helt överensstämma på en annan population. Men samtidigt missar Syll själva grunden till varför det finns ett så stort intresse för evidensbaserade studier i svensk skola: Svensk pedagogisk forskning har, med några få undantag, inte varit intresserad av kvantitativa metoder utan har sysslat med kvalitativa metoder, och generaliserbarheten har varit därefter (jag har skrivit om detta tidigare här och här).

För den läsare som vill skapa sig en egen uppfattning av skillnaderna mellan en nyare evidensbaserad studie och ett typexempel på svensk kvalitativ forskning kan jämföra dessa två finländska delstudier av Heikki Lyytinen m.fl samt denna svenska doktorsavhandling.

Min personliga slutsats av den evidensbaserade forskningens inträde i svensk utbildningsvetenskaplig forskning är att den har mycket att bidra med, både resultatmässigt men även som en metodologisk vitamininjektion. Jag tror personligen också att många av de farhågor som målas upp av Syll m.fl är överdrivna.

Men det kan jag förstås inte i strikt vetenskaplig mening vara helt säker på.

Taggad , , , , , , , , , , , , , ,

”Friskolorna höjer betygen i de kommunala skolorna!” (?)

I förra veckans nummer av Dagens Samhälle* (nr 35 2012) var huvudnyheten att ”Friskolor lyfter kommunala”. Genom en ”unik undersökning” som Dagens Samhälle låtit göra kunde tidningen visa att ”elevernas betyg höjs mest på kommunala skolor när det finns friskolor i kommunen”. Det diagram som beskriver skillnaden återfanns också på tidningens framsida och syns i bilden här intill (Dagens Samhälle finns tyvärr inte i sin helhet tillgänglig gratis på internet, varför jag inte kan länka den).

Några torra utredariakttagelser med anledning av artikeln:

För det första: De konkurrensutsatta kommunala skolorna sätter visserligen högre betyg än icke-konkurrensutsatta, men hur kan Dagens Samhälle vara så säkra på att detta är en följd av att skolornas undervisning håller en högre kvalitet och att eleverna därigenom faktiskt presterar bättre? Om tidningen hade grävt lite djupare inför sin unika undersökning hade de funnit att många forskningsresultat tydligt visar att graden av konkurrens på en lokal skolmarknad bär ett viktigt förklaringsvärde på höga betyg (se återigen Jonas Vlachos studie ”Betygets värde” s.41 och framåt samt tidigare inlägg här) samt att forskningen rent generellt inte har kunnat belägga några större effektivitetsvinster med införandet av friskolor (se ett tidigare inlägg här med referens till SNS kunskapsöversikt ”Konkurrensens konsekvenser”).

För det andra: Artikeln slår verkligen på stora trumman och menar att det är en betydelsefull skillnad mellan konkurrensutsatta och icke-konkurrensutsatta kommuner i vilka resultat som nås. Men som vanligt när det gäller media så är det svårt att bedöma hur stora effekter som dessa är när ingen referenspunkt lämnas i artikeln. Av artikelns diagram framgår att skillnaden är cirka 5 meritvärdespoäng (209,..– 203,..), hur mycket är det på aggregerad nivå? Låt mig lämna en referens: Skillnaden mellan pojkars och flickors genomsnittliga meritvärden i år 9 på riksnivå uppgick läsåret 2010/11 till 22,5 meritvärdespoäng (222,1-199,6). Skillnaderna tycks alltså i sammanhanget mycket små.

För det tredje: Vilka motiv har egentligen Dagens Samhälle med sig redan när de går in i undersökningen? Låt mig som trogen läsare av Dagens Samhälle vittna om att en av de avreglerade marknadernas främste försvarare i Sverige återfinns i Dagens Samhälles chefredaktör Mats Edman, vilket borde säga något om tidningens inställning i frågan. Se även Edmans alldeles färska utspel på DN Debatt från den 15/10 2012.

——–

Noter

* Dagens Samhälle ägs av Sveriges Kommuner och Landsting (SKL) och har som syfte att utgöra en viktig nyhetstidning för ”beslutsfattarna på den offentliga marknaden”, såväl de i offentlig- som privatägda verksamheter.

Taggad , , , , , , ,

Om konsten att välja bland resultat – Skolledarförbundet i särskådning

I början av oktober i år släpptes ytterligare en IFAU-rapport, denna gång om Rektorers betydelse för skola, elever och lärare. Ett problem med att mäta effekter av olika skickliga rektorer är att det är svårt att finna en relevant kontrollgrupp som det går att jämföra mot. Det är möjligt att man skulle kunna finna en indikator som mäter rektorers skicklighet och sedan jämföra grupper som har höga och låga sådana värden, men problemet är att det alltför ofta blir för trubbiga mått (som jag exempelvis skrev om gällande Kristianstadspolitikern Jonas Fasths studie av skolstrukturella faktorer). Det är också rakt omöjligt att bedöma ett faktiskt utfall mot ett kontrafaktiskt, det vill säga att försöka skatta hur det hade blivit om vi inte hade haft den rektor vi hade och så vidare.

Ur detta perspektiv är ovan nämnda IFAU-studie snillrik genom att författarna till den använder en grupp som de kallar för ”bytesrektorer”, det vill säga rektorer som de kan följa från en skola till en annan när de byter arbetsplats, för att på så sätt få fram mått på de avtryck som rektorerna lämnar på respektive skola. Några av de centrala resultaten sammanfattas i denna tabell (hämtad från sida 11 i rapporten):

Vad motsvarar dessa effekter? Rapportförfattarna använder ett tankeexperiment där de illustrerar skillnaderna av att ha en rektor i den 30:e percentilen respektive den 70:e avseende positiv inverkan på respektive område där effekterna skulle motsvara en förbättring (om byte av rektor från 30:e till 70:e) om motsvarande 3,1 meritvärdespoäng i grundskolan, 3,5 procent bättre resultat på de nationella proven och 2,5 procent större andel elever som klarar de grundläggande kursmålen (s.12f).

En central del i rapporten är dock när dessa resultat sätts i relation till andra resultat i undersökningen. Exempelvis visar undersökningen att rektors påverkan är störst på små skolor, där de kan påverka studieresultat och provresultat mest. Störst påverkan har de också på fristående skolor. Dessa resultat slår också igenom på betygsinflationsmåttet som används i studien och det är tydligt att vissa rektorer ser till att driva igenom en mer generös betygsättning än andra. Dessa resultat ligger helt i linje med sådana resultat jag redogjort för i tidigare blogginlägg om betygsinflation här och här, och de ger också ytterligare stöd för de resultat som framkom av Lärarnas Riksförbunds undersökning Betygsättning under påverkan(2011).

Sammantaget tycks alltså studien visa på anledningar att ge både ris och ros till rektorer, något som är väl värt att ta fasta på. Något jag personligen tyckte var roligt att ägna mig åt när studien publicerades var att följa upp vilka delar av rapporten som Sveriges skolledarförbund valde att fokusera på. Gissa vilka och kolla facit här!

Taggad , , , , , , , , , , ,

”Jämställdheten som bakbinder skolan” – eller artiklar som snubblar på logiken?

I det senaste numret av Pedagogiska magasinet skriver gymnasielärarna i dans, Annica Styrke och Karin Wiklund, en artikel som handlar om Jämställdheten som bakbinder skolan. Det centrala problem som de vill belysa med artikeln är att ett isärhållande av flickor och pojkar – som variabelkategorier betraktade – i den mediala debatten om jämställdhet (och av vad jag kan förstå också i forskningen därom) endast,

… hjälper till att upprätthålla isärhållandet av könen vilket bevarar ojämställda förhållanden mellan dem. Det språkliga verklighetsskapandet får alltså konsekvenser för hur kön konstrueras och återupprepas och hur maktförhållanden hålls intakta.

Utifrån detta antagande kritiserar de sedan till exempel Delegationen för jämställdhet i skolan (DEJA), som i sitt slutbetänkande ”flitigt” använder tillvägagångssättet att ”definiera jämställdhetsproblem […] utifrån gruppskillnader mellan pojkar och flickor”. Följden av detta blir enligt författarna att ”särskiljningen mellan könen upprätthålls och förstärks.”

Personligen håller jag på att bli galen av den här artikeln. Inte så mycket för vad artikeln handlar om – jag är själv intresserad av jämställdhetsfrågor – utan mest för att jag trots flertalet välvilligt upprepade läsningar av artikeln inte begriper vad författarna skriver? Vad menar de, egentligen?

Det jag inte begriper är vilka implikationer deras vilja att upphöra med variabelkategoriseringen flickor/pojkar får för deras eventuella definitioner av begreppen ”jämställdhetsproblem” och ”diskriminering”?

Min definition av dessa begrepp är att ett jämställdhetsproblem råder när en människa på något sätt blir hindrad i sina friheter, möjligheter eller rättigheter utifrån någon egenskap hos personen, i huvudsak sådana egenskaper personen ej själv kan påverka (främst avseende kön, etnicitet, ålder, sexuell läggning mm. Utbildningsnivå anser jag – i Sveriges fall – i stor utsträckning vara möjligt att påverka av individen själv.) Att systematiskt bli hindrad på detta sätt anser jag vara diskriminering och diskrimineringen är ofta ett uttryck för ett jämställdhetsproblem.

Detta ställningstagande innebär för min del, att om jag vill kunna påvisa för en annan människa att diskriminering faktiskt existerar i exempelvis Sverige så måste jag också mäta i vilken utsträckning skillnader mellan dessa variabelkategorier faktiskt existerar och om de är systematiska. Därigenom blir det i mitt fall meningsfullt att i min datainsamling upprätthålla åtskillnaden mellan exempelvis flickor och pojkar.

Så här långt gånget i resonemanget möter jag de verkliga svårigheterna med att förstå vad artikelförfattarna egentligen menar med sin artikel. De menar, som det klart och tydligt framgick av citatet ovan, att det finns ett kausalt samband mellan (A) att vi i undersökningar av könskillnader fortsatt särskiljer flickor och pojkar och (B) det fortsatta upprätthållandet och förstärkandet av könsskillnaderna ((A) –> (B)). Det vill säga att desto längre vi fortsätter med detta, desto starkare kommer skillnaderna att bli. På samma sätt måste de därför – enligt härledningsregeln modus tollens – mena att om särskiljningen inte upprätthålls och inte förstärks så beror det på att man inte särskiljer könen som variabelkategorier i forskning och debatt om könsskillnader ((¬B) –> (¬A)). Därav deras förespråkande av (¬A).

Detta lämnar mig med några frågor:

(1)   Existerar det ett kausalt samband på det sätt som artikelförfattarna vill göra gällande?

(2)   Om de förespråkar ett stopp av särskiljande av flickor och pojkar som variabelkategorier i undersökningar betraktade (typ DEJA), hur ska de då kunna besvara den empiriska frågan om särskiljandet av könen upprätthålls och förstärks om särskiljandet i undersökningar fortsätter? Dvs, hur ska de någonsin kunna bevisa (B)?

(3)   På samma sätt: Om de förespråkar ett stopp av särskiljande mellan flickor, pojkar, unga gamla – vad som helst – hur ska de då någonsin kunna besvara den empiriska frågan om någon av dessa grupper överhuvudtaget är diskriminerade?

Men det kanske är det som är poängen och strategin till syvende och sist? Mäts inte – finns inte?

Taggad , , , , , , , , , , ,