Etikettarkiv: korrelationsanalys

Gissa sambandet – hur var det nu då?

Det har blivit dags att avslöja resultaten från den gissningslek som inleddes i det förra inlägget samt delge det rätta svaret. Totalt har 73 personer lämnat en gissning vilket innebär att undersökningen haft ett stort bortfall givet hur många som läst inlägget. Gissningarna fördelade sig enligt följande:

andelsvarandeDen ”låga” svarsfrekvensen åsidosatt så var det ändå en majoritet som gissade rätt: Sambandet är starkast mellan föräldrarnas utbildningsnivå och elevernas betyg och svagast med resultaten på de nationella proven. Respektive samband beskrivs i dessa scatterplots:

samband_resultat

Ni som nu gissade på något annat än att sambandet är starkast för betygen ska inte misströsta härvidlag – detta var själva poängen med inlägget från början! För om man tänker efter så känns det väl som att man kan komma på sannolika förklaringar till varför samtliga påståenden skulle kunna vara sanna?

Det tycks plausibelt att föräldrar med högre utbildningsnivå i större utsträckning på olika sätt bidrar till barnens allmänbildning. Sociologer brukar försöka fånga olika aspekter av detta kulturella kapital genom att i enkäter fråga hur många böcker som finns i hemmet. Det skulle kanske också kunna mätas i hur mycket man tittar på nyheterna, läser dagstidningar, diskuterar aktuella händelser vid middagsbordet mm. Ur ett sådant perspektiv tycks det sannolikt att dessa barn skulle prestera bättre på DN:s nutidsorientering.

Samtidigt känns det inte osannolikt att föräldrar med högre utbildningsnivå i större utsträckning skulle kunna hjälpa till med läxor och annat skolarbete samt höja studiemotivationen mm, vilket skulle kunna leda till antingen högre betyg eller högre resultat på nationella proven i matematik (eller både och).

Den viktigaste slutsatsen att dra är att föräldrarnas utbildningsnivå – så som jag påtalade i det första inlägget – inte har en sprikrak kausal effekt på elevernas resultat som endast innebär att ”bildade föräldrar bidrar till bildade barn”. Måttet inrymmer så mycket mer. Detta ”så mycket mer” får större effekt på betygen i sin helhet än bara på de nationella proven.

Detta är en mycket intressant insikt. Man skulle kunna argumentera för att när vi tittar på föräldrapåverkan på elevresultaten på de nationella proven får vi fram en ”renare” bild av vad skolan bidrar med och vad föräldrarna bidrar med. Detta skulle kunna vara en intressant utgångspunkt för att diskutera skolors olika kompensatoriska effekt (se ett intressant inlägg på detta tema från Jonas Vlachos här).

Vad består då detta ”så mycket mer” av, som föräldrautbildning ger på elevernas betyg? Det finns bland annat en effekt av var man bor. Befolkning i storstäder har generellt högre utbildningsnivå (vilket korrelerar med högre betyg), större städer har oftare högre andel friskolor (vilket korrelerar med något högre betyg) vilket innebär att de också har en mer konkurrensutsatt skolmarknad (vilket korrelerar med högre betyg). Föräldrar med hög utbildningsnivå påverkar i större utsträckning elevernas så kallade ”icke-kognitiva” egenskaper, såsom uthållighet, planeringsförmåga, studiemotivation mm. Dessa egenskaper korrelerar starkt med högre betyg (se källor här och här).

Vilka avslutande slutsatser kan vi dra? Föräldrarnas utbildningsnivå är mycket betydelsefullt för elevernas resultat, men vi måste vara medvetna om att effekterna av densamma är komplexa och påverkar elevernas resultat på olika sätt. Dessutom kan det ha olika betydelse för olika elever (se studie här som visar att sambandet är starkare för elever med svensk bakgrund än för elever med utländsk). Detta får såklart också implikationer både på systemnivå och på skolnivå. Borde uppföljningssystemen riggas på något annat sätt för att minska ned betydelsen av ”det runt omkring”? Borde differentiering och variationen i systemet minskas för att minska betydelsen av bostadsort? Borde resursfördelningssystem med mera förändras för att öka skolans kompensatoriska effekt? Behöver skolor fundera över i vilka sammanhang föräldrarna får störst betydelse för elevresultat? Hur mycket förväntas föräldrarna bidra med i fråga om läxor med mera?

Det finns mycket att fundera över, minst sagt.

Den intresserade finner datasetet till detta inlägg här.

Annonser
Taggad , , , , , , ,

Vad är SALSA egentligen?

I mitt jobb är jag både ute och föreläser en del för lärare och andra samt att jag i olika sammanhang träffar folk som jobbar med, eller bara allmänt intresserar sig för, skol- och utbildningspolitik. När man i dessa sammanhang diskuterar likvärdigheten i det svenska skolsystemet så dyker nästan alltid några typer av referenser till Skolverkets SALSA-databas upp. Oftast handlar dessa referenser om att den eller den kommunen eller den eller den skolan ”underpresterar” i förhållande till sitt SALSA-värde, eller att ”det är inte så konstigt att de inte presterar bättre, titta på deras SALSA-värde”.

Det har tidigare förekommit en viss debatt om detta, både akademisk och politisk, där man har menat att det är farligt att stirra sig blind på SALSA-värdena och att se dessa som någon sorts gräns varefter man kan slå sig till ro om man uppnått den; ”vi har ju de elever vi har”. Denna kritik är riktig, inte minst utifrån 2010 års skollag som tydligt stipulerar att alla elever har rätt till hjälp och stöd för att nå så långt som möjligt i sin kunskapsutveckling (3 kap 3 §).

Givet intresset för, och användandet av, SALSA-datat är det dock anmärkningsvärt få som verkligen förstått vad SALSA-modellen egentligen är, hur den fungerar och hur den räknas fram. Med detta inlägg har jag därför tänkt att i all korthet försöka förklara vad SALSA egentligen är (annat än en latinamerikansk dans alltså).

600px-LinearRegression_svgFör att kunna förstå SALSA (Skolverkets Arbetsverktyg för Lokala SambandsAnalyser) måste man för det första veta vad en regressionsanalys är. En regressionsanalys är en statistisk analys som beräknar i vilken mån en variabel kan förklara variationen i en annan variabel (gällande linjära samband, bilden intill är hämtad från wikipedia.se).

Regressionsanalysen skiljer sig alltså mot korrelationsanalysen i att den senare bara mäter sambandet mellan två variabler, medan den tidigare mäter den enas förklaringskraft på variationen i den andra. Denna skillnad är mycket viktig. Det finns nämligen en massa saker i världen som samvarierar och som kan beläggas med korrelationsanalys. Exempelvis samvarierar drunkningsolyckor och glassförsäljning. Men kan glassförsäljningen förklara drunkningsolyckorna? Nja, visst kan överdriven glasskonsumtion leda till akut kramp vilket kan orsaka drunkning, men det kan inte vara det generella problemet. Sådana orsakssamband är nog mer sannolika gällande alkohol och drunkningar. Snarare är det nog så att vi både badar och äter mer glass på sommaren och att det är detta (det ökade badandet alltså) som förklarar de ökade drunkningsolyckorna på somrarna.

Detta ger en mycket viktig lärdom: När man ska göra en regressionsanalys måste man ha en uppfattning om vilken variabel som påverkar den andra, och på vilket sätt den sannolikt ska påverka den andra. Man måste i analysen definiera vilken variabel som är oberoende (påverkar) och vilken som är beroende (påverkas). Denna uppfattning får man antingen genom att uppställa en hypotes om förhållandena, eller genom tidigare forskningsresultat.

SALSA-modellen är i grund och botten en regressionsanalys, ännu mer precist uttryckt en multipel regressionsanalys (för att det är flera oberoende variabler som ingår). När man går in i databasen får man som användare välja vilka enheter man vill titta på (kommuner eller skolor) och sedan vilka utfallsvariabler man vill se (dvs vilken beroende variabel man vill titta på, tex genomsnittligt meritvärde). När man har gjort sina val får man fram en tabell som visar den valda beroende variabeln, måtten för modellens oberoende variabler (andel pojkar, föräldrarnas utbildningsnivå, elevbakgrund) och residualvärdena för respektive enhet.

salsa

Det är dessa residualvärden som är de mått som många stirrar sig blinda på; ”presterar vi bättre eller sämre än vad vi borde?”. Detta blir i detta sammanhang en felställd fråga som grundar sig i en bristande förståelse av vad residualvärdet är. Residualen är ett mått som visar hur stor skillnad det finns mellan det värde som modellen (den linjära regressionslinjen) beräknat och det verkliga utfallet. I teoretisk mening är det alltså snarare modellen det är fel på och inte skolan eller kommunen. Vad är då ”felet” med modellen? Felet består i att modellen inte kan förklara all variation i utfallsmåtten. Hade modellen förklarat 100 % av variationen hade det inte funnits några residualvärden.

För att uppnå detta behöver man alltså i teknisk mening identifiera vilka ytterliga oberoende variabler som ska läggas till i analysen. Problemet i praktiken är dock att detta ofta är mycket svårt (i SALSA:s fall), då de ytterligare variabler som behövs ofta är av mer kvalitativ karaktär och är svåra att mäta, i synnerhet för att ge data till en sådan här modell. Dessutom är redan det samlade förklaringsvärdet bortskämt högt för att handla om regressionsanalsyer av detta slag.

I exemplet nedan har jag valt ut samtliga grundskolor med år 9 i Göteborg (N=70, i den andra analysen föll en skola bort på grund av saknade uppgifter) och lagt till ytterligare några oberoende variabler till SALSA-datat (huvudman, lärartäthet och antal elever i år 9, dessa uppgifter är hämtade från SIRIS):

tabell_salsa

Dessa är dock inte sådana variabler som i någon väsentlig mening tillför något nytt till analysen. Detta syns genom att inga av dem är statistisk signifikanta på 95 %-nivån och att de koefficienter (effekten på den beroende variabeln) som uppmäts för respektive variabel är mycket liten. Den enda variabel som i analysen är värd att snegla på är ”fristående skolor”, som är statistiskt signifikant på 90 %-nivån och, som framgår av tabellen, bidrar till att förändra övriga variablers koefficienter något i jämföresle med den första analysen. Notera också att det samlade förklaringsvärdet för modellen inte ökat, detta genom att de nya variablerna inte tillfört någon förklaringskraft. Däremot har residualerna förändrats en aning, här följer några exempel (notera att de är avrundade, därför blir 11-11 = -1 i Assaredsskolans fall):

residualer

Behövs då SALSA? Min bedömning är att databasen fyller en funktion, inte minst för att den tillhandahåller data om elevbakgrund på kommun- och skolnivå vilket är viktigt ur ett uppföljnings- och utvärderingsperspektiv. Rättanvänt ger också SALSA en bra fingervisning om vilka kommuner som lyckas bättre eller sämre med de kvalitativa variabler som inte mäts i modellen, och det kan ge huvudmän och rektorer en god grund för eftertanke och analys av den egna verksamheten utifrån perspektivet ”vad gör dom, som har samma elevsammansättning som oss, för att nå högre resultat med eleverna än vad vi gör?”. Det vill säga precis så som det var tänkt att SALSA skulle användas.

Taggad , , , , , , , , , , , , ,

RUT-avdrag, läxhjälp och ojämlikhet

Från och med den 1 januari i år (2013) är det tillåtet att göra RUT-avdrag för läxhjälp. Förslaget mötte tidigt hård kritik, både från forskare, de lärarfackliga organisationerna, delar av oppositionen och Skatteverket. Kritiken utgick från olika perspektiv beroende på varifrån den kom, men en farhåga som delades av de flesta kritikerna var att detta kommer att leda till att elevernas bakgrund och socioekonomiska förhållanden skulle spela ytterligare större roll för deras resultat i skolan.

För några dagar sedan publicerade Dagens Arena en intressant artikel som handlar om i vilken utsträckning det ”vanliga” RUT-avdraget har nyttjats i olika kommuner. I artikeln redovisas resultaten av korrelationsanalys gjord av Anders Sundell vid Göteborgs universitet. Denna visar föga förvånande att det finns en stark korrelation mellan kommunmedborgares genomsnittliga årsinkomst och i vilken grad medborgarna nyttjat RUT-avdraget:

rut-diagram

Analysen är mycket intressant och mitt tips är att någon student som ska skriva examensarbete någon gång under 2014 följer upp utfallet från det första året med RUT-avdrag för läxhjälp och ser om en liknande korrelation kan beläggas. Den som har tillgång till mikrodata (på individnivå) borde också följa upp och se vilka elever som nyttjat RUT-finansierad läxhjälp och jämföra dessas meritvärdes- och/eller provresultatsförändringar i förhållande till jämförbara individer som inte fått RUT-läxhjälp.

Taggad , , , , , , , ,