Etikettarkiv: regressionsanalys

Hur mycket bättre är de fristående skolorna?

För någon vecka sedan skrev Mats Edman, chefredaktör på SKL-tidningen Dagens Samhälle, en krönika i vilken han drog slutsatsen att fristående skolor är mycket bättre än de kommunala skolorna. Hans slutsats baserades delvis på den då nysläppta årsrapporten från Skolinspektionen som uppvisade vissa skillnader i vilken kritik olika huvudmän fått i tillsynen. Ett ännu större nummer gjorde han dock på att betygsstatistiken från Skolverket visar att de fristående skolorna levererar mycket högre betygsgenomsnitt än vad de kommunala gör. Bland annat visar han att de fristående skolornas elever i snitt har 18 poäng högre meritvärde än de som gått kommunala skolor. Han visar också att de kommunala skolorna är starkt överrepresenterade bland de skolor som presterar sämst och de fristående skolorna bland de som presterar bäst.

Kritiken har dock inte låtit vänta på sig. Tidigt ute var bland annat Per-Arne Andersson, avdelningschef på – just det – SKL. Han påpekar i sin debattartikel att det är en alldeles för banal analys som ligger till grund för Edmans slutsatser i och med att han inte kontrollerar dessa skillnader mot skolornas elevsammansättning. Detta är en angelägen synpunkt från Andersson och flertalet av de som kommenterat Edmans krönika på nätet gör just också denna anmärkning. Anmärkningsvärt nog är det ingen som reder ut hur det faktiskt ligger till.

Jag tänkte att jag skulle bistå på den punkten.

Det finns en uppsättning strategier man kan använda för att kontrollera resultatskillnaderna mot elevsammansättning, jag tänkte använda mig av regressionsanalys. För att göra detta har jag skapat ett dataset med betygsdata och data över elevsammansättning på skolnivå. All data är från Skolverkets totalfiler i SIRIS och den intresserade kan ladda ned datasetet här. Av totalt 1661 grundskolor med årskurs 9 i landet finns data för 1490 skolor (bortfallet beror på att vissa populationer är för små för att redovisa). Av dessa är 1154 kommunala skolor och 336 fristående.

Syftet med detta inlägg är primärt att visa hur stor del av denna ”friskoleeffekt” som kan förklaras av de fristående skolornas elevsammansättning. För att åstadkomma en analys med pedagogiska och förhållandevis lättbegripliga resultat har jag därför gjort en regressionsanalys som först bara mäter den ”rena” friskoleeffekten. Detta görs genom att använda en dikotom variabel för huvudman (dvs en variabel som bara kan anta värdet 1 eller 0 (1 = fristående)).

Den okontrollerade medelvärdesskillnaden mellan kommunala och fristående skolor var drygt 18 poäng och det är den skillnaden som framgår av modell 1 nedan (B-koefficienten). I min analys är denna skillnad några tiondelar högre pga av bortfall på några skolor då dessa saknat data för vissa ingående variabler (n=1329).

I modell 2 tillförs sedan ett antal bakgrundsvariabler. Det finns ett problem som ska nämnas redan nu, och det är att många av de oberoende variablerna korrelerar perfekt med varandra i och med att andel elever med svensk bakgrund, utländsk bakgrund och utlandsfödda summerar till 100 % av eleverna per skola. Detsamma gäller för föräldrarnas utbildningsnivå. Detta kan bland annat lösas genom att använda stegvisa regressioner och att någon variabel tas bort i analysen (vilket jag gjort för att kontrollera resultaten).

tabell_edman

Vad ser vi då i analysen? Störst effekt på betygsresultaten har andel elever vars föräldrar har eftergymnasial utbildning (standardiserad koefficient 1,128) och andel elever vars föräldrar har högst gymnasial utbildning (0,504). Dessa siffror kan tyckas svåra att förstå men de anger en standardiserad effekt som möjliggör jämförelser mellan olika variabler, men det är egentligen inte den intressanta frågan för detta inlägg – här är vi endast intresserade av att ta reda på hur ”friskoleffekten” förändras under kontroll för skolornas olika elevsammansättning.

Detta tar vi reda på genom att dividera den nya effektstorleken för huvudman (från modell 2) med den ursprungliga (från modell 1), därigenom kan vi se hur stor andel av den ursprungliga effekten som ”kontrollerats bort” av variablerna för elevsammansättning. I detta fall har alltså knappa 80 % av den ursprungliga effekten  kontrollerats bort (0,069/0,323 = 21,4%).

Som vi ser i B-koefficienten för huvudman i modell 2 återstår en oförklarad skillnad om ungefär 4 meritvärdespoäng, vilket mycket väl skulle kunna vara ett resultat av att fristående skolor är ”bättre” på det sätt Edman tänker sig. Samtidigt ska vi vara ödmjuka inför det faktum att det fortsatt finns en hel drös aspekter vi inte kontrollerat för även i dessa analyser, tex vilka lärare som arbetar på vilka skolor.

Notera att dessa analyser är gjorda med data på skolnivå, vilket innebär en skillnad mot att ha data på individnivå vilket många andra studier har. Total R2 i modell 2 är 57,2 % Läs mer om friskoleeffekter härhär och här.

Taggad , , , , , , ,

Förbättrade skolresultat genom ökad konkurrens?

Under slutet av förra året släpptes en IFAU-rapport som har analyserat effekterna av friskolereformen avseende elevernas studieresultat. Rapporten var intressant i och med att det generellt har varit väldigt svältfött med svenska kvantitativa studier om effekterna av friskolereformen och de slutsatser folk har dragit gällande reformens effekter har därför ofta haft en mer ideologisk resonansbotten än vetenskaplig.

Det finns några saker att poängtera gällande IFAU-rapporten. Dels finns det de som har haft viss metodologisk kritik att framföra, dels måste den uppmätta effekten betraktas som mycket liten. Ett av huvudresultaten i studien var nämligen att en ökning i andelen friskoleelever i årskurs 9 med 10 procentenheter var att förknippa med cirka 3 procent högre resultat i grundskolan. Sett till det genomsnittliga meritvärdet för grundskolan i riket läsåret 2011/12 skulle alltså en 10-procentig ökning av andel friskoleelever höja snittet med 6,3 betygspoäng, från 211 till 217,3. Då ska man också ha i minnet att denna ”10-procentiga ökning” redan skett i riket, från att friskolereformen genomfördes fram till idag då cirka 10 procent av alla grundskoleelever går i en fristående skola.

En kritiker skulle milt uttryckt kunna påstå att den 3-procentiga förbättringen var en dyrköpt förbättring sett till segregation och minskad likvärdighet.

fölster1I dagarna har det kommit ytterligare en undersökning på detta tema. Bakom undersökningen står Stefan Fölster och Reforminstitutet (som huvudsakligen finansieras av Stiftelsen fritt näringsliv). Undersökningen (som finns här) presenterades också i en debattartikel i Expressen där Fölster påstår att konkurrens på skolmarknaden förbättrar skolresultaten och att de kommuner där friskolor inte förekommer har försämrat sina resultat i störst utsträckning.

Denna slutsats, och fler därtill, drar Fölster efter att ha jämfört resultatutvecklingen (avseende andel obehöriga till gymnasieskolan samt andel underkända i ett eller fler ämnen i årskurs 9) i de kommuner som inte har friskolor och de kommuner som har en eller flera. Den undersökta perioden är 1999 till 2012.

Den uppmärksamme läsaren av rapporten (och debattartikeln) reagerar nog över dessa resultat. Kan de stämma? Har det inte skett en väldigt olikartad utveckling i övriga förutsättningar mellan icke-friskolekommunerna och de andra?

För att skingra dessa tvivel beskrivs i rapporten vissa av de kontroller som har gjorts. Man beskriver till exempel hur man har tittat på förändringen i föräldrarnas utbildningsnivå och andelen elever med utländsk bakgrund och konstaterar att utvecklingen varit snarlik i icke-friskolekommunerna och friskolekommunerna.

Denna övning måste dock betraktas som ett spel för galleriet. Att kontrollera om förändringarna i medelvärden mellan åren varit desamma är inte samma sak som att införa kontrollvariabler i en statistisk analys. Ett exempel: Tittar man på betygsmedelvärdena i grundskolan ser man att betygssnittet i årskurs 9 i kommungruppen ”förortskommuner till storstäder” var högre läsåret 2011/12 (217p) än vad det var i kommungruppen ”glesbygdskommuner” (203p). Samtidigt visar Fölsters undersökning att föräldrarnas utbildningsnivå (som har högst förklaringsvärde) ökat likartat för de båda kommungrupperna. Fölsters slutsats är alltså att detta innebär att eleverna i förortskommunerna presterar bättre än de i glesbygdskommunerna och – enligt hans idé om det kausala sambandet – detta för att de har fler friskolor. Fölster tycks alltså mena att föräldrarnas utbildningsnivå kan bortses från i denna jämförelse.

Det Fölster dock missar är ju att föräldrarnas utbildningsnivå fortsatt är mycket högre i dessa förortskommuner (2,28) än i glesbygdskommunerna (2,13) (enligt SALSA-datat var dessa uppgifter är hämtade ifrån). Om föräldrarnas utbildningsnivå lades till som en kontrollvariabel i analysen skulle sannolikt friskoleeffekten minska alternativt försvinna helt.

Med detta sagt, vad borde Fölster och Reforminstitutet alltså ha gjort för att prestera en mer korrekt analys?

Ett sätt att angripa frågan är bedriva klassisk hypotesprövning. Vi utgår från Fölsters slutsats, att kommuner med konkurrensutsatt skolmarknad presterar bättre än icke-konkurrensutsatta kommuner, som hypotes. Om denna stämmer bör det innebära att vi i en statistisk analys, där vi kontrollerar för i huvudsak föräldrarnas utbildningsnivå och elevernas härkomst, ser signifikanta effekter av att skolmarknaden är konkurrensutsatt.

För att denna analys ska utgå från samma premisser som Fölsters undersökning använder vi samma utfallsvariabler som han gjorde, det vill säga andel elever som inte är behöriga till gymnasieskolan samt andel elever som är underkända i ett eller flera ämnen i årskurs 9.[1] Som förklarande variabler används andel pojkar, andel elever som själva är födda utomlands, andel elever med utländsk bakgrund men som är födda i Sverige och föräldrarnas sammanvägda utbildningsnivå. Dessutom används en dummyvariabel (en variabel som endast markerar förekomst (1) eller icke-förekomst (0) av något) efter Fölsters uppgifter om vilka kommuner har respektive inte har friskolor samt en variabel över andel elever i kommunen som går i fristående skola.[2] Det kompletta datasetet kan laddas ned här för den som vill göra egna analyser i det. All data är hämtad från Skolverkets SALSA-databas samt Databas för jämförelsetal.

Ett enkelt sätt att undersöka effekten av dels den kodade Fölstervariabeln (”friskole- eller icke-friskolevariabeln”) och dels variabeln över andel elever i kommunen som går i en fristående skola, är att först göra en analys av de övriga variablernas förklaringsvärde på resultaten (en utfallsvariabel i taget), för att sedan tillföra de andra variablerna (en i taget) för att se om de tillför någon förklaringskraft till modellen i sin helhet.

I tabellen nedan redovisas resultaten av en sådan analys för den första utfallsvariabeln (andel behöriga till yrkesprogram)[3]:

tabell

Analysen visar att variablerna dels tillför mycket litet förklaringskraft till modellen, dels att de med nöd och näppe är signifikanta. Enskolevariabeln (dvs att kommunen bara har kommunal skola eller ej) förklarar endast 0,95 % av variationen och andel friskoleelever i kommunen förklarar endast 0,88 %, att jämföra med föräldrarnas utbildningsnivå som förklarar 20,6 %.

Vad som yttermera är intressant att notera utifrån analysen av dessa data är att effekterna inte är renodlat positiva. Den skattade effekten enligt modellen, för en kommun som går från att endast ha kommunal skola till att ha friskolor (allt annat lika), är en förbättring om 1,7 procent. Paradoxalt nog är effekten av andelen friskoleelever av kommunens elever negativ. Modellen estimerar – tvärtemot IFAU:s studie[4] – en försämring i behörigheten till yrkesprogram om 1,5 procent om andelen friskoleelever ökar med 20 procent.

Det är mycket viktigt att påpeka att dessa resultat indikerar mycket små effekter. Till exempel är det orimligt att andelen friskoleelever i en kommun skulle öka med 20 procent hur som helst. I det sammanhanget är en negativ effekt på behörigheten om 1,5 procent mycket liten.

Den viktigaste slutsatsen är dock att Fölsters undersökning bör tas med några rejäla nypor salt; de kommuner som år 2012 endast hade kommunala grundskolor tycks inte alls ha presterat avsevärt sämre än friskolekommunerna. Den positiva kausala effekten av konkurrens som Fölster uttalar sig om tycks knappt finnas, åtminstone kan den inte beläggas i det data han använt i och med att de små effekterna tycks ta ut varandra (avseende 2012).[5]

Det finns ytterligare några resultat av denna nya analys som bör nämnas. För det första är resultaten snarlika för samtliga utfallsvariabler. För det andra indikerar analysen en liten förändring från 2004 till 2012 (hela Fölsters tidsserie har inte analyserats), där Fölster-variablen var signifikant redan 2004 och med svagt negativ effekt för att vara fortsatt signifikant men med positiv effekt 2012. Andelen elever i friskola var inte signifikant 2004, men signifikant och med negativ effekt 2012.

Dessutom ökar modellens förklaringskraft mellan 2004 till 2012, från att förklara cirka 20 procent av variationen år 2004 till cirka 35 procent för år 2012.

Detta inlägg har författats med benäget bistånd av statistikern Oskar Eriksson som genomfört viktiga tester av resultaten från regressionerna.

Uppdatering 2013-09-02: Ett fel har upptäckts i ursprungstexten, varför en uppdatering gjorts. Felet gällde beskrivningen av effekten av dummyvariablen över friskole- eller icke-friskolekommun.


[1] I denna analys gör vi tyvärr inga kontroller för betygsinflation, vilket den tidigare forskningen indikerar ett behov av. Se tex denna IFAU-studie.

[2] Denna variabel har tidigare använts tex Jonas Vlachos som mått på konkurrens på skolmarknaden.

[3] Notera att behörighetsreglerna förändrats iom GY2011, och den tidigare variabeln ”andel elever med grundläggande gymnasiebehörighet” utgått. I datasetet som använts till denna undersökning används dock den gamla variabeln, precis som Fölster gör, för de föregående åren.

[4] Se not 5!

[5] Det är viktigt att påpeka att de data som använts i denna analys gäller kommuner som resultatenheter. Det betyder att resultaten kan bli andra om tex individdata skulle användas, vilket den omnämnda IFAU-studien gjorde. Notera också att det gäller olika utfallsvariabler.

Taggad , , , , , ,

Vad är SALSA egentligen?

I mitt jobb är jag både ute och föreläser en del för lärare och andra samt att jag i olika sammanhang träffar folk som jobbar med, eller bara allmänt intresserar sig för, skol- och utbildningspolitik. När man i dessa sammanhang diskuterar likvärdigheten i det svenska skolsystemet så dyker nästan alltid några typer av referenser till Skolverkets SALSA-databas upp. Oftast handlar dessa referenser om att den eller den kommunen eller den eller den skolan ”underpresterar” i förhållande till sitt SALSA-värde, eller att ”det är inte så konstigt att de inte presterar bättre, titta på deras SALSA-värde”.

Det har tidigare förekommit en viss debatt om detta, både akademisk och politisk, där man har menat att det är farligt att stirra sig blind på SALSA-värdena och att se dessa som någon sorts gräns varefter man kan slå sig till ro om man uppnått den; ”vi har ju de elever vi har”. Denna kritik är riktig, inte minst utifrån 2010 års skollag som tydligt stipulerar att alla elever har rätt till hjälp och stöd för att nå så långt som möjligt i sin kunskapsutveckling (3 kap 3 §).

Givet intresset för, och användandet av, SALSA-datat är det dock anmärkningsvärt få som verkligen förstått vad SALSA-modellen egentligen är, hur den fungerar och hur den räknas fram. Med detta inlägg har jag därför tänkt att i all korthet försöka förklara vad SALSA egentligen är (annat än en latinamerikansk dans alltså).

600px-LinearRegression_svgFör att kunna förstå SALSA (Skolverkets Arbetsverktyg för Lokala SambandsAnalyser) måste man för det första veta vad en regressionsanalys är. En regressionsanalys är en statistisk analys som beräknar i vilken mån en variabel kan förklara variationen i en annan variabel (gällande linjära samband, bilden intill är hämtad från wikipedia.se).

Regressionsanalysen skiljer sig alltså mot korrelationsanalysen i att den senare bara mäter sambandet mellan två variabler, medan den tidigare mäter den enas förklaringskraft på variationen i den andra. Denna skillnad är mycket viktig. Det finns nämligen en massa saker i världen som samvarierar och som kan beläggas med korrelationsanalys. Exempelvis samvarierar drunkningsolyckor och glassförsäljning. Men kan glassförsäljningen förklara drunkningsolyckorna? Nja, visst kan överdriven glasskonsumtion leda till akut kramp vilket kan orsaka drunkning, men det kan inte vara det generella problemet. Sådana orsakssamband är nog mer sannolika gällande alkohol och drunkningar. Snarare är det nog så att vi både badar och äter mer glass på sommaren och att det är detta (det ökade badandet alltså) som förklarar de ökade drunkningsolyckorna på somrarna.

Detta ger en mycket viktig lärdom: När man ska göra en regressionsanalys måste man ha en uppfattning om vilken variabel som påverkar den andra, och på vilket sätt den sannolikt ska påverka den andra. Man måste i analysen definiera vilken variabel som är oberoende (påverkar) och vilken som är beroende (påverkas). Denna uppfattning får man antingen genom att uppställa en hypotes om förhållandena, eller genom tidigare forskningsresultat.

SALSA-modellen är i grund och botten en regressionsanalys, ännu mer precist uttryckt en multipel regressionsanalys (för att det är flera oberoende variabler som ingår). När man går in i databasen får man som användare välja vilka enheter man vill titta på (kommuner eller skolor) och sedan vilka utfallsvariabler man vill se (dvs vilken beroende variabel man vill titta på, tex genomsnittligt meritvärde). När man har gjort sina val får man fram en tabell som visar den valda beroende variabeln, måtten för modellens oberoende variabler (andel pojkar, föräldrarnas utbildningsnivå, elevbakgrund) och residualvärdena för respektive enhet.

salsa

Det är dessa residualvärden som är de mått som många stirrar sig blinda på; ”presterar vi bättre eller sämre än vad vi borde?”. Detta blir i detta sammanhang en felställd fråga som grundar sig i en bristande förståelse av vad residualvärdet är. Residualen är ett mått som visar hur stor skillnad det finns mellan det värde som modellen (den linjära regressionslinjen) beräknat och det verkliga utfallet. I teoretisk mening är det alltså snarare modellen det är fel på och inte skolan eller kommunen. Vad är då ”felet” med modellen? Felet består i att modellen inte kan förklara all variation i utfallsmåtten. Hade modellen förklarat 100 % av variationen hade det inte funnits några residualvärden.

För att uppnå detta behöver man alltså i teknisk mening identifiera vilka ytterliga oberoende variabler som ska läggas till i analysen. Problemet i praktiken är dock att detta ofta är mycket svårt (i SALSA:s fall), då de ytterligare variabler som behövs ofta är av mer kvalitativ karaktär och är svåra att mäta, i synnerhet för att ge data till en sådan här modell. Dessutom är redan det samlade förklaringsvärdet bortskämt högt för att handla om regressionsanalsyer av detta slag.

I exemplet nedan har jag valt ut samtliga grundskolor med år 9 i Göteborg (N=70, i den andra analysen föll en skola bort på grund av saknade uppgifter) och lagt till ytterligare några oberoende variabler till SALSA-datat (huvudman, lärartäthet och antal elever i år 9, dessa uppgifter är hämtade från SIRIS):

tabell_salsa

Dessa är dock inte sådana variabler som i någon väsentlig mening tillför något nytt till analysen. Detta syns genom att inga av dem är statistisk signifikanta på 95 %-nivån och att de koefficienter (effekten på den beroende variabeln) som uppmäts för respektive variabel är mycket liten. Den enda variabel som i analysen är värd att snegla på är ”fristående skolor”, som är statistiskt signifikant på 90 %-nivån och, som framgår av tabellen, bidrar till att förändra övriga variablers koefficienter något i jämföresle med den första analysen. Notera också att det samlade förklaringsvärdet för modellen inte ökat, detta genom att de nya variablerna inte tillfört någon förklaringskraft. Däremot har residualerna förändrats en aning, här följer några exempel (notera att de är avrundade, därför blir 11-11 = -1 i Assaredsskolans fall):

residualer

Behövs då SALSA? Min bedömning är att databasen fyller en funktion, inte minst för att den tillhandahåller data om elevbakgrund på kommun- och skolnivå vilket är viktigt ur ett uppföljnings- och utvärderingsperspektiv. Rättanvänt ger också SALSA en bra fingervisning om vilka kommuner som lyckas bättre eller sämre med de kvalitativa variabler som inte mäts i modellen, och det kan ge huvudmän och rektorer en god grund för eftertanke och analys av den egna verksamheten utifrån perspektivet ”vad gör dom, som har samma elevsammansättning som oss, för att nå högre resultat med eleverna än vad vi gör?”. Det vill säga precis så som det var tänkt att SALSA skulle användas.

Taggad , , , , , , , , , , , , ,