Effectgroottes interpreteren in onderwijsonderzoek


Feedback geven of bedenkingen formuleren? Lees misschien eerst deze disclaimer of Over deze blog.

In hun blogpost 'We Must Raise the Bar for Evidence in Education' promoten Carly Robinson & Todd Rogers onder andere het gebruik van randomized controlled trials, preregistratie (onderzoekers aanzetten tot het publiceren van hun hypotheses en methodes alvorens de data-analyse plaatsvindt) en onderzoeksresultaten die veelvuldig aangetoond zijn in grote steekproeven (ipv eenmalig onderzoek waarop toekomstige onderwijspraktijken gebaseerd worden) om de kwaliteit van onderwijsonderzoek te verbeteren.

Ze verwijzen in hun post ook naar een working paper van Matthew Kraft 'Interpreting Effect Sizes of Education Interventions' (open access) over het gebruik van 'Cohen's d' als standaard voor effectgroottes in onderwijsonderzoek. In deze paper worden een paar problemen van deze effectgrootte aangekaart en wordt een alternatief voorgesteld.

Volgens Kraft hebben effecten die volgens de standaard van Cohen eerder als 'klein' omschreven worden, in de praktijk van het onderwijs soms toch een grote impact. Een vaak gehanteerde standaard is 0.2 voor een klein positief effect, 0.5 voor een middelmatig positief effect, en 0.8 en meer voor een sterk positief effect.

Eigen toevoeging:

In tegenstelling tot 'Pearson's r' kan 'Cohen's d' grotere waarden aannemen dan +/-1. Al zijn effectgroottes van meer/minder dan +/- 1 eerder zeldzaam in onderwijsonderzoek (OUNL, z.d.). Je kan dat ook merken aan de laatst geüpdatete versie van de lijst met effectgroottes van John Hattie . De effectgroottes van meer/minder dan +/-1 zijn eerder zeldzaam. De cruciale grens is volgens Hattie 0.4. Alles daarboven wordt beschreven als 'Potential to accelerate student achievement' of zelfs (boven 0.7) 'Potential to considerably accelerate student achievement' (lees ook een 'ja maar' van Pedro Debruyckere over deze lijst).
Ter illustratie. 'Teacher subject matter knowledge' krijgt een effectgrootte van slechts 0.23 toebedeeld en ook het effect van programma's ter professionalisering van leerkrachten overstijgt de 0.4 niet.
In mijn eigen opleiding (aan de Open Universiteit Nederland) werden volgende grenzen (ik vermeld alleen de positieve) gehanteerd:

0-0.2: triviaal
0.2-0.5: zwak positief
0.5-0.8: middelsterk positief
0.8-1.3: sterk positief
meer dan 1.3: erg sterk positief

Vanaf hier volg ik weer de tekst, tenzij anders vermeld.

Daarnaast houdt 'Cohen's d' ook geen rekening met invloed van de kost van de interventie, schaalbaarheid en de context van het onderzoek in het algemeen. Kraft pleit dan ook voor een minder rigide interpretatie van deze effectgroottes (ik denk dat hij daarin niet de eerste is, maar hij presenteert wel een alternatief; eigen toevoeging).
Vervolgens beschrijft hij wat historische onderzoeks-gebeurtenissen die er toe geleid hebben dat er onrealistisch hoge standaarden voor effectgroottes ontstonden, mede door middelmatig uitgevoerde onderzoeken met (specifieke) kleine groepen participanten. Dit resulteerde in het gegeven dat resultaten/effectgroottes uit latere degelijk uitgevoerde experimentele onderzoeken eerder 'klein' of zelfs triviaal waren.


Kraft formuleert 5 richtlijnen voor het interpreteren van effectgroottes:

- vermeld steeds of het een correlationeel onderzoek of een RCT betreft. In correlationeel onderzoek kan niet gesproken worden over een causaal verband en meta-analyses die correlationeel onderzoek opnemen, vermelden uiteindelijk grotere effectgroottes vergeleken met RCT's.
- de effectgrootte wordt mede bepaald door wat, wanneer en hoe er gemeten wordt. De effectgrootte zal, bijvoorbeeld, groter zijn indien wat er gemeten wordt (de outcome) direct gerelateerd is aan de interventie. De effectgrootte van het coachen van leerkrachten op hun instructie bedraagt 0.47 maar slechts 0.18 op studentenprestatie (maar is die effectgrootte dan ook echt minder relevant?). Indien een outcome gemeten wordt vlak na een interventie, zal het gemeten effect ook sterker zijn. Daarnaast zal een meetinstrument met een beperktere betrouwbaarheid ook leiden tot lagere gemeten effectgroottes.
- subjectieve beslissingen met betrekking tot het design en data-analyse: de steekproef is vaak een subgroep (en niet representatief voor de populatie) waarvan vermoed wordt dat participanten baat gaan hebben bij de interventie, met hogere gemeten effecten tot gevolg. Ook de wijze waarop de standaarddeviatie geïnterpreteerd wordt bepaalt de grootte van het effect (afhankelijk van de conditie op basis waarvan je de standaarddeviatie gaat bepalen, gaat er meer of minder variatie zijn. Meer variatie => grotere SD => kleinere effectgrootte).
Daarnaast is er in het ene onderzoek meer 'contrast' tussen de experimentele en de controlegroep dan in een ander onderzoek. Indien er minder contrast is tussen beide, is de effectgrootte ook kleiner (indien een controlegroep helemaal geen interventie krijgt, of indien een controlegroep 'een interventie krijgt die iets weg heeft' van die van de experimentele groep).
Tenslotte wordt de effectgrootte ook mede bepaald indien er gekeken wordt naar mensen die de interventie effectief hebben ondergaan of hebben aangeboden gekregen. Indien je in rekening brengt wie ze heeft aangeboden gekregen (niet iedereen gaat er op ingaan) zal je effectgrootte lager zijn dan wanneer je gaat kijken naar de effectgrootte bij participanten die de interventie ook daadwerkelijk hebben ondergaan.
- het effect relatief aan de kost dient ook in rekening gebracht te worden. Een groot effect met substantiële kosten of een middelsterk effect met erg lage kosten?
- de schaalbaarheid van de interventie. Sluit een beetje aan bij zowel kost als steekproef. Als je interventie werkt bij een specifieke doelgroep, is deze minder goed uit te rollen naar een bredere 'populatie'. Ondanks een mogelijks sterk positief effect, is dit toch eerder relatief vergeleken met een middelmatig sterk effect dat geldt voor een enorme populatie.

Een nieuw schema voor het interpreteren van effectgroottes

Bij het strikt toepassen van standaarden gaat de nuance verloren en bij het niet hanteren van standaarden wordt er veel overgelaten aan subjectieve interpretatie.
De auteur breekt een lans voor het toepassen van benchmarking binnen vergelijkbare onderzoeken in onderwijsonderzoek. Dus, dezelfde omstandigheden, design, ... De auteur bakent zijn nieuwe standaarden af tot 'causaal onderzoek gericht op effecten van onderwijsinterventies op gestandaardiseerde studentenprestaties'.

Kraft somt dan evidentie uit de literatuur op om te komen tot volgende effectgroottes:

< 0.05: klein
0.05-0.2: medium
0.2-...: groot

Indien je dan nog kost en schaalbaarheid in rekening brengt, komt de auteur tot volgend schema voor de interpretatie van effectgroottes in geval van RCT's

Figuur 1. Overgenomen uit "Interpreting effect sizes of education interventions", van M. A., Kraft, 2019, Brown University Working Paper.

Ik vermeld twee van zijn argumenten voor het hanteren van dergelijke 'lage' standaarden:
- in het formeel onderwijs wordt een leerwinst geboekt van 0.4 SD over een volledig schooljaar, met 1000u investering en een kost van 10.000 dollar per student ... als je dit alles in rekening brengt is een leerwinst van 0.2 met pakweg een relatief lage kost best wel hoog te noemen;
- voor de 139 effectgroottes bekomen in 49 RCT's gesteund door de U.S. Department of Education, is de mediaan van effectgroottes slechts 0.03 ... de auteur stelt dat effectgroottes bekomen in grootschalig experimenteel veldonderzoek van 0.10-0.15 dan ook groot mogen genoemd worden.

De auteur concludeert dat zijn schema een mogelijke vervanger kan zijn van een rigide hantering van de standaarden van Cohen, waarbij er in het nemen van beslissingen rekening dient gehouden te worden met de kost en de schaalbaarheid van een interventie.

Referenties

Corwin. (2019). Visible Learning Plus. 250+ Influences on Student Achievement. Geraadpleegd op 11 november 2019, van https://us.corwin.com/sites/default/files/250_influences_chart_june_2019.pdf

Kraft, M. A. (2018). Interpreting effect sizes of education interventions. Brown University Working Paper. Geraadpleegd op 11 november 2019, van https://scholar. harvard. edu/files/mkraft/files/kraft 2018 interpreting effect sizes. pdf.

Open Universiteit Nederland, (z.d.). PB0202171822 - Onderzoekspracticum. Inleiding data-analyse. Heerlen: Open Universiteit Nederland.

Reacties