Tien concrete ontwerprichtlijnen voor formatieve toetsen vanuit de geheugenpsychologie

Feedback geven of bedenkingen formuleren? Lees misschien eerst deze disclaimer of Over deze blog.

Dit NRO-rapport werd geschreven door onderzoekers van het Welten Instituut, Open Universiteit Nederland. NRO staat voor Nationaal Regieorgaan Onderwijsonderzoek. Kim Dirkx, Desirée Joosten-ten Brinke en Gino Camp slagen er in dit rapport in negen bruikbare en concrete  ontwerprichtlijnen te formuleren voor formatieve toetsen, gebaseerd op inzichten uit de cognitieve psychologie (plus nog een tiende, wordt duidelijk in de loop van de post; eigen toevoeging).
Het volledige 44 pagina's tellende verslag kan je hier raadplegen.

Introductie

Van formatief toetsen (FT) of assessment for learning (AFL) kan gezegd worden dat het het leerproces ondersteunt. Het geeft de lerenden inzicht in hun studievoortgang en de lesgevers inzichten op basis waarvan ze hun instructie kunnen aanpassen. Voorts draagt FT bij tot een beter begrip en transparantie (de formatieve toets geeft een beeld van de eindtoets).
Tevens is er veel onderzoek verricht naar het toepassen van effectieve leerstrategieën vanuit de cognitieve psychologie. Vooral de positieve effecten van retrieval (RP) en distributed practice (DP) zijn reeds decennialang robuust gebleken. Niet alleen in laboratoriumsettings, maar ook in de klaspraktijk (Interessante bronnen over effectieve leerstrategieën vind je terug op de site van de Learning Scientists met door Pedro De Bruyckere vertaalde handige posters; eigen toevoeging).

Hoewel het proces van FT enerzijds en RP en DP anderzijds gelijkenissen vertoont wordt er weinig gebruik gemaakt van inzichten uit de cognitieve psychologie bij het ontwerpen van FT om zo de grootst mogelijke effecten te bekomen.
De onderzoekers verrichtten daarom een systematische literatuurstudie om te komen tot 10 evidence-based richtlijnen bedoeld voor het ontwerpen van formatieve toetsen. In deze review hanteren de schrijvers effectief de definitie "een tussentijds afgenomen toets die het leren bevordert" voor FT (dat ook veel ruimer kan opgevat worden dan alleen maar toetsen).

Retrieval en distributed practice

RP kan omschreven worden als het oefenen in het ophalen van informatie uit het geheugen. In onderzoek wordt deze methode vaak in de weegschaal gelegd met herstuderen.
Kort samengevat: studenten bestuderen, beluisteren, ... de leerstof. Vervolgens gaat één groep aan de slag met RP (bijvoorbeeld zichzelf testen) en een andere groep gaat de leerstof opnieuw bestuderen, herlezen. Op eindtoetsen, afgenomen minimaal langer dan één dag na het laatste studiemoment, scoren studenten uit de RP groep beduidend beter.
Een mogelijke verklaring voor dit sterkere geheugenspoor, kan bestaan in de elaborative retrieval hypothesis. Door RP zou er een sterkere activatie plaatsvinden van reeds in het geheugen aanwezige items. Deze items dienen later als cues bij het weer ophalen van het doel-item.
Ondanks de robuuste positieve effecten van RP en de vrij eenvoudige toepassing ervan, is deze slechts beperkt ingeburgerd bij lerenden en lesgevers.

DP of spaced practice staat voor gespreid oefenen. Items die gespreid in de tijd worden bestudeerd (abc-abc-abc) worden beter onthouden dan wanneer deze massed na elkaar worden ingeoefend (aaabbbccc). Merk op dat de totale studeertijd in beide gevallen gelijk is.
Een gangbare verklaring voor het sterkere geheugenspoor bij DP ligt in het gegeven dat gespreid leren in meerdere contexten plaatsvindt. Items uit die contexten worden gekoppeld aan het doel-item. Deze contextelementen fungeren dan weer als cues bij het achteraf ophalen van het doel-item (des te meer contexten des te meer cues). Dit is de zogenaamde encoding variability theory.

Relevante vragen voor ontwerprichtlijnen

Er zijn een aantal factoren die mee bepalend zijn voor het positieve effect van RP en DP. De vragen die op basis hiervan gesteld kunnen worden zijn relevant voor het opstellen van concrete richtlijnen voor het ontwerpen van FT.
  • Welke leermaterialen lenen zich voor RP?
  • Voor welke leeruitkomsten zijn tussentijdse toetsen effectief (feiten en/of begrip)?
  • Welke toetsvormen lenen zich voor RP: herkenning (MC-vragen?) of recall (open vragen)?
  • Is de vorm van de eindtoets mee bepalend?
  • Dienen de tussentijdse en de eindtoets dezelfde vorm te hebben?
  • Hoeveel tijd dient er ingebouwd te worden tussen het de eerste keer opnemen van de leerstof en de eerste keer toepassen van RP (de zogenaamde lag)?
  • Moet deze lag tussen oefensessies vergroten of gelijk blijven?
  • Hoe groot moet de retention interval zijn: de tijd tussen de laatste RP sessie en de eindtoets?
  • Hoe vaak dient RP toegepast te worden voor een eindtoets om het beste effect te bekomen?
NB: de methode van het onderzoek kan je raadplegen in het volledige rapport, 19-21pp.
Voorts bespreken de auteurs op pagina's 22-23 enkele kenmerken van de gevonden literatuur, waarbij het belangrijk is op te merken dat de gehanteerde literatuur voornamelijk onderzoek uit de geheugenpsychologie beschrijft, waarbij het primaire doel is het vergroten van het succes in het ophalen van informatie (direct effect). Niet zogenaamde indirecte effecten, als motivatie, en stimuleren van zelfregulatie.

De richtlijnen

Negen richtlijnen gebaseerd op inzichten uit de cognitieve psychologie

1. Gebruik FT in verschillende domeinen (wiskunde, geschiedenis, taal ...) en bij verschillende soorten leermaterialen (woordparen, video, sommen ...) om leren te stimuleren. RP en DP zijn effectief voor meerdere leermaterialen en domeinen.

2. Gebruik FT in elk geval voor onthouden, begrijpen en toepassen van informatie. RP en DP zijn niet alleen bevorderlijk voor het 'herinneren', maar onderzoek toont ook een positief effect op het beantwoorden van begrips- en toepassingsvragen. Onderzoek op het niveau van analyse, synthese ... wijst eveneens in positieve richting maar dient nog verder uitgewerkt te worden.

3. Constructive allignment: stem het niveau en de inhoud van de tussentijdse toets af op de eindtoets. De tussentijdse toets moet de lerenden voorbereiden op wat ze moeten kennen (inhoud) en kunnen (herkennen, toepassen, ...).

4. Kies voor een combinatie van open en gesloten vragen bij FT. Er bestaat zowel onderzoek dat aantoont dat kort-antwoord vragen het meest geschikt zijn, als onderzoek dat zegt dat meerkeuzevragen de beste optie is.  Dit heeft wellicht te maken met het al dan niet geven van feedback: kort-antwoord vragen zijn vaak het beste indien gecombineerd met feedback. Open vragen zorgen voor een actievere vorm van RP. Anderzijds kan er door gebruik te maken van meerkeuzevragen, meer leerstof op kortere tijd getoetst worden. Daarom de voorkeur voor hybride toetsen: een combinatie van beide vraagsoorten.

5. Geef bij FT in de feedback het juiste antwoord. Het positieve effect van tussentijds toetsen wordt dan groter. Tevens is het zo dat bij MC-vragen waarbij géén correct antwoord gegeven wordt, de student het foute antwoord gaat blijven onthouden als correct (misconcepties). Deze feedback kan gegeven worden na iedere vraag of aan het einde van een toets. Deze laatste vorm van uitgestelde feedback zou grotere effecten opleveren.

6. Zet FT pas in na een initiële leerfase. Om van een testing effect te kunnen genieten, dienen studenten effectief een aantal correcte antwoorden te kunnen geven. Onderzoek spreekt van minstens 50%. Echter, soms kan het doel van FT net zijn dat je voorkennis in kaart wil brengen en/of activeren. Dan kan FT gepast zijn voor een leerfase.

7. Toets dezelfde stof minstens één en maximaal drie keer. Het grootste positieve effect van RP wordt behaald in de eerste tussentijdse toets, daarna neemt het effect stelselmatig af bij meerdere toetsafnames.

8. Spreid FT in de tijd. DP zorgt voor een betere opslag in het geheugen op langere termijn. Er zijn geen significante verschillen op te tekenen op de leeruitkomst bij het gebruiken van een spreidingsschema waarbij ofwel de retention interval tussen de toetsen stelselmatig groter wordt of steeds gelijk blijft. Wel zou de score op de tussentijdse toetsen hoger zijn in geval van een expanding spacing schema (waarbij de retention interval groter wordt). Dit kan de motivatie ten goede komen.
Wel dient de lag (tijd tussen eerste RP en de initiële leerfase) voldoende groot te zijn om een toets uitdagend te maken.

9. Gebruik de 20% regel. Dit betekent dat je niet vlak voor de eindtoets moet starten met FT. Wordt de eindtoets 10 dagen na het initiële leermoment gepland, hanteer dan een lag van twee dagen: een eerste tussentijdse toets ongeveer twee dagen na het initiële leermoment. De vraag is of deze regel ook toe te passen is wanneer er maanden zitten tussen eerste leerfase en eindtoets;
Er zijn nog andere factoren die het effect van een tussentijdse toets bepalen, zoals de complexiteit van de leerstof en hoe goed het leermateriaal initieel werd geleerd.
Het positief effect van tussentijds toetsen is groter wanneer de retentie-interval groter is dan één dag.

Conclusie en discussie

- in tegenstelling tot in een labo, gaat er in de klaspraktijk tussen een initiële leerfase en het moment waarop deze informatie getoetst wordt, nog nieuwe informatie verstrekt worden. Een mogelijke oplossing kan bestaan in cumulatieve toetsing. Hierbij wordt in vervolgtoetsen ook telkens weer (een deel) van de 'oude' informatie bevraagd (ik schreef hier reeds een blogpost over  Kerdijk, Cohen-Schotanus, Mulder, Muntinghe en Tio (2015) die je hier kan terugvinden; eigen toevoeging). De literatuur beschrijft positieve effecten van cumulatief toetsen omdat studenten veel regelmatiger studeren (belangrijk: de cumulatieve toetsen zijn niet vrijblijvend, maar maken deel uit van de reguliere lessen of tellen op één of andere manier mee in de eindscore) .

- digitaal toetsen kan een gunstig effect hebben op zelfregulatie, motivatie, aanwezigheid en waargenomen kwaliteit van de lessen door studenten. Digitale toetsen kunnen ook helpen bij het plannen van toetsmomenten zodat deze zelfsturend ingezet kunnen worden (ik schreef onlangs nog deze post over I Do Recall: deze tool helpt de student er aan denken zichzelf te toetsen door het sturen van prompts; eigen toevoeging).

- als docent heb je een belangrijke rol in het helpen plannen van tussentijdse toetsen. Dit kan door FT effectief in te bedden in het curriculum. Zo leer je studenten vaardigheden met betrekking tot plannen, zelf doelen stellen, ... Zo kan er overgegaan worden naar leerlinggestuurd toetsen wat leidt tot nog meer betekenisvol leren.

Deze belangrijke rol van docenten bij FT geeft aanleiding tot de tiende ontwerprichtlijn:

10. Bed FT bewust in in het toetsprogramma, waarbij de programmering geen vrijblijvend maar een sturend karakter heeft.

Bronnen

Dirkx, K., Joosten-Ten Brinke, D., & Camp, G. (2019). Ontwerprichtlijnen voor formatieve toetsen 
Eindrapport overzichtsstudie Ontwerprichtlijnen voor formatief toetsen vanuit de geheugenpsychologie 1 + 1 = 3? Geraadpleegd op 20 augustus 2019, van https://www.nro.nl/wp-content/uploads/2019/05/Eindrapport-405-17-711_Definitief.pdf



Reacties