Misconcepties van studenten over hun leren en effectieve leraren

Feedback geven of bedenkingen formuleren? Lees misschien eerst deze disclaimer of Over deze blog.

In het artikel "On Students’ (Mis)judgments of Learning and Teaching Effectiveness" (€) van Carpenter en Witherby (2020) (gevonden via @greg_ashman) wordt beschreven dat de perceptie van studenten over hun eigen leren (vaak overschatting) vaak berust op verkeerde ideeën over wat leren nu eigenlijk inhoudt. Dit heeft niet alleen gevolgen voor hun eigen studieproces, maar ook op de inschatting die ze maken van de effectiviteit van leraren.

Tenzij uitdrukkelijk anders vermeld, wordt de tekst van het artikel gevolgd.

Inleiding

Studenten hebben vaak de neiging het eigen leren te overschatten. Deze neiging wordt reeds waargenomen bij erg jonge kinderen. Ondanks het feit dat lerenden bij aanvang van het hoger onderwijs reeds heel wat ervaring in 'leren' hebben, blijft deze overschatting ook een issue in het hoger onderwijs.
Nochtans is het kunnen inschatten van het eigen leren, zeker in tijden waarin studenten meer vrijheid in het onderwijs hebben onder andere door mogelijkheden van digitaal online leren, een erg belangrijke vaardigheid.
Het foutief inschatten leidt niet alleen tot teleurstellende resultaten die verdere onderwijskeuzes bepalen. Evaluaties van docenten door studenten, waarop faculteiten zich vaak beroepen, lijden er eveneens onder. Niet zelden beoordelen studenten docenten waarbij zij de indruk hebben effectief geleerd te hebben als positief (of omgekeerd) terwijl dit niet noodzakelijk het geval is.
Deze perceptie berust vaak op erg hardnekkige misconcepties over effectief leren, die niet alleen bij lerenden maar ook lesgevers bestaan. Zo versterkt het gebruik van beeldmateriaal, grafieken, afbeeldingen... In lessen of handboeken de idee dat er geleerd wordt. Dit kan perfect zo zijn (dual coding, eigen toevoeging) maar de perceptie bestaat ook als dit beeldmateriaal aanwezig is zonder efficiënt ingezet te zijn en alleen illustratieve kenmerken heeft.

Enthousiasme en vlotheid bij een leraar worden door studenten zowel in laboratorium contexten als in reële klaspraktijken gekoppeld aan een efficiënte leraar, met goed gestructureerde en opgebouwde lessen. Dit is niet noodzakelijk zo. In één klas experiment, waarbij dezelfde leraar in een klas enthousiast, expressief... les gaf, en in een andere klas hetzelfde deed maar minder 'uitbundig', werden zelfs de handboeken door de studenten als significant beter ingeschat, terwijl ze voor alle duidelijkheid identiek waren in de twee klassen.
In een ander onderzoek kreeg een groep leraren een opleiding in het enthousiast brengen van de lessen. De klassen aan wie deze leraren vervolgens les gaven, scoorden niet significant hoger dan de klassen die les kregen van leraren die niet getraind waren in enthousiasme.
Grootschalig correlationeel onderzoek toonde verder een positief verband aan tussen hoe enthousiast studenten een lesgever ervaarden en hoe ze deze inschatte als effectief lesgever. Nochtans was er geen positieve correlatie tussen ervaren enthousiasme en leerresultaat.
Ten slotte is er het “Dr. Fox effect”: een experiment waarbij een acteur die leek was in een vakgebied, vlot en geanimeerd een 'nonsens' les gaf, waarbij achteraf 90% van de studenten de les als goed gestructureerd en opgebouwd ervaarden, interessant en met duidelijke voorbeelden.

Behalve karakteristieken van de leraar, wordt ook de effectiviteit van de instructie vaak verkeerd ingeschat. Zo werd één groep studenten gedoceerd (passief luisteren) waarbij een andere groep zelf aan de slag moest gaan en 'worstelen' met de inhoud, naast het krijgen van uitleg. De eerste groep schatte zowel het leren als de leraar hoger in dan de tweede. Maar, op een meerkeuzetoets achteraf scoorde groep twee significant beter.

Deze twee bevindingen (over karakteristieken van leraren en instructie) hebben ernstige gevolgen indien beleid van een instelling zich baseert op evaluaties gegeven door studenten over afgelopen cursussen en de lesgevers daarvan. Een aanzienlijke daling in leerwinst kan het gevolg zijn.

Studentenevaluaties en hun relatie met leeruitkomsten

De resultaten van onderzoek naar de correlatie tussen inschatting van studenten van de leraar en leeruitkomsten zijn erg wisselend. Van geen verband, over een positieve tot een negatieve correlatie.
Dit heeft deels te maken met de definiëring van 'leren'.
Indien leren gedefinieerd wordt als resultaat op een toets, is er een klein tot matig positief verband tussen evaluatie van de leraar en score op de toets. Hier kan echter sprake zijn van een bias, doordat dit onderzoek gebeurt na de toets: misschien belonen studenten de leraar die hen goede punten gaf.
Onderzoek dat verricht werd naar evaluaties van leraren als voorspeller van toetsresultaat, toont weer erg wisselend resultaten (geen, positief en negatieve correlatie). De resultaten waarbij een positieve correlatie gevonden werd, bleken ook onderhevig aan kleine steekproeven en publicatie bias. Een meta-analyse van Uttle et al. (2017) vond geen correlatie tussen evaluatie van leraren en toetsresultaat.
De beste wijze om te bepalen of leren plaatsvond, is misschien te kijken naar hoe het gesteld is met het langetermijn leren. De correlatie is hier eerder negatief. Studenten die in een introductiecursus leraren goed evalueerden, scoorden eveneens goed op de test van die cursus. Maar, op de test in de vervolgcursus van dat vak, scoorden zij minder goed.

Bias in studentenevaluaties van effectief lesgeven

Nochtans zijn de evaluaties van leraren vrij stabiel over tijd en tussen groepen. Studenten baseren zich dus in hun oordeel blijkbaar op bepaalde aspecten die ze allen lijken te 'smaken'. In een artikel met de veelzeggende titel Howto improve your teaching evaluations without
improving your teaching is de top drie van deze kenmerken (1) zorg dat je een man bent, (2) wees georganiseerd en (3), wees 'schappelijk' in het geven van punten.
Een uitzondering niet te na gesproken, toont de overgrote meerderheid van onderzoek aan dat mannelijke lesgevers hogere scores krijgen van studenten. Al zou de inhoud van de vraag een rol kunnen spelen (bij vragen over bijvoorbeeld student-faculteit relatie scoren vrouwelijke lesgevers hoger). Eén onderzoek in een online leeromgeving, toonde zelfs aan dat de score van de studenten afhing van wat zij dachten dat het geslacht was van de online begeleider (contact gebeurde bijvoorbeeld via mail). Mannen werden hoger gescoord terwijl het in werkelijkheid om vrouwen ging.
Daarnaast is er correlationeel onderzoek dat een negatief verband aantoont tussen scores op examens en evaluaties van docenten door studenten.
Ook leeftijd zou een rol spelen in de beoordeling van docenten: in één onderzoek waarbij dezelfde voice-over van een presentatie te horen was, scoorden studenten de docenten lager op het vlak van intonatie en enthousiasme, indien ze dachten dat de lesgever ouder was.
Tevens gelaatskleur, het al dan niet hebben van een 'vreemd' accent en gepercipieerde schoonheid hebben invloed op de evaluatie van docenten door studenten (de eerste twee een negatieve invloed, hoeveel te 'knapper' een positieve invloed).
En ten slotte, geef de studenten 'snoepgoed' voorafgaand aan de evaluatie, ook dat zou helpen.

Het gebruik van studentenevaluaties in het onderwijs

Studenten geven aan dat zij deze evaluaties ernstig nemen en een belangrijk instrument zij. Tevens menen zij zelf dat ze niet beïnvloed worden door gender, ras ... en andere besproken factoren. Er is dus niet meteen sprake van 'negatieve moedwilligheid' in de beoordelingen (al wordt er verderop in het artikel wel gesproken van moedwilligheid, bijvoorbeeld om 'wraak' te nemen op docenten die slechte punten gaven, scoorden de studenten deze bewust lager).
Anderzijds zijn er cijfers bekend van de beoordeling door een meerderheid van studenten waarbij een gastcollege zelfs niet had plaatsgevonden of een 'fictieve' prof aan de lijst met te beoordelen personen werd toegevoegd. De beoordelingen van de niet plaatsgevonden lessen liepen dan ook nog eens sterk uit elkaar.
Ondanks al deze bedenkingen en bronnen van bias, worden studentenevaluaties zeer vaak ingezet voor het evalueren van lesgevers en cursussen. Het gevolg kan zijn dat er beslissingen genomen worden door het kader die niet het leren maar wel de evaluaties ten goede komen.

Werken studentenevaluaties slechte instructie in de hand?

Is het dan een slechte zaak tegemoet te komen aan de feedback van studenten betreffende enthousiasme, geen actieve werkvormen meer en het geven van schappelijke scores? Wordt de kloof tussen gepercipieerd leren en effectief leren dan nog groter? Gaan de metacognitieve vaardigheden van studenten dan nog sterker achteruit?
Er bestaat een veelheid aan evidentie over effectieve leerstrategieën als retrieval practice (studiemethode waarbij getracht wordt leerstof actief te herinneren/op te halen, in plaats van bijvoorbeeld herstuderen of herlezen. Deze studiemethode leidt tot beter onthouden op lange termijn eigen toevoeging), distributed practice (het spreiden van studiemomenten, staat tegenover 'blokken': indien evenveel tijd geleerd wordt op meerdere momenten dan op éénzelfde moment, is het leren op lange termijn beter, eigen toevoeging) en activerend leren. Deze zullen weliswaar het leren positief beïnvloeden, maar de studentenevaluaties wellicht niet. Ze worden door studenten vaak niet als effectief beschouwd en 'kosten te veel inspanning'. Deze hogere inspanning wordt geïnterpreteerd als ineffectief leren. Het gaat hier dan wel om desirable difficulties, niet iedere erg grote inspanning leidt noodzakelijkerwijze tot effectief leren.
In deze wetenschap, bestaat dan het risico dat docenten op basis van studentenevaluaties terughoudend gaan zijn om effectieve instructiemethodes te gaan inzetten omdat ze dan als minder effectieve leraren gaan beschouwd worden? Of is het mogelijk een scenario te realiseren met het beste van twee werelden, waarbij effectieve instructie ook als effectief gepercipieerd wordt door studenten?

Verbeteringen van en alternatieven voor studentenevaluaties

De evaluaties zelf kunnen verbeterd worden. Psychometrisch onderzoek van de vragen kan bijvoorbeeld die items uit de vragenlijst halen, waarbij het 'inschattingsvermogen' van studenten tekort schiet. Bijvoorbeeld te beperkte kennis over hebben over het studiegebied, om een oordeel te kunnen vellen over de kennis van de lesgever over dat studiegebied.
Een andere optie is kwalitatieve bevragingen in plaats van kwantitatieve, waarbij getrainde beoordelaars de feedback van studenten inschatten.
Het afnemen van geregelde tussentijdse evaluaties, in plaats van eenmalig aan het einde van een academiejaar, kan fouten door 'geheugen' beperken of maken dat de evaluatie te sterk beïnvloed wordt door eenmalige feiten of gebeurtenissen tijdens een bepaalde les.
Ondanks deze mogelijke verbeteringen, kan men ook ervoor kiezen studentenevaluaties niet als enige evaluatiemiddel in te zetten.
Een mogelijke optie, hoewel ook niet vrij van bias (misschien gaan lesgevers zich dan anders gedragen?) is het inzetten van peer-lesgevers om collega's te evalueren. Er is ook onderzoek dat geen of erg beperkte correlaties aantoonde tussen de evaluaties van de peers onderling en de studentenevaluaties.
Mogelijks kan het interviewen van studenten een alternatieve piste (niet door de lesgevers zelf). Deze mindere vorm van anonimiteit kan de betrouwbaarheid ten goede komen, al kunnen reeds besproken invloeden ook dan niet uitgesloten worden.
Nog een alternatief is het door docenten laten aanleggen van een portfolio, waarin zij materiaal verzamelen over hun lesgeven, welke mening zij hebben over instructie, voorbeeldlessen en rubrics. Deze portfolio's kunnen dan geëvalueerd worden op het gebruik van evidence-based praktijken, helderheid en overeenkomsten met de vooropgestelde strategieën van de faculteit.
Tevens kan het een optie zijn, studenten opnieuw te laten evalueren op langere termijn: op dat ogenblik hebben ze wél een beeld van welke lesgever of cursus hen iets heeft bijgebracht op het vlak van leren op langere termijn. Al is het ook hier niet uitgesloten dan docenten zich (afhankelijk van en in de wetenschap van wat er bevraagd wordt op zo'n eindevaluatie) gaan focussen op teaching to the test en de items die in de bevraging gaan aan bod komen, los van het reeds aangehaalde risico van bias door het geheugen/vergeten, wat zeker bij een evaluatie op langere termijn een rol kan spelen.

Lesgeven is een vaardigheid bestaande uit vele facetten en is dan wellicht ook niet 100% correct en volledig te evalueren met één enkel meetinstrument.
Er zal dan ook moeten bepaald worden wat er precies verstaan wordt onder effectiviteit. Ook zijn bepaalde factoren makkelijker meetbaar (kom de lesgever op tijd?) dan andere (bijvoorbeeld 'het leren', wat op zich moeilijker af te bakenen is en zoals gezegd ten prooi kan vallen aan vele vormen van bias bij evaluatie). Eén enkel meetinstrument levert wellicht geen valide metingen op.

Conclusie

De betrouwbaarheid en validiteit van studentenevaluaties is reeds lang een onderwerp van discussie, en dat zal wellicht zo blijven zolang ze gebruikt worden.
Bepaalde factoren, zelfs factoren waar lesgevers geen vat op hebben zoals ras of geslacht, hebben een negatieve invloed op de validiteit van het meetinstrument.
Foutieve (metacognitieve) interpretaties van studenten over wat zij ervaren als effectief leren, liggen aan de grondslag van foutieve interpretatie van lerareneffectiviteit.
Het studenten aanleren van effectieve leerstrategieën en het managen van hun eigen leren kan beschouwd worden als één van de doelen van onderwijs. Het kan echter conflicteren met het blijvende belang van 'punten', zeker als scholen belang blijven hechten aan studentenevaluaties als parameter van 'effectieve instructie'.
Het is dan ook een uitdaging voor de toekomst, om leerkracht-effectiviteit degelijk te conceptualiseren en grondig te evalueren, rekening houdend met evidentie over wat nu effectief leren is en metacognitieve vaardigheden van studenten.

Bronnen

Carpenter, S. K., Witherby, A. E., & Tauber, S. K. (2020). On Students’(Mis) judgments of Learning and Teaching Effectiveness. Journal of Applied Research in Memory and Cognition. doi:10.1016/j.jarmac.2019.12.009

Reacties