Hoe effectief zijn zelf- en peerassessments van mondelinge presentatieskills vergeleken met het assessment door leraren?


Feedback geven of bedenkingen formuleren? Lees misschien eerst deze disclaimer of Over deze blog.

Introductie

Assessment van mondelinge presentaties is nog een weinig (eenduidig) onderzocht gebied. In deze studie wordt nagegaan in welke mate er overeenkomst is tussen enerzijds peer- en zelfassessment en anderzijds assessment door leerkrachten, in het geval van mondelinge presentaties.
Tevens wordt nagegaan wat de perceptie is van studenten als het gaat over peerassessment. De onderzoekers komen tot de conclusie dat er een significant verschil is tussen de scores gegeven door lerenden zelf en de de leerkrachten. De criteria van rubrics worden door de peers en de leerkrachten anders geïnterpreteerd. Studenten staan wel positief tegenover peerassessment en vinden dit een waardevolle bron van externe feedback.
Het volledige artikel is downloadbaar via deze link "How effective are sel- and peer assessment of oral presentation skills compared with teachers' assessments?" (De Grez, Valcke, & Roozen, 2012).

Formatief evalueren, feedback, peer- en zelfassessment

Een belangrijk aspect van de validiteit van assessment is het feit dat er feedback gegeven wordt, welke er toe leidt dat het leren van de student verbetert (consequential validity). In dit proces van formatief werken, kan de rol van de student vergroot worden door zelf- (ZA) en peerassessment (PA). In geval van deze studie, gaat de student zelf of zijn peers werk beoordelen op basis van standaarden en criteria met betrekking tot het geven van mondeling presentaties.
Op basis van de feedback kan de lerende dan trachten de kloof de dichten tussen zijn huidig niveau van presteren en het gewenste niveau op basis van de criteria (in het artikel omschreven als calibratie). Zowel interne als externe feedback dragen hieraan bij.

Een actieve deelname van de student in dit proces draagt bij aan de ontwikkeling van zelfregulerend leven (hoewel formatief toetsen een toenemende plaats krijgt in het hoger onderwijs, stelt men vast dat de docent nog vaak een centrale rol in het proces van feedback geven toebedeeld krijgt).
Tevens zijn er studies die er op wijzen dat ZA en PA leiden tot verbeterde prestaties op het vlak met het geven van mondelinge presentaties, meer zelfvertrouwen hierin en een verminderde werklast voor docenten.

Betrouwbaarheid en kwaliteit van ZA en PA

Vaak is er de aanname dat de betrouwbaarheid van assessment hoger ligt indien deze gebeurt door docenten in plaats van door PA. Er is weinig eenduidig onderzoek verricht naar deze aanname en resultaten en conclusies zijn uiteenlopend:

  • er is geen significant verschil tussen PA en assessment door leerkrachten;
  • de scores van peers zouden slechts 5% hoger dan die van docenten;
  • PA een relevant alternatief voor assessment door leerkrachten;
  • een beperkte correlatie tussen scores van beide groepen;
  • studenten lijken in de beoordeling andere criteria te hanteren dan docenten;
  • extra training van studenten in het geven van feedback en beoordelen van criteria is aangewezen;
  • studenten komen goed overeen in het bepalen van een definitief resultaat.
Nog minder eensluidende resultaten zijn er te vinden als het gaat over de vergelijking tussen ZA en assessment door leraren (LA): een studie zegt dat er nog minder correlatie is tussen ZA en LA dan tussen PA en LA. Een andere geeft aan dat ZA en PA even betrouwbaar zijn.

Factoren die van invloed kunnen zijn op de kwaliteit van PA:
  • persoonlijke verschillen tussen studenten op het vlak van scoren en standaarden;
  • studenten die zich zorgen maken over hun eigen kwaliteiten in het geven van beoordelingen;
  • studenten die aangeven dat hun beoordeling uiteindelijk toch niet meetelt in de definitieve beslissing;
  • studenten die aangeven dat het een tijdrovende onderneming is.
Met betrekking tot hoe studenten kijken naar PA specifiek op het vlak van mondelinge presentaties bestaat er slechts weinig onderzoek. Uit één studie zou ook hier blijken dat studenten zichzelf niet hoog inschatten als het aankomt op de kwaliteit van PA en zich niet zo comfortabel voelen in dit proces.
Anonimiteit en gender zouden een rol kunnen spelen (en voor bias zorgen in assessment).

Met betrekking tot ZA zouden vrouwen zichzelf lager inschatten dan mannen en hebben studenten die 'minder presteren' de neiging om zichzelf hoger in te schatten (Kruger Dunning effect).
Een meta-analyse stelde dan weer dat sommigen, maar niet alle, studenten zichzelf op dezelfde manier beoordeelden als de leerkrachten.

Ook op het vlak van manieren om de betrouwbaarheid van ZA en PA te vergroten, zijn de resultaten wisselend:
  • training van beoordelaars zou belangrijk zijn, al toont één onderzoek dat er weinig verschil is in assessment tussen getrainde en ongetrainde leerkrachten;
  • de hoeveelheid en gedetailleerdheid van de criteria: zeer veel criteria leidt tot een grotere spreiding in resultaten enerzijds, maar tot betere feedback anderzijds.

Onderzoek en resultaten

In de studie wordt een onderzoek beschreven waarin zowel peers als ervaren docenten mondelinge presentaties beoordeelden, gebruik makend van een rubric (samengesteld door de onderzoekers op basis van input van experten en bestaande schalen).
Beide groepen kregen een korte training over het gebruik van de rubric, de peers ook informatie over skills voor mondelinge presentaties.
De presentaties waren opgenomen. Soms was het een eerste presentatie, soms een tweede (na het krijgen van les over presentatievaardigheden) soms een derde (dan was er ook feedback gegeven).
Assessoren wisten niet of ze de eerste, tweede of derde presentatie zagen.
Presentatoren deden ook een ZA op basis van de rubric.

Indien de resultaten van de peers en docent vergeleken worden is er aanvaardbare maar vrij lage betrouwbaarheid tussen de onderlinge scores.
Een zelfde betrouwbaarheid werd gevonden indien de resultaten van SA en LA geanalyseerd werden.
(Noot van de onderzoekers: peers beoordeelden alleen presentatie 1, ZA was alleen van presentatie 1 en 2, LA van de drie presentaties).
De totale score op basis van de rubric, was zowel in geval van PA als ZA significant lager bij de docenten.

Met betrekking tot mogelijk invloed van gender (zoals hoger beschreven met betrekking tot betrouwbaarheid van PA in het beoordelen van mondelinge presentaties; eigen toevoeging) werd er geen significant verschil gevonden in de scores gegeven door assessoren van het mannelijk of vrouwelijk geslacht.
Er was wat de leerkrachten betreft evenmin een significant verschil in score of deze gegeven werd aan een vrouwelijke of een mannelijke presentator. Bij de mannelijke peers was dit wél het geval: zij scoorden significant hoger voor vrouwelijke presentatoren.
Wat de ZA betreft, was er geen significant verschil tussen vrouwelijke en mannelijk presentatoren.

Algemeen werd PA door de deelnemers als positief ervaren en gaven zij aan dit het een leerrijk gegeven was. Presentaties twee en drie werden als leerrijker ervaren.

Discussie en conclusie

Resultaten wijzen op een zekere onderlingen samenhang van de scores (PA en LA) maar duiden evenzeer op het gegeven dat de criteria van de rubric toch nog verschillend geïnterpreteerd worden door leerkrachten en studenten. Dit kan te maken hebben met de ervaring van leerkrachten of een beperkte mate aan consistentie tussen de beoordelingen van studente onderling. Ervaring bestaat er in dat leerkrachten op een groter arsenaal aan voorbeelden kunnen terugvallen over hoe presentaties wel en niet dienen gegeven te worden. Impliciet kan dit betekenen dat leerkrachten criteria 'toevoegen', wat hun oordeel minder betrouwbaar maakt en wat kan wijzen op inter-beoordelaar verschillen.
Wat eveneens opvalt is de significant hogere score gegeven door studenten.
Een gelijkaardige conclusie kan getrokken worden als het gaat over ZA en LA.

Studenten ervaren ZA en PA als een positief gegeven, doorheen het proces neemt deze positieve perceptie zelfs toe. Dit impliceert dat studenten feedback van peers ook ter harte zullen nemen.

Er was geen verschil in scores met betrekking tot het geslacht van beoordelaars. Daarnaast beoordeelden leerkrachten mannelijke en vrouwelijke studenten op dezelfde wijze, maar mannelijke peers scoorden vrouwelijke presentatoren hoger. Is dit omdat mannelijke studenten te hoog scoorden of vrouwen hun gendergenoten lager?

De auteurs stellen dat verder onderzoek zeker nodig is, onder andere gezien de beperkte steekproefgrootte, tijd en variatie in achtergrond van de deelnemers.
Deze toekomstige studies kunnen focussen op de variabelen die een rol spelen, zoals interpersoonlijke verschillen, het effect van training in assessment of verschillen tussen zelf- en peerassessment.

Toch wil men wijzen op de waarde van ZA en PA en raadt men aan deze vormen eveneens te gebruiken naar assessment door docenten. Feedback verkregen door peers is immers een niet onbelangrijke factor in het al dan niet ondernemen van vervolgacties gebaseerd op feedback.
De kwaliteit van de feedback is van belang, maar ook of er effectief iets mee gebeurt.

Referenties

De Grez, L., Valcke, M., & Roozen, I. (2012). How effective are self-and peer assessment of oral presentation skills compared with teachers’ assessments?. Active Learning in Higher Education, 13(2), 129-142.

Reacties