Over het optimale aantal antwoordopties in meerkeuzevragen

Feedback geven of bedenkingen formuleren? Lees misschien eerst deze disclaimer of Over deze blog.

Ik kwam het artikel "Three Options Are Optimal for Multiple-Choice Items: A Meta-Analysis of 80 Years of Research" (Rodriguez, 2005) dankzij een tweet van @pattishank op het spoor. Via een forward search in Google Scholar vul ik in de samenvatting van de eerste bron hier en daar aan met informatie uit twee andere artikels (Hingorjo & Jaleel, 2012; Vyas & Supe, 2008) en uit het hoofdstuk "Het meten van toetskwaliteit" uit "Toetsen in het hoger onderwijs" (van Berkel, Bax, & Joosten-ten Brinke, 2017).

Indien aangevuld met info uit andere bronnen, wordt dit expliciet vermeld in onderstaande samenvatting.

Hoewel er nog vrij weinig rigoureus empirisch onderzoek gebeurd is naar richtlijnen rond hoe items te construeren/schrijven in meerkeuzetesten (MT) bestaat er wel al een langere traditie van onderzoek naar het meest optimale aantal vraagopties (juiste antwoord plus afleiders) per vraagitem. Een richtlijn hieromtrent luidde in 1989 "zo veel functionele afleiders als haalbaar is" of "het is niet de hoeveelheid afleiders die bepalend is, maar wel de kwaliteit ervan".

In de meta-analyse van Rodriguez (2005) wordt onderbouwd dat drie antwoordopties te verkiezen is boven vier of vijf. De redenen hiervoor zijn:

- het is erg moeilijk (en kost veel energie, Vyas & Supe, 2008) om drie of vier aannemelijke afleiders te formuleren bij een vraag. In onderzoek waarbij participanten die 'leek' waren in de materie toetsen met drie/vier afleiders en één juist antwoord moesten oplossen, werden ondanks het gegeven dat de deelnemers niet onderlegd waren in de inhoud, bepaalde afleiders haast nooit gekozen: ze waren zelfs voor hen weinig aannemelijk. Ook in ander empirisch onderzoek naar toetsen met vier/vijf antwoordopties, bleken bij slechts weinig vragen alle afleiders plausibel: dit wil zeggen, vele afleiders werden door minder dan 5% van de studenten gekozen en werden dus door hen als weinig waarschijnlijk gezien. Ook Hingorjo en Jaleel (2012) stellen dat antwoordopties die door minder dan 5% van de studenten gekozen worden, niet wenselijk zijn en dienen herbekeken te worden;
- om afleiders aannemelijk te maken, worden er geregeld antwoordopties over andere delen van de bevraagde leerstof gebruikt, die zo onbedoeld als cues fungeren bij het oplossen van andere vragen (je geeft het antwoord weg, om het wat zwart-wit te stellen, eigen toevoeging);
- indien je het aantal antwoordopties beperkt per vraag, maar het totaal aantal antwoordopties hetzelfde houdt, dan kan je een grotere hoeveelheid van de cursus bevragen binnen dezelfde tijdspanne (lees, negen vragen met vier opties, vervangen door 12 vragen met drie opties, eigen toevoeging) (algemeen geldt, des te meer vragen, des te hoger de betrouwbaarheid (van Berkel et al., 2017). Ook in het artikel van Rodriguez (2005) worden een aantal betrouwbaarheidstests beschreven waarbij toetsen met vragen met drie antwoordopties de hoogste betrouwbaarheid genereerden, weer onder de voorwaarde dat het totale aantal antwoordopties voor alle vragen even hoog was (als wanneer er vier of vijf antwoordopties zouden gebruikt worden);
- studenten prefereren meerkeuzevragen met drie antwoordopties boven vier of vijf antwoordopties;
- gezien de energie en tijd die het schrijven van plausibele afleiders kost, is het maken van toetsen met drie antwoordopties meer kosten-efficiënt;
- het is belangrijk dat vragen een hoog 'onderscheidingsvermogen' (item-discrimination, Rit) hebben (discrimineren tussen studenten die de stof goed beheersen en zij die dit niet doen. Een vraag zou vooral goed moeten beantwoord worden door studenten die ook op de toets in zijn geheel goed scoren. Een minder goed teken is dan weer als er vragen zijn die vooral goed beantwoord worden door studenten die op de toets slechts scoren, van Berkel et al., 2017). De meeste resultaten wijzen in de richting van een betere item-discriminatie in geval van drie antwoordopties, sommigen wijzen eerder geen verschil in Rit aan tussen drie of vier antwoordopties (Vyas en Supe, 2008). Hingorjo & Jaleel (2012) stellen dat vragen met drie antwoordopties het beste onderscheidingsvermogen hebben;
- Er kan gesteld worden dat de raadkans kleiner wordt bij meer antwoordopties (en dus de moeilijkheid van de vraag toeneemt). Hier wordt verwezen naar de reeds aangehaalde moeilijkheid om voldoende plausibele afleiders te vinden: de kans op weinig aannemelijke afleiders neemt toe met het aantal waardoor deze slechts is weinig gevallen gaan gekozen worden en de raadkans dus onder controle wordt gehouden bij drie antwoordopties omdat de afleiders kwalitatiever zijn (dit kan gecontroleerd worden door de p-waarde van een vraag te berekenen, oftewel de waarschijnlijkheid dat studenten de vraag juist hebben. Stel, 75 van de 100 studenten hebben een vraag juist, dan is de p = 0.75. Bij een MC vraag met vier antwoordopties is de raadkans 0.25. Je berekent de optimale p door (1+0.25)/2 = 0.625. Dus als 62 van de 100 studenten de vraag juist hadden, zou de moeilijkheid optimaal zijn. Bij een vraag met twee antwoordopties is de p = (1+0.5)/2 = 0.75. Dan zou de p in ons ons voorbeeld ideaal zijn. Let wel, deze cijfers zijn 'signalen', er zijn natuurlijk andere criteria om de degelijkheid van een vraag te beoordelen of waardoor deze cijfers beïnvloed kunnen zijn, van Berkel et al., 2017).
- betreffende validiteit zijn de resultaten eerder wisselend. Rodriguez (2005) concludeerde dat er in ieder geval geen afgenomen validiteit is bij het gebruiken van drie antwoordopties vergeleken met vier of vijf. Vyas en Supe (2008) verwijzen naar onderzoek waarbij de validiteit hoger was in geval van twee afleiders, wederom doordat er dan meer vragen konden gesteld worden waardoor een groter deel van de leerstof getoetst werd en dus een hogere validiteit bekomen werd.

Bronnen

Hingorjo, M. R., & Jaleel, F. (2012). Analysis of one-best MCQs: the difficulty index, discrimination index and distractor efficiency. JPMA-Journal of the Pakistan Medical Association, 62(2), 142.

Rodriguez, M. C. (2005). Three options are optimal for multiple‐choice items: A meta‐analysis of 80 years of research. Educational Measurement: Issues and Practice, 24(2), 3-13.

van Berkel, H., Bax, A., & Joosten-ten Brinke, D. (Eds.). (2017). Toetsen in het hoger onderwijs. Houten: Bohn Stafleu van Loghum.

Vyas, R., & Supe, A. (2008). Multiple choice questions: a literature review on the optimal number of options. Natl Med J India, 21(3), 130-3.




Reacties