High-stakes test voor inburgeraars: haast en spoed is niet goed

Onderzoekers van het Centrum voor Taal en Onderwijs (KU Leuven), onderwijskoepels, -ondersteuners en centra voor volwassenonderwijs/basiseducatie (LIGO) hebben hun ernstige bezorgdheid geuit over de spoed waarmee de Vlaamse regering de verplichte taaltest voor inburgeraars wil invoeren. Dat de verplichte test er komt en civiel effect zal hebben, is een politieke beslissing. Zeker omdat de stakes hoog zijn, is het van het grootste belang dat de test met de grootste methodologische zorgvuldigheid wordt ontwikkeld, zodat de testafnames leiden tot eerlijke, betrouwbare en valide resultaten.

Bij de ontwikkeling van een hoog-kwalitatieve centrale test worden de volgende fasen gevolgd:

Testdesign: In deze fase wordt het testconstruct afgebakend. Daarbij worden de kennis, vaardigheden, attitudes en/of competenties die geëvalueerd moeten worden, zo helder mogelijk beschreven en geoperationaliseerd. Ook het doel van het evaluatie-instrument en het domein waarin het instrument wordt ingezet, wordt bepaald. Bij een taaltoets kan een relatering aan het ERK deel uitmaken van deze fase. Op basis van het testconstruct wordt een toetsmatrijs opgesteld, die toont hoe toetstaken aan het testconstruct kunnen worden gekoppeld.

Taakontwikkeling: Op basis van de vorige stap ontwikkelen toetsontwikkelaars verschillende taken en doen voorstellen voor de beoordeling ervan. Om de kwaliteit van deze taken en beoordelingssleutels te garanderen, wordt feedback vanuit verschillende perspectieven en in verschillende rondes verzameld, bijvoorbeeld van onderwijsprofessionals en toetsexperten.

Pilootafname: In een eerste proefafname wordt nagegaan hoe leerlingen/cursisten reageren op de ontwikkelde taken, door hen te observeren tijdens de toetsafname, door hen erover te bevragen en door de hen de toets te laten maken en de resultaten te analyseren. Deze ronde leidt tot een verdere verbetering van de toets.

Afname bij representatieve steekproef: De toetsopgaven worden voorgelegd aan een representatieve steekproef van leerlingen/cursisten.

Data-analyse: De resultaten van de afname worden uitvoerig geanalyseerd. De degelijkheid van de toets als geheel en van elk item (en de beoordeling ervan) worden nagegaan. Voor de toets als geheel wordt onder andere de betrouwbaarheid geanalyseerd. Voor de verschillende opgaven wordt gekeken naar de moeilijkheid en het onderscheidend vermogen. Bij de “kalibratie” worden items uit verschillende onderdelen van de toets geankerd op een gemeenschappelijke moeilijkheidsschaal. Bij een taalvaardigheidstoets die opgebouwd is uit een set van gekalibreerde items geven de toetsscores een indicatie van de plaats van kandidaten op de schaal en bijgevolg een indicatie van de taalvaardigheid van die kandidaten. Daarnaast maakt een kalibratieonderzoek het mogelijk om na te gaan of de toets bias bevat, d.w.z. een vertekend beeld geeft omdat bepaalde groepen van kandidaten systematisch en onbedoeld bevoor- of benadeeld worden.  

Instrumentsamenstelling: Op basis van bovenstaande analyses wordt een definitieve toets met bijbehorend beoordelingsmodel samengesteld. Inhoudelijke, praktische en psychometrische eisen spelen hierbij een rol.

Cesuur/Normbepaling: Een score op een toets krijgt pas betekenis als deze afgezet wordt tegenover een norm of cesuur. Deze normering gebeurt steeds in samenspraak met relevante onderwijsprofessionals en toetsexperten. Er zijn twee soorten normeringen: relatieve en absolute. Bij een relatieve normering wordt de score van een persoon afgezet tegen de scores van anderen. Bij een absolute normering worden scores vergeleken met een gewenst beheersingsniveau. Afhankelijk van de doelen van een toets wordt een van beide normeringen, of zelfs voor een combinatie hiervan gekozen. De cesuur bepaalt waar de grens tussen slagen en niet slagen ligt.

Vrijgave en communicatie met afnemers: Een zorgvuldige communicatie moet bij vrijgave worden opgezet met de afnemers zodat zij de test gebruiken zoals die is bedoeld. Dat kan via een handleiding, nascholingen, informatiesessies, kennisclips en/of een helpdesk. Als de afname of beoordeling bepaalde competenties van onderwijsgevenden of toetsafnemers vereisen, moet worden gecontroleerd of die wel verworven zijn.

De mate waarin alle bovenstaande fasen zorgvuldig worden doorlopen, heeft een impact op het aantal “valse positieven” (mensen die slagen voor de toets terwijl ze niet over de getoetste competenties beschikken) en “valse negatieven” (mensen die niet slagen voor de toets terwijl ze wel over de getoetste competenties beschikken). Tevens kan het een impact hebben op het draagvlak van de test in het afnemend veld en op “washbackeffecten” (effecten van de toetsafname op het onderwijs dat erop volgt of eraan voorafgaat).

Terug naar de verplichte taaltest voor inburgeraars: de bovenvermelde onderwijspartners en onderzoekers vrezen dat het tijdspad dat de Vlaamse regering momenteel hanteert, onvoldoende ruimte laat voor een gedegen kalibratie-onderzoek. Die bezorgdheid kan best ernstig genomen worden, want het gaat om een cruciale fase in de testontwikkeling, vooral omdat tijdens de fase van de pilootafname duidelijke werkpunten werden vastgesteld. Zonder een degelijk kalibratie-onderzoek sluipt er willekeur in de interpretatie van de testresultaten. Wie het meent met de kwaliteit van het onderwijs, kan dat dus maar beter ook doen voor de kwaliteit van alle centrale toetsen die worden ingezet.

Plaats een reactie