Het mag sommigen vreemd in de oren klinken, maar an sich stelt een centrale toets weinig voor. De interpretatie en vooral het gebruik van de resultaten kunnen echter een wereld van verschil maken. Een toets heeft an sich weinig impact: het zijn het gebruik en de interpretatie van de toetsresultaten door mensen die alles veranderen. Het woord “stakeholder” mag in dit verband letterlijk genomen worden: de gebruikers bepalen de “stakes”.
Neem het voorbeeld van een centrale toets begrijpend lezen die in opdracht van een overheid door een universitair consortium aan een school ter beschikking wordt gesteld. Stel u de volgende 2 situaties voor: (1) Een leerling krijgt op een vrijdagnamiddag de opdracht de toets af te werken; de toets is digitaal en genereert een automatische score. Een leraar kijkt naar het resultaat en registreert het als een bevestiging van wat hij uit eerdere evaluaties zelf al opmerkte. De leerling krijgt een melding van zijn score. That’s it. (2) Een school heeft dezelfde toets van al haar leerlingen in het vierde jaar afgenomen, de resultaten worden automatisch digitaal geregistreerd in een overheidsdatabank. Op basis van de resultaten worden scholen publiek gerangschikt. De resultaten worden in de kranten breed uitgesmeerd en door een groot gedeelte van de lezers beschouwd als een objectieve indicator van de onderwijskwaliteit van de school. Same test, completely different use. Same test, completely different impact.
Het is de tweede situatie die centrale toetsen bij sommige stakeholders in het internationale onderwijslandschap een kwalijke reputatie heeft bezorgd. De publieke ranking van scholen op basis van centrale toetsen kan – zo toont onderzoek – negatieve gevolgen hebben voor de perceptie van sommige scholen, de recrutering van leraren in slecht scorende scholen, de stigmatisering van bepaalde leerlingengroepen (met achtergrondkenmerken die gelinkt worden aan tegenvallende prestaties), het uitdiepen van de sociale kloof in het onderwijs, een toename van een vorm van “teaching to the test” die tot een verenging van het curriculum leidt… Maar, nogmaals, dat zijn geen inherent kenmerken van centrale toetsen, alles vloeit voort uit een bepaalde aanwending ervan. Dat geldt ook voor de – eveneens aangetoonde – positieve effecten van centrale toetsen: zo kunnen ze voor leraren werken als uitgewerkte voorbeelden van hoe bepaalde competenties geëvalueerd kunnen worden en die leraren inspireren om op een gelijkaardige manier dezelfde competentie op andere momenten op te volgen. Evenzeer kunnen de resultaten schoolteams aan het denken zetten over de kwaliteit van het onderwijs in de desbetreffende competenties of kunnen ze leerlingen meer inzicht verschaffen in wat ze al goed kunnen en wat niet. Er bestaat ook zoiets als een positief “teaching to the test”-effect: als leraren zich dankzij de testafname bewust worden van het belang van de geteste competentie in het curriculum en zich realiseren dat die competentie cruciaal is maar zij die in hun onderwijs stiefmoederlijk hebben behandeld, dan kan dat ertoe leiden dat de competentie terug meer gerichte aandacht in het onderwijs krijgt.
Een toets is overigens ook niet valide, betrouwbaar of effectief an sich. Een centrale toets begrijpend lezen kan leiden tot een valide en betrouwbare meting van een begrijpend-leesprestatie op een welbepaald moment. Diezelfde toets zal zich echter veel minder lenen tot een valide en betrouwbare opvolging van de ontwikkeling van begrijpend-leesvaardigheid van dezelfde leerlingen (want dat vereist diverse evaluatiemomenten gespreid in de tijd), noch van de spreekvaardigheid of algemene taalvaardigheid van dezelfde leerlingen. Eén afname van één centrale toets blijft dus, zowel qua scope als qua zeggingskracht, beperkt.
Het is dus vooral opletten geblazen voor gratuite uitspraken als “centrale toetsen leiden tot de verhoging van de onderwijskwaliteit” of “centrale toetsen leiden tot leerwinst” of “centrale toetsen zijn slecht”. Hier wordt niet kort door de bocht gegaan, hier wordt de bocht gewoon afgesneden. Bijvoorbeeld, opdat een centrale toets ook maar een luttele bijdrage levert tot leerwinst bij een groep leerlingen, moeten er heel wat tussenstations genomen worden, waaronder: het schoolteam integreert de resultaten van de centrale toets met andere relevante observaties die een bredere evaluatie en interpretatie van de desbetreffende competenties, en de ontwikkeling ervan, bij haar leerlingen toelaat; het schoolteam gebruikt de resultaten van die brede evaluatie om in de spiegel te kijken en zich te beraden over de kwaliteit van haar huidige onderwijs van de desbetreffende competenties; het schoolteam zoekt naar manieren om de kwaliteit van het onderwijs van de desbetreffende competenties te verhogen en vindt die ook; het schoolteam slaagt erin om die manieren systematisch in de klas te implementeren; de leerlingen komen onder invloed van die onderwijsverbetering tot beter leren; de toename in ontwikkeling wordt zichtbaar via bepaalde evaluatiemethoden. Een performant evaluatiebeleid – met niet alleen een summatief maar vooral ook sterk uitgewerkt formatief luik – vormt dus wel degelijk een cruciaal onderdeel van een sterk kwaliteitszorgbeleid in scholen, en centrale toetsen kunnen een bijdrage leveren (als een van de vele elementen) in dat performant evaluatiebeleid, maar centrale toetsen leiden niet helemaal in hun eentje – en al zeker niet automatisch – tot hogere onderwijskwaliteit.
Conclusie: Bij de introductie van centrale toetsen in eender welk segment van een onderwijssysteem is het wijs om het bedoeld gebruik ervan, en de bedoelde interpretatie van de resultaten, zeer grondig te overdenken, bepalen, communiceren en bewaken. Zoals Shohamy in haar vermaarde publicaties over de “power of testing” jaren geleden al aangaf, sluit dat niet uit dat er onbedoelde gebruiken en interpretaties in het verhaal sluipen, maar dan is tenminste duidelijk wat initieel de expliciete bedoeling van de centrale toetsen was.