Werken AI-detectors echt?

Ze werken in de zin dat ze AI-zware tekst kunnen markeren — maar ze markeren ook veel menselijke tekst. Geen enkele detector is nauwkeurig genoeg om als enig bewijs te gebruiken dat iemand heeft gefraudeerd.

Welke AI-detector is het meest nauwkeurig?

Geen onafhankelijke, grootschalige studie heeft een consistente meest nauwkeurige detector gevonden. Alle geteste tools tonen betekenisvolle fout-positief-percentages. We raden aan elk resultaat te behandelen als aanleiding voor een gesprek, niet als conclusie.

Kunnen AI-detectors worden misleid?

Ja, makkelijk. AI vragen om informeel te herschrijven, een paar zinnen bewerken of output door een parafrasetool halen, verlaagt de detectiescore doorgaans aanzienlijk.

Waarom markeren detectors niet-native Engelstaligen?

Niet-native sprekers schrijven vaak in een formele, zorgvuldige, gestructureerde stijl — die overeenkomt met de statistische patronen die detectors zoeken. Dit is een van de meest gedocumenteerde en ernstige problemen met huidige tools.

Moeten scholen AI-detectors gebruiken om fraude te ontdekken?

Niet als primaire tool. Een detectieresultaat dat als bewijs wordt genomen zonder gesprek of andere context is oneerlijk voor leerlingen en leidt waarschijnlijk tot onterechte beschuldigingen.

AI-detectors getest: nauwkeurigheid, fout-positieven en wat leraren moeten weten

Toen ChatGPT eind 2022 breed beschikbaar werd, verscheen er bijna onmiddellijk een nieuwe categorie software: AI-detectors. De belofte was aantrekkelijk — plak tekst in, krijg een percentage, weet of een mens of machine het heeft geschreven. Scholen begonnen abonnementen te nemen. Ouders gingen huiswerk controleren. Werkgevers begonnen sollicitaties te screenen.

De werkelijkheid bleek veel rommeliger. Enkele jaren onderzoek en praktijkervaring hebben één ding duidelijk gemaakt: deze tools zijn echt nuttig voor het begrijpen van statistische patronen in tekst, en echt onbetrouwbaar voor het beoordelen van enig individueel stuk schrijven. Begrijpen waarom — en wat de tools eigenlijk meten — is het belangrijkste voordat je er een gebruikt.

Hoe AI-detectors werken

Elke AI-detector analyseert tekst op statistische eigenschappen die doorgaans verschillen tussen AI-output en menselijk schrijven. De twee belangrijkste signalen zijn perplexiteit en burstiness.

Perplexiteit meet hoe verrassend elke woordkeuze is, gegeven de woorden daarvoor. AI kiest doorgaans voor zeer waarschijnlijke, voorspelbare woorden. Menselijke schrijvers maken meer onverwachte keuzes — een metafoor, een spreektaalterm, een lang woord waar een kort woord zou volstaan. Lage perplexiteit duidt op machineachtige voorspelbaarheid.

Burstiness meet hoeveel de zinslengte varieert. Mensen mixen doorgaans zeer korte zinnen met langere in een ongelijkmatig ritme. AI neigt naar meer uniforme zinslengtes, vooral in formeel schrijven.

Dit zijn redelijke ideeën. Het probleem is dat veel mensen schrijven op een manier die als laag-perplexiteit en laag-burstiness scoort — zeker mensen die zorgvuldig, formeel of in het Engels als tweede taal schrijven.

Vergelijking: waar je op moet letten in een detector

De onderstaande tabel vergelijkt de belangrijkste categorieën AI-detectietools op criteria die relevant zijn voor praktisch gebruik. Er zijn geen verzonnen nauwkeurigheidspercentages opgenomen — die variëren te veel per gebruiksscenario en promptstijl om zinvol te zijn. De kwalitatieve beoordelingen weerspiegelen patronen die breed worden gerapporteerd in onafhankelijke tests en gepubliceerd onderzoek.

Criterium	Gratis browsertools	School/LMS-integraties	API-gebaseerde tools	Open-source tools
Fout-positief risico op anderstalige tekst	Hoog	Hoog	Matig tot hoog	Varieert sterk
Fout-positief risico op formeel menselijk schrijven	Hoog	Matig tot hoog	Matig	Varieert
Detectie van licht bewerkte AI-tekst	Laag	Laag tot matig	Matig	Laag
Detectie van geparafraseerde AI-tekst	Zeer laag	Laag	Laag	Zeer laag
Legt uit waarom tekst is gemarkeerd	Zelden	Soms	Soms	Afhankelijk van tool
Auditlog / bewijsspoor	Nee	Soms	Ja	Nee
Kosten	Gratis	Abonnement (per school)	Betaal per gebruik	Gratis
Geschikt als enig bewijs van fraude	Nee	Nee	Nee	Nee

De laatste rij is in elke categorie gelijk, omdat geen enkele tool die momenteel beschikbaar is voldoet aan de bewijsstandaard die nodig is om iemand op zichzelf te beschuldigen van academische oneerlijkheid.

Het fout-positief probleem

Fout-positieven — gevallen waarbij de detector menselijk schrijven als AI markeert — zijn de centrale faalvorm. Ze zijn goed gedocumenteerd, breed gerapporteerd en ernstig.

Sommige groepen worden vaker gemarkeerd dan andere:

Niet-native Engelstaligen schrijven in patronen die dichter bij AI-statistische signaturen liggen. Formeel vocabulaire, zorgvuldige grammatica en gestructureerde alinea's zijn allemaal eigenschappen die als laag-perplexiteit scoren.

Leerlingen die formeel schrijven voor academische opdrachten — zoals ze vaak worden geleerd te schrijven — produceren tekst die veel detectors verdacht vinden.

Schrijvers die zorgvuldig ontwerpen en bewerken neigen tot vloeiendere, meer voorspelbare tekst dan schrijvers die dingen snel neerzetten.

Er is geen manier om van buitenaf te weten of er in een gegeven geval een fout-positief optreedt. Dat is het kernprobleem. Een resultaat van "98% AI" vertelt je dat de tekst statistisch gezien op AI-gegenereerde tekst lijkt. Het vertelt je niet dat AI het heeft gegenereerd.

Wat detectors niet kunnen vatten

Moderne AI kan, wanneer gevraagd conversationeel, met onvolkomenheden of in een specifieke stijl te schrijven, tekst produceren die op bijna elke detector als volledig menselijk scoort. Iedereen die gemotiveerd is detectie te ontwijken, kan dit eenvoudig doen:

Vraag de AI om "te schrijven als een middelbare scholier" of "het informeel te laten klinken"
Bewerk een paar zinnen handmatig na het genereren
Haal de tekst door een gratis parafrasetool
Vraag de AI om zinslengtes te variëren en samentrekkingen te gebruiken

Dit betekent dat een leerling die fraude serieus neemt, waarschijnlijk niet door een detector wordt gepakt. Een leerling die niet heeft geprobeerd detectie te ontwijken, kan worden gepakt. De tools zijn uiteindelijk iets beter in het vatten van onzorgvuldig gebruik van AI dan opzettelijk misbruik.

Wat echt helpt

Voor leraren omvatten de meer duurzame aanpakken het schrijfproces in plaats van het eindproduct:

Vraag leerlingen om concepten in meerdere fases in te leveren, niet alleen een einddocument
Voeg schrijfcomponenten in de klas toe die de opdrachten buiten de klas weerspiegelen
Vraag leerlingen hun werk te bespreken: welke bronnen ze hebben gebruikt, wat moeilijk was, wat ze zouden veranderen
Let op inconsistenties tussen de mondelinge uitleg van een leerling en wat het opstel betoogt

Een leerling die AI heeft gebruikt om een opstel te schrijven, zal het doorgaans moeilijk vinden dat uit te leggen. Een leerling die het zelf heeft geschreven — zelfs met AI-hulp voor onderzoek of redactie — zal iets te zeggen hebben over zijn eigen denkproces.

Voor ouders geldt hetzelfde principe. Als je nieuwsgierig bent of je kind AI heeft gebruikt voor een opdracht, vraag dan of hij je kan uitleggen wat hij heeft gedaan. Het gesprek is informatiever dan elke detector.

Wat je daarna kunt lezen

Om te begrijpen welke patronen echt voorkomen in AI-schrijven — buiten wat een detector meet — lees dan Hoe je herkent of een tekst door AI is geschreven. Als je een praktische gids wilt voor het gesprek met je kind over AI en huiswerk, heeft Mijn kind gebruikt ChatGPT voor huiswerk — een gids voor ouders een rustige, stap-voor-stap aanpak.

AI-detectors getest: nauwkeurigheid, fout-positieven en wat leraren moeten weten

Veelgestelde vragen

Lees verder