AI-detectors zijn niet betrouwbaar genoeg om als bewijs van iets te gebruiken. Elke grote tool die is getest produceert fout-positieven — echte menselijke tekst markeren als AI — vaak in mate die de resultaten bijna betekenisloos maakt voor individuele gevallen. Ze kunnen een startpunt zijn, maar nooit een verdict.
Toen ChatGPT eind 2022 breed beschikbaar werd, verscheen er bijna onmiddellijk een nieuwe categorie software: AI-detectors. De belofte was aantrekkelijk — plak tekst in, krijg een percentage, weet of een mens of machine het heeft geschreven. Scholen begonnen abonnementen te nemen. Ouders gingen huiswerk controleren. Werkgevers begonnen sollicitaties te screenen.
De werkelijkheid bleek veel rommeliger. Enkele jaren onderzoek en praktijkervaring hebben één ding duidelijk gemaakt: deze tools zijn echt nuttig voor het begrijpen van statistische patronen in tekst, en echt onbetrouwbaar voor het beoordelen van enig individueel stuk schrijven. Begrijpen waarom — en wat de tools eigenlijk meten — is het belangrijkste voordat je er een gebruikt.
Hoe AI-detectors werken
Elke AI-detector analyseert tekst op statistische eigenschappen die doorgaans verschillen tussen AI-output en menselijk schrijven. De twee belangrijkste signalen zijn perplexiteit en burstiness.
Perplexiteit meet hoe verrassend elke woordkeuze is, gegeven de woorden daarvoor. AI kiest doorgaans voor zeer waarschijnlijke, voorspelbare woorden. Menselijke schrijvers maken meer onverwachte keuzes — een metafoor, een spreektaalterm, een lang woord waar een kort woord zou volstaan. Lage perplexiteit duidt op machineachtige voorspelbaarheid.
Burstiness meet hoeveel de zinslengte varieert. Mensen mixen doorgaans zeer korte zinnen met langere in een ongelijkmatig ritme. AI neigt naar meer uniforme zinslengtes, vooral in formeel schrijven.
Dit zijn redelijke ideeën. Het probleem is dat veel mensen schrijven op een manier die als laag-perplexiteit en laag-burstiness scoort — zeker mensen die zorgvuldig, formeel of in het Engels als tweede taal schrijven.
Vergelijking: waar je op moet letten in een detector
De onderstaande tabel vergelijkt de belangrijkste categorieën AI-detectietools op criteria die relevant zijn voor praktisch gebruik. Er zijn geen verzonnen nauwkeurigheidspercentages opgenomen — die variëren te veel per gebruiksscenario en promptstijl om zinvol te zijn. De kwalitatieve beoordelingen weerspiegelen patronen die breed worden gerapporteerd in onafhankelijke tests en gepubliceerd onderzoek.
| Criterium | Gratis browsertools | School/LMS-integraties | API-gebaseerde tools | Open-source tools |
|---|---|---|---|---|
| Fout-positief risico op anderstalige tekst | Hoog | Hoog | Matig tot hoog | Varieert sterk |
| Fout-positief risico op formeel menselijk schrijven | Hoog | Matig tot hoog | Matig | Varieert |
| Detectie van licht bewerkte AI-tekst | Laag | Laag tot matig | Matig | Laag |
| Detectie van geparafraseerde AI-tekst | Zeer laag | Laag | Laag | Zeer laag |
| Legt uit waarom tekst is gemarkeerd | Zelden | Soms | Soms | Afhankelijk van tool |
| Auditlog / bewijsspoor | Nee | Soms | Ja | Nee |
| Kosten | Gratis | Abonnement (per school) | Betaal per gebruik | Gratis |
| Geschikt als enig bewijs van fraude | Nee | Nee | Nee | Nee |
De laatste rij is in elke categorie gelijk, omdat geen enkele tool die momenteel beschikbaar is voldoet aan de bewijsstandaard die nodig is om iemand op zichzelf te beschuldigen van academische oneerlijkheid.
Het fout-positief probleem
Fout-positieven — gevallen waarbij de detector menselijk schrijven als AI markeert — zijn de centrale faalvorm. Ze zijn goed gedocumenteerd, breed gerapporteerd en ernstig.
Sommige groepen worden vaker gemarkeerd dan andere:
Niet-native Engelstaligen schrijven in patronen die dichter bij AI-statistische signaturen liggen. Formeel vocabulaire, zorgvuldige grammatica en gestructureerde alinea's zijn allemaal eigenschappen die als laag-perplexiteit scoren.
Leerlingen die formeel schrijven voor academische opdrachten — zoals ze vaak worden geleerd te schrijven — produceren tekst die veel detectors verdacht vinden.
Schrijvers die zorgvuldig ontwerpen en bewerken neigen tot vloeiendere, meer voorspelbare tekst dan schrijvers die dingen snel neerzetten.
Er is geen manier om van buitenaf te weten of er in een gegeven geval een fout-positief optreedt. Dat is het kernprobleem. Een resultaat van "98% AI" vertelt je dat de tekst statistisch gezien op AI-gegenereerde tekst lijkt. Het vertelt je niet dat AI het heeft gegenereerd.
Wat detectors niet kunnen vatten
Moderne AI kan, wanneer gevraagd conversationeel, met onvolkomenheden of in een specifieke stijl te schrijven, tekst produceren die op bijna elke detector als volledig menselijk scoort. Iedereen die gemotiveerd is detectie te ontwijken, kan dit eenvoudig doen:
- Vraag de AI om "te schrijven als een middelbare scholier" of "het informeel te laten klinken"
- Bewerk een paar zinnen handmatig na het genereren
- Haal de tekst door een gratis parafrasetool
- Vraag de AI om zinslengtes te variëren en samentrekkingen te gebruiken
Dit betekent dat een leerling die fraude serieus neemt, waarschijnlijk niet door een detector wordt gepakt. Een leerling die niet heeft geprobeerd detectie te ontwijken, kan worden gepakt. De tools zijn uiteindelijk iets beter in het vatten van onzorgvuldig gebruik van AI dan opzettelijk misbruik.
Wat echt helpt
Voor leraren omvatten de meer duurzame aanpakken het schrijfproces in plaats van het eindproduct:
- Vraag leerlingen om concepten in meerdere fases in te leveren, niet alleen een einddocument
- Voeg schrijfcomponenten in de klas toe die de opdrachten buiten de klas weerspiegelen
- Vraag leerlingen hun werk te bespreken: welke bronnen ze hebben gebruikt, wat moeilijk was, wat ze zouden veranderen
- Let op inconsistenties tussen de mondelinge uitleg van een leerling en wat het opstel betoogt
Een leerling die AI heeft gebruikt om een opstel te schrijven, zal het doorgaans moeilijk vinden dat uit te leggen. Een leerling die het zelf heeft geschreven — zelfs met AI-hulp voor onderzoek of redactie — zal iets te zeggen hebben over zijn eigen denkproces.
Voor ouders geldt hetzelfde principe. Als je nieuwsgierig bent of je kind AI heeft gebruikt voor een opdracht, vraag dan of hij je kan uitleggen wat hij heeft gedaan. Het gesprek is informatiever dan elke detector.
Wat je daarna kunt lezen
Om te begrijpen welke patronen echt voorkomen in AI-schrijven — buiten wat een detector meet — lees dan Hoe je herkent of een tekst door AI is geschreven. Als je een praktische gids wilt voor het gesprek met je kind over AI en huiswerk, heeft Mijn kind gebruikt ChatGPT voor huiswerk — een gids voor ouders een rustige, stap-voor-stap aanpak.



