AI detektory nejsou dostatečně spolehlivé, aby sloužily jako důkaz čehokoli. Každý hlavní testovaný nástroj produkuje falešně pozitivní výsledky — označuje skutečné lidské texty jako AI — often v míře, která výsledky pro jednotlivé případy staví téměř na náhodu. Mohou být výchozím bodem, ale nikdy verdiktem.
Když se koncem roku 2022 ChatGPT stal široce dostupným, téměř okamžitě se objevila nová kategorie softwaru: AI detektory. Příslib byl lákavý — vložte text, dostanete procento a víte, zda ho napsal člověk nebo stroj. Školy začaly platit předplatné. Rodiče začali kontrolovat domácí úkoly. Zaměstnavatelé začali prohledávat žádosti o práci.
Realita se ukázala být mnohem chaotičtější. Několik let výzkumu a reálného použití dospělo k jednomu závěru: tyto nástroje jsou skutečně užitečné pro pochopení statistických vzorů v textu a skutečně nespolehlivé pro posuzování jakéhokoli jednotlivého textu. Pochopit proč — a co tyto nástroje vlastně měří — je nejdůležitější věc před jejich použitím.
Jak AI detektory fungují
Každý AI detektor analyzuje text na statistické vlastnosti, které se typicky liší mezi AI výstupem a lidským psaním. Dva hlavní signály jsou perplexita a burstiness (trhavost).
Perplexita měří, jak překvapivá je každá volba slova vzhledem ke slovům před ním. AI má tendenci volit vysoce pravděpodobná, předvídatelná slova. Lidé dělají nečekanější volby — metaforu, slangový výraz, dlouhé slovo tam, kde by krátkost stačila. Nízká perplexita naznačuje strojovou předvídatelnost.
Burstiness měří, jak moc se délka vět liší. Lidé mají tendenci mísit velmi krátké věty s delšími v nerovnoměrném rytmu. AI má tendenci k uniformnějším délkám vět, zvláště ve formálním psaní.
Jde o rozumné nápady. Problém je, že mnoho lidí píše způsoby, které jsou vyhodnoceny jako nízká perplexita a nízká burstiness — zvláště lidé, kteří píší pečlivě, formálně nebo v jiném jazyce, než je jejich mateřština.
Srovnání: na co se u detektoru zaměřit
Níže uvedená tabulka porovnává hlavní kategorie nástrojů pro detekci AI podle kritérií důležitých pro praktické použití. Neobsahuje vymyšlená procenta přesnosti — ta se příliš liší podle případu užití a stylu promptu, aby byla smysluplná. Kvalitativní hodnocení odráží vzory široce hlášené v nezávislém testování a publikovaném výzkumu.
| Kritérium | Bezplatné prohlížečové nástroje | Integrace pro školy / LMS | Nástroje přes API | Open-source nástroje |
|---|---|---|---|---|
| Riziko falešných poplachů u nerodilých mluvčích | Vysoké | Vysoké | Střední až vysoké | Různé |
| Riziko falešných poplachů u formálního lidského textu | Vysoké | Střední až vysoké | Střední | Různé |
| Detekce lehce upraveného AI textu | Nízká | Nízká až střední | Střední | Nízká |
| Detekce parafrázovaného AI textu | Velmi nízká | Nízká | Nízká | Velmi nízká |
| Vysvětluje, proč text označil | Zřídka | Někdy | Někdy | Záleží na nástroji |
| Auditní záznamy / stopa důkazů | Ne | Někdy | Ano | Ne |
| Cena | Zdarma | Předplatné (na školu) | Platba za použití | Zdarma |
| Vhodné jako jediný důkaz podvádění | Ne | Ne | Ne | Ne |
Poslední řádek je stejný ve všech kategoriích, protože žádný aktuálně dostupný nástroj nesplňuje standard důkazů potřebných k tomu, aby mohl sám o sobě sloužit jako základ pro obvinění z akademické nepoctivosti.
Problém falešně pozitivních výsledků
Falešně pozitivní výsledky — případy, kdy detektor označí lidský text jako AI — jsou centrálním selháním. Jsou dobře zdokumentované, široce hlášené a závažné.
Některé skupiny mají vyšší pravděpodobnost označení:
Nerodilí mluvčí píší vzory, které statisticky více odpovídají AI signaturám. Formální slovník, pečlivá gramatika a strukturované odstavce jsou vlastnosti, které jsou skórovány jako nízká perplexita.
Žáci, kteří píší formálně pro akademické úkoly — tak, jak jsou often učeni psát — produkují text, který mnoho detektorů považuje za podezřelý.
Pisatelé, kteří pečlivě koncipují a editují, mají tendenci produkovat hladší, předvídatelnější text než ti, kteří text napíší rychle.
Z vnějšku není možné poznat, zda v daném případě dochází k falešně pozitivnímu výsledku. To je základní problém. Výsledek „98 % AI" říká, že text je statisticky podobný AI generovanému textu. Neříká vám, že ho AI vygenerovala.
Co detektory nedokáží odhalit
Moderní AI, požádaná o psaní konverzačně, s nedokonalostmi nebo ve stylu konkrétní osoby, dokáže produkovat text, který je téměř každým detektorem hodnocen jako plně lidský. Kdokoli motivovaný k vyhnutí se detekci to může snadno udělat:
- Požádat AI, aby „psala jako středoškolský student" nebo „zněla neformálně"
- Ručně upravit pár vět po vygenerování
- Prohnat text bezplatným nástrojem pro parafrázování
- Požádat AI o variace délek vět a zahrnutí stažených tvarů
To znamená, že žák, který podvádění bere vážně, pravděpodobně nebude detektorem chycen. Žák, který se detekci nepokusil vyhnout, chycen být může. Nástroje nakonec lépe odhalují neopatrné použití AI než záměrné zneužití.
Co skutečně pomáhá
Pro učitele jsou trvalejší přístupy zaměřeny na proces psaní, ne na výsledný produkt:
- Žádejte žáky o odevzdání konceptů ve více fázích, ne jen finálního dokumentu
- Zařaďte komponenty psaní ve třídě, které odpovídají domácím úkolům
- Žádejte žáky, aby diskutovali o své práci: jaké zdroje použili, co bylo obtížné, co by změnili
- Hledejte nesrovnalosti mezi ústním vysvětlením žáka a tím, co esej argumentuje
Žák, který nechal esej napsat AI, bude mít typicky potíže ji vysvětlit. Žák, který ji napsal — třeba i s pomocí AI při výzkumu nebo úpravě — bude mít co říct o svém myšlenkovém procesu.
Pro rodiče platí stejný princip. Pokud vás zajímá, zda vaše dítě použilo AI na úkol, požádejte ho, aby vám ukázalo, co dělalo. Rozhovor je informativnější než jakýkoli detektor.
Co zkusit dál
Chcete-li pochopit, jaké vzory se skutečně objevují v AI textu — nad rámec toho, co detektor měří — přečtěte si Jak poznat, jestli text napsal AI. Pokud chcete praktického průvodce pro rozhovor s dítětem o AI a domácích úkolech, Moje dítě používá ChatGPT na domácí úkoly — průvodce pro rodiče nabízí klidný přístup krok za krokem.



