AI detektory skutečně fungují?

Fungují v tom smyslu, že mohou označit text s vysokým podílem AI — ale označují také hodně lidských textů. Žádný detektor není dostatečně přesný, aby sloužil jako jediný důkaz toho, že někdo podváděl.

Který AI detektor je nejpřesnější?

Žádná nezávislá rozsáhlá studie nenašla konzistentně nejpřesnější detektor. Všechny testované nástroje vykazují smysluplné míry falešně pozitivních výsledků. Doporučujeme považovat jakýkoli výsledek za podnět k rozhovoru, ne za závěr.

Dají se AI detektory oklamat?

Ano, snadno. Požádat AI o přepsání v neformálním tónu, upravit pár vět nebo prohnat výstup nástrojem pro parafrázování typicky výrazně sníží skóre detekce.

Proč detektory označují nerodilé mluvčí?

Nerodilí mluvčí often píší formálně, pečlivě a strukturovaně — což odpovídá statistickým vzorům, které detektory hledají. Jde o jeden z nejlépe zdokumentovaných a nejzávažnějších problémů současných nástrojů.

Měly by školy používat AI detektory k odhalování podvádění?

Ne jako primární nástroj. Výsledek detektoru považovaný za důkaz bez rozhovoru nebo jiného kontextu je vůči žákům nespravedlivý a pravděpodobně povede k neodůvodněným obviněním.

AI detektory otestovány: přesnost, falešné poplachy a co by měli vědět učitelé

Když se koncem roku 2022 ChatGPT stal široce dostupným, téměř okamžitě se objevila nová kategorie softwaru: AI detektory. Příslib byl lákavý — vložte text, dostanete procento a víte, zda ho napsal člověk nebo stroj. Školy začaly platit předplatné. Rodiče začali kontrolovat domácí úkoly. Zaměstnavatelé začali prohledávat žádosti o práci.

Realita se ukázala být mnohem chaotičtější. Několik let výzkumu a reálného použití dospělo k jednomu závěru: tyto nástroje jsou skutečně užitečné pro pochopení statistických vzorů v textu a skutečně nespolehlivé pro posuzování jakéhokoli jednotlivého textu. Pochopit proč — a co tyto nástroje vlastně měří — je nejdůležitější věc před jejich použitím.

Jak AI detektory fungují

Každý AI detektor analyzuje text na statistické vlastnosti, které se typicky liší mezi AI výstupem a lidským psaním. Dva hlavní signály jsou perplexita a burstiness (trhavost).

Perplexita měří, jak překvapivá je každá volba slova vzhledem ke slovům před ním. AI má tendenci volit vysoce pravděpodobná, předvídatelná slova. Lidé dělají nečekanější volby — metaforu, slangový výraz, dlouhé slovo tam, kde by krátkost stačila. Nízká perplexita naznačuje strojovou předvídatelnost.

Burstiness měří, jak moc se délka vět liší. Lidé mají tendenci mísit velmi krátké věty s delšími v nerovnoměrném rytmu. AI má tendenci k uniformnějším délkám vět, zvláště ve formálním psaní.

Jde o rozumné nápady. Problém je, že mnoho lidí píše způsoby, které jsou vyhodnoceny jako nízká perplexita a nízká burstiness — zvláště lidé, kteří píší pečlivě, formálně nebo v jiném jazyce, než je jejich mateřština.

Srovnání: na co se u detektoru zaměřit

Níže uvedená tabulka porovnává hlavní kategorie nástrojů pro detekci AI podle kritérií důležitých pro praktické použití. Neobsahuje vymyšlená procenta přesnosti — ta se příliš liší podle případu užití a stylu promptu, aby byla smysluplná. Kvalitativní hodnocení odráží vzory široce hlášené v nezávislém testování a publikovaném výzkumu.

Kritérium	Bezplatné prohlížečové nástroje	Integrace pro školy / LMS	Nástroje přes API	Open-source nástroje
Riziko falešných poplachů u nerodilých mluvčích	Vysoké	Vysoké	Střední až vysoké	Různé
Riziko falešných poplachů u formálního lidského textu	Vysoké	Střední až vysoké	Střední	Různé
Detekce lehce upraveného AI textu	Nízká	Nízká až střední	Střední	Nízká
Detekce parafrázovaného AI textu	Velmi nízká	Nízká	Nízká	Velmi nízká
Vysvětluje, proč text označil	Zřídka	Někdy	Někdy	Záleží na nástroji
Auditní záznamy / stopa důkazů	Ne	Někdy	Ano	Ne
Cena	Zdarma	Předplatné (na školu)	Platba za použití	Zdarma
Vhodné jako jediný důkaz podvádění	Ne	Ne	Ne	Ne

Poslední řádek je stejný ve všech kategoriích, protože žádný aktuálně dostupný nástroj nesplňuje standard důkazů potřebných k tomu, aby mohl sám o sobě sloužit jako základ pro obvinění z akademické nepoctivosti.

Problém falešně pozitivních výsledků

Falešně pozitivní výsledky — případy, kdy detektor označí lidský text jako AI — jsou centrálním selháním. Jsou dobře zdokumentované, široce hlášené a závažné.

Některé skupiny mají vyšší pravděpodobnost označení:

Nerodilí mluvčí píší vzory, které statisticky více odpovídají AI signaturám. Formální slovník, pečlivá gramatika a strukturované odstavce jsou vlastnosti, které jsou skórovány jako nízká perplexita.

Žáci, kteří píší formálně pro akademické úkoly — tak, jak jsou often učeni psát — produkují text, který mnoho detektorů považuje za podezřelý.

Pisatelé, kteří pečlivě koncipují a editují, mají tendenci produkovat hladší, předvídatelnější text než ti, kteří text napíší rychle.

Z vnějšku není možné poznat, zda v daném případě dochází k falešně pozitivnímu výsledku. To je základní problém. Výsledek „98 % AI" říká, že text je statisticky podobný AI generovanému textu. Neříká vám, že ho AI vygenerovala.

Co detektory nedokáží odhalit

Moderní AI, požádaná o psaní konverzačně, s nedokonalostmi nebo ve stylu konkrétní osoby, dokáže produkovat text, který je téměř každým detektorem hodnocen jako plně lidský. Kdokoli motivovaný k vyhnutí se detekci to může snadno udělat:

Požádat AI, aby „psala jako středoškolský student" nebo „zněla neformálně"
Ručně upravit pár vět po vygenerování
Prohnat text bezplatným nástrojem pro parafrázování
Požádat AI o variace délek vět a zahrnutí stažených tvarů

To znamená, že žák, který podvádění bere vážně, pravděpodobně nebude detektorem chycen. Žák, který se detekci nepokusil vyhnout, chycen být může. Nástroje nakonec lépe odhalují neopatrné použití AI než záměrné zneužití.

Co skutečně pomáhá

Pro učitele jsou trvalejší přístupy zaměřeny na proces psaní, ne na výsledný produkt:

Žádejte žáky o odevzdání konceptů ve více fázích, ne jen finálního dokumentu
Zařaďte komponenty psaní ve třídě, které odpovídají domácím úkolům
Žádejte žáky, aby diskutovali o své práci: jaké zdroje použili, co bylo obtížné, co by změnili
Hledejte nesrovnalosti mezi ústním vysvětlením žáka a tím, co esej argumentuje

Žák, který nechal esej napsat AI, bude mít typicky potíže ji vysvětlit. Žák, který ji napsal — třeba i s pomocí AI při výzkumu nebo úpravě — bude mít co říct o svém myšlenkovém procesu.

Pro rodiče platí stejný princip. Pokud vás zajímá, zda vaše dítě použilo AI na úkol, požádejte ho, aby vám ukázalo, co dělalo. Rozhovor je informativnější než jakýkoli detektor.

Co zkusit dál

Chcete-li pochopit, jaké vzory se skutečně objevují v AI textu — nad rámec toho, co detektor měří — přečtěte si Jak poznat, jestli text napsal AI. Pokud chcete praktického průvodce pro rozhovor s dítětem o AI a domácích úkolech, Moje dítě používá ChatGPT na domácí úkoly — průvodce pro rodiče nabízí klidný přístup krok za krokem.

AI detektory otestovány: přesnost, falešné poplachy a co by měli vědět učitelé

Nejčastější otázky

Číst dál