Czy detektory AI faktycznie działają?

Działają w tym sensie, że mogą oznaczać tekst zawierający dużo AI — ale oznaczają też sporo ludzkiego tekstu. Żaden detektor nie jest wystarczająco dokładny, by używać go jako jedynego dowodu na to, że ktoś ściągał.

Który detektor AI jest najdokładniejszy?

Żadne niezależne, zakrojone na szeroką skalę badanie nie znalazło konsekwentnie najdokładniejszego detektora. Wszystkie testowane narzędzia wykazują znaczące wskaźniki fałszywych trafień. Zalecamy traktowanie każdego wyniku jako zachęty do rozmowy, nie jako wniosku.

Czy można oszukać detektory AI?

Tak, łatwo. Poproszenie AI o przepisanie w potocznym tonie, edytowanie kilku zdań lub przepuszczenie wyniku przez narzędzie do parafrazowania zazwyczaj znacząco obniża wynik wykrywania.

Dlaczego detektory oznaczają nienatywnych użytkowników języka angielskiego?

Nienatywni użytkownicy języka często piszą w formalnym, starannym, ustrukturyzowanym stylu — co pasuje do wzorców statystycznych, których szukają detektory. To jeden z najbardziej udokumentowanych i poważnych problemów z obecnymi narzędziami.

Czy szkoły powinny używać detektorów AI do łapania ściągania?

Nie jako podstawowego narzędzia. Wynik detektora traktowany jako dowód bez rozmowy lub innego kontekstu jest niesprawiedliwy wobec uczniów i prawdopodobnie doprowadzi do błędnych oskarżeń.

Narzędzia do wykrywania AI przetestowane: dokładność, fałszywe trafienia i co powinni wiedzieć nauczyciele

Gdy ChatGPT stał się powszechnie dostępny pod koniec 2022 roku, niemal natychmiast pojawiła się nowa kategoria oprogramowania: detektory AI. Obietnica była kusząca — wklej tekst, uzyskaj wynik procentowy, dowiedz się, czy napisał go człowiek czy maszyna. Szkoły zaczęły subskrybować. Rodzice zaczęli sprawdzać zadania domowe. Pracodawcy zaczęli prześwietlać podania o pracę.

Rzeczywistość okazała się znacznie bardziej skomplikowana. Kilka lat badań i prawdziwego użytkowania wyjaśniło jedną rzecz: narzędzia te są naprawdę przydatne do rozumienia wzorców statystycznych w tekście i naprawdę zawodne do oceniania pojedynczego tekstu. Zrozumienie dlaczego — i co narzędzia faktycznie mierzą — jest najważniejszą rzeczą przed użyciem któregokolwiek z nich.

Jak działają detektory AI

Każdy detektor AI analizuje tekst pod kątem właściwości statystycznych, które zazwyczaj różnią się między wynikami AI a ludzkim pisaniem. Dwa główne sygnały to perplexity (zaskoczenie) i burstiness (zmienność).

Perplexity mierzy, jak zaskakujący jest każdy wybór słowa w kontekście poprzednich słów. AI ma tendencję do wybierania wysoce prawdopodobnych, przewidywalnych słów. Ludzcy pisarze dokonują bardziej nieoczekiwanych wyborów — metafora, slangowe wyrażenie, długie słowo tam, gdzie starczyłoby krótkie. Niskie perplexity sugeruje maszynową przewidywalność.

Burstiness mierzy, jak bardzo zmienia się długość zdań. Ludzie mają tendencję do mieszania bardzo krótkich zdań z dłuższymi w nierównym rytmie. AI dąży do bardziej jednolitych długości zdań, szczególnie w formalnym pisaniu.

To rozsądne pomysły. Problem polega na tym, że wielu ludzi pisze w sposób, który daje niskie perplexity i niską burstiness — szczególnie osoby piszące starannie, formalnie lub po angielsku jako w drugim języku.

Porównanie: na co zwrócić uwagę w detektorze

Poniższa tabela porównuje główne kategorie narzędzi do wykrywania AI według kryteriów ważnych dla praktycznego użytkowania. Nie zawiera wymyślonych procentów dokładności — zbyt mocno różnią się w zależności od przypadku użycia i stylu zapytania, by były znaczące. Oceny jakościowe odzwierciedlają wzorce szeroko raportowane w niezależnych testach i opublikowanych badaniach.

Kryterium	Bezpłatne narzędzia przeglądarkowe	Integracje szkolne/LMS	Narzędzia oparte na API	Narzędzia open-source
Ryzyko fałszywych trafień dla tekstu ESL	Wysokie	Wysokie	Umiarkowane do wysokiego	Bardzo zróżnicowane
Ryzyko fałszywych trafień dla formalnego ludzkiego pisania	Wysokie	Umiarkowane do wysokiego	Umiarkowane	Zróżnicowane
Wykrywanie lekko edytowanego tekstu AI	Niskie	Niskie do umiarkowanego	Umiarkowane	Niskie
Wykrywanie sparafrazowanego tekstu AI	Bardzo niskie	Niskie	Niskie	Bardzo niskie
Wyjaśnia, dlaczego oznaczył tekst	Rzadko	Czasem	Czasem	Zależy od narzędzia
Dziennik audytu/ślad dowodów	Nie	Czasem	Tak	Nie
Koszt	Bezpłatny	Subskrypcja (na szkołę)	Płatność za użycie	Bezpłatny
Odpowiedni jako jedyny dowód ściągania	Nie	Nie	Nie	Nie

Ostatni wiersz jest taki sam w każdej kategorii, ponieważ żadne dostępne narzędzie nie spełnia standardu dowodowego potrzebnego do samodzielnego oskarżenia kogoś o nieuczciwość akademicką.

Problem fałszywych trafień

Fałszywe trafienia — przypadki, gdy detektor oznacza ludzkie pisanie jako AI — to centralny tryb zawodności. Są dobrze udokumentowane, szeroko raportowane i poważne.

Niektóre grupy mają większe szanse na oznaczenie niż inne:

Nienatywni użytkownicy języka angielskiego piszą we wzorcach, które bardziej pasują do sygnatur statystycznych AI. Formalne słownictwo, staranna gramatyka i ustrukturyzowane akapity — to wszystko cechy, które dają niskie perplexity.

Uczniowie piszący formalnie do zadań akademickich — tak jak często są uczeni pisać — produkują tekst, który wiele detektorów uważa za podejrzany.

Pisarze, którzy starannie tworzą szkice i edytują, mają tendencję do produkowania gładszego, bardziej przewidywalnego tekstu niż pisarze, którzy piszą naprędce.

Nie ma sposobu, by wiedzieć z zewnątrz, czy w danym przypadku mamy do czynienia z fałszywym trafieniem. To jest centralny problem. Wynik „98% AI" mówi ci, że tekst ma podobne wyniki do tekstu generowanego przez AI. Nie mówi ci, że AI go wygenerowała.

Czego detektory nie mogą wykryć

Nowoczesna AI, gdy prosi się ją o pisanie w potocznym stylu, z niedoskonałościami lub w stylu konkretnej osoby, może produkować tekst, który na niemal każdym detektorze osiąga wynik „w pełni ludzki". Każdy zmotywowany do uniknięcia wykrycia może to zrobić z łatwością:

Poprosić AI o „pisanie jak uczeń liceum" lub „niech to brzmi potocznie"
Ręcznie edytować kilka zdań po wygenerowaniu
Przepuścić tekst przez bezpłatne narzędzie do parafrazowania
Poprosić AI o zróżnicowanie długości zdań i użycie form skróconych

Oznacza to, że uczeń traktujący ściąganie poważnie prawdopodobnie nie zostanie złapany przez detektor. Uczeń, który nie starał się unikać wykrycia, może zostać złapany. Narzędzia okazują się nieznacznie lepsze w łapaniu nieostrożnego używania AI niż celowego nadużycia.

Co faktycznie pomaga

Dla nauczycieli trwalsze podejścia dotyczą procesu pisania, a nie końcowego produktu:

Proszenie uczniów o składanie szkiców na wielu etapach, a nie tylko ostatecznego dokumentu
Włączanie komponentów pisania na zajęciach, które odzwierciedlają zadania domowe
Proszenie uczniów o omówienie ich pracy: jakich źródeł użyli, co było trudne, co by zmienili
Szukanie niespójności między ustnym wyjaśnieniem ucznia a tym, co esej argumentuje

Uczeń, który użył AI do napisania eseju, zazwyczaj będzie miał trudności z wyjaśnieniem go. Uczeń, który go napisał — nawet z pomocą AI przy badaniach lub redakcji — będzie miał coś do powiedzenia o własnym procesie myślenia.

Dla rodziców obowiązuje ta sama zasada. Jeśli jesteś ciekaw, czy twoje dziecko użyło AI do zadania, poproś je, by przeprowadziło cię przez to, co zrobiło. Rozmowa jest bardziej informatywna niż jakikolwiek detektor.

Co spróbować dalej

Aby zrozumieć, jakie wzorce faktycznie pojawiają się w pisaniu AI — poza tym, co mierzy detektor — przeczytaj Jak rozpoznać, czy tekst napisała AI. Jeśli chcesz praktycznego przewodnika do rozmowy z dzieckiem o AI i zadaniach domowych, artykuł Moje dziecko używa ChatGPT do zadań domowych — przewodnik dla rodziców oferuje spokojne, krokowe podejście.

Narzędzia do wykrywania AI przetestowane: dokładność, fałszywe trafienia i co powinni wiedzieć nauczyciele

Często zadawane pytania

Czytaj dalej