Detektory AI nie są wystarczająco wiarygodne, by używać ich jako dowodu na cokolwiek. Każde ważniejsze testowane narzędzie produkuje fałszywe trafienia — oznaczając prawdziwe ludzkie pisanie jako AI — często w stopniu, który sprawia, że wyniki są bliskie bezużyteczności w przypadkach indywidualnych. Mogą być punktem wyjścia, ale nigdy nie wyrokiem.
Gdy ChatGPT stał się powszechnie dostępny pod koniec 2022 roku, niemal natychmiast pojawiła się nowa kategoria oprogramowania: detektory AI. Obietnica była kusząca — wklej tekst, uzyskaj wynik procentowy, dowiedz się, czy napisał go człowiek czy maszyna. Szkoły zaczęły subskrybować. Rodzice zaczęli sprawdzać zadania domowe. Pracodawcy zaczęli prześwietlać podania o pracę.
Rzeczywistość okazała się znacznie bardziej skomplikowana. Kilka lat badań i prawdziwego użytkowania wyjaśniło jedną rzecz: narzędzia te są naprawdę przydatne do rozumienia wzorców statystycznych w tekście i naprawdę zawodne do oceniania pojedynczego tekstu. Zrozumienie dlaczego — i co narzędzia faktycznie mierzą — jest najważniejszą rzeczą przed użyciem któregokolwiek z nich.
Jak działają detektory AI
Każdy detektor AI analizuje tekst pod kątem właściwości statystycznych, które zazwyczaj różnią się między wynikami AI a ludzkim pisaniem. Dwa główne sygnały to perplexity (zaskoczenie) i burstiness (zmienność).
Perplexity mierzy, jak zaskakujący jest każdy wybór słowa w kontekście poprzednich słów. AI ma tendencję do wybierania wysoce prawdopodobnych, przewidywalnych słów. Ludzcy pisarze dokonują bardziej nieoczekiwanych wyborów — metafora, slangowe wyrażenie, długie słowo tam, gdzie starczyłoby krótkie. Niskie perplexity sugeruje maszynową przewidywalność.
Burstiness mierzy, jak bardzo zmienia się długość zdań. Ludzie mają tendencję do mieszania bardzo krótkich zdań z dłuższymi w nierównym rytmie. AI dąży do bardziej jednolitych długości zdań, szczególnie w formalnym pisaniu.
To rozsądne pomysły. Problem polega na tym, że wielu ludzi pisze w sposób, który daje niskie perplexity i niską burstiness — szczególnie osoby piszące starannie, formalnie lub po angielsku jako w drugim języku.
Porównanie: na co zwrócić uwagę w detektorze
Poniższa tabela porównuje główne kategorie narzędzi do wykrywania AI według kryteriów ważnych dla praktycznego użytkowania. Nie zawiera wymyślonych procentów dokładności — zbyt mocno różnią się w zależności od przypadku użycia i stylu zapytania, by były znaczące. Oceny jakościowe odzwierciedlają wzorce szeroko raportowane w niezależnych testach i opublikowanych badaniach.
| Kryterium | Bezpłatne narzędzia przeglądarkowe | Integracje szkolne/LMS | Narzędzia oparte na API | Narzędzia open-source |
|---|---|---|---|---|
| Ryzyko fałszywych trafień dla tekstu ESL | Wysokie | Wysokie | Umiarkowane do wysokiego | Bardzo zróżnicowane |
| Ryzyko fałszywych trafień dla formalnego ludzkiego pisania | Wysokie | Umiarkowane do wysokiego | Umiarkowane | Zróżnicowane |
| Wykrywanie lekko edytowanego tekstu AI | Niskie | Niskie do umiarkowanego | Umiarkowane | Niskie |
| Wykrywanie sparafrazowanego tekstu AI | Bardzo niskie | Niskie | Niskie | Bardzo niskie |
| Wyjaśnia, dlaczego oznaczył tekst | Rzadko | Czasem | Czasem | Zależy od narzędzia |
| Dziennik audytu/ślad dowodów | Nie | Czasem | Tak | Nie |
| Koszt | Bezpłatny | Subskrypcja (na szkołę) | Płatność za użycie | Bezpłatny |
| Odpowiedni jako jedyny dowód ściągania | Nie | Nie | Nie | Nie |
Ostatni wiersz jest taki sam w każdej kategorii, ponieważ żadne dostępne narzędzie nie spełnia standardu dowodowego potrzebnego do samodzielnego oskarżenia kogoś o nieuczciwość akademicką.
Problem fałszywych trafień
Fałszywe trafienia — przypadki, gdy detektor oznacza ludzkie pisanie jako AI — to centralny tryb zawodności. Są dobrze udokumentowane, szeroko raportowane i poważne.
Niektóre grupy mają większe szanse na oznaczenie niż inne:
Nienatywni użytkownicy języka angielskiego piszą we wzorcach, które bardziej pasują do sygnatur statystycznych AI. Formalne słownictwo, staranna gramatyka i ustrukturyzowane akapity — to wszystko cechy, które dają niskie perplexity.
Uczniowie piszący formalnie do zadań akademickich — tak jak często są uczeni pisać — produkują tekst, który wiele detektorów uważa za podejrzany.
Pisarze, którzy starannie tworzą szkice i edytują, mają tendencję do produkowania gładszego, bardziej przewidywalnego tekstu niż pisarze, którzy piszą naprędce.
Nie ma sposobu, by wiedzieć z zewnątrz, czy w danym przypadku mamy do czynienia z fałszywym trafieniem. To jest centralny problem. Wynik „98% AI" mówi ci, że tekst ma podobne wyniki do tekstu generowanego przez AI. Nie mówi ci, że AI go wygenerowała.
Czego detektory nie mogą wykryć
Nowoczesna AI, gdy prosi się ją o pisanie w potocznym stylu, z niedoskonałościami lub w stylu konkretnej osoby, może produkować tekst, który na niemal każdym detektorze osiąga wynik „w pełni ludzki". Każdy zmotywowany do uniknięcia wykrycia może to zrobić z łatwością:
- Poprosić AI o „pisanie jak uczeń liceum" lub „niech to brzmi potocznie"
- Ręcznie edytować kilka zdań po wygenerowaniu
- Przepuścić tekst przez bezpłatne narzędzie do parafrazowania
- Poprosić AI o zróżnicowanie długości zdań i użycie form skróconych
Oznacza to, że uczeń traktujący ściąganie poważnie prawdopodobnie nie zostanie złapany przez detektor. Uczeń, który nie starał się unikać wykrycia, może zostać złapany. Narzędzia okazują się nieznacznie lepsze w łapaniu nieostrożnego używania AI niż celowego nadużycia.
Co faktycznie pomaga
Dla nauczycieli trwalsze podejścia dotyczą procesu pisania, a nie końcowego produktu:
- Proszenie uczniów o składanie szkiców na wielu etapach, a nie tylko ostatecznego dokumentu
- Włączanie komponentów pisania na zajęciach, które odzwierciedlają zadania domowe
- Proszenie uczniów o omówienie ich pracy: jakich źródeł użyli, co było trudne, co by zmienili
- Szukanie niespójności między ustnym wyjaśnieniem ucznia a tym, co esej argumentuje
Uczeń, który użył AI do napisania eseju, zazwyczaj będzie miał trudności z wyjaśnieniem go. Uczeń, który go napisał — nawet z pomocą AI przy badaniach lub redakcji — będzie miał coś do powiedzenia o własnym procesie myślenia.
Dla rodziców obowiązuje ta sama zasada. Jeśli jesteś ciekaw, czy twoje dziecko użyło AI do zadania, poproś je, by przeprowadziło cię przez to, co zrobiło. Rozmowa jest bardziej informatywna niż jakikolwiek detektor.
Co spróbować dalej
Aby zrozumieć, jakie wzorce faktycznie pojawiają się w pisaniu AI — poza tym, co mierzy detektor — przeczytaj Jak rozpoznać, czy tekst napisała AI. Jeśli chcesz praktycznego przewodnika do rozmowy z dzieckiem o AI i zadaniach domowych, artykuł Moje dziecko używa ChatGPT do zadań domowych — przewodnik dla rodziców oferuje spokojne, krokowe podejście.



