I rilevatori AI non sono abbastanza affidabili da usare come prova di alcunché. Ogni strumento importante testato produce falsi positivi — segnalando la vera scrittura umana come AI — spesso a tassi che rendono i risultati quasi privi di significato per i singoli casi. Possono essere un punto di partenza, ma mai un verdetto.
Quando ChatGPT è diventato ampiamente disponibile alla fine del 2022, è apparsa quasi immediatamente una nuova categoria di software: i rilevatori AI. La promessa era allettante — incolla il testo, ottieni una percentuale, scopri se è stato scritto da un essere umano o da una macchina. Le scuole hanno iniziato ad abbonarsi. I genitori hanno iniziato a controllare i compiti. I datori di lavoro hanno iniziato a esaminare le candidature di lavoro.
La realtà si è rivelata molto più complicata. Diversi anni di ricerca e uso nel mondo reale hanno chiarito una cosa: questi strumenti sono genuinamente utili per capire gli schemi statistici nel testo, e genuinamente inaffidabili per giudicare qualsiasi singolo testo. Capire perché — e cosa misurano effettivamente gli strumenti — è la cosa più importante prima di usarne uno.
Come funzionano i rilevatori AI
Ogni rilevatore AI analizza il testo alla ricerca di proprietà statistiche che tendono a differire tra l'output AI e la scrittura umana. I due segnali principali sono la perplessità e la burstiness.
La perplessità misura quanto sia sorprendente ogni scelta di parola, dati i termini precedenti. L'AI tende a scegliere parole altamente probabili e prevedibili. Gli scrittori umani fanno scelte più inaspettate — una metafora, un termine colloquiale, una parola lunga dove una breve sarebbe più adatta. Una bassa perplessità suggerisce una prevedibilità simile a quella di una macchina.
La burstiness misura quanto varia la lunghezza delle frasi. Gli esseri umani tendono a mescolare frasi molto brevi con quelle più lunghe in un ritmo irregolare. L'AI tende verso lunghezze di frase più uniformi, specialmente nella scrittura formale.
Queste sono idee ragionevoli. Il problema è che molti esseri umani scrivono in modi che ottengono punteggi di bassa perplessità e bassa burstiness — specialmente le persone che scrivono con attenzione, formalmente, o in italiano come seconda lingua.
Confronto: cosa cercare in un rilevatore
La tabella seguente confronta le principali categorie di strumenti di rilevamento AI in base a criteri rilevanti per l'uso pratico. Non include percentuali di accuratezza inventate — queste variano troppo in base al caso d'uso e allo stile del prompt per essere significative. Le valutazioni qualitative riflettono schemi ampiamente riportati nei test indipendenti e nella ricerca pubblicata.
| Criterio | Strumenti browser gratuiti | Integrazioni scolastiche/LMS | Strumenti API | Strumenti open-source |
|---|---|---|---|---|
| Rischio falsi positivi su testo non madrelingua | Alto | Alto | Da moderato ad alto | Varia molto |
| Rischio falsi positivi su scrittura umana formale | Alto | Da moderato ad alto | Moderato | Varia |
| Rilevamento testo AI leggermente modificato | Basso | Da basso a moderato | Moderato | Basso |
| Rilevamento testo AI parafrasato | Molto basso | Basso | Basso | Molto basso |
| Spiega perché ha segnalato il testo | Raramente | A volte | A volte | Dipende dallo strumento |
| Log di audit/traccia di evidenza | No | A volte | Sì | No |
| Costo | Gratuito | Abbonamento (per scuola) | A pagamento per utilizzo | Gratuito |
| Adatto come unica prova di plagio | No | No | No | No |
L'ultima riga è la stessa per ogni categoria, perché nessuno strumento attualmente disponibile soddisfa lo standard di prova necessario per accusare qualcuno di disonestà accademica da solo.
Il problema dei falsi positivi
I falsi positivi — casi in cui il rilevatore segnala la scrittura umana come AI — sono il principale punto critico. Sono ben documentati, ampiamente riportati e seri.
Alcuni gruppi hanno più probabilità di essere segnalati di altri:
I parlanti non madrelingua scrivono in schemi che corrispondono più da vicino alle firme statistiche dell'AI. Vocabolario formale, grammatica attenta e paragrafi strutturati sono tutti tratti che ottengono punteggi di bassa perplessità.
Gli studenti che scrivono formalmente per compiti accademici — nel modo in cui spesso viene insegnato loro di scrivere — producono testi che molti rilevatori trovano sospetti.
Gli scrittori che elaborano con attenzione e modificano tendono a produrre testi più levigati e prevedibili rispetto agli scrittori che buttano giù le cose in fretta.
Non c'è modo di sapere dall'esterno se si sta verificando un falso positivo in un dato caso. Questo è il problema fondamentale. Un risultato di "98% AI" ti dice che il testo ottiene un punteggio simile al testo generato dall'AI. Non ti dice che l'AI lo ha generato.
Cosa non riescono a rilevare i rilevatori
L'AI moderna, quando viene guidata a scrivere in modo colloquiale, con imperfezioni, o nello stile di una persona specifica, può produrre testo che ottiene un punteggio completamente umano su quasi ogni rilevatore. Chiunque sia motivato a eludere il rilevamento può farlo facilmente:
- Chiedi all'AI di "scrivere come uno studente delle superiori" o "rendilo informale"
- Modifica alcune frasi manualmente dopo averle generate
- Fai passare il testo attraverso uno strumento di parafrasi gratuito
- Chiedi all'AI di variare le lunghezze delle frasi e di includere le contrazioni
Questo significa che uno studente che prende sul serio il plagio ha poche probabilità di essere scoperto da un rilevatore. Uno studente che non ha cercato di eludere il rilevamento potrebbe essere smascherato. Gli strumenti finiscono per essere leggermente migliori nel sorprendere l'uso occasionale dell'AI che il suo uso deliberato.
Cosa aiuta davvero
Per gli insegnanti, gli approcci più duraturi riguardano il processo di scrittura piuttosto che il prodotto finale:
- Chiedi agli studenti di inviare bozze in più fasi, non solo un documento finale
- Includi componenti di scrittura in classe che rispecchino i compiti da svolgere a casa
- Chiedi agli studenti di discutere il loro lavoro: quali fonti hanno usato, cosa è stato difficile, cosa cambierebbero
- Cerca incoerenze tra la spiegazione verbale di uno studente e ciò che il saggio argomenta
Uno studente che ha usato l'AI per scrivere un saggio di solito fatica a spiegarlo. Uno studente che lo ha scritto — anche con l'assistenza dell'AI per la ricerca o la modifica — avrà qualcosa da dire sul proprio processo di pensiero.
Per i genitori, vale lo stesso principio. Se sei curioso di sapere se tuo figlio ha usato l'AI per un compito, chiedigli di guidarti attraverso quello che ha fatto. La conversazione è più informativa di qualsiasi rilevatore.
Cosa fare dopo
Per capire quali schemi compaiono effettivamente nella scrittura AI — al di là di ciò che misura un rilevatore — leggi Come capire se un testo è stato scritto dall'AI. Se vuoi una guida pratica per parlare con tuo figlio dell'AI e dei compiti, Mio figlio usa ChatGPT per i compiti — Guida per genitori ha un approccio calmo e passo dopo passo.



