Los detectores de IA no son lo suficientemente fiables como para usarlos como prueba de nada. Todas las herramientas principales probadas producen falsos positivos —marcan escritura humana real como IA— a menudo a tasas que hacen que los resultados sean casi insignificantes para casos individuales. Pueden ser un punto de partida, pero nunca un veredicto.
Cuando ChatGPT estuvo disponible ampliamente a finales de 2022, apareció casi de inmediato una nueva categoría de software: los detectores de IA. La promesa era atractiva: pegue el texto, obtenga un porcentaje, sepa si lo escribió un humano o una máquina. Las escuelas empezaron a suscribirse. Los padres empezaron a comprobar las tareas. Los empleadores empezaron a filtrar solicitudes de empleo.
La realidad resultó ser mucho más complicada. Varios años de investigación y uso en el mundo real han dejado algo claro: estas herramientas son genuinamente útiles para entender patrones estadísticos en el texto, y genuinamente poco fiables para juzgar cualquier pieza de escritura individual. Entender por qué —y qué miden realmente las herramientas— es lo más importante antes de usar una.
Cómo funcionan los detectores de IA
Cada detector de IA analiza el texto en busca de propiedades estadísticas que tienden a diferir entre el texto de IA y la escritura humana. Las dos señales principales son la perplejidad y el dinamismo.
La perplejidad mide cuán sorprendente es cada elección de palabra, dadas las palabras anteriores. La IA tiende a elegir palabras muy probables y predecibles. Los escritores humanos hacen elecciones más inesperadas: una metáfora, un término coloquial, una palabra larga donde bastaría una corta. Una perplejidad baja sugiere una previsibilidad de tipo máquina.
El dinamismo mide cuánto varía la longitud de las frases. Los humanos tienden a mezclar frases muy cortas con otras más largas en un ritmo irregular. La IA tiende hacia longitudes de frase más uniformes, especialmente en la escritura formal.
Estas son ideas razonables. El problema es que muchos humanos escriben de maneras que obtienen puntuaciones bajas en perplejidad y dinamismo, especialmente personas que escriben de forma cuidadosa, formal o en español como segunda lengua.
Comparación: qué buscar en un detector
La tabla siguiente compara las principales categorías de herramientas de detección de IA según criterios relevantes para el uso práctico. No incluye porcentajes de precisión inventados: estos varían demasiado según el caso de uso y el estilo de la solicitud como para ser significativos. Las valoraciones cualitativas reflejan patrones ampliamente informados en pruebas independientes e investigaciones publicadas.
| Criterio | Herramientas gratuitas de navegador | Integraciones para escuelas / LMS | Herramientas basadas en API | Herramientas de código abierto |
|---|---|---|---|---|
| Riesgo de falso positivo en texto de no nativos | Alto | Alto | Moderado a alto | Varía mucho |
| Riesgo de falso positivo en escritura humana formal | Alto | Moderado a alto | Moderado | Varía |
| Detección de texto de IA ligeramente editado | Bajo | Bajo a moderado | Moderado | Bajo |
| Detección de texto de IA parafraseado | Muy bajo | Bajo | Bajo | Muy bajo |
| Explica por qué marcó el texto | Raramente | A veces | A veces | Depende de la herramienta |
| Registro de auditoría / rastro de evidencia | No | A veces | Sí | No |
| Coste | Gratuito | Suscripción (por escuela) | Pago por uso | Gratuito |
| Adecuado como única evidencia de trampa | No | No | No | No |
La última fila es la misma en todas las categorías, porque ninguna herramienta disponible actualmente alcanza el estándar de evidencia necesario para acusar a alguien de deshonestidad académica por sí sola.
El problema de los falsos positivos
Los falsos positivos —casos en los que el detector marca escritura humana como IA— son el modo de fallo central. Están bien documentados, ampliamente informados y son graves.
Algunos grupos tienen más probabilidades de ser marcados que otros:
Los hablantes no nativos escriben con patrones que coinciden más estrechamente con las firmas estadísticas de la IA. El vocabulario formal, la gramática cuidadosa y los párrafos estructurados son rasgos que obtienen puntuaciones de baja perplejidad.
Los estudiantes que escriben formalmente para tareas académicas —como se les suele enseñar a escribir— producen texto que muchos detectores encuentran sospechoso.
Los escritores que redactan cuidadosamente y editan tienden a producir un texto más fluido y predecible que los escritores que redactan rápidamente.
No hay forma de saber desde fuera si está ocurriendo un falso positivo en un caso determinado. Ese es el problema central. Un resultado de «98 % IA» le dice que el texto obtiene una puntuación similar al texto generado por IA. No le dice que la IA lo generó.
Lo que los detectores no pueden detectar
La IA moderna, cuando se le indica que escriba de manera conversacional, con imperfecciones o en el estilo de una persona específica, puede producir texto que obtenga puntuaciones de totalmente humano en casi todos los detectores. Cualquiera que esté motivado para evadir la detección puede hacerlo fácilmente:
- Pida a la IA que «escriba como un estudiante de secundaria» o «que suene informal»
- Edite manualmente algunas frases después de generarlas
- Pase el texto por una herramienta gratuita de paráfrasis
- Pida a la IA que varíe la longitud de las frases e incluya contracciones
Esto significa que un estudiante que se toma en serio hacer trampa es poco probable que sea detectado por un detector. Un estudiante que no intentó evadir la detección podría ser detectado. Las herramientas acaban siendo ligeramente mejores para detectar el uso descuidado de IA que el mal uso deliberado.
Lo que realmente ayuda
Para los profesores, los enfoques más duraderos implican el proceso de escritura más que el producto final:
- Pida a los estudiantes que entreguen borradores en múltiples etapas, no solo un documento final
- Incluya componentes de escritura en clase que reflejen las tareas fuera del aula
- Pida a los estudiantes que hablen sobre su trabajo: qué fuentes usaron, qué fue difícil, qué cambiarían
- Busque incoherencias entre la explicación verbal de un estudiante y lo que argumenta el ensayo
Un estudiante que usó IA para escribir un ensayo generalmente tendrá dificultades para explicarlo. Un estudiante que lo escribió, incluso con ayuda de IA para la investigación o la edición, tendrá algo que decir sobre su propio proceso de pensamiento.
Para los padres, se aplica el mismo principio. Si tiene curiosidad sobre si su hijo usó IA para una tarea, pídale que le explique qué hizo. La conversación es más informativa que cualquier detector.
Qué probar a continuación
Para entender qué patrones aparecen realmente en la escritura de IA, más allá de lo que mide un detector, lea Cómo saber si un texto fue escrito por IA. Si quiere una guía práctica para hablar con su hijo sobre la IA y las tareas, Mi hijo usa ChatGPT para las tareas: guía para padres ofrece un enfoque tranquilo y paso a paso.



