Detectores de IA a prueba: precisión, falsos positivos y lo que deben saber los profesores

Escuela y familia Comparison9 min de lectura·Actualizado el 4 de julio de 2026
La respuesta corta

Los detectores de IA no son lo suficientemente fiables como para usarlos como prueba de nada. Todas las herramientas principales probadas producen falsos positivos —marcan escritura humana real como IA— a menudo a tasas que hacen que los resultados sean casi insignificantes para casos individuales. Pueden ser un punto de partida, pero nunca un veredicto.

Cuando ChatGPT estuvo disponible ampliamente a finales de 2022, apareció casi de inmediato una nueva categoría de software: los detectores de IA. La promesa era atractiva: pegue el texto, obtenga un porcentaje, sepa si lo escribió un humano o una máquina. Las escuelas empezaron a suscribirse. Los padres empezaron a comprobar las tareas. Los empleadores empezaron a filtrar solicitudes de empleo.

La realidad resultó ser mucho más complicada. Varios años de investigación y uso en el mundo real han dejado algo claro: estas herramientas son genuinamente útiles para entender patrones estadísticos en el texto, y genuinamente poco fiables para juzgar cualquier pieza de escritura individual. Entender por qué —y qué miden realmente las herramientas— es lo más importante antes de usar una.

Cómo funcionan los detectores de IA

Cada detector de IA analiza el texto en busca de propiedades estadísticas que tienden a diferir entre el texto de IA y la escritura humana. Las dos señales principales son la perplejidad y el dinamismo.

La perplejidad mide cuán sorprendente es cada elección de palabra, dadas las palabras anteriores. La IA tiende a elegir palabras muy probables y predecibles. Los escritores humanos hacen elecciones más inesperadas: una metáfora, un término coloquial, una palabra larga donde bastaría una corta. Una perplejidad baja sugiere una previsibilidad de tipo máquina.

El dinamismo mide cuánto varía la longitud de las frases. Los humanos tienden a mezclar frases muy cortas con otras más largas en un ritmo irregular. La IA tiende hacia longitudes de frase más uniformes, especialmente en la escritura formal.

Estas son ideas razonables. El problema es que muchos humanos escriben de maneras que obtienen puntuaciones bajas en perplejidad y dinamismo, especialmente personas que escriben de forma cuidadosa, formal o en español como segunda lengua.

Comparación: qué buscar en un detector

La tabla siguiente compara las principales categorías de herramientas de detección de IA según criterios relevantes para el uso práctico. No incluye porcentajes de precisión inventados: estos varían demasiado según el caso de uso y el estilo de la solicitud como para ser significativos. Las valoraciones cualitativas reflejan patrones ampliamente informados en pruebas independientes e investigaciones publicadas.

CriterioHerramientas gratuitas de navegadorIntegraciones para escuelas / LMSHerramientas basadas en APIHerramientas de código abierto
Riesgo de falso positivo en texto de no nativosAltoAltoModerado a altoVaría mucho
Riesgo de falso positivo en escritura humana formalAltoModerado a altoModeradoVaría
Detección de texto de IA ligeramente editadoBajoBajo a moderadoModeradoBajo
Detección de texto de IA parafraseadoMuy bajoBajoBajoMuy bajo
Explica por qué marcó el textoRaramenteA vecesA vecesDepende de la herramienta
Registro de auditoría / rastro de evidenciaNoA vecesNo
CosteGratuitoSuscripción (por escuela)Pago por usoGratuito
Adecuado como única evidencia de trampaNoNoNoNo

La última fila es la misma en todas las categorías, porque ninguna herramienta disponible actualmente alcanza el estándar de evidencia necesario para acusar a alguien de deshonestidad académica por sí sola.

El problema de los falsos positivos

Los falsos positivos —casos en los que el detector marca escritura humana como IA— son el modo de fallo central. Están bien documentados, ampliamente informados y son graves.

Algunos grupos tienen más probabilidades de ser marcados que otros:

Los hablantes no nativos escriben con patrones que coinciden más estrechamente con las firmas estadísticas de la IA. El vocabulario formal, la gramática cuidadosa y los párrafos estructurados son rasgos que obtienen puntuaciones de baja perplejidad.

Los estudiantes que escriben formalmente para tareas académicas —como se les suele enseñar a escribir— producen texto que muchos detectores encuentran sospechoso.

Los escritores que redactan cuidadosamente y editan tienden a producir un texto más fluido y predecible que los escritores que redactan rápidamente.

No hay forma de saber desde fuera si está ocurriendo un falso positivo en un caso determinado. Ese es el problema central. Un resultado de «98 % IA» le dice que el texto obtiene una puntuación similar al texto generado por IA. No le dice que la IA lo generó.

Lo que los detectores no pueden detectar

La IA moderna, cuando se le indica que escriba de manera conversacional, con imperfecciones o en el estilo de una persona específica, puede producir texto que obtenga puntuaciones de totalmente humano en casi todos los detectores. Cualquiera que esté motivado para evadir la detección puede hacerlo fácilmente:

  • Pida a la IA que «escriba como un estudiante de secundaria» o «que suene informal»
  • Edite manualmente algunas frases después de generarlas
  • Pase el texto por una herramienta gratuita de paráfrasis
  • Pida a la IA que varíe la longitud de las frases e incluya contracciones

Esto significa que un estudiante que se toma en serio hacer trampa es poco probable que sea detectado por un detector. Un estudiante que no intentó evadir la detección podría ser detectado. Las herramientas acaban siendo ligeramente mejores para detectar el uso descuidado de IA que el mal uso deliberado.

Lo que realmente ayuda

Para los profesores, los enfoques más duraderos implican el proceso de escritura más que el producto final:

  • Pida a los estudiantes que entreguen borradores en múltiples etapas, no solo un documento final
  • Incluya componentes de escritura en clase que reflejen las tareas fuera del aula
  • Pida a los estudiantes que hablen sobre su trabajo: qué fuentes usaron, qué fue difícil, qué cambiarían
  • Busque incoherencias entre la explicación verbal de un estudiante y lo que argumenta el ensayo

Un estudiante que usó IA para escribir un ensayo generalmente tendrá dificultades para explicarlo. Un estudiante que lo escribió, incluso con ayuda de IA para la investigación o la edición, tendrá algo que decir sobre su propio proceso de pensamiento.

Para los padres, se aplica el mismo principio. Si tiene curiosidad sobre si su hijo usó IA para una tarea, pídale que le explique qué hizo. La conversación es más informativa que cualquier detector.

Qué probar a continuación

Para entender qué patrones aparecen realmente en la escritura de IA, más allá de lo que mide un detector, lea Cómo saber si un texto fue escrito por IA. Si quiere una guía práctica para hablar con su hijo sobre la IA y las tareas, Mi hijo usa ChatGPT para las tareas: guía para padres ofrece un enfoque tranquilo y paso a paso.

Publicado el 4 de julio de 2026 · Actualizado el 4 de julio de 2026Cómo lo probamos →

Preguntas frecuentes

¿Funcionan realmente los detectores de IA?
Funcionan en el sentido de que pueden marcar texto con mucha IA, pero también marcan mucho texto humano. Ningún detector es lo suficientemente preciso como para usarlo como única evidencia de que alguien hizo trampa.
¿Qué detector de IA es el más preciso?
Ningún estudio independiente y a gran escala ha encontrado un detector consistentemente más preciso. Todas las herramientas probadas muestran tasas de falsos positivos significativas. Recomendamos tratar cualquier resultado como un motivo para la conversación, no como una conclusión.
¿Se pueden engañar los detectores de IA?
Sí, fácilmente. Pedir a la IA que reescriba en un tono informal, editar algunas frases o pasar el texto por una herramienta de paráfrasis suele reducir significativamente la puntuación de detección.
¿Por qué los detectores marcan a los hablantes no nativos?
Los hablantes no nativos a menudo escriben con un estilo formal, cuidadoso y estructurado, que coincide con los patrones estadísticos que buscan los detectores. Este es uno de los problemas más documentados y graves de las herramientas actuales.
¿Deben las escuelas usar detectores de IA para detectar trampas?
No como herramienta principal. Un resultado de detector tomado como evidencia sin una conversación u otro contexto es injusto para los estudiantes y es probable que produzca acusaciones falsas.
Radim Sekera
Fundador y editor

Radim es desarrollador de software que pasa el día construyendo con IA y las noches explicándosela a familiares que no les importa cómo funciona, solo qué puede hacer por ellos. Cada guía se prueba a mano antes de publicarse.