La huella digital de ChatGPT DNA-GPT es un método de detección de texto generado por GPT que utiliza un análisis divergente de N-gramos.

La huella digital de ChatGPT DNA-GPT es un método de detección de texto generado por GPT con análisis de N-gramos.

ChatGPT se ha convertido en una parte esencial de nuestras vidas diarias en este momento. La mayoría de nosotros lo usamos diariamente para resolver tareas mundanas o recibir orientación sobre cómo abordar problemas complejos, obtener recomendaciones sobre decisiones, etc. Más importante aún, la escritura asistida por IA se ha convertido en la norma para la mayoría, e incluso hemos comenzado a ver los efectos a medida que las empresas comenzaron a reemplazar a sus redactores con ChatGPT.

Aunque los modelos GPT han demostrado ser asistentes útiles, también han introducido desafíos, como la proliferación de noticias falsas y el plagio asistido por tecnología. Los casos de resúmenes científicos generados por IA que engañan a los científicos han llevado a una pérdida de confianza en el conocimiento científico. Por lo tanto, parece que la detección de texto generado por IA se volverá crucial a medida que avancemos. Sin embargo, no es sencillo ya que plantea dificultades fundamentales, y el progreso en los métodos de detección se queda atrás del rápido avance de la IA en sí misma. 

Los métodos existentes, como los enfoques basados en perturbaciones o los métodos basados en rango/entropía, a menudo fallan cuando no se proporciona la probabilidad del token, como en el caso de ChatGPT. Además, la falta de transparencia en el desarrollo de potentes modelos de lenguaje plantea un desafío adicional. Para detectar de manera efectiva el texto generado por GPT y coincidir con los avances de los LLM, hay una demanda apremiante de una metodología robusta de detección que sea explicativa y capaz de adaptarse a actualizaciones y mejoras continuas.

Por lo tanto, en este punto, la necesidad de un método robusto de detección de texto generado por IA está aumentando. Pero, sabemos que los LLM avanzan más rápido que los métodos de detección. Entonces, ¿cómo podemos idear un método que pueda mantenerse al día con el avance en los LLM? Es hora de conocer DNA-GPT.

Visión general de DNA-GPT. Fuente: https://arxiv.org/pdf/2305.17359.pdf

DNA-GPT aborda dos escenarios: detección de caja blanca, donde se dispone del modelo de salida de probabilidad del token, y detección de caja negra, donde no se dispone de dicho acceso. Al considerar ambos casos, DNA-GPT tiene como objetivo proporcionar soluciones integrales. 

DNA-GPT se basa en la observación de que los LLM tienden a decodificar n-gramos repetitivos de generaciones anteriores, mientras que el texto escrito por humanos es menos probable que se decodifique. El análisis teórico se centra en la posibilidad de texto generado por IA en términos de tasa de verdaderos positivos (TPR) y tasa de falsos positivos (FPR), lo que añade una perspectiva ortogonal al debate actual sobre la detectabilidad.

La suposición es que cada modelo de IA posee su ADN distintivo, que puede manifestarse tanto en su tendencia a generar n-gramos comparables como en la forma de su curva de probabilidad. Entonces, la tarea de detección se define como una tarea de clasificación binaria, donde dada una secuencia de texto S y un modelo de lenguaje específico LM como GPT-4, el objetivo es clasificar si S es generado por LM o escrito por humanos.

DNA-GPT es un algoritmo de detección sin disparo para textos generados por modelos GPT, que atiende tanto a escenarios de caja negra como de caja blanca. La efectividad de los algoritmos se valida utilizando los cinco LLM más avanzados en cinco conjuntos de datos. Además, se prueba la robustez del algoritmo contra el texto no inglés y los ataques de texto revisado. Además, el método de detección proporciona la capacidad de obtención de modelos, lo que permite la identificación del modelo de lenguaje específico utilizado para la generación de texto. Finalmente, DNA-GPT incluye disposiciones para proporcionar evidencia explicativa de las decisiones de detección.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Células complejas del pulpo son clave para su alta inteligencia

Investigadores exploraron la estructura neural del pulpo que define sus procesos de aprendizaje utilizando preparació...

Inteligencia Artificial

Generar un texto rico en información para una interfaz cruzada sólida en LLMs con de-difusión

El fenómeno global de los productos LLM (Modelos de Lenguaje Grande), ejemplificado por la amplia adopción de ChatGPT...

Aprendizaje Automático

Desentrañando el patrón de diseño de redes neuronales informadas por la física Parte 06.

Bienvenidos al sexto blog de esta serie, donde continuamos nuestra emocionante aventura explorando patrones de diseño...

Inteligencia Artificial

La Propuesta de la Administración de Biden para el Sistema de Etiquetado de Aplicaciones de Inteligencia Artificial en Salud

La administración de Biden ha introducido un nuevo sistema de etiquetado para aplicaciones de salud que utilizan inte...

Aprendizaje Automático

Meta AI presenta I-JEPA revolucionario Un gran salto innovador en la visión por computadora que emula el aprendizaje y el razonamiento humano y animal.

Los humanos recogen una gran cantidad de información de fondo sobre el mundo simplemente observándolo. El equipo de M...

Inteligencia Artificial

RBI adopta la IA conversacional y los pagos sin conexión utilizando UPI

Abriendo nuevos caminos en los pagos digitales, el Banco de la Reserva de India (RBI, por sus siglas en inglés) ha pr...