DataHour Reducción del 80% de las alucinaciones de ChatGPT

'DataHour 80% reduction in ChatGPT hallucinations'

Introducción

Los modelos de Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés) se han vuelto cada vez más populares en los últimos años, con aplicaciones que van desde chatbots hasta traducción de idiomas. Sin embargo, uno de los mayores desafíos en NLP es reducir las alucinaciones de ChatGPT o las respuestas incorrectas generadas por el modelo. En este artículo, discutiremos las técnicas y desafíos involucrados en la reducción de alucinaciones en modelos de NLP.

Observabilidad, Ajuste y Pruebas

El primer paso para reducir las alucinaciones es mejorar la observabilidad del modelo. Esto implica construir bucles de retroalimentación para capturar la retroalimentación del usuario y el rendimiento del modelo en producción. El ajuste implica mejorar las respuestas deficientes agregando más datos, corrigiendo problemas de recuperación o cambiando las indicaciones. Las pruebas son necesarias para garantizar que los cambios mejoren los resultados y no causen regresiones. Los desafíos que se enfrentan en la observabilidad incluyen que los clientes envíen capturas de pantalla de respuestas incorrectas, lo que conduce a la frustración. Para abordar esto, los registros se pueden monitorear diariamente utilizando la ingestión de datos y un código secreto.

Depuración y Ajuste de un Modelo de Lenguaje

El proceso de depuración y ajuste de un modelo de lenguaje implica comprender la entrada y respuesta del modelo. Para depurar, es necesario realizar registros para identificar la indicación en bruto y filtrarla en partes o referencias específicas. Los registros deben ser accionables y fáciles de entender para cualquier persona. El ajuste implica determinar cuántos documentos se deben alimentar al modelo. Los números predeterminados no siempre son precisos y una búsqueda de similitud puede no dar la respuesta correcta. El objetivo es descubrir por qué algo salió mal y cómo solucionarlo.

Optimización de los Embebidos de OpenAI

Los desarrolladores de una aplicación de consulta de base de datos vectorial enfrentaron desafíos para optimizar el rendimiento de los embebidos de OpenAI utilizados en la aplicación. El primer desafío fue determinar el número óptimo de documentos para pasar al modelo, lo cual se abordó controlando la estrategia de fragmentación e introduciendo un hiperparámetro controlable para el número de documentos.

El segundo desafío fue la variación de la indicación, que se abordó utilizando una biblioteca de código abierto llamada Better Prompt que evalúa el rendimiento de diferentes versiones de la indicación en función de la perplejidad. El tercer desafío fue mejorar los resultados de los embebidos de OpenAI, que se encontraron que funcionan mejor que los transformadores de oraciones en escenarios multilingües.

Técnicas en el Desarrollo de IA

El artículo discute tres técnicas diferentes utilizadas en el desarrollo de IA. La primera técnica es la perplejidad, que se utiliza para evaluar el rendimiento de una indicación en una tarea determinada. La segunda técnica es la construcción de un paquete que permite a los usuarios probar diferentes estrategias de indicación fácilmente. La tercera técnica es ejecutar un índice, lo cual implica actualizar el índice con datos adicionales cuando algo falta o no es ideal. Esto permite un manejo más dinámico de las preguntas.

Uso de la API de GPT-3 para Calcular la Perplejidad

El expositor discute su experiencia utilizando la API de GPT-3 para calcular la perplejidad basada en una consulta. Explica el proceso de ejecutar una indicación a través de la API y devolver las probabilidades de registro para el mejor siguiente token. También menciona la posibilidad de afinar un gran modelo de lenguaje para imitar un estilo de escritura en particular, en lugar de incrustar nueva información.

Evaluación de Respuestas a Múltiples Preguntas

El texto discute los desafíos de evaluar respuestas a más de 50 preguntas a la vez. Calificar manualmente cada respuesta lleva mucho tiempo, por lo que la empresa consideró utilizar un autoevaluador. Sin embargo, un marco de decisión simple de sí/no fue insuficiente porque hay múltiples razones por las cuales una respuesta puede no ser correcta. La empresa dividió la evaluación en diferentes componentes, pero encontró que una sola ejecución del autoevaluador era errática e inconsistente. Para resolver esto, realizaron múltiples pruebas por pregunta y clasificaron las respuestas como perfectas, casi perfectas, incorrectas pero que contienen información correcta o completamente incorrectas.

Reducción de Alucinaciones en Modelos de NLP

El expositor discute su proceso para reducir las alucinaciones en modelos de procesamiento del lenguaje natural. Dividieron el proceso de toma de decisiones en cuatro categorías y utilizaron una función automática para la categoría de más de 50. También implementaron el proceso de evaluación en el producto principal, lo que permite ejecutar y exportar evaluaciones a CSB. El expositor menciona un repositorio de GitHub para obtener más información sobre el proyecto. Luego, discuten los pasos que tomaron para reducir las alucinaciones, incluyendo la observabilidad, el ajuste y las pruebas. Lograron reducir la tasa de alucinaciones del 40% a menos del 5%.

Conclusion

Reducir las alucinaciones de ChatGPT en los modelos de PLN es un proceso complejo que implica observabilidad, ajuste y pruebas. Los desarrolladores también deben tener en cuenta la variación de las indicaciones, optimizar las incrustaciones y evaluar las respuestas a múltiples preguntas. Técnicas como la perplejidad, la creación de un paquete para probar estrategias de indicación y la ejecución de un índice también pueden ser útiles en el desarrollo de IA. El futuro del desarrollo de IA radica en elementos pequeños, privados o específicos de tareas.

Puntos clave

Reducir las alucinaciones de ChatGPT en los modelos de PLN implica observabilidad, ajuste y pruebas.
Los desarrolladores deben considerar la variación de las indicaciones, optimizar las incrustaciones y evaluar las respuestas a múltiples preguntas.
Técnicas como la perplejidad, la creación de un paquete para probar estrategias de indicación y la ejecución de un índice también pueden ser útiles en el desarrollo de IA.
El futuro del desarrollo de IA radica en elementos pequeños, privados o específicos de tareas.

Preguntas frecuentes

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

ChatGPTchatgpt responseDataHourGenerative AIproblems with chatgpt

Was this article helpful?

93 out of 132 found this helpful

DataHour Reducción del 80% de las alucinaciones de ChatGPT

Introducción

Observabilidad, Ajuste y Pruebas

Depuración y Ajuste de un Modelo de Lenguaje

Optimización de los Embebidos de OpenAI

Técnicas en el Desarrollo de IA

Uso de la API de GPT-3 para Calcular la Perplejidad

Evaluación de Respuestas a Múltiples Preguntas

Reducción de Alucinaciones en Modelos de NLP

Conclusion

Puntos clave

Preguntas frecuentes

Was this article helpful?

Pic2Word Mapeo de imágenes a palabras para la recuperación de imágenes compuestas sin entrenamiento previo.

Operaciones de Matrices y Vectores en Regresión Logística

Inteligencia Artificial

Científicos simulan la guerra de las hormigas utilizando el juego de ordenador Age of Empires

Google DeepMind presenta GNoME una nueva herramienta de aprendizaje profundo que aumenta drásticamente la velocidad y eficiencia de los descubrimientos al predecir la estabilidad de nuevos materiales.

Investigadores de la Universidad de Tokio presentan una nueva técnica para proteger las aplicaciones sensibles basadas en Inteligencia Artificial (IA) de los atacantes.

¿Cómo sabemos qué tan inteligentes son los sistemas de IA?

Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una precisa definición matemática

De los Cristales de Tiempo a los Agujeros de Gusano ¿Cuándo es una Simulación Cuántica Real?