DataHour Reducción del 80% de las alucinaciones de ChatGPT
'DataHour 80% reduction in ChatGPT hallucinations'
Introducción
Los modelos de Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés) se han vuelto cada vez más populares en los últimos años, con aplicaciones que van desde chatbots hasta traducción de idiomas. Sin embargo, uno de los mayores desafíos en NLP es reducir las alucinaciones de ChatGPT o las respuestas incorrectas generadas por el modelo. En este artículo, discutiremos las técnicas y desafíos involucrados en la reducción de alucinaciones en modelos de NLP.
Observabilidad, Ajuste y Pruebas
El primer paso para reducir las alucinaciones es mejorar la observabilidad del modelo. Esto implica construir bucles de retroalimentación para capturar la retroalimentación del usuario y el rendimiento del modelo en producción. El ajuste implica mejorar las respuestas deficientes agregando más datos, corrigiendo problemas de recuperación o cambiando las indicaciones. Las pruebas son necesarias para garantizar que los cambios mejoren los resultados y no causen regresiones. Los desafíos que se enfrentan en la observabilidad incluyen que los clientes envíen capturas de pantalla de respuestas incorrectas, lo que conduce a la frustración. Para abordar esto, los registros se pueden monitorear diariamente utilizando la ingestión de datos y un código secreto.
Depuración y Ajuste de un Modelo de Lenguaje
El proceso de depuración y ajuste de un modelo de lenguaje implica comprender la entrada y respuesta del modelo. Para depurar, es necesario realizar registros para identificar la indicación en bruto y filtrarla en partes o referencias específicas. Los registros deben ser accionables y fáciles de entender para cualquier persona. El ajuste implica determinar cuántos documentos se deben alimentar al modelo. Los números predeterminados no siempre son precisos y una búsqueda de similitud puede no dar la respuesta correcta. El objetivo es descubrir por qué algo salió mal y cómo solucionarlo.
- Pic2Word Mapeo de imágenes a palabras para la recuperación de imágenes compuestas sin entrenamiento previo.
- La IA combate la plaga de los desechos espaciales
- Fiber Óptica Pantalones Inteligentes Ofrecen una Forma de Bajo Costo para Monitorear Movimientos
Optimización de los Embebidos de OpenAI
Los desarrolladores de una aplicación de consulta de base de datos vectorial enfrentaron desafíos para optimizar el rendimiento de los embebidos de OpenAI utilizados en la aplicación. El primer desafío fue determinar el número óptimo de documentos para pasar al modelo, lo cual se abordó controlando la estrategia de fragmentación e introduciendo un hiperparámetro controlable para el número de documentos.
El segundo desafío fue la variación de la indicación, que se abordó utilizando una biblioteca de código abierto llamada Better Prompt que evalúa el rendimiento de diferentes versiones de la indicación en función de la perplejidad. El tercer desafío fue mejorar los resultados de los embebidos de OpenAI, que se encontraron que funcionan mejor que los transformadores de oraciones en escenarios multilingües.
Técnicas en el Desarrollo de IA
El artículo discute tres técnicas diferentes utilizadas en el desarrollo de IA. La primera técnica es la perplejidad, que se utiliza para evaluar el rendimiento de una indicación en una tarea determinada. La segunda técnica es la construcción de un paquete que permite a los usuarios probar diferentes estrategias de indicación fácilmente. La tercera técnica es ejecutar un índice, lo cual implica actualizar el índice con datos adicionales cuando algo falta o no es ideal. Esto permite un manejo más dinámico de las preguntas.
Uso de la API de GPT-3 para Calcular la Perplejidad
El expositor discute su experiencia utilizando la API de GPT-3 para calcular la perplejidad basada en una consulta. Explica el proceso de ejecutar una indicación a través de la API y devolver las probabilidades de registro para el mejor siguiente token. También menciona la posibilidad de afinar un gran modelo de lenguaje para imitar un estilo de escritura en particular, en lugar de incrustar nueva información.
Evaluación de Respuestas a Múltiples Preguntas
El texto discute los desafíos de evaluar respuestas a más de 50 preguntas a la vez. Calificar manualmente cada respuesta lleva mucho tiempo, por lo que la empresa consideró utilizar un autoevaluador. Sin embargo, un marco de decisión simple de sí/no fue insuficiente porque hay múltiples razones por las cuales una respuesta puede no ser correcta. La empresa dividió la evaluación en diferentes componentes, pero encontró que una sola ejecución del autoevaluador era errática e inconsistente. Para resolver esto, realizaron múltiples pruebas por pregunta y clasificaron las respuestas como perfectas, casi perfectas, incorrectas pero que contienen información correcta o completamente incorrectas.
Reducción de Alucinaciones en Modelos de NLP
El expositor discute su proceso para reducir las alucinaciones en modelos de procesamiento del lenguaje natural. Dividieron el proceso de toma de decisiones en cuatro categorías y utilizaron una función automática para la categoría de más de 50. También implementaron el proceso de evaluación en el producto principal, lo que permite ejecutar y exportar evaluaciones a CSB. El expositor menciona un repositorio de GitHub para obtener más información sobre el proyecto. Luego, discuten los pasos que tomaron para reducir las alucinaciones, incluyendo la observabilidad, el ajuste y las pruebas. Lograron reducir la tasa de alucinaciones del 40% a menos del 5%.
Conclusion
Reducir las alucinaciones de ChatGPT en los modelos de PLN es un proceso complejo que implica observabilidad, ajuste y pruebas. Los desarrolladores también deben tener en cuenta la variación de las indicaciones, optimizar las incrustaciones y evaluar las respuestas a múltiples preguntas. Técnicas como la perplejidad, la creación de un paquete para probar estrategias de indicación y la ejecución de un índice también pueden ser útiles en el desarrollo de IA. El futuro del desarrollo de IA radica en elementos pequeños, privados o específicos de tareas.
Puntos clave
- Reducir las alucinaciones de ChatGPT en los modelos de PLN implica observabilidad, ajuste y pruebas.
- Los desarrolladores deben considerar la variación de las indicaciones, optimizar las incrustaciones y evaluar las respuestas a múltiples preguntas.
- Técnicas como la perplejidad, la creación de un paquete para probar estrategias de indicación y la ejecución de un índice también pueden ser útiles en el desarrollo de IA.
- El futuro del desarrollo de IA radica en elementos pequeños, privados o específicos de tareas.
Preguntas frecuentes
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo hacer gráficos, diagramas y diagramas con ChatGPT
- Dominando la Interpretabilidad del Modelo Un Análisis Integral de los Gráficos de Dependencia Parcial
- People Analytics es lo nuevo y grande, y aquí te explicamos por qué debes conocerlo.
- Esta Investigación de IA Explica los Rasgos de Personalidad Sintéticos en los Modelos de Lenguaje de Gran Escala (LLMs)
- Aprendiendo Transformers Code First Parte 1 – La Configuración
- El diablo está en los detalles Conviértete en un campeón de Power BI pensando fuera de lo convencional.
- Evita estos 3 costosos errores y salva tus pruebas A/B.