Investigadores de UC Berkeley proponen un algoritmo de inteligencia artificial que logra la adquisición sin entrenamiento de agentes de diálogo dirigidos por objetivos.
Investigadores de UC Berkeley proponen un algoritmo de IA que permite a los agentes de diálogo adquirir habilidades sin necesidad de entrenamiento previo y centrar su enfoque en los objetivos.
Los Modelos de Lenguaje Grandes (LLMs) han demostrado grandes capacidades en diversas tareas de procesamiento de lenguaje natural, como resumir textos, responder preguntas, generar código, entre otras, convirtiéndose en una solución potente para muchos problemas del mundo real. Sin embargo, una de las áreas en las que estos modelos tienen dificultades es en las conversaciones dirigidas a objetivos, donde deben lograr un objetivo a través de la conversación, por ejemplo, actuar como un agente de viajes efectivo para proporcionar planes de viaje personalizados. En la práctica, en general, proporcionan respuestas verbosas y no personalizadas.
Los modelos entrenados con fine-tuning supervisado o aprendizaje por refuerzo de un solo paso suelen tener dificultades con este tipo de tareas, ya que no están optimizados para los resultados conversacionales generales después de múltiples interacciones. Además, otra área en la que carecen es en lidiar con la incertidumbre en este tipo de conversaciones. En este documento, los investigadores de UC Berkeley han explorado un nuevo método para adaptar los LLMs con aprendizaje por refuerzo para diálogos dirigidos a objetivos. Sus contribuciones incluyen un algoritmo optimizado de “zero-shot” y un nuevo sistema llamado motor de imaginación (IE) que genera preguntas diversas y relevantes para entrenar a los agentes downstream.
Dado que el IE no puede producir agentes efectivos por sí mismo, los investigadores utilizan un LLM para generar posibles escenarios. Para mejorar la efectividad de un agente en lograr los resultados deseados, es necesario utilizar aprendizaje por refuerzo de múltiples pasos para determinar la estrategia óptima. Los investigadores han realizado una modificación a este enfoque. En lugar de utilizar muestras de una política en tiempo real, utilizaron aprendizaje por refuerzo basado en valores fuera de línea para aprender una política a partir de los propios datos sintéticos.
- Conoce a Tarsier Una biblioteca de código abierto en Python para habilitar la interacción web con LLMs multimodales como GPT4
- Investigadores de la Universidad Vanderbilt y UC Davis presentan PRANC Un marco de aprendizaje profundo que es eficiente en memoria tanto durante la fase de aprendizaje como de reconstrucción.
- Cómo conseguí un trabajo de analista de datos en 6 meses
Para probar la eficacia de su método, los investigadores compararon el rendimiento de un agente GPT y un agente IE+RL utilizando evaluadores humanos. Tomaron en consideración dos conversaciones dirigidas a objetivos basadas en problemas del mundo real. Los investigadores utilizaron el modelo GPT-3.5 en el IE para generar datos sintéticos y un modelo GPT-2 más pequeño, solo con decodificador, como el agente downstream. Esto es lo que hace que su enfoque sea práctico, ya que solo se requiere un modelo de última generación para la generación de datos, reduciendo así los costos computacionales.
Basándose en sus experimentos, encontraron que su agente propuesto superó al modelo GPT en todas las métricas y aseguró la naturalidad del diálogo resultante. Según los resultados cualitativos, el agente IE+RL pudo desempeñarse mejor que su contraparte. Generó preguntas fáciles de responder y preguntas de seguimiento basadas de forma inteligente en la pregunta anterior. Los investigadores también compararon el rendimiento de los dos agentes utilizando una simulación. Aunque ambos estaban casi al mismo nivel, el agente IE+RL superó al agente GPT, y este último produjo mejores resultados cuando se evaluó cualitativamente.
En conclusión, en este artículo de investigación, los autores han presentado un método para mejorar el rendimiento de los LLMs en diálogos dirigidos a objetivos. Utilizando un motor de imaginación, generan datos sintéticos diversos, relevantes y realistas para entrenar a un agente de diálogo. Más específicamente, utilizan un enfoque fuera de línea para evitar costos computacionales. Los resultados muestran que su método consistentemente supera a los métodos tradicionales, abriendo camino a futuras mejoras. Consideran que este proceso podría automatizarse aún más para mejorar el rendimiento de agentes de diálogo de cero disparo y, por lo tanto, mejorar la forma en que interactuamos con los sistemas de IA.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Automatización del reconocimiento de entidades químicas creando tu modelo ChemNER
- Guía del Practicante para el Aprendizaje por Reforzamiento
- Dominando el arte de la estrategia de la ciencia de datos una conversación con el visionario de la IA Vin Vashishta
- Desarrollar un ChatGPT específico de la empresa es un tercio tecnología y dos tercios mejoras en los procesos.
- Ajuste de hiperparámetros Redes Neuronales 101
- Investigadores de la Universidad de Washington y la Universidad Duke presentan Punica un sistema de inteligencia artificial para servir múltiples modelos de LoRA en un clúster compartido de GPU.
- Paralelizando Python en Spark Opciones de concurrencia con Pandas