Investigadores de UC Berkeley proponen un algoritmo de inteligencia artificial que logra la adquisición sin entrenamiento de agentes de diálogo dirigidos por objetivos.

Investigadores de UC Berkeley proponen un algoritmo de IA que permite a los agentes de diálogo adquirir habilidades sin necesidad de entrenamiento previo y centrar su enfoque en los objetivos.

Los Modelos de Lenguaje Grandes (LLMs) han demostrado grandes capacidades en diversas tareas de procesamiento de lenguaje natural, como resumir textos, responder preguntas, generar código, entre otras, convirtiéndose en una solución potente para muchos problemas del mundo real. Sin embargo, una de las áreas en las que estos modelos tienen dificultades es en las conversaciones dirigidas a objetivos, donde deben lograr un objetivo a través de la conversación, por ejemplo, actuar como un agente de viajes efectivo para proporcionar planes de viaje personalizados. En la práctica, en general, proporcionan respuestas verbosas y no personalizadas.

Los modelos entrenados con fine-tuning supervisado o aprendizaje por refuerzo de un solo paso suelen tener dificultades con este tipo de tareas, ya que no están optimizados para los resultados conversacionales generales después de múltiples interacciones. Además, otra área en la que carecen es en lidiar con la incertidumbre en este tipo de conversaciones. En este documento, los investigadores de UC Berkeley han explorado un nuevo método para adaptar los LLMs con aprendizaje por refuerzo para diálogos dirigidos a objetivos. Sus contribuciones incluyen un algoritmo optimizado de “zero-shot” y un nuevo sistema llamado motor de imaginación (IE) que genera preguntas diversas y relevantes para entrenar a los agentes downstream.

Dado que el IE no puede producir agentes efectivos por sí mismo, los investigadores utilizan un LLM para generar posibles escenarios. Para mejorar la efectividad de un agente en lograr los resultados deseados, es necesario utilizar aprendizaje por refuerzo de múltiples pasos para determinar la estrategia óptima. Los investigadores han realizado una modificación a este enfoque. En lugar de utilizar muestras de una política en tiempo real, utilizaron aprendizaje por refuerzo basado en valores fuera de línea para aprender una política a partir de los propios datos sintéticos.

Para probar la eficacia de su método, los investigadores compararon el rendimiento de un agente GPT y un agente IE+RL utilizando evaluadores humanos. Tomaron en consideración dos conversaciones dirigidas a objetivos basadas en problemas del mundo real. Los investigadores utilizaron el modelo GPT-3.5 en el IE para generar datos sintéticos y un modelo GPT-2 más pequeño, solo con decodificador, como el agente downstream. Esto es lo que hace que su enfoque sea práctico, ya que solo se requiere un modelo de última generación para la generación de datos, reduciendo así los costos computacionales.

Basándose en sus experimentos, encontraron que su agente propuesto superó al modelo GPT en todas las métricas y aseguró la naturalidad del diálogo resultante. Según los resultados cualitativos, el agente IE+RL pudo desempeñarse mejor que su contraparte. Generó preguntas fáciles de responder y preguntas de seguimiento basadas de forma inteligente en la pregunta anterior. Los investigadores también compararon el rendimiento de los dos agentes utilizando una simulación. Aunque ambos estaban casi al mismo nivel, el agente IE+RL superó al agente GPT, y este último produjo mejores resultados cuando se evaluó cualitativamente.

En conclusión, en este artículo de investigación, los autores han presentado un método para mejorar el rendimiento de los LLMs en diálogos dirigidos a objetivos. Utilizando un motor de imaginación, generan datos sintéticos diversos, relevantes y realistas para entrenar a un agente de diálogo. Más específicamente, utilizan un enfoque fuera de línea para evitar costos computacionales. Los resultados muestran que su método consistentemente supera a los métodos tradicionales, abriendo camino a futuras mejoras. Consideran que este proceso podría automatizarse aún más para mejorar el rendimiento de agentes de diálogo de cero disparo y, por lo tanto, mejorar la forma en que interactuamos con los sistemas de IA.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Este documento de IA presenta técnicas avanzadas para explicaciones detalladas de texto y visual en modelos de alineación de imágenes y texto.

Los modelos de alineación de texto e imagen tienen como objetivo establecer una conexión significativa entre el conte...

Inteligencia Artificial

Utilizando Psicología para Fortalecer la Ciberseguridad

Entrando en la mente de los atacantes para proteger la empresa.

Inteligencia Artificial

¿Cómo supera Bing Chat a ChatGPT en proporcionar conocimiento en tiempo real actualizado? Conoce la Generación con Recuperación Mejorada (RAG)

Con el desarrollo de los Modelos de Lenguaje Grande (LLMs) en los últimos tiempos, estos modelos han provocado un cam...

Inteligencia Artificial

Investigadores de UCLA y CMU presentan Stormer Una red neuronal Transformadora escalable para una pronóstico meteorológico de mediano alcance hábil y confiable.

Uno de los principales problemas que enfrenta la ciencia y la sociedad hoy en día es la predicción del tiempo. La pre...

Inteligencia Artificial

Confrontación de modelos de chat GPT-4 vs GPT-3.5 vs LLaMA-2 en un debate simulado - Parte 1

Con Meta revelando recientemente planes para construir un modelo de chat que competirá con GPT-4, y el lanzamiento de...