Este artículo de IA propone un método de generación de memoria recursivo para mejorar la consistencia conversacional a largo plazo en modelos de lenguaje grandes
Este artículo de IA propone un método de generación de memoria para mejorar la consistencia conversacional en modelos de lenguaje grandes.
Los chatbots y otras formas de sistemas de comunicación de dominio abierto han experimentado un aumento de interés e investigación en los últimos años. La configuración de discusión a largo plazo es un desafío ya que requiere conocer y recordar puntos cruciales de conversaciones anteriores.
Los modelos de lenguaje grandes (LLMs) como ChatGPT y GPT-4 han mostrado resultados alentadores en diversas tareas recientes de procesamiento de lenguaje natural. Como resultado, se crean chatbots de dominio abierto/tarea utilizando las capacidades de LLM en la generación de estímulos. Sin embargo, en una discusión prolongada, incluso el ChatGPT puede perder el contexto y proporcionar respuestas inconsistentes.
Investigadores de la Academia China de Ciencias y la Universidad de Sídney investigan si los LLMs pueden utilizarse de manera eficiente en conversaciones a largo plazo sin datos etiquetados ni herramientas adicionales. Los investigadores utilizan LLMs para construir resúmenes recursivos como memoria, donde guardan información crucial de la conversación en curso, inspirándose en enfoques con memoria aumentada. En el uso real, a un LLM inicialmente se le da un breve contexto y se le pide que lo resuma. Luego, el LLM combina las declaraciones anteriores y posteriores para producir un nuevo resumen/memoria. Finalmente, le indican al LLM que decida en función de la información más reciente que ha almacenado.
- ¿Se entienden Do Flamingo y DALL-E? Explorando la simbiosis entre los modelos de generación de subtítulos de imágenes y síntesis de texto a imagen
- Investigadores de UCSC y TU Munich proponen RECAST un nuevo modelo basado en el aprendizaje profundo para predecir réplicas
- Preguntas, encogimientos de hombros y lo que viene después Un cuarto de siglo de cambio
El esquema propuesto podría servir como una solución factible para permitir que el LLM actual modele el contexto extremadamente largo (sesión de diálogo) sin una costosa expansión de la configuración de longitud máxima y modelar el discurso a largo plazo.
La utilidad del esquema propuesto se demuestra experimentalmente en el conjunto de datos público a largo plazo utilizando la API ChatGPT y text-davinci-003, que son fáciles de usar. Además, el estudio demuestra que el uso de una sola muestra etiquetada puede mejorar significativamente el rendimiento de la estrategia propuesta.
Los investigadores han pedido a un modelo de lenguaje arbitrariamente grande que realice las tareas de gestión de memoria y generación de respuestas. El primero se encarga de resumir de manera iterativa los detalles importantes de la conversación en curso, y el segundo incorpora la memoria para producir una respuesta aceptable.
En este estudio, el equipo ha utilizado únicamente medidas automáticas para juzgar la efectividad de la metodología propuesta, lo cual puede no ser óptimo para los chatbots de dominio abierto. En aplicaciones del mundo real, no pueden ignorar el costo de llamar a modelos enormes, algo que no se tiene en cuenta en su solución.
En el futuro, los investigadores planean probar la efectividad de su enfoque para el modelado de contexto largo en otros trabajos de contexto largo, incluida la producción de historias. También planean mejorar las capacidades de resumen de su método utilizando un LLM afinado localmente supervisado en lugar de una costosa API en línea.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Una guía para la recolección de datos del mundo real para el Aprendizaje Automático
- Dos formas de descargar y acceder a Llama 2 localmente
- Creando habilidades personalizadas para chatbots con plugins
- Construyendo un Motor de Recomendación de Productos con Apache Cassandra y Apache Pulsar
- CassIO La mejor biblioteca para IA generativa inspirada por OpenAI
- Optimiza el costo de implementación de los modelos base de Amazon SageMaker JumpStart con los puntos finales asincrónicos de Amazon SageMaker
- Data Morph Avanzando más allá de la docena de Datasaurus