Este artículo de IA propone un método de generación de memoria recursivo para mejorar la consistencia conversacional a largo plazo en modelos de lenguaje grandes

Este artículo de IA propone un método de generación de memoria para mejorar la consistencia conversacional en modelos de lenguaje grandes.

Los chatbots y otras formas de sistemas de comunicación de dominio abierto han experimentado un aumento de interés e investigación en los últimos años. La configuración de discusión a largo plazo es un desafío ya que requiere conocer y recordar puntos cruciales de conversaciones anteriores.

Los modelos de lenguaje grandes (LLMs) como ChatGPT y GPT-4 han mostrado resultados alentadores en diversas tareas recientes de procesamiento de lenguaje natural. Como resultado, se crean chatbots de dominio abierto/tarea utilizando las capacidades de LLM en la generación de estímulos. Sin embargo, en una discusión prolongada, incluso el ChatGPT puede perder el contexto y proporcionar respuestas inconsistentes.

Investigadores de la Academia China de Ciencias y la Universidad de Sídney investigan si los LLMs pueden utilizarse de manera eficiente en conversaciones a largo plazo sin datos etiquetados ni herramientas adicionales. Los investigadores utilizan LLMs para construir resúmenes recursivos como memoria, donde guardan información crucial de la conversación en curso, inspirándose en enfoques con memoria aumentada. En el uso real, a un LLM inicialmente se le da un breve contexto y se le pide que lo resuma. Luego, el LLM combina las declaraciones anteriores y posteriores para producir un nuevo resumen/memoria. Finalmente, le indican al LLM que decida en función de la información más reciente que ha almacenado.

El esquema propuesto podría servir como una solución factible para permitir que el LLM actual modele el contexto extremadamente largo (sesión de diálogo) sin una costosa expansión de la configuración de longitud máxima y modelar el discurso a largo plazo.

La utilidad del esquema propuesto se demuestra experimentalmente en el conjunto de datos público a largo plazo utilizando la API ChatGPT y text-davinci-003, que son fáciles de usar. Además, el estudio demuestra que el uso de una sola muestra etiquetada puede mejorar significativamente el rendimiento de la estrategia propuesta.

Los investigadores han pedido a un modelo de lenguaje arbitrariamente grande que realice las tareas de gestión de memoria y generación de respuestas. El primero se encarga de resumir de manera iterativa los detalles importantes de la conversación en curso, y el segundo incorpora la memoria para producir una respuesta aceptable.

En este estudio, el equipo ha utilizado únicamente medidas automáticas para juzgar la efectividad de la metodología propuesta, lo cual puede no ser óptimo para los chatbots de dominio abierto. En aplicaciones del mundo real, no pueden ignorar el costo de llamar a modelos enormes, algo que no se tiene en cuenta en su solución.

En el futuro, los investigadores planean probar la efectividad de su enfoque para el modelado de contexto largo en otros trabajos de contexto largo, incluida la producción de historias. También planean mejorar las capacidades de resumen de su método utilizando un LLM afinado localmente supervisado en lugar de una costosa API en línea.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Este artículo de IA propone un método de generación de memoria recursivo para mejorar la consistencia conversacional a largo plazo en modelos de lenguaje grandes

Was this article helpful?

¿Se entienden Do Flamingo y DALL-E? Explorando la simbiosis entre los modelos de generación de subtítulos de imágenes y síntesis de texto a imagen

¿Puede la IA realmente restaurar detalles faciales de imágenes de baja calidad? Conozca DAEFR un marco de doble rama para mejorar la calidad

Inteligencia Artificial

Los estados están pidiendo más clases de ciencias de la computación. Ahora necesitan maestros

Investigadores de A12 presentan Satlas una nueva plataforma de inteligencia artificial para explorar datos geoespaciales globales generados por inteligencia artificial a partir de imágenes satelitales.

Destaques y Contribuciones de NeurIPS 2023

Destilando lo que sabemos

Google AI propone PixelLLM un modelo de visión y lenguaje capaz de localización de gran precisión y alineación de visión y lenguaje.

Las GPUs NVIDIA H100 ahora están disponibles en la nube de AWS