Este artículo de IA propone un método de generación de memoria recursivo para mejorar la consistencia conversacional a largo plazo en modelos de lenguaje grandes

Este artículo de IA propone un método de generación de memoria para mejorar la consistencia conversacional en modelos de lenguaje grandes.

Los chatbots y otras formas de sistemas de comunicación de dominio abierto han experimentado un aumento de interés e investigación en los últimos años. La configuración de discusión a largo plazo es un desafío ya que requiere conocer y recordar puntos cruciales de conversaciones anteriores.

Los modelos de lenguaje grandes (LLMs) como ChatGPT y GPT-4 han mostrado resultados alentadores en diversas tareas recientes de procesamiento de lenguaje natural. Como resultado, se crean chatbots de dominio abierto/tarea utilizando las capacidades de LLM en la generación de estímulos. Sin embargo, en una discusión prolongada, incluso el ChatGPT puede perder el contexto y proporcionar respuestas inconsistentes.

Investigadores de la Academia China de Ciencias y la Universidad de Sídney investigan si los LLMs pueden utilizarse de manera eficiente en conversaciones a largo plazo sin datos etiquetados ni herramientas adicionales. Los investigadores utilizan LLMs para construir resúmenes recursivos como memoria, donde guardan información crucial de la conversación en curso, inspirándose en enfoques con memoria aumentada. En el uso real, a un LLM inicialmente se le da un breve contexto y se le pide que lo resuma. Luego, el LLM combina las declaraciones anteriores y posteriores para producir un nuevo resumen/memoria. Finalmente, le indican al LLM que decida en función de la información más reciente que ha almacenado.

El esquema propuesto podría servir como una solución factible para permitir que el LLM actual modele el contexto extremadamente largo (sesión de diálogo) sin una costosa expansión de la configuración de longitud máxima y modelar el discurso a largo plazo.

La utilidad del esquema propuesto se demuestra experimentalmente en el conjunto de datos público a largo plazo utilizando la API ChatGPT y text-davinci-003, que son fáciles de usar. Además, el estudio demuestra que el uso de una sola muestra etiquetada puede mejorar significativamente el rendimiento de la estrategia propuesta.

Los investigadores han pedido a un modelo de lenguaje arbitrariamente grande que realice las tareas de gestión de memoria y generación de respuestas. El primero se encarga de resumir de manera iterativa los detalles importantes de la conversación en curso, y el segundo incorpora la memoria para producir una respuesta aceptable.

En este estudio, el equipo ha utilizado únicamente medidas automáticas para juzgar la efectividad de la metodología propuesta, lo cual puede no ser óptimo para los chatbots de dominio abierto. En aplicaciones del mundo real, no pueden ignorar el costo de llamar a modelos enormes, algo que no se tiene en cuenta en su solución.

En el futuro, los investigadores planean probar la efectividad de su enfoque para el modelado de contexto largo en otros trabajos de contexto largo, incluida la producción de historias. También planean mejorar las capacidades de resumen de su método utilizando un LLM afinado localmente supervisado en lugar de una costosa API en línea.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los estados están pidiendo más clases de ciencias de la computación. Ahora necesitan maestros

Code.org informó que para el 2022, cada estado de Estados Unidos tenía una ley o política que promovía la educación e...

Inteligencia Artificial

Destaques y Contribuciones de NeurIPS 2023

La conferencia de Sistemas de Procesamiento de Información Neuronal, NeurIPS 2023, se erige como la cima de la búsque...

Inteligencia Artificial

Destilando lo que sabemos

Los investigadores buscan reducir el tamaño de los modelos GPT grandes.

Inteligencia Artificial

Google AI propone PixelLLM un modelo de visión y lenguaje capaz de localización de gran precisión y alineación de visión y lenguaje.

Los Modelos de Lenguaje Grande (LLMs) han utilizado con éxito el poder de los subcampos de Inteligencia Artificial (I...

Inteligencia Artificial

Las GPUs NVIDIA H100 ahora están disponibles en la nube de AWS

Los usuarios de AWS ahora pueden acceder al rendimiento líder demostrado en los benchmarks de la industria del entren...