Google Research presenta SPAE un AutoEncoder para generación multimodal con Modelos de Lenguaje (LLMs) grandes congelados.

Google Research presenta SPAE, un AutoEncoder para generación multimodal con LLMs grandes congelados.

Los Modelos de Lenguaje Grande (LLMs por sus siglas en inglés) han ganado rápidamente una enorme popularidad debido a sus extraordinarias capacidades en el Procesamiento del Lenguaje Natural y la Comprensión del Lenguaje Natural. Este reciente avance en el campo de la Inteligencia Artificial ha revolucionado la forma en que los humanos y las computadoras interactúan entre sí. El modelo reciente desarrollado por OpenAI, que ha estado en los titulares, es el conocido ChatGPT. Basado en la arquitectura de transformadores de GPT, este modelo es famoso por imitar a los humanos al tener conversaciones realistas y realiza desde responder preguntas y generar contenido hasta completar código, traducción automática y resumen de texto.

Los LLMs son excepcionales para capturar conocimientos conceptuales profundos sobre el mundo a través de sus incrustaciones léxicas. Pero los investigadores aún están haciendo esfuerzos para hacer que los LLMs congelaados sean capaces de completar tareas de modalidad visual cuando se les proporcionan las representaciones visuales adecuadas como entrada. Los investigadores han estado sugiriendo utilizar un cuantificador vectorial que mapee una imagen al espacio de tokens de un LLM congelado, lo que traduciría la imagen a un lenguaje que el LLM pueda comprender, permitiendo el uso de las habilidades generativas del LLM para realizar tareas condicionales de comprensión y generación de imágenes sin necesidad de entrenar en pares de imágenes y texto.

Para abordar esto y facilitar esta tarea multimodal, un equipo de investigadores de Google Research y la Universidad Carnegie Mellon ha presentado Semantic Pyramid AutoEncoder (SPAE), un autoencoder para la generación multimodal con LLMs grandes congelados. SPAE produce una secuencia de palabras léxicas que lleva semántica rica y al mismo tiempo conserva detalles finos para la reconstrucción de la señal. En SPAE, el equipo ha combinado una arquitectura de autoencoder con una estructura piramidal jerárquica, y a diferencia de enfoques anteriores, SPAE codifica imágenes en un espacio latente discreto interpretable, es decir, palabras.

La representación en forma de pirámide de los tokens de SPAE tiene múltiples escalas, con las capas inferiores de la pirámide priorizando representaciones de apariencia que capturan detalles finos para la reconstrucción de imágenes y las capas superiores de la pirámide contienen nociones centralmente semánticas. Este sistema permite el ajuste dinámico de la longitud de los tokens para adaptarse a diferentes tareas, utilizando menos tokens para tareas que requieren conocimiento y más tokens para trabajos que requieren generación. Este modelo ha sido entrenado de forma independiente, sin retropropagación a través de ningún modelo de lenguaje.

Para evaluar la efectividad de SPAE, el equipo ha realizado experimentos en tareas de comprensión de imágenes, incluyendo clasificación de imágenes, descripción de imágenes y respuesta a preguntas visuales. Los resultados demostraron lo bien que los LLMs pueden manejar modalidades visuales y algunas aplicaciones excelentes como generación de contenido, apoyo al diseño y narración interactiva. Los investigadores también utilizaron métodos de eliminación de ruido en contexto para ilustrar las capacidades de generación de imágenes de los LLMs.

El equipo ha resumido la contribución de la siguiente manera:

  1. Este trabajo proporciona un gran método para generar contenido visual directamente utilizando el aprendizaje en contexto mediante un modelo de lenguaje congelado que ha sido entrenado solo en tokens de lenguaje.
  1. Se ha propuesto Semantic Pyramid AutoEncoder (SPAE) para generar representaciones interpretables de conceptos semánticos y detalles finos. Los tokens lingüísticos multilingües que genera el tokenizador tienen longitudes personalizables, lo que le brinda más flexibilidad y adaptación para capturar y comunicar las sutilezas de la información visual.
  1. También se ha introducido un método de sugerencia progresiva, que permite la integración perfecta de las modalidades de lenguaje y visual, permitiendo la generación de secuencias multimodales completas y coherentes con una mejor calidad y precisión.
  1. El enfoque supera la precisión de clasificación de imágenes de pocos ejemplos de última generación bajo condiciones de contexto idénticas en un margen absoluto del 25%.

En conclusión, SPAE es un avance significativo en la brecha entre los modelos de lenguaje y la comprensión visual. Muestra el notable potencial de los LLMs en el manejo de tareas multimodales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

Desde noviembre de 2020, LINE se ha embarcado en un viaje transformador de investigación y desarrollo para crear y ap...

Inteligencia Artificial

Samsung presenta 'Gauss' un nuevo modelo de lenguaje de IA para desafiar el reinado de ChatGPT.

Samsung ha presentado un nuevo modelo de lenguaje basado en inteligencia artificial (IA) llamado Gauss, que se presen...

Investigación

Investigadores de MIT CSAIL discuten las fronteras del AI generativo.

Expertos se reúnen para examinar el código, lenguaje e imágenes generados por la inteligencia artificial, así como su...

Inteligencia Artificial

Conoce DreamSync un nuevo marco de inteligencia artificial para mejorar la síntesis de texto a imagen (T2I) con comentarios de modelos de comprensión de imagen

Investigadores de la Universidad del Sur de California, la Universidad de Washington, la Universidad Bar-Ilan y Googl...