Google Research presenta SPAE un AutoEncoder para generación multimodal con Modelos de Lenguaje (LLMs) grandes congelados.
Google Research presenta SPAE, un AutoEncoder para generación multimodal con LLMs grandes congelados.
Los Modelos de Lenguaje Grande (LLMs por sus siglas en inglés) han ganado rápidamente una enorme popularidad debido a sus extraordinarias capacidades en el Procesamiento del Lenguaje Natural y la Comprensión del Lenguaje Natural. Este reciente avance en el campo de la Inteligencia Artificial ha revolucionado la forma en que los humanos y las computadoras interactúan entre sí. El modelo reciente desarrollado por OpenAI, que ha estado en los titulares, es el conocido ChatGPT. Basado en la arquitectura de transformadores de GPT, este modelo es famoso por imitar a los humanos al tener conversaciones realistas y realiza desde responder preguntas y generar contenido hasta completar código, traducción automática y resumen de texto.
Los LLMs son excepcionales para capturar conocimientos conceptuales profundos sobre el mundo a través de sus incrustaciones léxicas. Pero los investigadores aún están haciendo esfuerzos para hacer que los LLMs congelaados sean capaces de completar tareas de modalidad visual cuando se les proporcionan las representaciones visuales adecuadas como entrada. Los investigadores han estado sugiriendo utilizar un cuantificador vectorial que mapee una imagen al espacio de tokens de un LLM congelado, lo que traduciría la imagen a un lenguaje que el LLM pueda comprender, permitiendo el uso de las habilidades generativas del LLM para realizar tareas condicionales de comprensión y generación de imágenes sin necesidad de entrenar en pares de imágenes y texto.
Para abordar esto y facilitar esta tarea multimodal, un equipo de investigadores de Google Research y la Universidad Carnegie Mellon ha presentado Semantic Pyramid AutoEncoder (SPAE), un autoencoder para la generación multimodal con LLMs grandes congelados. SPAE produce una secuencia de palabras léxicas que lleva semántica rica y al mismo tiempo conserva detalles finos para la reconstrucción de la señal. En SPAE, el equipo ha combinado una arquitectura de autoencoder con una estructura piramidal jerárquica, y a diferencia de enfoques anteriores, SPAE codifica imágenes en un espacio latente discreto interpretable, es decir, palabras.
- Riesgos de la IA y la Extinción El Futuro Precario de la Humanidad en Medio de una Revolución de la IA
- Un grupo de investigación de CMU, AI2 y la Universidad de Washington presenta NLPositionality un marco de inteligencia artificial para caracterizar sesgos de diseño y cuantificar la posicionamiento de conjuntos de datos y modelos de procesamiento del lenguaje natural (NLP).
- La inteligencia artificial ayuda a los robots domésticos a reducir a la mitad el tiempo de planificación
La representación en forma de pirámide de los tokens de SPAE tiene múltiples escalas, con las capas inferiores de la pirámide priorizando representaciones de apariencia que capturan detalles finos para la reconstrucción de imágenes y las capas superiores de la pirámide contienen nociones centralmente semánticas. Este sistema permite el ajuste dinámico de la longitud de los tokens para adaptarse a diferentes tareas, utilizando menos tokens para tareas que requieren conocimiento y más tokens para trabajos que requieren generación. Este modelo ha sido entrenado de forma independiente, sin retropropagación a través de ningún modelo de lenguaje.
Para evaluar la efectividad de SPAE, el equipo ha realizado experimentos en tareas de comprensión de imágenes, incluyendo clasificación de imágenes, descripción de imágenes y respuesta a preguntas visuales. Los resultados demostraron lo bien que los LLMs pueden manejar modalidades visuales y algunas aplicaciones excelentes como generación de contenido, apoyo al diseño y narración interactiva. Los investigadores también utilizaron métodos de eliminación de ruido en contexto para ilustrar las capacidades de generación de imágenes de los LLMs.
El equipo ha resumido la contribución de la siguiente manera:
- Este trabajo proporciona un gran método para generar contenido visual directamente utilizando el aprendizaje en contexto mediante un modelo de lenguaje congelado que ha sido entrenado solo en tokens de lenguaje.
- Se ha propuesto Semantic Pyramid AutoEncoder (SPAE) para generar representaciones interpretables de conceptos semánticos y detalles finos. Los tokens lingüísticos multilingües que genera el tokenizador tienen longitudes personalizables, lo que le brinda más flexibilidad y adaptación para capturar y comunicar las sutilezas de la información visual.
- También se ha introducido un método de sugerencia progresiva, que permite la integración perfecta de las modalidades de lenguaje y visual, permitiendo la generación de secuencias multimodales completas y coherentes con una mejor calidad y precisión.
- El enfoque supera la precisión de clasificación de imágenes de pocos ejemplos de última generación bajo condiciones de contexto idénticas en un margen absoluto del 25%.
En conclusión, SPAE es un avance significativo en la brecha entre los modelos de lenguaje y la comprensión visual. Muestra el notable potencial de los LLMs en el manejo de tareas multimodales.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- UE busca liderar en el mundo del Metaverso y evitar la dominación de las grandes empresas tecnológicas
- El próximo guardia de seguridad de tu escuela podría ser un robot
- Entropía de IA El círculo vicioso del contenido generado por IA
- Potencia tu código en Python con extensiones de Rust
- Araucana XAI Explicabilidad Local con Árboles de Decisión para la Salud
- Revisión de Pictory (julio de 2023) ¿El mejor generador de video de IA?
- Kevin Baragona, Co-Fundador y CEO de DeepAI – Serie de Entrevistas