Investigadores de EPFL y Apple hacen de código abierto 4M Un marco de inteligencia artificial para entrenar modelos de base multimodales en decenas de modalidades y tareas

EPFL y Apple colaboran en el desarrollo de 4M un marco de inteligencia artificial de código abierto para entrenar modelos multimodales en diversas tareas y modalidades

El entrenamiento de modelos de lenguaje grandes (LLMs) que puedan manejar naturalmente varias tareas sin ajustes específicos de cada tarea se ha vuelto más popular en el procesamiento del lenguaje natural (NLP). Aún se necesita crear modelos igualmente flexibles y escalables para la visión, a pesar de que estos modelos han mostrado un éxito sobresaliente en NLP. La capacidad para manejar múltiples modalidades de entrada y tareas de salida es esencial para la escalabilidad y versatilidad de la visión.

Los modelos de visión deben manejar varias entradas sensoriales, incluyendo imágenes, 3D y texto, y realizar diversas tareas. En cuanto a la visión, el entrenamiento en imágenes RGB con un único propósito no ha producido los mismos resultados que el modelado de lenguaje en texto sin procesar, lo que ha llevado a capacidades de multitarea en el procesamiento del lenguaje natural. Como resultado, el entrenamiento debe utilizar diversas modalidades y tareas.

Los datos, la arquitectura y el propósito del entrenamiento son tres factores críticos de escalabilidad a considerar al construir un modelo con atributos deseables para una base de visión. La escalabilidad de los datos se refiere a la capacidad de aprovechar más muestras de entrenamiento para mejorar el rendimiento. En términos arquitectónicos, la escalabilidad significa que el rendimiento mejora a medida que el tamaño del modelo aumenta y se mantiene estable cuando se entrena con tamaños grandes. Por último, un objetivo de entrenamiento escalable debe ser capaz de manejar eficientemente un número creciente de modalidades sin que los costos computacionales se disparen.

Investigaciones recientes del Instituto Federal Suizo de Tecnología de Lausana (EPFL) y Apple se centran en la escalabilidad en estas tres áreas al mismo tiempo que son compatibles con diferentes tipos de entradas.

Para superar estos obstáculos, el equipo presenta una estrategia que consiste en entrenar un único codificador-decodificador Transformer integrado con un objetivo de modelado multimodal enmascarado. 4M significa “Modelado Multimodal enmascarado Masivamente”, destacando la capacidad del enfoque para expandirse a varias modalidades diferentes. Este enfoque combina las mejores características del modelado enmascarado y el aprendizaje multimodal:

Capacidad de codificación predictiva cruzada sólida y representaciones compartidas de escena
Muestreo iterativo que permite utilizar los modelos para tareas generativas
El objetivo del preentrenamiento es aprender eficazmente representaciones ricas

Es importante destacar que 4M integra estas ventajas al mismo tiempo que mantiene la eficiencia a través de varios procesos. Mediante el uso de tokenizadores específicos para cada modalidad, las modalidades se pueden convertir con diferentes formatos en conjuntos o secuencias de tokens discretos, lo que permite entrenar un único Transformer en texto, cuadros delimitadores, imágenes o características de redes neuronales, entre otros. Esto unifica sus dominios de representación. Dado que ya no se necesitan codificadores y cabezas específicos de cada tarea, el Transformer se puede utilizar con cualquier modalidad y mantener un intercambio total de parámetros gracias a este enfoque de tokenización, mejorando la compatibilidad, la escalabilidad y el intercambio.

Además, 4M puede entrenar eficientemente utilizando enmascaramiento de entrada y destino, aunque opera en una gran colección de modalidades. Esto requiere seleccionar aleatoriamente un pequeño subconjunto de tokens de todas las modalidades para utilizarlos como entradas del modelo y otro pequeño subconjunto como objetivos. Para lograr un objetivo de entrenamiento escalable, es necesario desacoplar el número de tokens de entrada y objetivo del número de modalidades. Esto evita que el costo computacional aumente rápidamente a medida que aumenta el número de modalidades. Utilizando CC12M y otros conjuntos de datos disponibles de modalidad única o pares texto-imagen, crean datos de enlace alineados modalmente utilizando redes de etiquetado pseudo.

Sin necesidad de incluir anotaciones multimodales o multitarea, este método de etiquetado pseudo permite el entrenamiento en conjuntos de datos diferentes y a gran escala. Además de sobresalir en numerosas tareas visuales importantes desde el principio, los modelos 4M se pueden ajustar finamente para lograr resultados notables en tareas futuras y modalidades de entrada imprevistas.

Además, se debe utilizar un objetivo de modelado multimodal enmascarado para entrenar modelos generativos dirigibles que puedan condicionarse a cualquier modalidad. Esto permite una expresión diversa de la intención del usuario y varias tareas de edición multimodal. Los parámetros que afectan el rendimiento de 4M luego son estudiados en un análisis de abstracción exhaustivo. Este análisis completo, junto con la facilidad y la generalización de este método, demuestra que 4M tiene un gran potencial para muchas tareas visuales y desarrollos futuros.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsEditors PickStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de EPFL y Apple hacen de código abierto 4M Un marco de inteligencia artificial para entrenar modelos de base multimodales en decenas de modalidades y tareas

Was this article helpful?

Algoritmos de aprendizaje automático y GAN

Investigadores del MIT descubren nuevos conocimientos sobre las conexiones cerebro-auditivas con modelos avanzados de redes neuronales

Inteligencia Artificial

Una guía completa de Distributed Data Parallel (DDP)

Este artículo de IA de la Universidad de Tokio ha aplicado el aprendizaje profundo al problema de la simulación de supernovas.

Las gafas transcriben el habla en tiempo real

Perplejidad revela dos nuevos modelos de LLM en línea 'pplx-7b-online' y 'pplx-70b-online

Detecta contenido perjudicial utilizando la detección de toxicidad de Amazon Comprehend

Conoce MovieChat un innovador sistema de comprensión de video que integra modelos fundamentales de video y grandes modelos de lenguaje.