Investigadores de EPFL y Apple hacen de código abierto 4M Un marco de inteligencia artificial para entrenar modelos de base multimodales en decenas de modalidades y tareas
EPFL y Apple colaboran en el desarrollo de 4M un marco de inteligencia artificial de código abierto para entrenar modelos multimodales en diversas tareas y modalidades
El entrenamiento de modelos de lenguaje grandes (LLMs) que puedan manejar naturalmente varias tareas sin ajustes específicos de cada tarea se ha vuelto más popular en el procesamiento del lenguaje natural (NLP). Aún se necesita crear modelos igualmente flexibles y escalables para la visión, a pesar de que estos modelos han mostrado un éxito sobresaliente en NLP. La capacidad para manejar múltiples modalidades de entrada y tareas de salida es esencial para la escalabilidad y versatilidad de la visión.
Los modelos de visión deben manejar varias entradas sensoriales, incluyendo imágenes, 3D y texto, y realizar diversas tareas. En cuanto a la visión, el entrenamiento en imágenes RGB con un único propósito no ha producido los mismos resultados que el modelado de lenguaje en texto sin procesar, lo que ha llevado a capacidades de multitarea en el procesamiento del lenguaje natural. Como resultado, el entrenamiento debe utilizar diversas modalidades y tareas.
Los datos, la arquitectura y el propósito del entrenamiento son tres factores críticos de escalabilidad a considerar al construir un modelo con atributos deseables para una base de visión. La escalabilidad de los datos se refiere a la capacidad de aprovechar más muestras de entrenamiento para mejorar el rendimiento. En términos arquitectónicos, la escalabilidad significa que el rendimiento mejora a medida que el tamaño del modelo aumenta y se mantiene estable cuando se entrena con tamaños grandes. Por último, un objetivo de entrenamiento escalable debe ser capaz de manejar eficientemente un número creciente de modalidades sin que los costos computacionales se disparen.
- Algoritmos de aprendizaje automático y GAN
- Práctica de LangChain para el desarrollo de aplicaciones de LLM Carga de documentos
- ¡Atención inmediata! Principios subyacentes explicados
Investigaciones recientes del Instituto Federal Suizo de Tecnología de Lausana (EPFL) y Apple se centran en la escalabilidad en estas tres áreas al mismo tiempo que son compatibles con diferentes tipos de entradas.
Para superar estos obstáculos, el equipo presenta una estrategia que consiste en entrenar un único codificador-decodificador Transformer integrado con un objetivo de modelado multimodal enmascarado. 4M significa “Modelado Multimodal enmascarado Masivamente”, destacando la capacidad del enfoque para expandirse a varias modalidades diferentes. Este enfoque combina las mejores características del modelado enmascarado y el aprendizaje multimodal:
- Capacidad de codificación predictiva cruzada sólida y representaciones compartidas de escena
- Muestreo iterativo que permite utilizar los modelos para tareas generativas
- El objetivo del preentrenamiento es aprender eficazmente representaciones ricas
Es importante destacar que 4M integra estas ventajas al mismo tiempo que mantiene la eficiencia a través de varios procesos. Mediante el uso de tokenizadores específicos para cada modalidad, las modalidades se pueden convertir con diferentes formatos en conjuntos o secuencias de tokens discretos, lo que permite entrenar un único Transformer en texto, cuadros delimitadores, imágenes o características de redes neuronales, entre otros. Esto unifica sus dominios de representación. Dado que ya no se necesitan codificadores y cabezas específicos de cada tarea, el Transformer se puede utilizar con cualquier modalidad y mantener un intercambio total de parámetros gracias a este enfoque de tokenización, mejorando la compatibilidad, la escalabilidad y el intercambio.
Además, 4M puede entrenar eficientemente utilizando enmascaramiento de entrada y destino, aunque opera en una gran colección de modalidades. Esto requiere seleccionar aleatoriamente un pequeño subconjunto de tokens de todas las modalidades para utilizarlos como entradas del modelo y otro pequeño subconjunto como objetivos. Para lograr un objetivo de entrenamiento escalable, es necesario desacoplar el número de tokens de entrada y objetivo del número de modalidades. Esto evita que el costo computacional aumente rápidamente a medida que aumenta el número de modalidades. Utilizando CC12M y otros conjuntos de datos disponibles de modalidad única o pares texto-imagen, crean datos de enlace alineados modalmente utilizando redes de etiquetado pseudo.
Sin necesidad de incluir anotaciones multimodales o multitarea, este método de etiquetado pseudo permite el entrenamiento en conjuntos de datos diferentes y a gran escala. Además de sobresalir en numerosas tareas visuales importantes desde el principio, los modelos 4M se pueden ajustar finamente para lograr resultados notables en tareas futuras y modalidades de entrada imprevistas.
Además, se debe utilizar un objetivo de modelado multimodal enmascarado para entrenar modelos generativos dirigibles que puedan condicionarse a cualquier modalidad. Esto permite una expresión diversa de la intención del usuario y varias tareas de edición multimodal. Los parámetros que afectan el rendimiento de 4M luego son estudiados en un análisis de abstracción exhaustivo. Este análisis completo, junto con la facilidad y la generalización de este método, demuestra que 4M tiene un gran potencial para muchas tareas visuales y desarrollos futuros.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de Stanford aprovechan el aprendizaje profundo con GLOW e IVES para transformar el acoplamiento molecular y la predicción de la posición de unión del ligando
- Técnicas avanzadas de RAG una visión general ilustrada
- ¿Cómo usar Github? Guía paso a paso
- Upstage presenta Solar-10.7B modelos de lenguaje grandes pioneros con escalado en profundidad y precisión ajustada para conversaciones de un solo turno
- Kinara presenta el procesador Ara-2 revolucionando el procesamiento de IA en dispositivos para un rendimiento mejorado
- ¡Vamos a explorar el aprendizaje por transferencia…
- Este artículo de IA explora el plan del cerebro a través del aprendizaje profundo Avanzando las redes neuronales con los conocimientos de la neurociencia y los tutoriales de la biblioteca Python snnTorch.