Investigadores de Microsoft proponen DeepSpeed-VisualChat Un salto adelante en el entrenamiento de modelos de lenguaje multi-modal escalables.

Investigadores de Microsoft proponen DeepSpeed-VisualChat Un avance significativo en el entrenamiento escalable de modelos de lenguaje multimodal.

Los modelos de lenguaje grandes son sistemas de inteligencia artificial sofisticados creados para comprender y producir lenguaje similar al humano a gran escala. Estos modelos son útiles en diversas aplicaciones, como preguntas y respuestas, generación de contenido y diálogos interactivos. Su utilidad proviene de un largo proceso de aprendizaje donde analizan y comprenden grandes cantidades de datos en línea.

Estos modelos son instrumentos avanzados que mejoran la interacción humano-computadora al fomentar un uso más sofisticado y efectivo del lenguaje en diversos contextos.

Más allá de leer y escribir texto, se está llevando a cabo investigación para enseñarles cómo comprender y utilizar diversas formas de información, como sonidos e imágenes. El avance en capacidades multimodales es fascinante y prometedor. Los modelos grandes de lenguaje contemporáneos (LLM), como GPT, han demostrado un rendimiento excepcional en una variedad de tareas relacionadas con el texto. Estos modelos se vuelven muy buenos en diferentes tareas interactivas utilizando métodos de entrenamiento adicionales como el ajuste fino supervisado o el aprendizaje por refuerzo con guía humana. Para alcanzar el nivel de experiencia visto en especialistas humanos, especialmente en desafíos que involucran codificación, pensamiento cuantitativo, razonamiento matemático y participar en conversaciones como chatbots de IA, es esencial refinar los modelos mediante estas técnicas de entrenamiento.

Se está acercando a permitir que estos modelos comprendan y creen contenido en diversos formatos, incluyendo imágenes, sonidos y videos. Se aplican métodos como el alineamiento de características y la modificación del modelo. Los modelos de visión y lenguaje grandes (LVLM) son una de estas iniciativas. Sin embargo, debido a problemas con el entrenamiento y la disponibilidad de datos, los modelos actuales tienen dificultades para abordar escenarios complicados, como diálogos de múltiples imágenes y múltiples rondas, y están limitados en términos de adaptabilidad y escalabilidad en diversos contextos de interacción.

Los investigadores de Microsoft han denominado a este marco como DeepSpeed-VisualChat. Este marco mejora los LLM al incorporar capacidades multimodales, demostrando una escalabilidad sobresaliente incluso con un tamaño de modelo de lenguaje de 70 mil millones de parámetros. Esto se formuló para facilitar chats dinámicos con diálogos de múltiples rondas y múltiples imágenes, fusionando sin problemas entradas de texto e imágenes. Para aumentar la adaptabilidad y capacidad de respuesta de los modelos multimodales, el marco utiliza Atención Causal Multi-Modal (MMCA), un método que estima pesos de atención por separado en varias modalidades. El equipo ha utilizado enfoques de combinación de datos para superar problemas con los conjuntos de datos disponibles, lo que resulta en un entorno de entrenamiento rico y variado.

DeepSpeed-VisualChat se distingue por su escalabilidad sobresaliente, que fue posible gracias a la integración cuidadosa del marco DeepSpeed. Este marco exhibe una escalabilidad excepcional y empuja los límites de lo que es posible en sistemas de diálogo multimodal utilizando un codificador visual de 2000 millones de parámetros y un decodificador de lenguaje de 70 mil millones de parámetros de LLaMA-2.

Los investigadores enfatizan que la arquitectura de DeepSpeed-VisualChat se basa en MiniGPT4. En esta estructura, una imagen se codifica utilizando un codificador visual pre-entrenado y luego se alinea con la salida de la dimensión oculta de la capa de incrustación de texto utilizando una capa lineal. Estas entradas se alimentan en modelos de lenguaje como LLaMA2, respaldados por el innovador mecanismo de Atención Causal Multi-Modal (MMCA). Es importante destacar que durante este procedimiento, tanto el modelo de lenguaje como el codificador visual permanecen congelados.

Según los investigadores, la Atención Cruzada Clásica (CrA) plantea nuevas dimensiones y problemas, pero la Atención Causal Multi-Modal (MMCA) toma un enfoque diferente. Para los tokens de texto e imagen, MMCA utiliza matrices de pesos de atención separadas de manera que los tokens visuales se centran en sí mismos y el texto permite centrarse en los tokens que los precedieron.

DeepSpeed-VisualChat es más escalable que los modelos anteriores, según los resultados del mundo real. Mejora la adaptación en varios escenarios de interacción sin aumentar la complejidad ni los costos de entrenamiento. Con una escalabilidad de hasta un tamaño de modelo de lenguaje de 70 mil millones de parámetros, ofrece una escalabilidad especialmente excepcional. Este logro proporciona una base sólida para el avance continuo en modelos de lenguaje multimodal y constituye un paso significativo hacia adelante.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Microsoft proponen DeepSpeed-VisualChat Un salto adelante en el entrenamiento de modelos de lenguaje multi-modal escalables.

Was this article helpful?

Introducción a las bases de datos con SQL Curso gratuito de Harvard

Python Avanzado Operador de Punto

Inteligencia Artificial

Conoce LMSYS-Chat-1M Un conjunto de datos a gran escala que contiene un millón de conversaciones del mundo real con 25 LLM de última generación.

Investigadores de Stanford presentan HyenaDNA un modelo genómico de base de largo alcance con longitudes de contexto de hasta 1 millón de tokens a una resolución de nucleótido único.

Robot puede ordenar la ropa en un dormitorio desordenado

Desbloqueando el poder del contexto con Google IA una competencia entre prefixLM y causalLM en el aprendizaje en contexto

🤖 ¡Háganse a un lado para el robot similar a una anguila un avance en la tecnología submarina! 🌊

El camino hacia una IA creíble y orientada al valor comienza haciendo las preguntas correctas.