Esta investigación de IA presenta CoDi-2 un innovador modelo de lenguaje multifuncional multimodal que transforma el panorama de procesamiento de instrucciones entrelazadas y generación de salida multimodal.

CoDi-2 el revolucionario modelo de lenguaje multifuncional multimodal que transforma el procesamiento de instrucciones entrelazadas y generación de salida

Investigadores desarrollaron el Modelo de Lenguaje Multimodal de Gran Tamaño CoDi-2 (MLLM) de la Universidad de California en Berkeley, Microsoft Azure AI, Zoom y UNC-Chapel Hill para abordar el problema de generar y comprender instrucciones multimodales complejas, así como destacar en la generación de imágenes impulsadas por el tema, transformación visual y edición de audio. Este modelo representa un avance significativo en el establecimiento de una base multimodal integral.

CoDi-2 expande las capacidades de su predecesor, CoDi, al destacar en tareas como la generación de imágenes impulsadas por el tema y la edición de audio. La arquitectura del modelo incluye codificadores y decodificadores para entradas de audio y visión. El entrenamiento incorpora pérdida de píxeles de modelos de difusión junto con pérdida de tokens. CoDi-2 muestra notables habilidades de adaptación y generación impulsadas por el tema sin entrenamiento previo en tareas como la adaptación de estilo y la generación impulsada por el tema.

CoDi-2 aborda los desafíos en la generación multimodal, enfatizando el control fino sin entrenamiento, el seguimiento de instrucciones intercaladas por modalidad y el chat multimodal de varias rondas. Utilizando un MLLM como su cerebro, CoDi-2 alinea las modalidades con el lenguaje durante la codificación y la generación. Este enfoque permite que el modelo comprenda instrucciones complejas y produzca salidas multimodales coherentes.

La arquitectura de CoDi-2 incorpora codificadores y decodificadores para entradas de audio y visión dentro de un modelo de lenguaje multimodal de gran tamaño. Entrenado en un conjunto de datos diverso, CoDi-2 utiliza pérdida de píxeles de modelos de difusión junto con pérdida de tokens durante la fase de entrenamiento. Demostrando capacidades superiores sin entrenamiento previo, supera a modelos anteriores en la generación de imágenes impulsada por el tema, la transformación visual y la edición de audio, mostrando un rendimiento competitivo y generalización en tareas nuevas e invisibles.

CoDi-2 exhibe amplias capacidades sin entrenamiento previo en generación multimodal, destacando en el aprendizaje contextual, el razonamiento y la generación de cualquier modalidad a través de una conversación interactiva de varias rondas. Los resultados de la evaluación demuestran un rendimiento sin entrenamiento altamente competitivo y una generalización sólida a tareas nuevas e invisibles. CoDi-2 supera las tareas de manipulación de audio, logrando un rendimiento superior al agregar, eliminar y reemplazar elementos dentro de pistas de audio, como lo indican las calificaciones más bajas en todas las métricas. Destaca la importancia del contexto, el aprendizaje de conceptos, la edición y el control fino en la generación multimodal de alta fidelidad.

En conclusión, CoDi-2 es un sistema de IA avanzado que sobresale en varias tareas, incluyendo el seguimiento de instrucciones complejas, el aprendizaje en contexto, el razonamiento, el chat y la edición en diferentes modos de entrada-salida. Su capacidad para adaptarse a diferentes estilos y generar contenido basado en varios temas y su habilidad para manipular audio representan un gran avance en el modelado de bases multimodales. CoDi-2 representa una impresionante exploración de la creación de un sistema integral que puede manejar muchas tareas, incluso aquellas para las que aún no ha sido entrenado.

Las futuras direcciones para CoDi-2 planean mejorar sus capacidades de generación multimodal mediante el refinamiento del aprendizaje contextual, la expansión de las habilidades conversacionales y el soporte de modalidades adicionales. El objetivo es mejorar la fidelidad de imágenes y audio utilizando técnicas como modelos de difusión. Investigaciones futuras también pueden involucrar la evaluación y comparación de CoDi-2 con otros modelos para comprender sus fortalezas y limitaciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Esta investigación de IA presenta CoDi-2 un innovador modelo de lenguaje multifuncional multimodal que transforma el panorama de procesamiento de instrucciones entrelazadas y generación de salida multimodal.

Was this article helpful?

Bard recibe su mayor actualización hasta ahora con Gemini

Meta lanza nuevas funciones de IA en Facebook, Instagram

Inteligencia Artificial

Cómo Patsnap utilizó la inferencia de GPT-2 en Amazon SageMaker con baja latencia y costo

Convirtiendo viejos mapas en modelos digitales en 3D de vecindarios perdidos.

La SEC le está dando a las empresas cuatro días para informar ciberataques

Web LLM Trae los Chatbots de LLM al Navegador.

Varias filtraciones de datos en 23andMe

Google presenta Project IDX un paraíso para desarrolladores basado en navegador impulsado por IA.