Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

Tencent AI Lab lanza GPT4Video un modelo unificado multimodal de gran escala para comprender instrucciones y generar contenido seguro y consciente.

El problema de comprensión y generación de videos ha sido abordado por investigadores del Laboratorio de IA de Tencent y la Universidad de Sydney al presentar GPT4Video. Este marco unificado de múltiples modelos admite LLM con capacidad tanto de comprensión como de generación de videos. GPT4Video desarrolló un enfoque basado en seguir instrucciones integrado con un modelo generativo de difusión estable, que maneja de manera efectiva y segura escenarios de generación de videos.

Investigadores anteriores han desarrollado modelos de lenguaje multimodal que manejan entradas visuales y salidas de texto. Por ejemplo, algunos investigadores se han centrado en aprender un espacio de incrustación conjunta para múltiples modalidades. Un interés creciente ha sido permitir que los modelos de lenguaje multimodales sigan instrucciones, y se presentó MultiInstruct, el primer conjunto de datos de referencia de ajuste de instrucciones multimodales. LLM ha revolucionado el procesamiento del lenguaje natural. La generación de texto a imagen/video se ha explorado utilizando varias técnicas. Las preocupaciones de seguridad de LLM también se han abordado en trabajos recientes.

Al mejorar LLM con capacidades multimodales robustas, el marco GPT4Video es un sistema universal y versátil diseñado para dotar a LLM de habilidades avanzadas de comprensión y generación de videos. GPT4Video ha surgido como respuesta a las limitaciones de los modelos de lenguaje y visión multimodales actuales, que muestran deficiencias en la generación de salidas multimodales a pesar de su habilidad para procesar entradas multimodales. GPT4Video aborda esta brecha al permitir que LLM no solo interprete, sino también genere contenido multimodal rico.

La arquitectura de GPT4Video se compone de tres componentes integrales:

Un módulo de comprensión de videos que utiliza un extractor de características de video y un extractor de resúmenes de video para codificar y alinear la información del video con el espacio de incrustación de palabras de LLM.
El cuerpo de LLM utiliza la estructura de LLaMA y emplea métodos de ajuste fino de parámetros eficientes, específicamente LoRA, manteniendo los parámetros pre-entrenados originales intactos.
Una parte de generación de videos que condiciona a LLM a generar sugerencias para un modelo de galería de modelos de texto a video a través de instrucciones meticulosamente construidas siguiendo el conjunto de datos.

GPT4Video ha mostrado habilidades notables en la comprensión y generación de videos, superando a Valley en un 11,8% en la tarea de preguntas y respuestas de video y superando a NExt-GPT en un 2,3% en la tarea de generación de texto a video. Este modelo dota a LLM de capacidades de generación de videos sin parámetros de entrenamiento adicionales y puede funcionar con varios modelos para la generación de videos.

En conclusión, GPT4Video es un marco poderoso que mejora los Modelos de Lenguaje y Visión con funciones avanzadas de comprensión y generación de videos. El lanzamiento de un conjunto de datos de instrucciones multimodales especializado promete catalizar futuras investigaciones en el campo. Si bien se especializa en la modalidad de video, hay planes para expandirse a otras modalidades como imagen y audio en futuras actualizaciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

Was this article helpful?

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

Los 5 mejores marcos generativos de IA para usar en 2024

Inteligencia Artificial

Conoce a cinco innovadores en IA generativa en África y Oriente Medio

Descifrando los misterios de los modelos de lenguaje grandes un análisis detallado de las funciones de influencia y su escalabilidad

El nuevo modelo de IA de Phind supera a GPT-4 en codificación, con una velocidad similar a la de GPT-3.5 y un contexto de 16k.

La Carrera por Salvar Secretos de las Futuras Computadoras

Perro robot establece récord mundial de velocidad

Este Robot Podría Ser la Clave para Empoderar a las Personas con Discapacidades