Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.
Tencent AI Lab lanza GPT4Video un modelo unificado multimodal de gran escala para comprender instrucciones y generar contenido seguro y consciente.
El problema de comprensión y generación de videos ha sido abordado por investigadores del Laboratorio de IA de Tencent y la Universidad de Sydney al presentar GPT4Video. Este marco unificado de múltiples modelos admite LLM con capacidad tanto de comprensión como de generación de videos. GPT4Video desarrolló un enfoque basado en seguir instrucciones integrado con un modelo generativo de difusión estable, que maneja de manera efectiva y segura escenarios de generación de videos.
Investigadores anteriores han desarrollado modelos de lenguaje multimodal que manejan entradas visuales y salidas de texto. Por ejemplo, algunos investigadores se han centrado en aprender un espacio de incrustación conjunta para múltiples modalidades. Un interés creciente ha sido permitir que los modelos de lenguaje multimodales sigan instrucciones, y se presentó MultiInstruct, el primer conjunto de datos de referencia de ajuste de instrucciones multimodales. LLM ha revolucionado el procesamiento del lenguaje natural. La generación de texto a imagen/video se ha explorado utilizando varias técnicas. Las preocupaciones de seguridad de LLM también se han abordado en trabajos recientes.
Al mejorar LLM con capacidades multimodales robustas, el marco GPT4Video es un sistema universal y versátil diseñado para dotar a LLM de habilidades avanzadas de comprensión y generación de videos. GPT4Video ha surgido como respuesta a las limitaciones de los modelos de lenguaje y visión multimodales actuales, que muestran deficiencias en la generación de salidas multimodales a pesar de su habilidad para procesar entradas multimodales. GPT4Video aborda esta brecha al permitir que LLM no solo interprete, sino también genere contenido multimodal rico.
- Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión
- DynamoDB vs. Cassandra Elegir la Base de Datos Correcta para tu Negocio
- Apple presenta MLX, un marco de trabajo de aprendizaje automático de código abierto
La arquitectura de GPT4Video se compone de tres componentes integrales:
- Un módulo de comprensión de videos que utiliza un extractor de características de video y un extractor de resúmenes de video para codificar y alinear la información del video con el espacio de incrustación de palabras de LLM.
- El cuerpo de LLM utiliza la estructura de LLaMA y emplea métodos de ajuste fino de parámetros eficientes, específicamente LoRA, manteniendo los parámetros pre-entrenados originales intactos.
- Una parte de generación de videos que condiciona a LLM a generar sugerencias para un modelo de galería de modelos de texto a video a través de instrucciones meticulosamente construidas siguiendo el conjunto de datos.
GPT4Video ha mostrado habilidades notables en la comprensión y generación de videos, superando a Valley en un 11,8% en la tarea de preguntas y respuestas de video y superando a NExt-GPT en un 2,3% en la tarea de generación de texto a video. Este modelo dota a LLM de capacidades de generación de videos sin parámetros de entrenamiento adicionales y puede funcionar con varios modelos para la generación de videos.
En conclusión, GPT4Video es un marco poderoso que mejora los Modelos de Lenguaje y Visión con funciones avanzadas de comprensión y generación de videos. El lanzamiento de un conjunto de datos de instrucciones multimodales especializado promete catalizar futuras investigaciones en el campo. Si bien se especializa en la modalidad de video, hay planes para expandirse a otras modalidades como imagen y audio en futuras actualizaciones.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 6 Visualizaciones Avanzadas en Tableau
- Detección de objetos utilizando RetinaNet y KerasCV
- Programando las GPU de Apple a través de Go y el lenguaje de sombreado Metal
- API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo mediante la vinculación con un modelo de lenguaje GPT.
- Modelos grandes se encuentran con Big Data Spark y LLM (modelos lineales latentes) en armonía
- Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la red neuronal recurrente RNN jerárquicamente controlada una nueva frontera en la eficiente modelización de dependencia a largo plazo
- Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles