De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA

Explorando la narración de videos con descripción de video multimodal de IA

El lenguaje es el modo predominante de interacción humana, ofreciendo más que solo detalles complementarios a otras facultades como la vista y el sonido. También sirve como un canal eficiente para transmitir información, como usar la navegación guiada por voz para llevarnos a un lugar específico. En el caso de las personas con discapacidad visual, pueden disfrutar de una película escuchando su audio descriptivo. El primero demuestra cómo el lenguaje puede mejorar otros modos sensoriales, mientras que el último destaca la capacidad del lenguaje para transmitir información máxima en diferentes modalidades.

Los esfuerzos contemporáneos en la modelización multimodal se esfuerzan por establecer conexiones entre el lenguaje y varios otros sentidos, abarcando tareas como la descripción de imágenes o videos, la generación de representaciones textuales a partir de imágenes o videos, la manipulación de contenido visual guiada por texto y más.

Sin embargo, en estas empresas, el lenguaje complementa predominantemente la información sobre otros inputs sensoriales. En consecuencia, estos esfuerzos a menudo no logran representar de manera integral el intercambio de información entre diferentes modos sensoriales. Se centran principalmente en elementos lingüísticos simplistas, como subtítulos de una sola oración.

Dada la brevedad de estos subtítulos, solo logran describir entidades y acciones prominentes. En consecuencia, la información transmitida a través de estos subtítulos es considerablemente limitada en comparación con la abundancia de información presente en otras modalidades sensoriales. Esta discrepancia resulta en una notable pérdida de información al intentar traducir información de otros reinos sensoriales al lenguaje.

En este estudio, los investigadores ven el lenguaje como una forma de compartir información en la modelización multimodal. Crean una nueva tarea llamada “Descripción de Video Audible de Granularidad Fina” (FAVD, por sus siglas en inglés), que difiere de la simple descripción de videos. Por lo general, los subtítulos cortos de los videos se refieren a las partes principales. FAVD, en cambio, solicita a los modelos que describan los videos de manera más similar a como lo harían las personas, comenzando con un resumen rápido y luego agregando información cada vez más detallada. Este enfoque conserva una porción más sólida de información de video dentro del marco del lenguaje.

Dado que los videos contienen señales visuales y auditivas, la tarea FAVD también incorpora descripciones de audio para mejorar la representación integral. Para respaldar la ejecución de esta tarea, se ha construido un nuevo conjunto de datos de referencia llamado “Conjunto de Datos de Descripción de Video Audible de Granularidad Fina” (FAVDBench) para el entrenamiento supervisado. FAVDBench es una colección de más de 11,000 clips de video de YouTube, organizados en más de 70 categorías de la vida real. Las anotaciones incluyen resúmenes concisos de una sola oración, seguidos de 4-6 oraciones detalladas sobre aspectos visuales y 1-2 oraciones sobre audio, ofreciendo un conjunto de datos completo.

Para evaluar de manera efectiva la tarea FAVD, se han diseñado dos métricas novedosas. La primera métrica, denominada “EntityScore”, evalúa la transferencia de información de los videos a las descripciones mediante la medición de la exhaustividad de las entidades dentro de las descripciones visuales. La segunda métrica, “AudioScore”, cuantifica la calidad de las descripciones de audio dentro del espacio de características de un modelo de audio-visual-lenguaje pre-entrenado.

Los investigadores proporcionan un modelo fundamental para la tarea recién introducida. Este modelo se basa en un marco establecido de descripción de videos de extremo a extremo, complementado por una rama de audio adicional. Además, se realiza una expansión desde un transformador visual-lenguaje a un transformador audio-visual-lenguaje (AVLFormer, por sus siglas en inglés). AVLFormer tiene una estructura de codificador-decodificador como se muestra a continuación.

Los codificadores visuales y de audio se adaptan para procesar los clips de video y el audio, respectivamente, permitiendo la amalgamación de tokens multimodales. El codificador visual se basa en el transformador de video swin, mientras que el codificador de audio utiliza el transformador de audio patchout. Estos componentes extraen características visuales y de audio de los cuadros de video y los datos de audio. Otros componentes, como el modelado de lenguaje enmascarado y el modelado de lenguaje auto-regresivo, se incorporan durante el entrenamiento. Inspirado en modelos anteriores de descripción de videos, AVLFormer también utiliza descripciones textuales como entrada. Utiliza un tokenizador de palabras y una incrustación lineal para convertir el texto en un formato específico. El transformador procesa esta información multimodal y produce una descripción detallada de los videos proporcionados como entrada.

A continuación se presentan algunos ejemplos de resultados cualitativos y comparación con enfoques de vanguardia.

En conclusión, los investigadores proponen FAVD, una nueva tarea de subtitulado de video para descripciones de video auditivas de granularidad fina, y FAVDBench, un nuevo punto de referencia para entrenamiento supervisado. Además, diseñaron un nuevo modelo de línea de base basado en transformadores, AVLFormer, para abordar la tarea de FAVD. Si estás interesado y deseas obtener más información al respecto, no dudes en consultar los enlaces citados a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA

Was this article helpful?

Este artículo de IA de NTU Singapur presenta MeVIS un banco de pruebas a gran escala para la segmentación de video con expresiones de movimiento

Meta lanza Code Llama la última herramienta de IA para programar

Inteligencia Artificial

Conoce DeepOnto Un paquete de Python para la ingeniería de ontologías con Aprendizaje Profundo

Auriculares para monitorear el cerebro y el cuerpo

Alphabet apuesta por los láseres para llevar Internet a áreas remotas

Douglas Lenat, quien intentó hacer que la inteligencia artificial fuera más humana, fallece a los 72 años

Datos de navegación web recopilados con más detalle de lo que se conocía anteriormente.

LightOn AI lanza Alfred-40B-0723 un nuevo modelo de lenguaje de código abierto (LLM) basado en Falcon-40B.