Este artículo de IA de NTU Singapur presenta MeVIS un banco de pruebas a gran escala para la segmentación de video con expresiones de movimiento

Artículo de IA de NTU Singapur sobre MeVIS, un banco de pruebas para segmentación de video con expresiones de movimiento.

La segmentación de video guiada por lenguaje es un campo en desarrollo que se centra en segmentar y rastrear objetos específicos en videos utilizando descripciones en lenguaje natural. Los conjuntos de datos actuales para referirse a objetos en video generalmente enfatizan objetos prominentes y se basan en expresiones de lenguaje con muchos atributos estáticos. Estos atributos permiten identificar el objeto objetivo en solo un fotograma. Sin embargo, estos conjuntos de datos pasan por alto la importancia del movimiento en la segmentación de objetos de video guiada por lenguaje.

Los investigadores han presentado MeVIS, un nuevo conjunto de datos a gran escala llamado Segmentación de Video de Expresión de Movimiento (MeViS), para ayudar en nuestra investigación. El conjunto de datos MeViS consta de 2,006 videos con 8,171 objetos, y se proporcionan 28,570 expresiones de movimiento para referirse a estos objetos. Las imágenes anteriores muestran las expresiones en MeViS que se centran principalmente en atributos de movimiento, y el objeto objetivo mencionado no se puede identificar examinando un solo fotograma. Por ejemplo, el primer ejemplo muestra tres loros con apariencias similares, y el objeto objetivo se identifica como “El pájaro volando lejos”. Este objeto solo se puede reconocer capturando su movimiento a lo largo del video.

Se toman algunos pasos para asegurar que el conjunto de datos MeVIS enfatice los movimientos temporales de los videos.

Primero, se selecciona cuidadosamente el contenido de video que contiene múltiples objetos que coexisten con movimiento y se excluyen los videos con objetos aislados que se pueden describir fácilmente con atributos estáticos.

En segundo lugar, se priorizan las expresiones de lenguaje que no contienen pistas estáticas, como nombres de categorías o colores de objetos, en los casos en que los objetos objetivo se pueden describir de manera unívoca solo con palabras de movimiento.

Además de proponer el conjunto de datos MeViS, los investigadores también presentan un enfoque básico llamado Percepción y Coincidencia de Movimiento Guiada por Lenguaje (LMPM) para abordar los desafíos planteados por este conjunto de datos. Su enfoque implica la generación de consultas condicionadas por lenguaje para identificar objetos objetivo potenciales dentro del video. Estos objetos se representan utilizando incrustaciones de objetos, que son más robustas y eficientes computacionalmente en comparación con los mapas de características de objetos. Los investigadores aplican la Percepción de Movimiento a estas incrustaciones de objetos para capturar el contexto temporal y establecer una comprensión holística de la dinámica de movimiento del video. Esto permite que su modelo comprenda tanto los movimientos momentáneos como los prolongados presentes en el video.

La imagen anterior muestra la arquitectura de LMLP. Utilizan un decodificador Transformer para interpretar el lenguaje a partir de incrustaciones de objetos combinadas afectadas por el movimiento. Esto ayuda a predecir los movimientos de los objetos. Luego, comparan las características del lenguaje con los movimientos proyectados de los objetos para encontrar el/los objeto(s) objetivo mencionado(s) en las expresiones. Este método innovador fusiona la comprensión del lenguaje y la evaluación del movimiento para manejar eficazmente la tarea del conjunto de datos complejo.

Esta investigación ha sentado las bases para desarrollar algoritmos más avanzados de segmentación de video guiada por lenguaje. Ha abierto caminos en direcciones más desafiantes, como:

Explorar nuevas técnicas para una mejor comprensión y modelado del movimiento en las modalidades visual y lingüística.
Crear modelos más eficientes que reduzcan el número de objetos detectados redundantes.
Diseñar métodos efectivos de fusión cruzada modal para aprovechar la información complementaria entre el lenguaje y las señales visuales.
Desarrollar modelos avanzados que puedan manejar escenas complejas con diversos objetos y expresiones.

Abordar estos desafíos requiere investigación para impulsar el estado actual de la técnica en el campo de la segmentación de video guiada por el lenguaje hacia adelante.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Este artículo de IA de NTU Singapur presenta MeVIS un banco de pruebas a gran escala para la segmentación de video con expresiones de movimiento

Was this article helpful?

Cómo codificar características de tiempo periódicas

De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA

Inteligencia Artificial

Conoce a Llemma el modelo de lenguaje matemático de próxima generación que supera los estándares actuales

El salto de KPMG hacia el futuro de la IA generativa

Vuelva a entrenar los modelos de aprendizaje automático y automatice las predicciones por lotes en Amazon SageMaker Canvas utilizando conjuntos de datos actualizados.

Google AI presenta SimPer un marco contrastivo auto-supervisado para aprender información periódica en los datos

Células complejas del pulpo son clave para su alta inteligencia

Una nueva investigación de IA presenta GPT4RoI un modelo de visión y lenguaje basado en la sintonización de instrucciones de un Gran Modelo de Lenguaje (LLM) en pares de región-texto.