Este artículo de IA de China propone HQTrack un marco de IA para rastrear cualquier cosa de alta calidad en videos
AI article from China proposes HQTrack, an AI framework to track high-quality content in videos.
El seguimiento visual de objetos es la base de numerosos subcampos dentro de la visión por computadora, incluyendo la visión de robots y la conducción autónoma. Este trabajo tiene como objetivo identificar de manera confiable el objeto objetivo en una secuencia de video. Muchos algoritmos de vanguardia compiten en el desafío de Seguimiento Visual de Objetos (VOT) ya que es una de las competencias más importantes en el campo del seguimiento.
La competencia de Seguimiento y Segmentación Visual de Objetos (VOTS2023) elimina algunas de las restricciones impuestas por los desafíos anteriores de VOT para que los participantes puedan pensar en el seguimiento de objetos de manera más amplia. Como resultado, VOTS2023 combina el monitoreo a corto y largo plazo de un solo objetivo y el seguimiento de muchos objetivos, utilizando la segmentación del objetivo como única especificación de posición. Esto introduce nuevas dificultades, como la estimación precisa de las máscaras, el seguimiento de trayectorias de múltiples objetivos y el reconocimiento de las relaciones entre objetos.
Un nuevo estudio realizado por la Universidad de Tecnología de Dalian, China, y la Academia DAMO, Grupo Alibaba, presenta un sistema llamado HQTrack, que significa Seguimiento de Alta Calidad. Está compuesto principalmente por un segmentador de video multiobjetivo (VMOS) y un refinador de máscaras (MR). Para percibir objetos pequeños en configuraciones complicadas, los investigadores utilizan VMOS, una variación mejorada de DeAOT, y aplican en cascada un módulo de propagación controlada (GPM) a escala 1/8. Además, utilizan Intern-T como extractor de características para mejorar la capacidad de distinguir entre diferentes tipos de objetos. En VMOS, los investigadores solo conservan el fotograma más recientemente utilizado en la memoria a largo plazo, descartando los anteriores para liberar espacio. Sin embargo, aplicar un modelo de segmentación grande para mejorar las máscaras de seguimiento podría ser útil. Los objetos con estructuras complicadas son especialmente desafiantes para predecir con SAM, y aparecen con frecuencia en el desafío VOTS.
- Ingeniería de Comandos Prácticos
- Descripción rápida y sencilla de los metadatos de un artículo de investigación
- Investigadores de NYU y Meta AI están mejorando los agentes de conversación social mediante el aprendizaje del diálogo natural entre los usuarios y un modelo implementado, sin necesidad de anotaciones adicionales.
Utilizando un modelo HQ-SAM que ya ha sido preentrenado, el equipo puede mejorar aún más la calidad de las máscaras de seguimiento. Los resultados finales de seguimiento se eligen entre VMOS y MR, y se utilizan las cajas de contorno externas de las máscaras predichas como indicaciones de caja para alimentar a HQ-SAM junto con las imágenes originales para obtener las máscaras refinadas. HQTrack ocupa el segundo lugar en la competencia VOTS2023 con una puntuación de calidad de 0.615 en el conjunto de pruebas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Un enfoque simple para crear transformadores personalizados utilizando las clases de Scikit-Learn
- De muchos a pocos Abordando datos de alta dimensionalidad con la reducción de dimensionalidad en el aprendizaje automático
- Mejores herramientas de corrección gramatical de IA 2023
- Artículo de Georgia Tech propone un método de IA para identificar superconductores potenciales más rápido
- LG AI Research Propone QASA Un nuevo conjunto de datos de referencia de IA y un enfoque computacional
- La necesidad de un gradiente de explicabilidad en IA
- Sobrevive al Apocalipsis del Mercado Laboral de IA Guía de Supervivencia – Parte 1