Investigadores de Deepmind publican TAPIR de código abierto un nuevo modelo de IA para rastrear cualquier punto (TAP) que sigue eficazmente un punto de consulta en una secuencia de video.

Deepmind researchers release TAPIR, an open source AI model that effectively tracks any point (TAP) following a query point in a video sequence.

La visión por computadora es uno de los campos más populares de la Inteligencia Artificial. Los modelos desarrollados mediante la visión por computadora pueden derivar información significativa de diferentes tipos de medios, ya sean imágenes digitales, videos o cualquier otra entrada visual. Enseña a las máquinas cómo percibir y comprender información visual y luego actuar sobre los detalles. La visión por computadora ha dado un salto significativo con la introducción de un nuevo modelo llamado Tracking Any Point with per-frame Initialization and Temporal Refinement (TAPIR). TAPIR ha sido diseñado con el objetivo de rastrear efectivamente un punto de interés específico en una secuencia de video.

Desarrollado por un equipo de investigadores de Google DeepMind, VGG, Department of Engineering Science y la Universidad de Oxford, el algoritmo detrás del modelo TAPIR consta de dos etapas: una etapa de coincidencia y una etapa de refinamiento. En la etapa de coincidencia, el modelo TAPIR analiza cada fotograma de la secuencia de video por separado para encontrar una coincidencia de punto candidato adecuada para el punto de consulta. Este paso busca identificar el punto de consulta más probablemente relacionado en cada fotograma y, para garantizar que el modelo TAPIR pueda seguir el movimiento del punto de consulta en el video, este procedimiento se lleva a cabo fotograma por fotograma.

La etapa de coincidencia en la que se identifican las coincidencias de puntos candidatos es seguida por la implementación de la etapa de refinamiento. En esta etapa, el modelo TAPIR actualiza tanto la trayectoria, que es el camino seguido por el punto de consulta, como las características de consulta en función de las correlaciones locales y, por lo tanto, tiene en cuenta la información circundante en cada fotograma para mejorar la precisión y precisión del seguimiento del punto de consulta. La etapa de refinamiento mejora la capacidad del modelo para seguir con precisión el movimiento del punto de consulta y adaptarse a las variaciones en la secuencia de video mediante la integración de correlaciones locales.

Para la evaluación del modelo TAPIR, el equipo ha utilizado el conjunto de datos de evaluación estandarizado TAP-Vid para tareas de seguimiento de video. Los resultados mostraron que el modelo TAPIR funciona significativamente mejor que las técnicas de referencia. La mejora del rendimiento se ha medido utilizando una métrica llamada Average Jaccard (AJ), sobre la cual el modelo TAPIR ha mostrado lograr una mejora absoluta del 20% aproximadamente en AJ en comparación con otros métodos en el conjunto de datos DAVIS (Segmentación de video densamente anotada).

El modelo ha sido diseñado para facilitar la inferencia paralela rápida en secuencias de video largas, es decir, puede procesar múltiples fotogramas simultáneamente, mejorando la eficiencia de las tareas de seguimiento. El equipo ha mencionado que el modelo se puede aplicar en vivo, lo que le permite procesar y realizar un seguimiento de los puntos a medida que se agregan nuevos fotogramas de video. Puede rastrear 256 puntos en un video de 256 × 256 a una velocidad de aproximadamente 40 fotogramas por segundo (fps) y también se puede expandir para manejar películas con mayor resolución, lo que le da flexibilidad en cómo maneja videos de varios tamaños y calidad.

El equipo ha proporcionado dos demos en línea de Google Colab para que los usuarios prueben TAPIR sin instalación. El primer demo de Colab permite a los usuarios ejecutar el modelo en sus propios videos, proporcionando una experiencia interactiva para probar y observar el rendimiento del modelo. El segundo demo se centra en la ejecución de TAPIR de manera online. Además, los usuarios pueden ejecutar TAPIR en vivo mediante el seguimiento de puntos en sus propias cámaras web con una GPU moderna clonando la base de código proporcionada.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La Declaración de Bletchley de los países que asistieron a la Cumbre de Seguridad de la IA

Damos la bienvenida a los esfuerzos internacionales pertinentes para examinar y abordar el posible impacto de los sis...

Inteligencia Artificial

¿Ha terminado la espera por Jurassic Park? Este modelo de IA utiliza la traducción de imagen a imagen para dar vida a los antiguos fósiles

La traducción de imagen a imagen (I2I) es un campo interesante dentro de la visión por computadora y el aprendizaje a...

Inteligencia Artificial

Utilice los marcos de datos de Pandas de manera más efectiva con las 7 principales operaciones de columna

Cuando se trata de análisis de datos, Pandas es la biblioteca de Python más utilizada para manipular y preparar los d...

Inteligencia Artificial

Microsoft presenta Azure Custom Chips Revolucionando la computación en la nube y las capacidades de IA

En medio de persistentes rumores de la industria, la tan esperada revelación de Microsoft salió a la luz durante la c...

Inteligencia Artificial

Herramientas imprescindibles para un ingeniero de aprendizaje automático

Cambié mi carrera de Consultor SAP a Científico de Datos hace aproximadamente 4 años. Después de seguir un plan de es...