Esta investigación de IA propone Strip-Cutmix un método de aumento de datos más adecuado para la reidentificación de personas
Esta investigación propone Strip-Cutmix, un método de aumento de datos adecuado para reidentificación de personas.
En visión por computadora, la reidentificación de personas es una búsqueda vital en el mundo interconectado de hoy. Implica la desafiante tarea de identificar individuos en diferentes vistas de cámaras, a menudo en condiciones no ideales. Sin embargo, lograr modelos de reidentificación precisos exige una cantidad diversa y bien etiquetada de datos. Aquí es donde entra en juego la importancia de la ampliación de datos. Las técnicas de ampliación de datos mejoran la calidad y cantidad de los datos disponibles, permitiendo que los modelos aprendan características robustas y se adapten a diversos escenarios.
En la literatura, se emplean varios métodos de ampliación de datos para la reidentificación de personas. Estos incluyen el borrado aleatorio, la inversión horizontal aleatoria, la generación de muestras de ocultación, la creación de imágenes virtuales con diferentes condiciones de iluminación e incluso enfoques que involucran redes generativas adversarias (GANs). Sin embargo, métodos como Cutmix y mixup, que pueden generar imágenes de alta calidad, rara vez se utilizan debido a los desafíos para adaptarlos al marco de pérdida de tripletas de reidentificación de personas.
Recientemente, un equipo de investigación de China publicó un nuevo documento presentando una solución para incorporar el método de ampliación de datos Cutmix en la reidentificación de personas. Los autores extendieron la pérdida de tripletas comúnmente utilizada para manejar etiquetas decimales de similitud, optimizando la similitud de imágenes. También propusieron Strip-Cutmix, una técnica de ampliación adecuada para la reidentificación de personas, y brindaron estrategias para su aplicación efectiva en este campo.
- El Proceso de IA
- 5 Formas en las que puedes utilizar el intérprete de código de ChatGPT para Ciencia de Datos
- Por qué la API de OpenAI es más cara para los idiomas que no son inglés
Concretamente, el documento adapta la pérdida de tripletas y el cutmix para abordar este desafío. Cutmix implica pegar partes de una imagen en otra para crear una imagen nueva. Aunque se utiliza comúnmente, cutmix rara vez se emplea en la reidentificación de personas debido a la incompatibilidad con las etiquetas de similitud decimal que genera.
Para reconciliar esto, los autores modifican la pérdida de tripletas para acomodar las etiquetas de similitud decimal, permitiendo el uso de cutmix junto con la pérdida de tripletas. La pérdida de tripletas modificada ajusta dinámicamente la dirección de optimización en función de la similitud objetivo. Además, las condiciones de toma de decisiones de la pérdida de tripletas se reescriben para alinearse con la etiqueta de similitud objetivo.
Concretamente, los autores amplían la pérdida de tripletas para manejar etiquetas de similitud decimal, permitiendo cutmix en el contexto de reidentificación. Cutmix suele recortar una porción de una imagen y pegarla en otra imagen para crear una nueva imagen combinada. Sin embargo, la pérdida de tripletas original, que desempeña un papel vital en el aprendizaje métrico para la reidentificación de personas, tiene dificultades con las etiquetas de similitud decimal generadas por cutmix.
Para superar este desafío, los autores modifican dinámicamente la dirección de optimización de la pérdida de tripletas para manejar etiquetas decimales, haciéndola compatible tanto con cutmix como con la pérdida de tripletas original. También introducen Strip-Cutmix, que divide las imágenes en bloques horizontales, aprovechando el hecho de que las características similares de los individuos se encuentran a menudo en ubicaciones correspondientes en las imágenes. Este enfoque mejora la calidad de las imágenes generadas y conduce a mejores condiciones de frontera para la pérdida de tripletas. Strip-Cutmix difiere de cutmix estándar al enfatizar la mezcla basada en la ubicación y los bloques de imágenes, lo que le permite obtener etiquetas de similitud entre imágenes combinadas.
En términos prácticos, la solución implica:
- Modificar la pérdida de tripletas para manejar etiquetas decimales.
- Introducir la técnica Strip-Cutmix.
- Determinar el esquema óptimo para aplicar Strip-Cutmix durante el entrenamiento.
Se llevó a cabo un estudio experimental para evaluar la efectividad del método propuesto. Los experimentos se realizaron en los conjuntos de datos Market-1501, DukeMTMC-ReID y MSMT17. Se utilizaron la Precisión Media Promedio (mAP) y las Características de Coincidencia Acumulada (CMC) para la evaluación.
Los investigadores eligieron ResNet-50 como la base. Los resultados mostraron que el método propuesto superó a los demás, logrando los mejores resultados con las bases ResNet-50 y RegNetY-1.6GF. Además, la técnica mostró resistencia al sobreajuste, alcanzando un rendimiento de vanguardia. En general, el método mostró una superioridad constante, mejorando las tareas de reidentificación de personas en diferentes conjuntos de datos.
En conclusión, el artículo estudiado aquí presenta un enfoque para incorporar la técnica de ampliación de datos cutmix en la reidentificación de personas. La pérdida de tripletas existente utilizada en la reidentificación de personas se extendió para acomodar etiquetas decimales de similitud, asegurando la compatibilidad al manejar esta nueva forma. Además, se introdujo un nuevo concepto llamado strip-cutmix, diseñado específicamente para tareas de reidentificación de personas. Al investigar el esquema de utilización óptima para strip-cutmix, los autores identificaron el enfoque más efectivo. Este método propuesto supera a otros modelos de reidentificación de personas basados en redes neuronales convolucionales, brindando un rendimiento óptimo dentro de un marco de red convolucional puro.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Desenmascarando Deepfakes Aprovechando los patrones de estimación de la posición de la cabeza para mejorar la precisión de detección
- Este boletín de inteligencia artificial es todo lo que necesitas #60
- Qué saber sobre StableCode el generador de código de IA de Stability AI
- Los modelos de IA son poderosos, pero ¿son biológicamente plausibles?
- Aprende mientras buscas (y navegas) utilizando la IA generativa
- Preguntas y respuestas inteligentes de video y audio con soporte multilingüe utilizando LLMs en Amazon SageMaker
- Cómo Amazon Shopping utiliza la moderación de contenido de Amazon Rekognition para revisar imágenes dañinas en las reseñas de productos