¿Cómo podemos mitigar el sesgo inducido por el fondo en la clasificación de imágenes de granularidad fina? Un estudio comparativo de estrategias de enmascaramiento y arquitecturas de modelos
Mitigación del sesgo de fondo en clasificación de imágenes de granularidad fina estudio comparativo de enmascaramiento y arquitecturas de modelos
La categorización de imágenes de granularidad fina se adentra en distinguir subclases estrechamente relacionadas dentro de una categoría más amplia. Por ejemplo, en lugar de simplemente identificar una imagen como un “pájaro”, este enfoque diferenciaría especies de aves específicas. Debido a la complejidad de estas tareas, estos modelos a menudo dependen involuntariamente de información mínima de los fondos de las imágenes. La información de fondo puede ofrecer pistas contextuales, pero también puede generar sesgos. Por ejemplo, un modelo puede asociar accidentalmente todos los fondos urbanos con gorriones si observa con frecuencia aves en entornos urbanos durante el entrenamiento. Eliminar este sesgo inducido por el fondo para obtener resultados más precisos es crucial, ya que puede limitar la aplicabilidad del modelo en el mundo real.
Los algoritmos modernos para la clasificación de imágenes de granularidad fina a menudo se basan en redes neuronales convolucionales (CNN) y transformadores de visión (ViT) como base estructural. Sin embargo, todavía existe un problema fundamental: el contexto en el que aparece un objeto puede impactar significativamente a los humanos y las máquinas. Los modelos de aprendizaje profundo a menudo se centran involuntariamente más en los fondos, a veces hasta el punto de que pueden categorizar basándose únicamente en ellos. Cuando se utilizan en escenarios con fondos inusuales o desconocidos, estos modelos sufren un deterioro significativo en su rendimiento.
Para contrarrestar los desafíos planteados por los sesgos de fondo, un nuevo estudio fue publicado recientemente por un equipo de investigación de la Universidad de Montpellier en Francia, proponiendo investigar dos estrategias principales:
- Investigadores de Google proponen MEMORY-VQ un nuevo enfoque de IA para reducir los requisitos de almacenamiento de los modelos de memoria aumentada sin sacrificar el rendimiento
- ¿Qué características son perjudiciales para su modelo de clasificación?
- Conoce T2I-Adapter-SDXL Modelos de Control Pequeños y Eficientes.
- Máscara temprana: donde los detalles del fondo se eliminan desde el principio, a nivel de imagen.
- Máscara tardía: este método enmascara características asociadas con el fondo en una etapa más abstracta y avanzada del modelo.
La principal contribución de la investigación es su exhaustivo análisis del sesgo inducido por el fondo en la clasificación de imágenes de granularidad fina. Analiza cuidadosamente cómo los modelos sofisticados como CNN y ViT se desempeñan frente a estos sesgos y proporciona técnicas de enmascaramiento creativas para abordarlos.
Concretamente, la máscara temprana implica eliminar el fondo en la etapa de entrada de la imagen. Antes de la clasificación por modelos como CNN o Vision Transformers, las regiones del fondo de la imagen se enmascaran utilizando una red de segmentación binaria, lo que hace que el modelo se concentre únicamente en el objeto principal. En contraste, la máscara tardía permite que el modelo procese toda la imagen inicialmente, pero enmascara el fondo en una etapa más avanzada. Después de que el modelo principal haya procesado la imagen, se excluyen selectivamente las características espaciales de alto nivel relacionadas con el fondo. Ambos métodos tienen como objetivo garantizar que los modelos se centren en el objeto de interés, reduciendo los sesgos que surgen de los detalles del fondo, lo cual es especialmente crucial para clasificaciones de granularidad fina donde las distinciones entre categorías pueden ser sutiles.
Para evaluar las dos estrategias, los investigadores realizaron un estudio experimental. Los modelos se entrenaron en experimentos utilizando el conjunto de datos CUB, que contiene imágenes de 200 especies de aves. Se evaluó el rendimiento de estos modelos en el conjunto de prueba CUB y en el conjunto de datos de aves acuáticas (Waterbirds), un conjunto fuera de distribución (OOD) donde los fondos de las imágenes CUB se cambiaron por los del conjunto de datos Places. Los investigadores utilizaron varios diseños de modelos, como ConvNeXt y ViT, así como tamaños de modelos pequeños, base y grandes. Los resultados mostraron que los modelos entrenados con máscara temprana superaron a aquellos entrenados sin ella, especialmente en el conjunto de prueba de aves acuáticas OOD. Esto indica que el uso de la máscara temprana reduce los sesgos causados por los fondos de las imágenes y mejora la generalización del modelo.
En conclusión, los autores examinaron los efectos del sesgo inducido por el fondo en la generalización del modelo CNN y ViT para imágenes fuera de distribución (OOD). Probaron varias técnicas de enmascaramiento de fondo y encontraron que la máscara temprana fue la más efectiva para ambos tipos de modelos. El estudio destaca la importancia de considerar el fondo en las tareas de imágenes y presenta estrategias para reducir sesgos y mejorar la generalización.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Grandes Modelos de Lenguaje SBERT
- LLMs y Análisis de Datos Cómo la IA está dando sentido a los grandes datos para obtener información empresarial
- Ingeniería de Aprendizaje Automático en el Mundo Real
- Conoce a PhysObjects Un conjunto de datos centrado en objetos con 36.9K anotaciones físicas obtenidas de la colaboración de la multitud y 417K anotaciones físicas automáticas de objetos comunes del hogar.
- Cómo construir una estrategia de Ciencia de Datos para cualquier tamaño de equipo
- Dominio de Amazon SageMaker en modo solo VPC para admitir SageMaker Studio con configuración de ciclo de vida de apagado automático y SageMaker Canvas con Terraform
- Matemáticos encuentran 12,000 soluciones para el problema de los tres cuerpos