Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.

La Universidad de Surrey lanza herramienta de detección de objetos basada en bocetos con aprendizaje automático.

Desde tiempos prehistóricos, las personas han utilizado bocetos para comunicación y documentación. Durante la última década, los investigadores han avanzado mucho en la comprensión de cómo utilizar los bocetos desde la clasificación y la síntesis hasta aplicaciones más novedosas como la modelización de la abstracción visual, la transferencia de estilo y el ajuste continuo de trazos. Sin embargo, solo la recuperación de imágenes basada en bocetos (SBIR) y su contraparte de granularidad fina (FGSBIR) han investigado el potencial expresivo de los bocetos. Los sistemas recientes ya están maduros para la adaptación comercial, un testimonio fantástico de cómo desarrollar la expresividad del boceto puede tener un efecto significativo.

Los bocetos son increíblemente evocadores porque capturan automáticamente pistas visuales matizadas y personales. Sin embargo, el estudio de estas cualidades inherentes del dibujo humano se ha limitado al campo de la recuperación de imágenes. Por primera vez, los científicos están capacitando a los sistemas para utilizar el poder evocador de los bocetos para la tarea más fundamental en la visión: detectar objetos en una escena. El producto final es un marco para detectar objetos basado en bocetos, para que uno pueda enfocarse en el “cebra” específico (por ejemplo, uno comiendo hierba) en una manada de cebras. Además, los investigadores imponen que el modelo tenga éxito sin:

  • Tener una idea de qué tipo de resultados esperar (cero disparos).
  • Requerir cajas delimitadoras o etiquetas de clase adicionales (como en la supervisión completa).

Los investigadores estipulan además que el detector basado en bocetos también opera de manera cero disparo, lo que aumenta la novedad del sistema. En las secciones siguientes, detallan cómo cambian la detección de objetos de una configuración de conjunto cerrado a una de vocabulario abierto. Los detectores de objetos, por ejemplo, utilizan el aprendizaje de prototipos en lugar de las cabezas de clasificación, con las características de consulta de bocetos codificados que sirven como conjunto de soporte. Luego, el modelo se entrena con una pérdida de entropía cruzada multi-categoría en los prototipos de todas las categorías o instancias concebibles en un entorno de detección de objetos débilmente supervisado (WSOD). La detección de objetos opera a nivel de imagen, mientras que SBIR se entrena con pares de bocetos y fotos de objetos individuales. Debido a esto, el entrenamiento del detector de objetos SBIR requiere un puente entre las características a nivel de objeto y a nivel de imagen.

Las contribuciones de los investigadores son:

  • Cultivar la expresividad del dibujo humano para la detección de objetos.
  • Un detector de objetos construido sobre el boceto que puede averiguar lo que se está tratando de transmitir.
  • Un detector de objetos capaz de la detección a nivel de categoría tradicional y a nivel de instancia y parte.
  • Una configuración novedosa de aprendizaje de prompt que combina CLIP y SBIR para producir un detector consciente de bocetos que puede funcionar de manera cero disparo sin anotaciones de cajas delimitadoras o etiquetas de clase.
  • Los hallazgos son superiores a SOD y WSOD en una configuración de cero disparo.

En lugar de comenzar desde cero, los investigadores han demostrado una sinergia intuitiva entre los modelos fundamentales (como CLIP) y los modelos de bocetos existentes construidos para la recuperación de imágenes basada en bocetos (SBIR), que ya pueden resolver elegantemente la tarea. En particular, primero realizan un prompting separado en las ramas de bocetos y fotos de un modelo SBIR, luego utilizan la capacidad de generalización de CLIP para construir codificadores de bocetos y fotos altamente generalizables. Para asegurarse de que las incrustaciones de región de las cajas detectadas coincidan con las de los bocetos y fotos de SBIR, diseñan un paradigma de entrenamiento para ajustar los codificadores aprendidos para la detección de elementos. El marco supera a los detectores de objetos supervisados (SOD) y débilmente supervisados (WSOD) en configuraciones de cero disparo cuando se prueba en conjuntos de datos de detección de objetos estándar de la industria, incluidos PASCAL-VOC y MS-COCO.

Para resumir

Para mejorar la detección de objetos, los investigadores fomentan activamente la expresividad humana en el dibujo. El marco de identificación de objetos habilitado para bocetos sugerido es un detector de objetos consciente de instancias y partes que puede entender lo que se está tratando de transmitir en un boceto. Como resultado, idean una configuración innovadora de aprendizaje de prompt que une CLIP y SBIR para educar un detector de premios de bocetos que funciona sin anotaciones de cajas delimitadoras o etiquetas de clase. El detector también está especificado para operar de manera cero disparo para diversos propósitos. Por otro lado, SBIR se enseña a través de pares de bocetos y fotos de una sola cosa. Utilizan un enfoque de aumento de datos que aumenta la resistencia a la corrupción y la generalización a fuera del vocabulario para ayudar a cerrar la brecha entre los niveles de objeto e imagen. El marco resultante supera a los detectores de objetos supervisados y débilmente supervisados en una configuración de cero disparo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Coraje para aprender ML Desmitificando la Regularización L1 y L2 (parte 3)

Bienvenidos de nuevo a la tercera entrega de Valor para aprender ML Desmitificando la regularización L1 y L2. Anterio...

Inteligencia Artificial

Comprendiendo el Lado Oscuro de los Modelos de Lenguaje Grandes Una Guía Completa sobre Amenazas de Seguridad y Vulnerabilidades

Los LLM se han vuelto cada vez más populares en la comunidad de procesamiento de lenguaje natural (NLP, por sus sigla...

Inteligencia Artificial

Explora las relaciones semánticas en textos de corpora con modelos de embedding

Recientemente he hablado con varios compañeros de estudios e investigadores cuyos intereses de investigación involucr...

Inteligencia Artificial

YouTube Music presenta una función de personalización de listas de reproducción impulsada por inteligencia artificial

En un emocionante desarrollo para los entusiastas de la música, YouTube Music ha presentado una función revolucionari...

Inteligencia Artificial

Rastreador web de OpenAI y errores de la FTC

OpenAI lanza un rastreador predeterminado de opt-in para raspar Internet, mientras que la FTC lleva a cabo una invest...