Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.

La Universidad de Surrey lanza herramienta de detección de objetos basada en bocetos con aprendizaje automático.

Desde tiempos prehistóricos, las personas han utilizado bocetos para comunicación y documentación. Durante la última década, los investigadores han avanzado mucho en la comprensión de cómo utilizar los bocetos desde la clasificación y la síntesis hasta aplicaciones más novedosas como la modelización de la abstracción visual, la transferencia de estilo y el ajuste continuo de trazos. Sin embargo, solo la recuperación de imágenes basada en bocetos (SBIR) y su contraparte de granularidad fina (FGSBIR) han investigado el potencial expresivo de los bocetos. Los sistemas recientes ya están maduros para la adaptación comercial, un testimonio fantástico de cómo desarrollar la expresividad del boceto puede tener un efecto significativo.

Los bocetos son increíblemente evocadores porque capturan automáticamente pistas visuales matizadas y personales. Sin embargo, el estudio de estas cualidades inherentes del dibujo humano se ha limitado al campo de la recuperación de imágenes. Por primera vez, los científicos están capacitando a los sistemas para utilizar el poder evocador de los bocetos para la tarea más fundamental en la visión: detectar objetos en una escena. El producto final es un marco para detectar objetos basado en bocetos, para que uno pueda enfocarse en el “cebra” específico (por ejemplo, uno comiendo hierba) en una manada de cebras. Además, los investigadores imponen que el modelo tenga éxito sin:

Tener una idea de qué tipo de resultados esperar (cero disparos).
Requerir cajas delimitadoras o etiquetas de clase adicionales (como en la supervisión completa).

Los investigadores estipulan además que el detector basado en bocetos también opera de manera cero disparo, lo que aumenta la novedad del sistema. En las secciones siguientes, detallan cómo cambian la detección de objetos de una configuración de conjunto cerrado a una de vocabulario abierto. Los detectores de objetos, por ejemplo, utilizan el aprendizaje de prototipos en lugar de las cabezas de clasificación, con las características de consulta de bocetos codificados que sirven como conjunto de soporte. Luego, el modelo se entrena con una pérdida de entropía cruzada multi-categoría en los prototipos de todas las categorías o instancias concebibles en un entorno de detección de objetos débilmente supervisado (WSOD). La detección de objetos opera a nivel de imagen, mientras que SBIR se entrena con pares de bocetos y fotos de objetos individuales. Debido a esto, el entrenamiento del detector de objetos SBIR requiere un puente entre las características a nivel de objeto y a nivel de imagen.

Las contribuciones de los investigadores son:

Cultivar la expresividad del dibujo humano para la detección de objetos.
Un detector de objetos construido sobre el boceto que puede averiguar lo que se está tratando de transmitir.
Un detector de objetos capaz de la detección a nivel de categoría tradicional y a nivel de instancia y parte.
Una configuración novedosa de aprendizaje de prompt que combina CLIP y SBIR para producir un detector consciente de bocetos que puede funcionar de manera cero disparo sin anotaciones de cajas delimitadoras o etiquetas de clase.
Los hallazgos son superiores a SOD y WSOD en una configuración de cero disparo.

En lugar de comenzar desde cero, los investigadores han demostrado una sinergia intuitiva entre los modelos fundamentales (como CLIP) y los modelos de bocetos existentes construidos para la recuperación de imágenes basada en bocetos (SBIR), que ya pueden resolver elegantemente la tarea. En particular, primero realizan un prompting separado en las ramas de bocetos y fotos de un modelo SBIR, luego utilizan la capacidad de generalización de CLIP para construir codificadores de bocetos y fotos altamente generalizables. Para asegurarse de que las incrustaciones de región de las cajas detectadas coincidan con las de los bocetos y fotos de SBIR, diseñan un paradigma de entrenamiento para ajustar los codificadores aprendidos para la detección de elementos. El marco supera a los detectores de objetos supervisados (SOD) y débilmente supervisados (WSOD) en configuraciones de cero disparo cuando se prueba en conjuntos de datos de detección de objetos estándar de la industria, incluidos PASCAL-VOC y MS-COCO.

Para resumir

Para mejorar la detección de objetos, los investigadores fomentan activamente la expresividad humana en el dibujo. El marco de identificación de objetos habilitado para bocetos sugerido es un detector de objetos consciente de instancias y partes que puede entender lo que se está tratando de transmitir en un boceto. Como resultado, idean una configuración innovadora de aprendizaje de prompt que une CLIP y SBIR para educar un detector de premios de bocetos que funciona sin anotaciones de cajas delimitadoras o etiquetas de clase. El detector también está especificado para operar de manera cero disparo para diversos propósitos. Por otro lado, SBIR se enseña a través de pares de bocetos y fotos de una sola cosa. Utilizan un enfoque de aumento de datos que aumenta la resistencia a la corrupción y la generalización a fuera del vocabulario para ayudar a cerrar la brecha entre los niveles de objeto e imagen. El marco resultante supera a los detectores de objetos supervisados y débilmente supervisados en una configuración de cero disparo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Revolutionizando la síntesis de texto a imagen investigadores de UC Berkeley utilizan modelos de lenguaje grandes en un proceso de generación de dos etapas para mejorar el razonamiento espacial y del sentido común.

Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.

Was this article helpful?

La trayectoria de ingeniería de datos del Sr. Pavan impulsa el éxito empresarial.

Revolutionizando la síntesis de texto a imagen investigadores de UC Berkeley utilizan modelos de lenguaje grandes en un proceso de generación de dos etapas para mejorar el razonamiento espacial y del sentido común.

Investigación

Coraje para aprender ML Desmitificando la Regularización L1 y L2 (parte 3)

Comprendiendo el Lado Oscuro de los Modelos de Lenguaje Grandes Una Guía Completa sobre Amenazas de Seguridad y Vulnerabilidades

Explora las relaciones semánticas en textos de corpora con modelos de embedding

YouTube Music presenta una función de personalización de listas de reproducción impulsada por inteligencia artificial

Rastreador web de OpenAI y errores de la FTC

Investigadores de China proponen ALCUNA un innovador punto de referencia de inteligencia artificial para evaluar modelos de lenguaje a gran escala en la integración de nuevos conocimientos.