Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.
La Universidad de Surrey lanza herramienta de detección de objetos basada en bocetos con aprendizaje automático.
Desde tiempos prehistóricos, las personas han utilizado bocetos para comunicación y documentación. Durante la última década, los investigadores han avanzado mucho en la comprensión de cómo utilizar los bocetos desde la clasificación y la síntesis hasta aplicaciones más novedosas como la modelización de la abstracción visual, la transferencia de estilo y el ajuste continuo de trazos. Sin embargo, solo la recuperación de imágenes basada en bocetos (SBIR) y su contraparte de granularidad fina (FGSBIR) han investigado el potencial expresivo de los bocetos. Los sistemas recientes ya están maduros para la adaptación comercial, un testimonio fantástico de cómo desarrollar la expresividad del boceto puede tener un efecto significativo.
Los bocetos son increíblemente evocadores porque capturan automáticamente pistas visuales matizadas y personales. Sin embargo, el estudio de estas cualidades inherentes del dibujo humano se ha limitado al campo de la recuperación de imágenes. Por primera vez, los científicos están capacitando a los sistemas para utilizar el poder evocador de los bocetos para la tarea más fundamental en la visión: detectar objetos en una escena. El producto final es un marco para detectar objetos basado en bocetos, para que uno pueda enfocarse en el “cebra” específico (por ejemplo, uno comiendo hierba) en una manada de cebras. Además, los investigadores imponen que el modelo tenga éxito sin:
- Tener una idea de qué tipo de resultados esperar (cero disparos).
- Requerir cajas delimitadoras o etiquetas de clase adicionales (como en la supervisión completa).
Los investigadores estipulan además que el detector basado en bocetos también opera de manera cero disparo, lo que aumenta la novedad del sistema. En las secciones siguientes, detallan cómo cambian la detección de objetos de una configuración de conjunto cerrado a una de vocabulario abierto. Los detectores de objetos, por ejemplo, utilizan el aprendizaje de prototipos en lugar de las cabezas de clasificación, con las características de consulta de bocetos codificados que sirven como conjunto de soporte. Luego, el modelo se entrena con una pérdida de entropía cruzada multi-categoría en los prototipos de todas las categorías o instancias concebibles en un entorno de detección de objetos débilmente supervisado (WSOD). La detección de objetos opera a nivel de imagen, mientras que SBIR se entrena con pares de bocetos y fotos de objetos individuales. Debido a esto, el entrenamiento del detector de objetos SBIR requiere un puente entre las características a nivel de objeto y a nivel de imagen.
- Investigadores de LinkedIn y UC Berkeley proponen un nuevo método para detectar fotos de perfil generadas por IA.
- El Avance Computacional Ayudará a los Investigadores a Modelar el Clima con Mayor Fidelidad.
- Perro Robot Hace Moonwalk al Estilo MJ Esta Investigación de IA Propone Utilizar Recompensas Representadas en Código como una Interfaz Flexible Entre LLMs y un Controlador de Movimiento Basado en Optimización.
Las contribuciones de los investigadores son:
- Cultivar la expresividad del dibujo humano para la detección de objetos.
- Un detector de objetos construido sobre el boceto que puede averiguar lo que se está tratando de transmitir.
- Un detector de objetos capaz de la detección a nivel de categoría tradicional y a nivel de instancia y parte.
- Una configuración novedosa de aprendizaje de prompt que combina CLIP y SBIR para producir un detector consciente de bocetos que puede funcionar de manera cero disparo sin anotaciones de cajas delimitadoras o etiquetas de clase.
- Los hallazgos son superiores a SOD y WSOD en una configuración de cero disparo.
En lugar de comenzar desde cero, los investigadores han demostrado una sinergia intuitiva entre los modelos fundamentales (como CLIP) y los modelos de bocetos existentes construidos para la recuperación de imágenes basada en bocetos (SBIR), que ya pueden resolver elegantemente la tarea. En particular, primero realizan un prompting separado en las ramas de bocetos y fotos de un modelo SBIR, luego utilizan la capacidad de generalización de CLIP para construir codificadores de bocetos y fotos altamente generalizables. Para asegurarse de que las incrustaciones de región de las cajas detectadas coincidan con las de los bocetos y fotos de SBIR, diseñan un paradigma de entrenamiento para ajustar los codificadores aprendidos para la detección de elementos. El marco supera a los detectores de objetos supervisados (SOD) y débilmente supervisados (WSOD) en configuraciones de cero disparo cuando se prueba en conjuntos de datos de detección de objetos estándar de la industria, incluidos PASCAL-VOC y MS-COCO.
Para resumir
Para mejorar la detección de objetos, los investigadores fomentan activamente la expresividad humana en el dibujo. El marco de identificación de objetos habilitado para bocetos sugerido es un detector de objetos consciente de instancias y partes que puede entender lo que se está tratando de transmitir en un boceto. Como resultado, idean una configuración innovadora de aprendizaje de prompt que une CLIP y SBIR para educar un detector de premios de bocetos que funciona sin anotaciones de cajas delimitadoras o etiquetas de clase. El detector también está especificado para operar de manera cero disparo para diversos propósitos. Por otro lado, SBIR se enseña a través de pares de bocetos y fotos de una sola cosa. Utilizan un enfoque de aumento de datos que aumenta la resistencia a la corrupción y la generalización a fuera del vocabulario para ayudar a cerrar la brecha entre los niveles de objeto e imagen. El marco resultante supera a los detectores de objetos supervisados y débilmente supervisados en una configuración de cero disparo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La IA responsable en Google Research IA para el bien social
- Investigadores de Deepmind publican TAPIR de código abierto un nuevo modelo de IA para rastrear cualquier punto (TAP) que sigue eficazmente un punto de consulta en una secuencia de video.
- La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.
- Diseñar coches eléctricos ahora es más rápido con la IA de Toyota.
- Investigadores del Max Plank proponen MIME un modelo de IA generativo que toma capturas de movimiento humano en 3D y genera escenas en 3D plausibles que son consistentes con el movimiento.
- Investigadores de inteligencia artificial de Salesforce presentan OVIS sin máscaras un generador de máscaras de segmentación de instancia de vocabulario abierto.
- Cómo rejuvenecer usando IA Descubierto nuevo medicamento contra el envejecimiento.