Investigadores de inteligencia artificial de Salesforce presentan OVIS sin máscaras un generador de máscaras de segmentación de instancia de vocabulario abierto.

Salesforce's AI researchers present OVIS, an open vocabulary instance segmentation mask generator without masks.

La segmentación de instancias se refiere a la tarea de visión por computadora de identificar y diferenciar múltiples objetos que pertenecen a la misma clase dentro de una imagen tratándolos como entidades distintas. En los últimos años, ha habido un aumento significativo en el número de técnicas de segmentación de instancias debido a los rápidos avances en técnicas de aprendizaje profundo. Por ejemplo, se utilizan redes neuronales convolucionales (CNN) y otras arquitecturas progresivas como Mask R-CNN para la segmentación de instancias. La característica dominante de tales técnicas es que combinan capacidades de detección de objetos con segmentación de píxeles para identificar objetos y generar máscaras precisas para cada instancia dentro de una imagen, lo que lleva a una mejor comprensión de la imagen completa.

Sin embargo, existe una cierta desventaja en los modelos de detección existentes en cuanto al número de categorías base que pueden identificar. Pruebas anteriores han indicado que si un modelo de detección se entrena en el conjunto de datos COCO, se puede lograr su capacidad para detectar aproximadamente 80 categorías. Sin embargo, cualquier categoría adicional requeriría la intervención humana, lo cual es laborioso y consume tiempo. Para contrarrestar esto, existen métodos de Vocabulario Abierto (OV) que aprovechan pares de imágenes y subtítulos y modelos de lenguaje de visión para aprender nuevas categorías. Sin embargo, existen grandes diferencias en la supervisión cuando se trata de aprender de categorías base y novedosas. Esto a menudo conduce al sobreajuste en las categorías base y una mala generalización a las nuevas. Como resultado, existe una fuerte necesidad de una metodología que pueda mejorar estos métodos de detección para detectar nuevas categorías sin mucha intervención humana. Esto haría que los modelos fueran más prácticos y escalables para aplicaciones del mundo real.

Para abordar este problema, los investigadores de Salesforce AI han ideado un método donde se generan anotaciones de cuadro delimitador y máscara de instancia a partir de un par de imagen y subtítulo. Su método propuesto, el pipeline OVIS sin máscara, aprovecha la supervisión débil utilizando anotaciones de pseudomáscara derivadas de un modelo de lenguaje de visión para aprender categorías base y novedosas. Este enfoque elimina la necesidad de una anotación humana laboriosa y aborda el problema del sobreajuste. Las evaluaciones experimentales han demostrado que su metodología supera a los modelos de segmentación de instancias de vocabulario abierto de última generación. Además, su investigación ha sido reconocida y aceptada en la prestigiosa Conferencia de Visión por Computadora y Reconocimiento de Patrones en 2023.

Los investigadores de Salesforce han ideado un pipeline que consta de dos etapas principales: generación de pseudomáscaras y segmentación de instancias de vocabulario abierto. En la primera etapa, se crea una anotación de pseudomáscara para el objeto de interés a partir del par de imagen y subtítulo. Al utilizar un modelo de lenguaje de visión preentrenado, el nombre del objeto sirve como indicación de texto para localizar el objeto. Además, se realiza un proceso de enmascaramiento iterativo con GradCAM para refinar la pseudomáscara y asegurarse de que cubre todo el objeto con precisión. En la segunda etapa, se entrena una red de segmentación débilmente supervisada (WSS) para seleccionar la propuesta con la mayor superposición con el mapa de activación GradCAM utilizando cuadros delimitadores previamente generados. Finalmente, se entrena un modelo Mask-RCNN utilizando las pseudoanotaciones generadas, completando el pipeline.

El pipeline, por lo tanto, elimina la necesidad de cualquier intervención humana aprovechando el poder de los modelos de lenguaje de visión preentrenados y los modelos débilmente supervisados para generar automáticamente anotaciones de pseudomáscara, que se pueden utilizar como datos de entrenamiento adicionales. Para evaluar su pipeline, los investigadores llevaron a cabo varios experimentos en conjuntos de datos buscados como los conjuntos de datos MS-COCO y OpenImages. Los resultados demostraron que el uso de pseudoanotaciones en su enfoque lleva a un rendimiento excepcional en tareas de detección y segmentación de instancias, superando a otros métodos que dependen de anotaciones humanas. El enfoque guiado de visión y lenguaje único en su tipo para la generación de pseudomáscaras, ideado por los investigadores de Salesforce, allana el camino para originar modelos de segmentación de instancias más avanzados y precisos que eliminen la necesidad de anotadores humanos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Esperanza, Miedo y AI

Encuestamos a 2,000 personas sobre cómo utilizan la IA, qué quieren que haga y qué les asusta más de ella.

Ciencia de Datos

Haz que cada dólar de marketing cuente con la ciencia de datos.

La economía actual nos exige ser más diligentes en el gasto publicitario. Afortunadamente, los caminos viables para u...

Inteligencia Artificial

La recuperación del conocimiento toma el centro del escenario

Para hacer la transición de la implementación del consumidor a la empresarial para GenAI, las soluciones deben constr...

Inteligencia Artificial

Desequilibrio de Clases Explorando Técnicas de Submuestreo

Hemos explicado formalmente anteriormente el efecto del desequilibrio de clases y sus causas, y también explicamos va...

Inteligencia Artificial

MusicGen Reimaginado Los avances desconocidos de Meta en la música AI

En febrero de 2023, Google causó sensación con su IA de música generativa MusicLM. En ese momento, dos cosas quedaron...

Inteligencia Artificial

El poder de los codificadores y decodificadores avanzados en la IA generativa

Introducción En el dinámico mundo de la Inteligencia Artificial, la fusión de la tecnología y la creatividad ha dado ...