Modelo Segment Anything Modelo base para la segmentación de imágenes

Modelo Segment Anything - Modelo base para segmentación de imágenes

La segmentación, el proceso de identificar píxeles de imagen que pertenecen a objetos, es fundamental en la visión por computadora. Este proceso se utiliza en aplicaciones desde imágenes científicas hasta edición de fotos, y los expertos técnicos deben poseer habilidades altamente capacitadas y acceso a infraestructura de inteligencia artificial con grandes cantidades de datos anotados para modelado preciso.

Recientemente, Meta AI presentó su proyecto Segment Anything, que es un conjunto de datos y modelo de segmentación de imágenes con el Modelo Segment Anything (SAM) y el conjunto de datos de máscara SA-1B, el conjunto de datos de segmentación más grande jamás creado para apoyar investigaciones adicionales en modelos fundamentales para la visión por computadora. Hicieron SA-1B disponible para uso de investigación mientras que SAM está bajo la licencia abierta Apache 2.0 para que cualquiera pueda probar SAM con sus imágenes en esta demostración.

Hacia la generalización de la tarea de segmentación

Anteriormente, los problemas de segmentación se abordaban utilizando dos clases de enfoques:

Segmentación interactiva, en la que los usuarios guían la tarea de segmentación refinando iterativamente una máscara.
Segmentación automática, que permitía segmentar automáticamente categorías selectivas de objetos como gatos o sillas, pero requería grandes cantidades de objetos anotados para el entrenamiento (es decir, miles o incluso decenas de miles de ejemplos de gatos segmentados), además de recursos informáticos y experiencia técnica para entrenar un modelo de segmentación. Ningún enfoque proporcionaba una solución general y completamente automática para la segmentación.

SAM utiliza tanto la segmentación interactiva como la automática en un solo modelo. La interfaz propuesta permite un uso flexible, lo que hace posible una amplia gama de tareas de segmentación mediante la ingeniería de la indicación adecuada (como clics, cajas o texto).

SAM se desarrolló utilizando un conjunto de datos amplio y de alta calidad que contiene más de mil millones de máscaras recopiladas como parte de este proyecto, lo que le brinda la capacidad de generalizar a nuevos tipos de objetos e imágenes más allá de los observados durante el entrenamiento. Como resultado, los profesionales ya no necesitan recopilar sus datos de segmentación y adaptar un modelo específicamente a su caso de uso.

Estas capacidades permiten que SAM se generalice tanto en tareas como en dominios, algo que ningún otro software de segmentación de imágenes ha logrado antes.

Capacidades y casos de uso de SAM

SAM cuenta con capacidades poderosas que hacen que la tarea de segmentación sea más efectiva:

Variedad de indicaciones de entrada: Las indicaciones que dirigen la segmentación permiten a los usuarios realizar fácilmente diferentes tareas de segmentación sin requisitos adicionales de entrenamiento. Puede aplicar la segmentación utilizando puntos y cajas interactivos, segmentar automáticamente todo en una imagen y generar múltiples máscaras válidas para indicaciones ambiguas. En la siguiente figura se puede ver la segmentación que se realiza para ciertos objetos utilizando una indicación de texto de entrada.

Integración con otros sistemas: SAM puede aceptar indicaciones de entrada de otros sistemas, como en el futuro tomar la mirada del usuario desde un visor de realidad aumentada/virtual y seleccionar objetos.
Salidas extensibles: Las máscaras de salida pueden servir como entradas para otros sistemas de inteligencia artificial. Por ejemplo, las máscaras de objetos se pueden rastrear en videos, habilitar aplicaciones de edición de imágenes, elevarse al espacio 3D o incluso utilizarse creativamente como recopilación.
Generalización sin entrenamiento: SAM ha desarrollado una comprensión de los objetos que le permite adaptarse rápidamente a objetos desconocidos sin entrenamiento adicional.
Generación de múltiples máscaras: SAM puede producir múltiples máscaras válidas cuando se enfrenta a la incertidumbre con respecto a un objeto que se está segmentando, lo que proporciona asistencia crucial al resolver la segmentación en entornos del mundo real.
Generación de máscaras en tiempo real: SAM puede generar una máscara de segmentación para cualquier indicación en tiempo real después de precomputar la incrustación de la imagen, lo que permite una interacción en tiempo real con el modelo.

Comprendiendo SAM: ¿Cómo funciona?

Uno de los avances recientes en el procesamiento del lenguaje natural y la visión por computadora ha sido el desarrollo de modelos fundamentales que permiten el aprendizaje sin entrenamiento y con pocos ejemplos para nuevos conjuntos de datos y tareas a través de “indicaciones”. Los investigadores de Meta AI entrenaron a SAM para devolver una máscara de segmentación válida para cualquier indicación, como puntos de primer plano/fondo, cajas/máscaras aproximadas o máscaras, texto en formato libre o cualquier información que indique el objeto objetivo dentro de una imagen.

Una máscara válida simplemente significa que incluso cuando la indicación podría referirse a múltiples objetos (por ejemplo: un punto en una camisa puede representar tanto a sí mismo como a alguien que la lleva puesta), su salida debe proporcionar una máscara razonable para un solo objeto, de esta manera se preentrena el modelo y se resuelven tareas de segmentación generales a través de indicaciones.

Los investigadores observaron que las tareas de preentrenamiento y la recopilación interactiva de datos imponían restricciones específicas en el diseño del modelo. Lo más importante es que la simulación en tiempo real debe ejecutarse de manera eficiente en una CPU en un navegador web para permitir que los anotadores usen SAM de manera interactiva en tiempo real para una anotación eficiente. Aunque las restricciones de tiempo de ejecución resultaron en compensaciones entre calidad y tiempo de ejecución, los diseños simples produjeron resultados satisfactorios en la práctica.

Bajo el capó de SAM, un codificador de imágenes genera una incrustación única para las imágenes, mientras que un codificador ligero convierte cualquier indicación en un vector de incrustación en tiempo real. Estas fuentes de información se combinan luego mediante un decodificador ligero que predice máscaras de segmentación basadas en las incrustaciones de imágenes calculadas con SAM, de modo que SAM puede producir segmentos en solo 50 milisegundos para cualquier indicación dada en un navegador web.

Construyendo SA-1B: Segmentando 1 mil millones de máscaras

Construir y entrenar el modelo requiere acceso a un conjunto de datos enorme y diverso que no existía al comienzo del entrenamiento. La versión actual del conjunto de datos de segmentación es, con mucho, la más grande hasta la fecha. Los anotadores usaron SAM de manera interactiva para anotar imágenes antes de actualizar SAM con estos nuevos datos, repitiendo este ciclo muchas veces para refinar continuamente tanto el modelo como el conjunto de datos.

SAM permite recopilar máscaras de segmentación más rápido que nunca, tomando solo 14 segundos por máscara anotada de manera interactiva; este proceso es solo dos veces más lento que anotar cuadros delimitadores, que solo llevan 7 segundos utilizando interfaces de anotación rápida. Los esfuerzos de recopilación de datos de segmentación a gran escala comparables incluyen la anotación manual completa de máscaras basadas en polígonos de COCO, que lleva aproximadamente 10 horas; los esfuerzos de anotación asistida por modelo de SAM fueron aún más rápidos; el tiempo de anotación por máscara anotada fue 6.5 veces más rápido en comparación con 2 veces más lento en términos de tiempo de anotación de datos que los esfuerzos de anotación de datos a gran escala asistidos por modelos anteriores.

La anotación interactiva de máscaras es insuficiente para generar el conjunto de datos SA-1B; por lo tanto, se desarrolló un motor de datos. Este motor de datos contiene tres “engranajes”, comenzando con anotadores asistidos antes de pasar a la anotación completamente automatizada combinada con la anotación asistida para aumentar la diversidad de las máscaras recopiladas y, finalmente, la creación automática completa de máscaras para el conjunto de datos a escala.

El conjunto de datos final de SA-1B cuenta con más de 1.100 millones de máscaras de segmentación recopiladas en más de 11 millones de imágenes con licencia y preservación de la privacidad, lo que representa 4 veces más máscaras que cualquier conjunto de datos de segmentación existente, según estudios de evaluación humana. Según estas evaluaciones humanas verificadas, estas máscaras exhiben alta calidad y diversidad en comparación con conjuntos de datos anotados manualmente anteriores con tamaños de muestra mucho más pequeños.

Las imágenes para SA-1B se obtuvieron a través de un proveedor de imágenes de varios países que representaban diferentes regiones geográficas y niveles de ingresos. Si bien ciertas regiones geográficas siguen estando subrepresentadas, SA-1B proporciona una mayor representación debido a su mayor número de imágenes y una mejor cobertura general en todas las regiones.

Los investigadores realizaron pruebas con el objetivo de descubrir cualquier sesgo en el modelo en cuanto a presentación de género, percepción del tono de piel, rango de edad de las personas y edad percibida de las personas presentadas, y encontraron que el modelo SAM se desempeñó de manera similar en varios grupos. Esperan que esto haga que el trabajo resultante sea más equitativo cuando se aplique en casos de uso del mundo real.

Si bien SA-1B permitió el resultado de la investigación, también puede permitir que otros investigadores entrenen modelos base para la segmentación de imágenes. Además, estos datos pueden convertirse en la base de nuevos conjuntos de datos con anotaciones adicionales.

Trabajo futuro y resumen

Los investigadores de Meta AI esperan que al compartir su investigación y conjunto de datos, puedan acelerar la investigación en segmentación de imágenes y comprensión de imágenes y videos, ya que este modelo de segmentación puede desempeñar esta función como parte de sistemas más grandes.

En este artículo, hemos cubierto qué es SAM y su capacidad y casos de uso. Después de eso, repasamos cómo funciona y cómo se entrenó para dar una visión general del modelo. Finalmente, concluimos el artículo con la visión y el trabajo futuro. Si desea obtener más información sobre SAM, asegúrese de leer el artículo y probar la demostración.

Referencias

Presentando Segment Anything: Trabajando hacia el primer modelo base para la segmentación de imágenes
Conjunto de datos SA-1B
Segment Anything

Youssef Rafaat es un investigador de visión por computadora y científico de datos. Su investigación se centra en el desarrollo de algoritmos de visión por computadora en tiempo real para aplicaciones de atención médica. También trabajó como científico de datos durante más de 3 años en el ámbito del marketing, las finanzas y la atención médica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Computer Vision

Was this article helpful?

93 out of 132 found this helpful

Modelo Segment Anything Modelo base para la segmentación de imágenes

Hacia la generalización de la tarea de segmentación

Capacidades y casos de uso de SAM

Comprendiendo SAM: ¿Cómo funciona?

Construyendo SA-1B: Segmentando 1 mil millones de máscaras

Trabajo futuro y resumen

Referencias

Was this article helpful?

50 principales preguntas de entrevista de Google para roles de Ciencia de Datos

Congelación de capas de un modelo de aprendizaje profundo – la forma correcta

Inteligencia Artificial

Conoce snnTorch Un paquete de Python de código abierto para realizar aprendizaje basado en gradientes con redes neuronales de disparo.

Prediciendo Touchdowns de Futbol Americano con Aprendizaje Automático

NYU y NVIDIA colaboran en un gran modelo de lenguaje para predecir la readmisión de pacientes.

Esta startup de IA con sede en Finlandia presenta a Poro un revolucionario modelo de lenguaje de código abierto que impulsa las capacidades europeas de IA multilingüe.

Corea del Sur permite que los robots autónomos utilicen las aceras

Investigadores de la Universidad de Sharjah desarrollan soluciones de inteligencia artificial para la inclusión del árabe y sus dialectos en el procesamiento del lenguaje natural