Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.
FastSAM es una solución revolucionaria que logra una segmentación de alto rendimiento en tiempo real con una carga computacional mínima.
El Modelo Segment Anything (SAM) es una propuesta más reciente en el campo. Es un concepto fundamental en la visión que ha sido aclamado como un avance. Puede utilizar múltiples sugerencias de participación del usuario para segmentar cualquier objeto en la imagen con precisión. Utilizando un modelo Transformer que ha sido ampliamente entrenado en el conjunto de datos SA-1B, SAM puede manejar fácilmente una amplia variedad de situaciones y objetos. En otras palabras, ahora es posible segmentar cualquier cosa gracias a SAM. Esta tarea tiene el potencial de servir como base para una amplia variedad de desafíos futuros en visión debido a su generalización.
A pesar de estas mejoras y los resultados prometedores de SAM y los modelos posteriores en el manejo de la tarea de segmentar cualquier cosa, todavía es necesario mejorar sus implementaciones prácticas. El desafío principal de la arquitectura de SAM es los altos requisitos de procesamiento de los modelos Transformer (ViT) en contraste con sus análogos convolucionales. La creciente demanda de aplicaciones comerciales inspiró a un equipo de investigadores de China a crear una solución en tiempo real para el problema de segmentar cualquier cosa; los investigadores lo llaman FastSAM.
Para resolver este problema, los investigadores dividen la tarea de segmentar cualquier cosa en dos partes: segmentación de todas las instancias y selección guiada por sugerencias. El primer paso depende de utilizar un detector basado en una Red Neuronal Convolucional (CNN). Se generan máscaras de segmentación para cada instancia en la imagen. La segunda etapa muestra la región de interés coincidente con la entrada. Demuestran que es factible crear un modelo en tiempo real para cualquier segmento de datos arbitrarios utilizando la eficiencia computacional de las redes neuronales convolucionales (CNNs). También creen que nuestro enfoque podría abrir el camino para el uso generalizado del proceso fundamental de segmentación en entornos comerciales.
- Si la comunicación oral y escrita hizo que los seres humanos desarrollaran inteligencia… ¿Qué hay de los modelos de lenguaje?
- Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.
- Enchufes de difusión en el dispositivo para la generación condicionada de texto a imagen
Utilizando el enfoque YOLACT, YOLOv8-seg es un detector de objetos que forma la base de nuestro propuesto FastSAM. Los investigadores también utilizan el completo conjunto de datos SA-1B de SAM. Este detector CNN logra un rendimiento similar a SAM a pesar de ser entrenado directamente utilizando solo el 2% (1/50) del conjunto de datos SA-1B, lo que permite su aplicación en tiempo real a pesar de las limitaciones computacionales y de recursos significativamente reducidas. También demuestran su rendimiento de generalización aplicándolo a varias tareas de segmentación derivadas.
El modelo de segmentación en tiempo real tiene aplicaciones prácticas en la industria. Tiene una amplia gama de posibles usos. El método propuesto no solo ofrece una respuesta novedosa y aplicable a una amplia variedad de tareas de visión, sino también a una velocidad muy alta, a menudo decenas o cientos de veces más rápido que los enfoques convencionales. También son bienvenidas las nuevas perspectivas que proporciona sobre la arquitectura de modelos grandes para problemas de visión general. Nuestra investigación sugiere que todavía hay casos en los que los modelos especializados ofrecen el mejor equilibrio entre eficiencia y precisión. Nuestro método demuestra la viabilidad de un enfoque que, al insertar un artificial antes de la estructura, puede minimizar en gran medida el costo computacional requerido para ejecutar el modelo.
El equipo resume sus principales contribuciones de la siguiente manera:
- Se aborda el desafío de Segment Anything al introducir un método revolucionario en tiempo real basado en CNN que disminuye drásticamente los requisitos de procesamiento sin sacrificar el rendimiento.
- Se muestran ideas sobre el potencial de los modelos ligeros de CNN en tareas de visión complicadas en este artículo, que incluye la primera investigación de aplicar un detector de CNN al desafío de segmentar cualquier cosa.
- Se revelan los méritos y limitaciones del método propuesto en el ámbito de segmentar cualquier cosa mediante una comparación con SAM en varios benchmarks.
En general, el FastSAM propuesto coincide en rendimiento con SAM mientras se ejecuta 50 veces y 170 veces más rápido, respectivamente. Su rendimiento rápido podría beneficiar aplicaciones industriales, como la identificación de obstáculos en carreteras, el seguimiento de instancias en video y la edición de imágenes. FastSAM puede producir máscaras de mayor calidad para objetos grandes en algunas fotos. El FastSAM sugerido puede cumplir con la operación de segmentación en tiempo real seleccionando objetos de interés resilientes y eficientes de una imagen segmentada. Realizaron una investigación empírica comparando FastSAM con SAM en cuatro tareas de cero-shot: reconocimiento de bordes, generación de propuestas, segmentación de instancias y localización con sugerencias de texto. Los resultados muestran que FastSAM es 50 veces más rápido que SAM-ViT-H en tiempo de ejecución y puede procesar eficientemente muchos trabajos derivados en tiempo real.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google DeepMind está trabajando en un algoritmo para superar a ChatGPT.
- Ajusta de forma interactiva Falcon-40B y otros LLMs en los cuadernos de Amazon SageMaker Studio utilizando QLoRA.
- Difusión estable Intuición básica detrás de la IA generativa
- Construyendo Modelos de Lenguaje Una Guía de Implementación Paso a Paso de BERT
- Generar música a partir de texto utilizando Google MusicLM
- LangFlow | Interfaz de usuario para LangChain para desarrollar aplicaciones con LLMs
- Conoce a ChatGLM2-6B la versión de segunda generación del modelo de chat de código abierto bilingüe (chino-inglés) ChatGLM-6B.