Conoce a AnomalyGPT Un nuevo enfoque de IAD basado en Modelos de Visión-Lenguaje de Gran Escala (LVLM) para detectar anomalías industriales

AnomalyGPT Un nuevo enfoque de IAD para detectar anomalías industriales basado en LVLM.

En varias tareas de Procesamiento del Lenguaje Natural (NLP), los Modelos de Lenguaje de Gran Tamaño (LLMs) como GPT-3.5 y LLaMA han mostrado un rendimiento sobresaliente. La capacidad de los LLMs para interpretar información visual ha sido ampliada recientemente por técnicas de vanguardia como MiniGPT-4, BLIP-2 y PandaGPT, alineando aspectos visuales con características de texto, lo que ha provocado un gran cambio en el campo de la inteligencia artificial general (AGI). Aunque los LVLMs han sido pre-entrenados con grandes cantidades de datos obtenidos de Internet, su conocimiento específico de dominio está solo moderadamente desarrollado y necesitan más sensibilidad a las características locales dentro de los objetos. La tarea de IAD intenta encontrar y localizar anomalías en fotografías de productos industriales.

Los modelos deben ser entrenados solo con muestras normales para identificar muestras anómalas que se aparten de las muestras normales, ya que los ejemplos del mundo real son poco comunes e impredecibles. La mayoría de los sistemas actuales de IAD solo ofrecen puntuaciones de anomalía para las muestras de prueba y solicitan definir manualmente criterios para distinguir entre instancias normales y anómalas para cada clase de objetos, lo que los hace inadecuados para entornos de producción reales. Investigadores de la Academia de Ciencias de China, la Universidad de la Academia de Ciencias de China, Objecteye Inc. y Wuhan AI Research presentan AnomalyGPT, una metodología única de IAD basada en LVLM, como se muestra en la Figura 1, ya que ni los enfoques de IAD existentes ni los LVLMs pueden manejar adecuadamente el problema de IAD. Sin necesidad de ajustes manuales de umbral, AnomalyGPT puede identificar anomalías y su ubicación.

**Figura 1** muestra una comparación de nuestro AnomalyGPT con técnicas de IAD existentes y LVLMs.

Además, su enfoque puede proporcionar información de imágenes y promover la interacción interactiva, permitiendo a los usuarios plantear consultas de seguimiento según sus requisitos y respuestas. Con solo unas pocas muestras normales, AnomalyGPT también puede aprender en contexto, lo que permite una rápida adaptación a nuevos objetos. Optimizan el LVLM utilizando datos visuales-textuales anómalos sintetizados e incorporando experiencia en IAD. Sin embargo, es necesario mejorar el entrenamiento directo utilizando datos de IAD. La escasez de datos es el primero. Pre-entrenado en 160k fotos con conversaciones multi-turno asociadas, incluyendo técnicas como LLaVA y PandaGPT. Sin embargo, el tamaño de muestra pequeño de los conjuntos de datos de IAD actualmente disponibles hace que el ajuste fino directo sea vulnerable al sobreajuste y al olvido catastrófico.

Para solucionar esto, ajustan finamente el LVLM utilizando incorporaciones de promesas en lugar de ajuste fino de parámetros. Después de las entradas de imagen, se insertan más incorporaciones de promesas, agregando información adicional de IAD al LVLM. El segundo problema tiene que ver con la semántica detallada. Sugieren un decodificador basado en coincidencia de características visuales-textuales simple para obtener resultados de localización de anomalías a nivel de píxel. Las salidas del decodificador están disponibles para el LVLM y las imágenes de prueba originales a través de incorporaciones de promesas. Esto permite que el LVLM utilice tanto la imagen en bruto como las salidas del decodificador para identificar anomalías, aumentando la precisión de sus juicios. Realizan experimentos exhaustivos en las bases de datos MVTec-AD y VisA.

Alcanzan una precisión del 93.3%, un AUC a nivel de imagen del 97.4% y un AUC a nivel de píxel del 93.1% con entrenamiento no supervisado en el conjunto de datos MVTec-AD. Alcanzan una precisión del 77.4%, un AUC a nivel de imagen del 87.4% y un AUC a nivel de píxel del 96.2% cuando se transfiere un solo disparo al conjunto de datos VisA. Por otro lado, la transferencia de un solo disparo al conjunto de datos MVTec-AD después del entrenamiento no supervisado en el conjunto de datos VisA produjo una precisión del 86.1%, un AUC a nivel de imagen del 94.1% y un AUC a nivel de píxel del 95.3%.

A continuación se presenta un resumen de sus contribuciones:

• Presentan el uso innovador de LVLM para el manejo de deberes IAD. Su enfoque facilita las discusiones de múltiples rondas y detecta y localiza anomalías sin ajustar manualmente los umbrales. El decodificador basado en la coincidencia de características visuales y textuales, ligero y basado en LVLM, aborda la limitación de la capacidad de discernimiento más débil de LLM en cuanto a semántica detallada. Alivia la restricción de la capacidad limitada de LLM para generar salidas de texto. Según su conocimiento, son los primeros en aplicar LVLM con éxito en la detección de anomalías industriales.

• Para preservar las capacidades intrínsecas de LVLM y permitir conversaciones de múltiples turnos, entrenan su modelo simultáneamente con los datos utilizados durante el pre-entrenamiento de LVLM y utilizan incrustaciones de indicaciones para el ajuste fino.

• Su enfoque mantiene una fuerte transferibilidad y puede realizar aprendizaje con pocos ejemplos en contexto en nuevos conjuntos de datos, produciendo excelentes resultados.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce a AnomalyGPT Un nuevo enfoque de IAD basado en Modelos de Visión-Lenguaje de Gran Escala (LVLM) para detectar anomalías industriales

Was this article helpful?

El icónico escritor de terror Stephen King no teme a la IA

Comenzando con las Estructuras de Datos en Python en 5 pasos

Inteligencia Artificial

Investigadores de la Universidad de Cambridge presentan un conjunto de datos de 50,000 imágenes sintéticas y fotorealistas de pies, junto con una novedosa biblioteca de IA para pies.

Investigadores de Stanford y Microsoft presentan Inteligencia Artificial de Auto-Mejora Aprovechando GPT-4 para elevar el rendimiento del programa de andamiaje.

AI Ve lo que tú Ves Mind's Eye es un Modelo de IA que Puede Reconstruir Escaneos Cerebrales en Imágenes.

Cómo implementar la IA adaptativa en tu negocio.

Conoce a Llemma el modelo de lenguaje matemático de próxima generación que supera los estándares actuales

El mundo natural potencia el futuro de la visión por computadora