Investigadores de CMU presentan Diffusion-TTA Elevando los modelos de IA discriminativos con retroalimentación generativa para una adaptación incomparable en el tiempo de prueba.
Investigadores de CMU presentan Diffusion-TTA Elevando modelos de IA discriminativos con retroalimentación generativa para una adaptación incomparable en el tiempo de prueba.
Los modelos de difusión se utilizan para generar muestras de alta calidad a partir de distribuciones de datos complejas. Los modelos de difusión discriminatoria buscan aprovechar los principios de los modelos de difusión para tareas como la clasificación o regresión, donde el objetivo es predecir etiquetas o salidas para un determinado conjunto de datos de entrada. Al aprovechar los principios de los modelos de difusión, los modelos de difusión discriminatoria ofrecen ventajas como un mejor manejo de la incertidumbre, la robustez al ruido y la capacidad de capturar dependencias complejas dentro de los datos.
Los modelos generativos pueden identificar anomalías u outliers cuantificando la desviación de un nuevo punto de datos de la distribución de datos aprendida. Pueden distinguir entre instancias de datos normales y anormales, lo que ayuda en tareas de detección de anomalías. Tradicionalmente, estos modelos generativos y discriminatorios se consideran como alternativas competitivas. Investigadores de la Universidad Carnegie Mellon combinan estos dos modelos durante la etapa de inferencia de manera que aprovechan los beneficios del razonamiento iterativo de la inversión generativa y la capacidad de ajuste de los modelos discriminatorios.
El equipo construyó un modelo de Adaptación en Tiempo de Prueba (TTA) basado en la difusión que adapta métodos de clasificación de imágenes, segmentadores y predictores de profundidad a imágenes individuales sin etiquetar mediante el uso de sus salidas para modular el condicionamiento de un modelo de difusión de imágenes y maximizar las difusiones de imágenes. Su modelo recuerda a una arquitectura codificador-decodificador. Un modelo discriminatorio pre-entrenado codifica la imagen en una hipótesis, como una etiqueta de categoría de objeto, un mapa de segmentación o un mapa de profundidad. Esto se utiliza como condicionamiento para un modelo generativo pre-entrenado para generar la imagen.
- Conoce DreamSync un nuevo marco de inteligencia artificial para mejorar la síntesis de texto a imagen (T2I) con comentarios de modelos de comprensión de imagen
- Top 5 bibliotecas de IA generativa para usar en 2024
- Cómo estar preparado para el trabajo en el mundo de los grandes modelos de lenguaje?
TTA por difusión adapta eficazmente clasificadores de imagen para ejemplos dentro y fuera de la distribución en bancos de pruebas establecidos, incluyendo ImageNet y sus variantes. Ajustan el modelo utilizando la pérdida de reconstrucción de imágenes. La adaptación se lleva a cabo para cada instancia en el conjunto de pruebas retropropagando los gradientes de verosimilitud de difusión hacia los pesos del modelo discriminatorio. Muestran que su modelo supera a los métodos anteriores del estado del arte de TTA y es efectivo en múltiples variantes de modelos de difusión discriminatoria y generativa.
Los investigadores también presentan un análisis ablacionista de varias elecciones de diseño y estudian cómo varía TTA por difusión con hiperparámetros como los pasos de difusión, el número de muestras por paso de tiempo y el tamaño del lote. También se aprende el efecto de adaptar diferentes parámetros del modelo.
Los investigadores dicen que TTA por difusión supera consistentemente al Clasificador de Difusión. Conjeturan que el modelo discriminatorio no sobreajusta la pérdida generativa debido a la inicialización de pesos del modelo discriminatorio (pre-entrenado), lo que evita que converja hacia esta solución trivial.
En conclusión, los modelos generativos se han utilizado previamente para la adaptación de clasificadores de imágenes y segmentos en tiempo de prueba; al entrenar conjuntamente el modelo TTA por difusión bajo una pérdida de tarea discriminativa conjunta y una pérdida de reconstrucción de imágenes auto-supervisada, los usuarios pueden obtener resultados eficientes.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- IBM y META forman una alianza de IA para la innovación responsable
- Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.
- El Quantum Computer ‘Condor’ de IBM tiene más de 1,000 qubits
- 6 Podcasts de GenAI que deberías estar escuchando
- Ingeniería de datos una guía inspirada en la Fórmula 1 para principiantes
- Algoritmo de conversión de enteros a cadenas un 34% más rápido
- 9 formas en que la IA está mejorando la seguridad de los centros de datos