Google AI presenta los complementos de difusión de MediaPipe que permiten la generación controlable de texto a imagen en el dispositivo.

Google AI presenta los complementos de difusión de MediaPipe para generar texto a imagen en el dispositivo de manera controlable.

Los modelos de difusión se han utilizado ampliamente con un notable éxito en la generación de texto a imagen en los últimos años, lo que ha llevado a mejoras significativas en la calidad de imagen, rendimiento de inferencia y el alcance de nuestras posibilidades creativas. Sin embargo, la gestión efectiva de la generación sigue siendo un desafío, especialmente en condiciones difíciles de definir con palabras.

Los complementos de dispersión de MediaPipe, desarrollados por investigadores de Google, permiten realizar generación de texto a imagen en el dispositivo bajo el control del usuario. En este estudio, ampliamos nuestro trabajo anterior sobre inferencia GPU para modelos generativos grandes en el propio dispositivo, y presentamos soluciones de bajo costo para la creación de texto a imagen programable que se pueden integrar en modelos de difusión preexistentes y sus variaciones de Adaptación de Baja Rango (LoRA).

La producción de imágenes en los modelos de difusión se modela mediante el desruido iterativo. Cada iteración del modelo de difusión comienza con una imagen contaminada por ruido y termina con una imagen de la noción objetivo. La comprensión del lenguaje a través de indicaciones de texto ha mejorado significativamente el proceso de generación de imágenes. La incrustación de texto se vincula al modelo de producción de texto a imagen a través de capas de atención cruzada. Sin embargo, la posición y la pose de un objeto son dos ejemplos de detalles que podrían ser más difíciles de transmitir mediante indicaciones de texto. Los investigadores introducen información de control de una imagen de condición en la difusión utilizando modelos adicionales.

Los métodos Plug-and-Play, ControlNet y T2I Adapter se utilizan con frecuencia para generar una salida controlada de texto a imagen. Para codificar el estado de una imagen de entrada, Plug-and-Play utiliza una copia del modelo de difusión (860M parámetros para Diffusion Estable 1.5) y un enfoque de inversión de modelo de difusión implícito de desruido ampliamente utilizado (DDIM) que invierte el proceso de generación a partir de una imagen de entrada para obtener una entrada de ruido inicial. Las características espaciales con autoatención se extraen de la difusión copiada e inyectan en la difusión de texto a imagen utilizando Plug-and-Play. ControlNet construye una duplicación entrenable del codificador de un modelo de difusión y lo conecta a través de una capa de convolución con parámetros inicializados en cero para codificar la información de condicionamiento que luego se pasa a las capas decodificadoras. Desafortunadamente, esto ha llevado a un aumento significativo en el tamaño, aproximadamente 450M parámetros para Diffusion Estable 1.5, la mitad del modelo de difusión en sí. T2I Adapter ofrece resultados comparables en generación controlada a pesar de ser una red más pequeña (77M parámetros). La imagen de condición es la única entrada para T2I Adapter, y el resultado es utilizado por todos los ciclos de difusión posteriores. Sin embargo, este estilo de adaptador no está diseñado para dispositivos móviles.

El complemento de difusión de MediaPipe es una red independiente que hemos desarrollado para hacer que la generación condicionada sea efectiva, flexible y escalable.

Se conecta fácilmente a un modelo de referencia entrenado; enchufable.
El entrenamiento a partir de cero significa que no se utilizaron pesos del modelo original.
Es portátil porque se puede ejecutar de forma independiente al modelo base en dispositivos móviles con casi ningún gasto adicional.
El complemento es su propia red, cuyos resultados se pueden integrar en un modelo existente para convertir texto en imágenes. La capa de muestreo descendente (en azul) del modelo de difusión recibe las características recuperadas del complemento.

Un paradigma portátil en el dispositivo para la creación de texto a imagen, el complemento de dispersión de MediaPipe está disponible como descarga gratuita. Toma una imagen condicionada y utiliza la extracción de características multiescala para agregar características en las escalas adecuadas al codificador de un modelo de difusión. Cuando se combina con un modelo de difusión de texto a imagen, el modelo del complemento agrega una señal de condicionamiento a la producción de imágenes. Nuestra intención es que la red del complemento tenga solo 6M parámetros, lo que la convierte en un modelo relativamente simple. Para lograr una inferencia rápida en dispositivos móviles, MobileNetv2 utiliza convoluciones de profundidad y cuellos de botella invertidos.

Características Fundamentales

Abstracciones fáciles de entender para el aprendizaje automático de autoservicio. Para modificar, probar, prototipar y lanzar una aplicación, utilice una API de bajo código o un estudio sin código.
Enfoques innovadores de aprendizaje automático (ML) para problemas comunes, desarrollados con el conocimiento de ML de Google.
Optimización completa, incluida la aceleración de hardware, al mismo tiempo que es lo suficientemente pequeño y eficiente como para funcionar sin problemas en teléfonos inteligentes que funcionan con batería.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligenceEditors PickMachine LearningTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad de Binghamton presentan un sistema de anonimización que mejora la privacidad (Mi Rostro, Mi Elección) para que todos puedan tener control sobre sus rostros en las redes sociales de intercambio de fotos.

Google AI presenta los complementos de difusión de MediaPipe que permiten la generación controlable de texto a imagen en el dispositivo.

Was this article helpful?

La guía de campo de datos sintéticos

Investigadores de la Universidad de Binghamton presentan un sistema de anonimización que mejora la privacidad (Mi Rostro, Mi Elección) para que todos puedan tener control sobre sus rostros en las redes sociales de intercambio de fotos.

Aprendizaje Automático

Conoce CutLER (Cut-and-LEaRn) Un enfoque simple de IA para entrenar modelos de detección de objetos y segmentación de instancias sin anotaciones humanas

Acelerando el Acelerador Científico Acelera la Computación de Alto Rendimiento de CERN con GPUs y IA.

Investigadores del MIT presentan LILO un marco neuro-simbólico para aprender bibliotecas interpretables para la síntesis de programas

El camino hacia una IA creíble y orientada al valor comienza haciendo las preguntas correctas.

Amplios horizontes La presentación de NVIDIA señala el camino hacia nuevos avances en Inteligencia Artificial

¿Cómo deberíamos almacenar imágenes de IA? Investigadores de Google proponen un método de compresión de imágenes utilizando modelos generativos basados en puntuación