Conoce Paella Un Nuevo Modelo de IA Similar a Difusión que Puede Generar Imágenes de Alta Calidad Mucho Más Rápido que Usando Difusión Estable.

Conoce Paella, un nuevo modelo de IA similar a difusión que genera imágenes de alta calidad más rápido que la difusión estable.

Durante los últimos 2-3 años, ha habido un aumento fenomenal en la calidad y cantidad de investigación realizada en la generación de imágenes a partir de texto utilizando inteligencia artificial (IA). Uno de los trabajos más innovadores y revolucionarios en este dominio se refiere a los modelos generativos de última generación llamados modelos de difusión. Estos modelos han transformado por completo la forma en que se pueden utilizar descripciones textuales para generar imágenes de alta calidad mediante el aprovechamiento del poder de los algoritmos de aprendizaje profundo. Además de la difusión, existen una serie de técnicas poderosas más, lo que ofrece un camino emocionante para generar contenido visual casi fotorealista a partir de entradas textuales. Sin embargo, los resultados excepcionales logrados por estas tecnologías de vanguardia vienen con ciertas limitaciones. Un número de tecnologías emergentes de IA generativa se basa en modelos de difusión, que requieren arquitecturas intrincadas y recursos computacionales sustanciales para el entrenamiento y la generación de imágenes. Estas metodologías avanzadas también reducen la velocidad de inferencia, lo que las hace imprácticas para la implementación en tiempo real. Además, la complejidad de estas técnicas está directamente relacionada con los avances que permiten, lo que plantea un desafío para que el público en general comprenda el funcionamiento interno de estos modelos y resulta en una situación en la que se perciben como modelos de caja negra.

Con la intención de abordar las preocupaciones mencionadas anteriormente, un equipo de investigadores de Technische Hochschule Ingolstadt y Wand Technologies, Alemania, ha propuesto una técnica innovadora para la generación de imágenes condicionada por texto. Esta técnica innovadora es similar a la difusión, pero produce imágenes de alta calidad mucho más rápido. La fase de muestreo de imagen de este modelo basado en convolución se puede lograr con tan solo 12 pasos y aún así producir una calidad de imagen excepcional. Este enfoque se destaca por su notable simplicidad y velocidad reducida de generación de imagen, lo que permite a los usuarios condicionar el modelo y disfrutar de las ventajas que faltan en las técnicas de última generación existentes. La inherente simplicidad de la técnica propuesta ha mejorado significativamente su accesibilidad, permitiendo que personas de diversos orígenes comprendan e implementen esta tecnología de texto a imagen fácilmente. Para validar su metodología a través de evaluaciones experimentales, los investigadores también entrenaron un modelo condicionado por texto llamado “Paella” con un asombroso mil millones de parámetros. El equipo también ha liberado su código y pesos de modelo con licencia MIT para fomentar la investigación en torno a su trabajo.

Un modelo de difusión experimenta un proceso de aprendizaje donde elimina progresivamente diversos niveles de ruido de cada instancia de entrenamiento. Durante la inferencia, cuando se presenta con ruido puro, el modelo genera una imagen restando iterativamente el ruido durante varios cientos de pasos. La técnica ideada por los investigadores alemanes se basa en gran medida en estos principios de los modelos de difusión. Al igual que los modelos de difusión, Paella elimina grados variables de ruido de los tokens que representan una imagen y los utiliza para generar una nueva imagen. El modelo se entrenó con 900 millones de pares de imágenes y texto del conjunto de datos estético LAION-5B. Paella utiliza una arquitectura codificador-decodificador pre-entrenada basada en una red neuronal convolucional, con la capacidad de representar una imagen de 256×256 usando 256 tokens seleccionados de un conjunto de 8.192 tokens aprendidos durante el pre-entrenamiento. Para agregar ruido a su ejemplo durante la fase de entrenamiento, los investigadores también incluyeron algunos tokens elegidos al azar en esta lista.

Para generar incrustaciones de texto basadas en la descripción textual de la imagen, los investigadores utilizaron el modelo CLIP (Contrastive Language-Image Pretraining), que establece conexiones entre imágenes y descripciones textuales. Luego, se empleó la arquitectura CNN U-Net para entrenar el modelo en la generación del conjunto completo de tokens originales, utilizando las incrustaciones de texto y los tokens generados en iteraciones anteriores. Este proceso iterativo se repitió 12 veces, reemplazando gradualmente una porción más pequeña de los tokens generados previamente con cada repetición. Con la guía de los tokens generados restantes, U-Net redujo progresivamente el ruido en cada paso. Durante la inferencia, CLIP produjo una incrustación basada en una indicación de texto dada y U-Net reconstruyó todos los tokens durante 12 pasos para un conjunto de 256 tokens seleccionados al azar. Finalmente, el decodificador empleó los tokens generados para generar una imagen.

Para evaluar la efectividad de su método, los investigadores utilizaron la métrica de distancia de inicio Fréchet (FID) para comparar los resultados obtenidos del modelo de Paella y el modelo de difusión estable. Aunque los resultados favorecieron ligeramente al modelo de difusión estable, Paella exhibió una ventaja significativa en términos de velocidad. Este estudio se destaca de los esfuerzos anteriores, ya que se enfocó en la reconfiguración completa de la arquitectura, lo que no se consideró previamente. En conclusión, Paella puede generar imágenes de alta calidad con un tamaño de modelo más pequeño y menos pasos de muestreo en comparación con los modelos existentes y aún lograr resultados apreciables. El equipo de investigación enfatiza la accesibilidad de su enfoque, que ofrece una configuración simple que puede ser adoptada fácilmente por personas de diversos orígenes, incluidos dominios no técnicos, ya que el campo de la IA generativa continúa ganando más interés con el tiempo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Voxel51 libera el código fuente de VoxelGPT un asistente de AI que aprovecha el poder de GPT-3.5 para generar código Python para el análisis de conjuntos de datos de visión por computadora.

Conoce Paella Un Nuevo Modelo de IA Similar a Difusión que Puede Generar Imágenes de Alta Calidad Mucho Más Rápido que Usando Difusión Estable.

Was this article helpful?

Análisis de series de tiempo de las acciones de Netflix con Pandas

Voxel51 libera el código fuente de VoxelGPT un asistente de AI que aprovecha el poder de GPT-3.5 para generar código Python para el análisis de conjuntos de datos de visión por computadora.

Aprendizaje Automático

Mejores Herramientas de IA para Startups de E-commerce (2023)

Cuando la visión por computadora funciona más como un cerebro, ve más como lo hacen las personas.

Tres formas en que la IA generativa puede reforzar la ciberseguridad

Conoce Universal Simulator (UniSim) Un simulador interactivo de la interacción del mundo real a través del modelado generativo

Morphobots para Marte Caltech desarrolla un robot todo terreno como candidato para una misión de la NASA

Desbloqueando el potencial de la IA con la ingeniería de indicaciones