Investigadores de Meta AI presentan la personalización de estilo una receta de texto a pegatina para ajustar modelos de difusión latente (LDM) en un dominio distinto, con alta calidad visual.

Investigadores de Meta AI presentan la personalización de estilo una receta de texto a pegatina para ajustar modelos de difusión latente (LDM) en diferentes dominios, con calidad visual excepcional.

Un equipo de investigadores de GenAI, Meta, presenta Style Tailoring, un método para ajustar los Modelos de Difusión Latente (LDM, por sus siglas en inglés) para la generación de imágenes de pegatinas con el fin de mejorar la calidad visual, la alineación de las sugerencias y la diversidad de escenas. Comenzando con un modelo de texto a imagen como Emu, su estudio encontró que depender de una rápida ingeniería con un modelo fotorrealista conduce a una mala alineación y variedad en la generación de pegatinas. Style Tailoring implica:

  • Ajustar finamente imágenes similares a pegatinas.
  • Conjuntos de datos de retroalimentación humana para la alineación y el estilo.
  • Abordar las compensaciones.
  • Ajustar conjuntamente las distribuciones de contenido y estilo.

El estudio revisa el progreso en la generación de texto a imagen, haciendo hincapié en el uso de los LDM. La investigación previa explora diversas estrategias de ajuste fino, incluyendo la alineación de modelos de difusión pre-entrenados con estilos específicos e imágenes proporcionadas por los usuarios para edades impulsadas por el tema. Aborda los desafíos de la alineación de las sugerencias y la moda a través de la maximización de la probabilidad ponderada por recompensa y la capacitación de un modelo de ImageReward utilizando elecciones humanas. El objetivo de Style Tailoring es equilibrar el compromiso entre la fidelidad del estilo y del texto sin una latencia adicional durante la inferencia.

La investigación explora los avances en los modelos de texto a imagen basados en difusión, haciendo hincapié en su capacidad para generar imágenes de alta calidad a partir de descripciones en lenguaje natural. Aborda el compromiso entre la alineación de las sugerencias y el estilo en el ajuste fino de los LDM para las tareas de texto a imagen. La introducción de Style Tailoring tiene como objetivo optimizar una alineación rápida, la diversidad visual y la conformidad técnica para generar pegatinas visualmente atractivas. El enfoque implica un ajuste fino en múltiples etapas con imágenes débilmente alineadas, fases de retroalimentación humana y de expertos. También hace hincapié en la importancia de la transparencia y la diversidad de escenas en las pegatinas generadas.

El enfoque presenta un método de ajuste fino en múltiples etapas para la generación de texto a pegatinas, que incluye la alineación en el dominio, la alineación de retroalimentación humana para mejorar las sugerencias y la alineación de expertos para mejorar el estilo. Se utilizan imágenes parecidas a pegatinas con supervisión débil para la alineación en el dominio. El método propuesto de Style Tailoring optimiza conjuntamente la distribución de contenido y estilo, logrando un equilibrio entre la alineación de las sugerencias y la moda. La evaluación incluye valoraciones humanas y métricas, enfocadas en la calidad visual, la alineación rápida, la alineación de estilo y la diversidad de escenas en las pegatinas generadas.

El método Style Tailoring mejora significativamente la generación de pegatinas, mejorando la calidad visual en un 14%, la alineación de sugerencias en un 16.2% y la diversidad de escenas en un 15.3%, superando a la ingeniería de sugerencias con el modelo base Emu. Exhibe generalización en diferentes estilos gráficos. La evaluación incluye valoraciones humanas y métricas como la distancia Fréchet DINO y LPIPS para la alineación de estilo y la diversidad de escenas. Las comparaciones con los modelos de referencia demuestran la efectividad del método, estableciendo su superioridad en métricas clave de evaluación.

El estudio reconoce limitaciones en la alineación de sugerencias y la diversidad de escenas al depender de una rápida ingeniería con un modelo fotorrealista para la generación de pegatinas. Style tailoring mejora la prontitud y la alineación de estilo, pero equilibrar el compromiso sigue siendo un desafío. El enfoque del estudio en las pegatinas y la exploración limitada de la generalización a otros dominios plantean limitaciones. La escalabilidad a modelos de mayor escala, las comparaciones exhaustivas, las limitaciones del conjunto de datos y las consideraciones éticas son áreas mencionadas para investigaciones futuras. Se beneficiaría de evaluaciones y discusiones más exhaustivas sobre aplicaciones más amplias y posibles sesgos en la generación de texto a imagen.

En conclusión, Style Tailoring mejora de manera efectiva la calidad visual, la alineación de sugerencias y la diversidad de escenas de las imágenes de pegatinas generadas por LDM. Supera las limitaciones de la rápida ingeniería con un modelo fotorrealista y mejora estos aspectos en un 14%, 16.2% y 15.3%, respectivamente, en comparación con el modelo base Emu. Este método es aplicable en múltiples estilos y mantiene una baja latencia. Hace hincapié en la importancia de los pasos de ajuste fino en una secuencia estratégica para lograr resultados óptimos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Podemos superar la fragilidad inmediata en los modelos de lenguaje grandes? La IA de Google presenta la calibración por lotes para un rendimiento mejorado.

Los modelos de lenguaje grandes han surgido recientemente como herramientas poderosas para diversas tareas de compren...

Inteligencia Artificial

Los ajustes de privacidad de Zoom avivan el temor de que sus llamadas se utilicen para entrenar a la IA

Zoom también dijo que, no obstante los usos mencionados en sus reglas, no utilizará contenido del cliente de audio, v...

Inteligencia Artificial

Investigadores de la Universidad de Boston lanzan la familia Platypus de LLMs afinados para lograr un refinamiento económico, rápido y potente de los LLMs base.

Los Modelos de Lenguaje Grande (LLMs) han causado sensación en el mundo. Estos modelos súper efectivos y eficientes s...

Inteligencia Artificial

Investigadores de Google presentan una biblioteca de código abierto en JAX para el aprendizaje profundo en superficies esféricas

El aprendizaje profundo, un subconjunto del aprendizaje automático, aprende automáticamente representaciones compleja...

Aprendizaje Automático

La huella digital de ChatGPT DNA-GPT es un método de detección de texto generado por GPT que utiliza un análisis divergente de N-gramos.

ChatGPT se ha convertido en una parte esencial de nuestras vidas diarias en este momento. La mayoría de nosotros lo u...

Ciencia de Datos

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

La evaluación confiable del modelo es fundamental en MLops y LLMops, guiando decisiones cruciales como cuál modelo o ...