Más allá de Photoshop Cómo Inst-Inpaint está revolucionando la eliminación de objetos con modelos de difusión

Inst-Inpaint revoluciona eliminación objetos con modelos difusión más allá Photoshop

El inpainting de imágenes es un arte antiguo. Es el proceso de eliminar objetos no deseados y rellenar píxeles faltantes en una imagen de manera que la imagen completa se vea realista y siga el contexto original. Las aplicaciones del inpainting de imágenes son diversas, e incluyen tareas como mejorar la estética o privacidad eliminando objetos indeseados de las imágenes, mejorar la calidad y claridad de fotos antiguas o dañadas, completar información faltante rellenando espacios o agujeros en las imágenes, y expresar creatividad o estado de ánimo mediante la generación de efectos artísticos.

Se ha introducido Inst-Inpaint, un método de inpainting de imágenes instructivo que toma una imagen y una instrucción textual como entrada para eliminar automáticamente el objeto no deseado mencionado. La imagen de arriba nos muestra la entrada y salida en los resultados de muestra con Inst-Inpaint. Aquí, esto se realiza utilizando modelos de difusión de vanguardia. Los modelos de difusión son una clase de modelos generativos probabilísticos que convierten el ruido en una muestra de datos representativa y se han utilizado ampliamente en visión por computadora para obtener imágenes de alta calidad en IA generativa.

  • Los investigadores primero construyeron GQA-Inpaint, un conjunto de datos de imágenes del mundo real, para entrenar y probar modelos para el trabajo de inpainting de imágenes instructivo propuesto. Para crear pares de entrada/salida, utilizaron las imágenes y sus grafos de escena en el conjunto de datos GQA. Este método propuesto se lleva a cabo en los siguientes pasos:
  • Seleccionar un objeto de interés (objeto a eliminar).
  • Realizar segmentación de instancia para localizar el objeto en la imagen.
  • Luego, aplicar un método de inpainting de imágenes de vanguardia para borrar el objeto.
  • Finalmente, crear una plantilla de instrucción textual basada en el modelo para describir la operación de eliminación. Como resultado, el conjunto de datos GQA-Inpaint incluye 147165 imágenes únicas y 41407 instrucciones diferentes. Entrenado en este conjunto de datos, el modelo Inst-Inpaint es un método de inpainting de imágenes basado en texto basado en un Modelo de Difusión Latente condicionado, que no requiere ninguna máscara binaria especificada por el usuario y realiza la eliminación de objetos en un solo paso sin predecir una máscara.

Un detalle a tener en cuenta es que la imagen se divide en tres secciones iguales a lo largo del eje x y se les llama “izquierda”, “centro” y “derecha”, siguiendo la nomenclatura natural y se utiliza “en la mesa” para identificar objetos en la imagen. Para comparar los resultados de los experimentos, los investigadores utilizaron numerosas medidas, incluyendo una puntuación de inpainting basada en CLIP, para evaluar los baselines basados en GAN y difusión y probar mejoras cuantitativas y cualitativas significativas.

En un paisaje digital en constante evolución, donde los límites entre la creatividad humana y la inteligencia artificial se difuminan constantemente, Inst-Inpaint es un testimonio del poder transformador de la IA en la manipulación de imágenes. Ha abierto numerosas oportunidades para utilizar instrucciones textuales en el inpainting de imágenes y una vez más acerca la IA al cerebro humano.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de IA presenta la integración de Lucene para una búsqueda vectorial potente con OpenAI Embeddings.

Últimamente, se han logrado avances significativos en la aplicación de redes neuronales profundas al campo de la búsq...

Ciencias de la Computación

Chattanooga siembra semillas cuánticas.

Chattanooga, TN, abrirá la primera red cuántica disponible comercialmente en los Estados Unidos a finales del próximo...

Inteligencia Artificial

Google AI propone PixelLLM un modelo de visión y lenguaje capaz de localización de gran precisión y alineación de visión y lenguaje.

Los Modelos de Lenguaje Grande (LLMs) han utilizado con éxito el poder de los subcampos de Inteligencia Artificial (I...

Inteligencia Artificial

Los estados están pidiendo más clases de ciencias de la computación. Ahora necesitan maestros

Code.org informó que para el 2022, cada estado de Estados Unidos tenía una ley o política que promovía la educación e...

Aprendizaje Automático

¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?

La escala exponencialmente creciente de los modelos de deep learning es una fuerza importante para avanzar en el esta...

Inteligencia Artificial

Google DeepMind presenta una nueva herramienta de IA que clasifica los efectos de 71 millones de mutaciones 'missense

El mayor desafío en la genética humana es sin duda la complejidad del genoma humano y la vasta diversidad de factores...