Desbloqueando la precisión en la edición de imágenes y escenas 3D guiadas por texto Conoce ‘Watch Your Steps

Desbloqueando la precisión en la edición de imágenes y escenas 3D con 'Watch Your Steps'.

Los campos de radiación neuronal (NeRFs) están ganando popularidad gracias a su capacidad para crear visualizaciones precisas e intuitivas. Esto ha llevado a la idea de alterar los NeRFs para cambiar imágenes. Los modelos de difusión de eliminación de ruido también han sido capaces de producir imágenes notablemente buenas a partir de descripciones textuales y se han vuelto populares para la edición de imágenes debido a su efectividad. A pesar de la promesa de las técnicas de edición de imágenes basadas en difusión, falta conspicuamente una metodología automatizada para identificar las áreas que necesitan modificación. Los métodos actualmente utilizados dependen de máscaras proporcionadas por el usuario, utilizan la información global encontrada en las entradas ruidosas como punto de partida o dependen de los datos de entrada para determinar cómo se llevará a cabo el proceso de eliminación de ruido.

Sin embargo, estos enfoques suelen tener una tendencia a sobreeditar. Incluso la aplicación IN2N para la edición de NeRFs tiene problemas con la edición excesiva de escenas. Similar a IP2P, DiffEdit utiliza predicciones de ruido lideradas por subtítulos para localizar zonas de edición, aunque este método es más lento y menos eficiente. Un equipo de investigadores ha presentado un enfoque único para identificar y localizar el área precisa dentro de una imagen que necesita ser cambiada de acuerdo con una instrucción textual específica. Conocido como Watch Your Steps, este enfoque admite la edición local de imágenes y escenas mediante instrucciones de texto.

El equipo ha descubierto una distinción clave entre las predicciones realizadas por IP2P con y sin la instrucción utilizando las capacidades de InstructPix2Pix (IP2P). Esta diferencia se ha denominado mapa de relevancia. El mapa de relevancia básicamente sirve como una guía, ilustrando la importancia de cambiar píxeles específicos para lograr las modificaciones deseadas. Actúa como una guía para realizar cambios, asegurando que solo se cambien los píxeles necesarios y se dejen los innecesarios sin alterar.

El equipo ha compartido que los mapas de relevancia también son útiles para algo más que la edición básica de imágenes, ya que incluso mejoran la precisión de las alteraciones guiadas por texto en el contexto de escenas en 3D, especialmente aquellas modeladas por campos de radiación neuronal. Para hacer esto, utilizando los mapas de relevancia conectados a diferentes vistas de entrenamiento, se ha entrenado un campo de relevancia. Este campo de relevancia ha definido de manera efectiva la región 3D que debe ser alterada para lograr las modificaciones deseadas, y por lo tanto, el proceso implica renderizar los mapas de relevancia a partir del campo de relevancia establecido para guiar la actualización iterativa de las vistas de entrenamiento.

Al evaluarlo, se observó que este método logró un nivel de rendimiento que no se encuentra en la edición de Neural Radiance Field (NeRF) así como en la edición de imágenes. Esto demostró el valor y la excelencia de este enfoque para superar las dificultades presentadas por la manipulación de imágenes y escenas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La IA podría introducir mensajes secretos en memes

Los científicos de la computación afirman haber creado el primer algoritmo para ocultar mensajes de manera invisible ...

Inteligencia Artificial

Google AI presenta MedLM una familia de modelos base afinados para casos de uso en la industria de la salud

Investigadores de Google han introducido una base de modelos ajustados para la industria de la salud, MedLM, que actu...

Aprendizaje Automático

Tienes que ajustar esas dimensiones DreamEditor es un modelo de IA que edita escenas en 3D utilizando indicaciones de texto.

El dominio de visión por computadora 3D se ha inundado de NeRF en los últimos años. Surgieron como una técnica innova...

Inteligencia Artificial

¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

Los últimos avances en la generación de texto a imagen han hecho posible la creación de gráficos detallados a partir ...

Ciencias de la Computación

Después de un año difícil, Zuckerberg presenta el plan de Meta a los empleados.

En una reunión interna de toda la empresa, el director ejecutivo explicó sus planes para la inteligencia artificial, ...

Inteligencia Artificial

La nueva canción de The Beatles 'Now and Then' utilizó inteligencia artificial para rescatar la voz de John Lennon

La tecnología ha avanzado mucho desde la última vez que Paul McCartney lanzó nuevas canciones de los Beatles.