Desbloqueando la precisión en la edición de imágenes y escenas 3D guiadas por texto Conoce ‘Watch Your Steps

Desbloqueando la precisión en la edición de imágenes y escenas 3D con 'Watch Your Steps'.

Los campos de radiación neuronal (NeRFs) están ganando popularidad gracias a su capacidad para crear visualizaciones precisas e intuitivas. Esto ha llevado a la idea de alterar los NeRFs para cambiar imágenes. Los modelos de difusión de eliminación de ruido también han sido capaces de producir imágenes notablemente buenas a partir de descripciones textuales y se han vuelto populares para la edición de imágenes debido a su efectividad. A pesar de la promesa de las técnicas de edición de imágenes basadas en difusión, falta conspicuamente una metodología automatizada para identificar las áreas que necesitan modificación. Los métodos actualmente utilizados dependen de máscaras proporcionadas por el usuario, utilizan la información global encontrada en las entradas ruidosas como punto de partida o dependen de los datos de entrada para determinar cómo se llevará a cabo el proceso de eliminación de ruido.

Sin embargo, estos enfoques suelen tener una tendencia a sobreeditar. Incluso la aplicación IN2N para la edición de NeRFs tiene problemas con la edición excesiva de escenas. Similar a IP2P, DiffEdit utiliza predicciones de ruido lideradas por subtítulos para localizar zonas de edición, aunque este método es más lento y menos eficiente. Un equipo de investigadores ha presentado un enfoque único para identificar y localizar el área precisa dentro de una imagen que necesita ser cambiada de acuerdo con una instrucción textual específica. Conocido como Watch Your Steps, este enfoque admite la edición local de imágenes y escenas mediante instrucciones de texto.

El equipo ha descubierto una distinción clave entre las predicciones realizadas por IP2P con y sin la instrucción utilizando las capacidades de InstructPix2Pix (IP2P). Esta diferencia se ha denominado mapa de relevancia. El mapa de relevancia básicamente sirve como una guía, ilustrando la importancia de cambiar píxeles específicos para lograr las modificaciones deseadas. Actúa como una guía para realizar cambios, asegurando que solo se cambien los píxeles necesarios y se dejen los innecesarios sin alterar.

El equipo ha compartido que los mapas de relevancia también son útiles para algo más que la edición básica de imágenes, ya que incluso mejoran la precisión de las alteraciones guiadas por texto en el contexto de escenas en 3D, especialmente aquellas modeladas por campos de radiación neuronal. Para hacer esto, utilizando los mapas de relevancia conectados a diferentes vistas de entrenamiento, se ha entrenado un campo de relevancia. Este campo de relevancia ha definido de manera efectiva la región 3D que debe ser alterada para lograr las modificaciones deseadas, y por lo tanto, el proceso implica renderizar los mapas de relevancia a partir del campo de relevancia establecido para guiar la actualización iterativa de las vistas de entrenamiento.

Al evaluarlo, se observó que este método logró un nivel de rendimiento que no se encuentra en la edición de Neural Radiance Field (NeRF) así como en la edición de imágenes. Esto demostró el valor y la excelencia de este enfoque para superar las dificultades presentadas por la manipulación de imágenes y escenas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Desbloqueando la precisión en la edición de imágenes y escenas 3D guiadas por texto Conoce ‘Watch Your Steps

Was this article helpful?

Meta lanza Code Llama la última herramienta de IA para programar

Maestría en Visual BERT | Desata el poder de tu primer encuentro

Inteligencia Artificial

La IA podría introducir mensajes secretos en memes

Google AI presenta MedLM una familia de modelos base afinados para casos de uso en la industria de la salud

Tienes que ajustar esas dimensiones DreamEditor es un modelo de IA que edita escenas en 3D utilizando indicaciones de texto.

¿Podemos transformar texto en gráficos vectoriales científicos? Este artículo de IA presenta AutomaTikZ y explica el poder de TikZ

Después de un año difícil, Zuckerberg presenta el plan de Meta a los empleados.

La nueva canción de The Beatles 'Now and Then' utilizó inteligencia artificial para rescatar la voz de John Lennon