Desbloqueando la precisión en la edición de imágenes y escenas 3D guiadas por texto Conoce ‘Watch Your Steps
Desbloqueando la precisión en la edición de imágenes y escenas 3D con 'Watch Your Steps'.
Los campos de radiación neuronal (NeRFs) están ganando popularidad gracias a su capacidad para crear visualizaciones precisas e intuitivas. Esto ha llevado a la idea de alterar los NeRFs para cambiar imágenes. Los modelos de difusión de eliminación de ruido también han sido capaces de producir imágenes notablemente buenas a partir de descripciones textuales y se han vuelto populares para la edición de imágenes debido a su efectividad. A pesar de la promesa de las técnicas de edición de imágenes basadas en difusión, falta conspicuamente una metodología automatizada para identificar las áreas que necesitan modificación. Los métodos actualmente utilizados dependen de máscaras proporcionadas por el usuario, utilizan la información global encontrada en las entradas ruidosas como punto de partida o dependen de los datos de entrada para determinar cómo se llevará a cabo el proceso de eliminación de ruido.
Sin embargo, estos enfoques suelen tener una tendencia a sobreeditar. Incluso la aplicación IN2N para la edición de NeRFs tiene problemas con la edición excesiva de escenas. Similar a IP2P, DiffEdit utiliza predicciones de ruido lideradas por subtítulos para localizar zonas de edición, aunque este método es más lento y menos eficiente. Un equipo de investigadores ha presentado un enfoque único para identificar y localizar el área precisa dentro de una imagen que necesita ser cambiada de acuerdo con una instrucción textual específica. Conocido como Watch Your Steps, este enfoque admite la edición local de imágenes y escenas mediante instrucciones de texto.
El equipo ha descubierto una distinción clave entre las predicciones realizadas por IP2P con y sin la instrucción utilizando las capacidades de InstructPix2Pix (IP2P). Esta diferencia se ha denominado mapa de relevancia. El mapa de relevancia básicamente sirve como una guía, ilustrando la importancia de cambiar píxeles específicos para lograr las modificaciones deseadas. Actúa como una guía para realizar cambios, asegurando que solo se cambien los píxeles necesarios y se dejen los innecesarios sin alterar.
- Meta lanza Code Llama la última herramienta de IA para programar
- De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA
- Este artículo de IA de NTU Singapur presenta MeVIS un banco de pruebas a gran escala para la segmentación de video con expresiones de movimiento
El equipo ha compartido que los mapas de relevancia también son útiles para algo más que la edición básica de imágenes, ya que incluso mejoran la precisión de las alteraciones guiadas por texto en el contexto de escenas en 3D, especialmente aquellas modeladas por campos de radiación neuronal. Para hacer esto, utilizando los mapas de relevancia conectados a diferentes vistas de entrenamiento, se ha entrenado un campo de relevancia. Este campo de relevancia ha definido de manera efectiva la región 3D que debe ser alterada para lograr las modificaciones deseadas, y por lo tanto, el proceso implica renderizar los mapas de relevancia a partir del campo de relevancia establecido para guiar la actualización iterativa de las vistas de entrenamiento.
Al evaluarlo, se observó que este método logró un nivel de rendimiento que no se encuentra en la edición de Neural Radiance Field (NeRF) así como en la edición de imágenes. Esto demostró el valor y la excelencia de este enfoque para superar las dificultades presentadas por la manipulación de imágenes y escenas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo codificar características de tiempo periódicas
- Introducción e Implementación de Redes Siamesas
- Anunciando la vista previa de Amazon SageMaker Profiler Haga un seguimiento y visualice datos detallados de rendimiento de hardware para sus cargas de trabajo de entrenamiento de modelos.
- El algoritmo de Google hace que la encriptación FIDO sea segura contra ordenadores cuánticos
- El mito de la IA de ‘código abierto
- Un derrame le robó la capacidad de hablar a los 30 años. La IA está ayudando a restaurarla años después.
- RAG vs Finetuning ¿Cuál es la mejor herramienta para impulsar tu solicitud de LLM?