¿Ha terminado la espera por Jurassic Park? Este modelo de IA utiliza la traducción de imagen a imagen para dar vida a los antiguos fósiles

¿Terminó la espera por Jurassic Park? Este modelo de IA da vida a los antiguos fósiles mediante traducción de imagen a imagen.

La traducción de imagen a imagen (I2I) es un campo interesante dentro de la visión por computadora y el aprendizaje automático que tiene el poder de transformar el contenido visual de un dominio a otro de manera fluida. Este proceso transformador va más allá del simple cambio de valores de píxeles; implica una comprensión profunda de las estructuras subyacentes, la semántica y los estilos de las imágenes.

I2I ha encontrado amplias aplicaciones en diversos campos, desde generar interpretaciones artísticas de fotografías hasta convertir imágenes de satélite en mapas e incluso traducir bocetos en imágenes fotorrealistas. Aprovecha las capacidades de modelos de aprendizaje profundo, como las Redes Generativas Adversarias (GAN) y las Redes Neuronales Convolucionales (CNN).

Los métodos tradicionales de I2I se han centrado principalmente en la traducción entre dominios con brechas pequeñas, como fotos a pinturas o diferentes tipos de animales. Sin embargo, estas tareas no requieren generar características visuales o inferencias significativamente diferentes sobre la forma durante el proceso de traducción.

Permítanos conocer a Revive-2I, un enfoque novedoso para I2I, que explora la tarea de traducir cráneos en animales vivos, una tarea conocida como Skull2Animal.

Skull2Animal es una tarea desafiante que implica traducir cráneos en imágenes de animales vivos. Esta tarea presenta un desafío significativo ya que requiere generar nuevas características visuales, texturas y colores, y hacer inferencias sobre la geometría del dominio objetivo.

Tarea Skull2Image. Fuente: https://arxiv.org/abs/2308.07316

Para superar los desafíos de la larga traducción I2I, Revive-2I utiliza indicaciones de texto que describen los cambios deseados en la imagen. Puede generar resultados realistas y verificables. Este enfoque ofrece una restricción más estricta para las traducciones aceptables, asegurando que las imágenes generadas se alineen con el dominio objetivo previsto.

Revive-2I utiliza indicaciones de lenguaje natural para realizar traducciones I2I sin entrenamiento.

Revive-2I consta de dos pasos principales: codificación y decodificación guiada por texto. En el paso de codificación, la imagen de origen se transforma en una representación latente mediante un proceso llamado difusión. Esta representación latente se ruido para incorporar los cambios deseados. Al realizar el proceso de difusión en el espacio latente, Revive-2I logra traducciones más rápidas y eficientes.

Descripción general de Revive-2I. Fuente: https://arxiv.org/abs/2308.07316

Encontrar el punto óptimo para Revive-2I no fue una tarea fácil. Esto tuvo que experimentarse con diferentes números de pasos en el proceso de difusión hacia adelante. Al dar pasos parciales, el proceso de traducción puede preservar mejor el contenido de la imagen de origen al incorporar las características del dominio objetivo. Este enfoque permite traducciones más robustas al mismo tiempo que inyecta los cambios deseados guiados por las indicaciones de texto.

La capacidad de realizar traducciones I2I largas y restringidas tiene implicaciones significativas en diversos campos. Por ejemplo, las agencias encargadas de hacer cumplir la ley pueden utilizar esta tecnología para generar imágenes realistas de sospechosos basadas en bocetos, lo que ayuda en la identificación. Los conservacionistas de vida silvestre pueden mostrar los efectos del cambio climático en los ecosistemas y hábitats al traducir imágenes de especies en peligro de extinción en sus contrapartes vivas. Además, los paleontólogos pueden dar vida a fósiles antiguos al traducirlos en imágenes de sus contrapartes vivas. Parece que finalmente podremos tener nuestro propio Parque Jurásico.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

¿Ha terminado la espera por Jurassic Park? Este modelo de IA utiliza la traducción de imagen a imagen para dar vida a los antiguos fósiles

Was this article helpful?

El algoritmo de Reingold Tilford explicado, con explicación paso a paso

¿Pueden los robots cuadrúpedos de bajo costo dominar el parkour? Revelando un revolucionario sistema de aprendizaje para el movimiento ágil de robots

Inteligencia Artificial

Conoce CommonCanvas Un modelo de difusión abierto que ha sido entrenado usando imágenes con licencia Creative Commons

¿Invertir en IA? Aquí tienes qué considerar

¿Reemplazarán los LLMs a los Grafos de Conocimiento? Los investigadores de Meta proponen 'Head-to-Tail' un nuevo punto de referencia para medir el conocimiento factual de los Modelos de Lenguaje Grandes

OpenAI revela ChatGPT Enterprise con el poder de GPT-4

Inteligencia Artificial vs. Inteligencia Humana Top 7 Diferencias

Utilizando LLMs para codificar nuevas tareas para los robots