Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.

Google AI y la Universidad de Tel Aviv fusionan texto e imágenes con inteligencia artificial y geometría de lente especializada

Recientes avances en la generación de imágenes aprovechan modelos de difusión a gran escala entrenados con datos de texto e imagen emparejados, incorporando diversos enfoques de acondicionamiento para un mayor control visual. Estos métodos van desde el acondicionamiento explícito del modelo hasta la modificación de arquitecturas pre-entrenadas para nuevas modalidades. El ajuste fino de los modelos condicionados por texto utilizando características de imagen extraídas como la profundidad permite la reconstrucción de imágenes. Investigadores anteriores presentaron un marco de trabajo GANs utilizando información de resolución original para la generación de imágenes a múltiples resoluciones y consistentes en forma.

Investigadores de Google Research y la Universidad de Tel Aviv presentan un marco de trabajo de IA (AnyLens) que une un modelo de difusión de texto a imagen con geometría de lente especializada para el renderizado de imágenes. Esta integración permite un control preciso sobre la geometría de renderizado, facilitando la generación de efectos visuales variados como ojo de pez, vistas panorámicas y texturización esférica utilizando un solo modelo de difusión.

El estudio aborda el desafío de incorporar diversos controles ópticos en los modelos de difusión de texto a imagen al presentar un método novedoso. Este enfoque permite que el modelo se condicione a la geometría local de la lente, mejorando su capacidad para replicar efectos ópticos intrincados para una generación de imágenes realista. Más allá de las transformaciones de lienzo tradicionales, el método permite prácticamente cualquier deformación de la cuadrícula a través del condicionamiento de coordenadas por píxel. Esta innovación admite diversas aplicaciones, incluida la generación de escenas panorámicas y la texturización esférica. Introduce un marco de trabajo de generación de imágenes consciente de la geometría de la variedad con acondicionamiento de tensor métrico, ampliando las posibilidades para controlar y manipular la generación de imágenes.

La investigación presenta un marco de trabajo que integra modelos de difusión de texto a imagen con geometría de lente específica a través del acondicionamiento de coordenadas por píxel. El enfoque ajusta un modelo de difusión latente pre-entrenado utilizando datos generados mediante la distorsión de imágenes con campos de deformación aleatorios. Se emplea el reajuste de tokens en capas de autoatención. Este método permite la manipulación de propiedades de curvatura, lo que produce efectos diversos como ojo de pez y vistas panorámicas. Supera la resolución fija en la generación de imágenes e incorpora acondicionamiento de tensor métrico para un control mejorado. El marco de trabajo amplía las posibilidades en la manipulación de imágenes, abordando desafíos como la generación de imágenes grandes y los ajustes de escala de autoatención en modelos de difusión.

El marco de trabajo integra con éxito un modelo de difusión de texto a imagen con geometría de lente específica, lo que permite efectos visuales diversos como ojo de pez, vistas panorámicas y texturización esférica utilizando un solo modelo. Ofrece un control preciso sobre las propiedades de curvatura y la geometría de renderizado, lo que resulta en una generación de imágenes realista y matizada. Entrenado en un gran conjunto de datos anotados textualmente y campos de deformación por píxel, el método genera imágenes deformadas arbitrarias con resultados finos y no distorsionados estrechamente alineados con la geometría objetivo. También facilita la creación de panoramas esféricos con proporciones realistas y artefactos mínimos.

En conclusión, el nuevo marco de trabajo introducido que incorpora diversas geometrías de lentes en el renderizado de imágenes proporciona un control mejorado sobre las propiedades de curvatura y los efectos visuales. Mediante el acondicionamiento de coordenadas por píxel y métricas, el método facilita la manipulación de la geometría de renderizado, creando imágenes altamente realistas con propiedades de curvatura precisas y causando la manipulación de la geometría. Este marco de trabajo fomenta la creatividad y el control en la síntesis de imágenes, convirtiéndolo en una herramienta valiosa para producir imágenes de alta calidad.

El trabajo futuro sugiere superar las limitaciones de su método explorando técnicas de acondicionamiento avanzadas para mejorar la generación de imágenes diversas. Los investigadores proponen ampliar el enfoque para lograr resultados similares a las lentes especializadas que capturan escenas distintas. Mencionando el uso potencial de técnicas de acondicionamiento más avanzadas, anticipa una generación de imágenes mejorada y capacidades mejoradas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce circ2CBA un modelo novedoso de aprendizaje profundo que revoluciona la predicción de los sitios de unión circRNA-RBP

En un reciente avance, un equipo de investigadores de China ha presentado un modelo de aprendizaje profundo, llamado ...

Inteligencia Artificial

ChatGPT investigado por la Comisión Federal de Comercio por posibles daños

En un desarrollo significativo, la Comisión Federal de Comercio (FTC) ha iniciado una investigación contra OpenAI, la...

Aprendizaje Automático

Conoce BITE Un Nuevo Método Que Reconstruye la Forma y Poses 3D de un Perro a Partir de una Imagen, Incluso con Poses Desafiantes como Sentado y Acostado.

Múltiples campos, incluyendo la biología y la conservación, así como el entretenimiento y el desarrollo de contenido ...

Aprendizaje Automático

El Programa MIT-Takeda entra en su cuarto año con una cosecha de 10 nuevos proyectos.

El programa aprovecha la experiencia en investigación del MIT y el conocimiento industrial de Takeda para investigar ...