Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.

Google AI y la Universidad de Tel Aviv fusionan texto e imágenes con inteligencia artificial y geometría de lente especializada

Recientes avances en la generación de imágenes aprovechan modelos de difusión a gran escala entrenados con datos de texto e imagen emparejados, incorporando diversos enfoques de acondicionamiento para un mayor control visual. Estos métodos van desde el acondicionamiento explícito del modelo hasta la modificación de arquitecturas pre-entrenadas para nuevas modalidades. El ajuste fino de los modelos condicionados por texto utilizando características de imagen extraídas como la profundidad permite la reconstrucción de imágenes. Investigadores anteriores presentaron un marco de trabajo GANs utilizando información de resolución original para la generación de imágenes a múltiples resoluciones y consistentes en forma.

Investigadores de Google Research y la Universidad de Tel Aviv presentan un marco de trabajo de IA (AnyLens) que une un modelo de difusión de texto a imagen con geometría de lente especializada para el renderizado de imágenes. Esta integración permite un control preciso sobre la geometría de renderizado, facilitando la generación de efectos visuales variados como ojo de pez, vistas panorámicas y texturización esférica utilizando un solo modelo de difusión.

El estudio aborda el desafío de incorporar diversos controles ópticos en los modelos de difusión de texto a imagen al presentar un método novedoso. Este enfoque permite que el modelo se condicione a la geometría local de la lente, mejorando su capacidad para replicar efectos ópticos intrincados para una generación de imágenes realista. Más allá de las transformaciones de lienzo tradicionales, el método permite prácticamente cualquier deformación de la cuadrícula a través del condicionamiento de coordenadas por píxel. Esta innovación admite diversas aplicaciones, incluida la generación de escenas panorámicas y la texturización esférica. Introduce un marco de trabajo de generación de imágenes consciente de la geometría de la variedad con acondicionamiento de tensor métrico, ampliando las posibilidades para controlar y manipular la generación de imágenes.

La investigación presenta un marco de trabajo que integra modelos de difusión de texto a imagen con geometría de lente específica a través del acondicionamiento de coordenadas por píxel. El enfoque ajusta un modelo de difusión latente pre-entrenado utilizando datos generados mediante la distorsión de imágenes con campos de deformación aleatorios. Se emplea el reajuste de tokens en capas de autoatención. Este método permite la manipulación de propiedades de curvatura, lo que produce efectos diversos como ojo de pez y vistas panorámicas. Supera la resolución fija en la generación de imágenes e incorpora acondicionamiento de tensor métrico para un control mejorado. El marco de trabajo amplía las posibilidades en la manipulación de imágenes, abordando desafíos como la generación de imágenes grandes y los ajustes de escala de autoatención en modelos de difusión.

El marco de trabajo integra con éxito un modelo de difusión de texto a imagen con geometría de lente específica, lo que permite efectos visuales diversos como ojo de pez, vistas panorámicas y texturización esférica utilizando un solo modelo. Ofrece un control preciso sobre las propiedades de curvatura y la geometría de renderizado, lo que resulta en una generación de imágenes realista y matizada. Entrenado en un gran conjunto de datos anotados textualmente y campos de deformación por píxel, el método genera imágenes deformadas arbitrarias con resultados finos y no distorsionados estrechamente alineados con la geometría objetivo. También facilita la creación de panoramas esféricos con proporciones realistas y artefactos mínimos.

En conclusión, el nuevo marco de trabajo introducido que incorpora diversas geometrías de lentes en el renderizado de imágenes proporciona un control mejorado sobre las propiedades de curvatura y los efectos visuales. Mediante el acondicionamiento de coordenadas por píxel y métricas, el método facilita la manipulación de la geometría de renderizado, creando imágenes altamente realistas con propiedades de curvatura precisas y causando la manipulación de la geometría. Este marco de trabajo fomenta la creatividad y el control en la síntesis de imágenes, convirtiéndolo en una herramienta valiosa para producir imágenes de alta calidad.

El trabajo futuro sugiere superar las limitaciones de su método explorando técnicas de acondicionamiento avanzadas para mejorar la generación de imágenes diversas. Los investigadores proponen ampliar el enfoque para lograr resultados similares a las lentes especializadas que capturan escenas distintas. Mencionando el uso potencial de técnicas de acondicionamiento más avanzadas, anticipa una generación de imágenes mejorada y capacidades mejoradas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.

Was this article helpful?

El Quantum Computer ‘Condor’ de IBM tiene más de 1,000 qubits

IBM y META forman una alianza de IA para la innovación responsable

Inteligencia Artificial

Conoce circ2CBA un modelo novedoso de aprendizaje profundo que revoluciona la predicción de los sitios de unión circRNA-RBP

ChatGPT investigado por la Comisión Federal de Comercio por posibles daños

Conoce BITE Un Nuevo Método Que Reconstruye la Forma y Poses 3D de un Perro a Partir de una Imagen, Incluso con Poses Desafiantes como Sentado y Acostado.

¿Estás utilizando la Generación Aumentada con Recuperación (RAG) para Biomedicina? Conoce a MedCPT Un Modelo Transformador Pre-entrenado Contrastivo para la Recuperación de Información Biomédica sin Necesidad de Datos de Entrenamiento

El Programa MIT-Takeda entra en su cuarto año con una cosecha de 10 nuevos proyectos.

Investigadores de UC Berkeley presentan Starling-7B un Modelo de Lenguaje Amplio (LLM) Abierto entrenado mediante Aprendizaje por Reforzamiento a partir de Retroalimentación de IA (ARIA).