Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.
Google AI y la Universidad de Tel Aviv fusionan texto e imágenes con inteligencia artificial y geometría de lente especializada
Recientes avances en la generación de imágenes aprovechan modelos de difusión a gran escala entrenados con datos de texto e imagen emparejados, incorporando diversos enfoques de acondicionamiento para un mayor control visual. Estos métodos van desde el acondicionamiento explícito del modelo hasta la modificación de arquitecturas pre-entrenadas para nuevas modalidades. El ajuste fino de los modelos condicionados por texto utilizando características de imagen extraídas como la profundidad permite la reconstrucción de imágenes. Investigadores anteriores presentaron un marco de trabajo GANs utilizando información de resolución original para la generación de imágenes a múltiples resoluciones y consistentes en forma.
Investigadores de Google Research y la Universidad de Tel Aviv presentan un marco de trabajo de IA (AnyLens) que une un modelo de difusión de texto a imagen con geometría de lente especializada para el renderizado de imágenes. Esta integración permite un control preciso sobre la geometría de renderizado, facilitando la generación de efectos visuales variados como ojo de pez, vistas panorámicas y texturización esférica utilizando un solo modelo de difusión.
El estudio aborda el desafío de incorporar diversos controles ópticos en los modelos de difusión de texto a imagen al presentar un método novedoso. Este enfoque permite que el modelo se condicione a la geometría local de la lente, mejorando su capacidad para replicar efectos ópticos intrincados para una generación de imágenes realista. Más allá de las transformaciones de lienzo tradicionales, el método permite prácticamente cualquier deformación de la cuadrícula a través del condicionamiento de coordenadas por píxel. Esta innovación admite diversas aplicaciones, incluida la generación de escenas panorámicas y la texturización esférica. Introduce un marco de trabajo de generación de imágenes consciente de la geometría de la variedad con acondicionamiento de tensor métrico, ampliando las posibilidades para controlar y manipular la generación de imágenes.
- El Quantum Computer ‘Condor’ de IBM tiene más de 1,000 qubits
- 6 Podcasts de GenAI que deberías estar escuchando
- Ingeniería de datos una guía inspirada en la Fórmula 1 para principiantes
La investigación presenta un marco de trabajo que integra modelos de difusión de texto a imagen con geometría de lente específica a través del acondicionamiento de coordenadas por píxel. El enfoque ajusta un modelo de difusión latente pre-entrenado utilizando datos generados mediante la distorsión de imágenes con campos de deformación aleatorios. Se emplea el reajuste de tokens en capas de autoatención. Este método permite la manipulación de propiedades de curvatura, lo que produce efectos diversos como ojo de pez y vistas panorámicas. Supera la resolución fija en la generación de imágenes e incorpora acondicionamiento de tensor métrico para un control mejorado. El marco de trabajo amplía las posibilidades en la manipulación de imágenes, abordando desafíos como la generación de imágenes grandes y los ajustes de escala de autoatención en modelos de difusión.
El marco de trabajo integra con éxito un modelo de difusión de texto a imagen con geometría de lente específica, lo que permite efectos visuales diversos como ojo de pez, vistas panorámicas y texturización esférica utilizando un solo modelo. Ofrece un control preciso sobre las propiedades de curvatura y la geometría de renderizado, lo que resulta en una generación de imágenes realista y matizada. Entrenado en un gran conjunto de datos anotados textualmente y campos de deformación por píxel, el método genera imágenes deformadas arbitrarias con resultados finos y no distorsionados estrechamente alineados con la geometría objetivo. También facilita la creación de panoramas esféricos con proporciones realistas y artefactos mínimos.
En conclusión, el nuevo marco de trabajo introducido que incorpora diversas geometrías de lentes en el renderizado de imágenes proporciona un control mejorado sobre las propiedades de curvatura y los efectos visuales. Mediante el acondicionamiento de coordenadas por píxel y métricas, el método facilita la manipulación de la geometría de renderizado, creando imágenes altamente realistas con propiedades de curvatura precisas y causando la manipulación de la geometría. Este marco de trabajo fomenta la creatividad y el control en la síntesis de imágenes, convirtiéndolo en una herramienta valiosa para producir imágenes de alta calidad.
El trabajo futuro sugiere superar las limitaciones de su método explorando técnicas de acondicionamiento avanzadas para mejorar la generación de imágenes diversas. Los investigadores proponen ampliar el enfoque para lograr resultados similares a las lentes especializadas que capturan escenas distintas. Mencionando el uso potencial de técnicas de acondicionamiento más avanzadas, anticipa una generación de imágenes mejorada y capacidades mejoradas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Algoritmo de conversión de enteros a cadenas un 34% más rápido
- 9 formas en que la IA está mejorando la seguridad de los centros de datos
- Predicciones de rotación en evolución Navegando intervenciones y capacitación nuevamente
- Cómo Getir redujo la duración del entrenamiento de modelos en un 90% con Amazon SageMaker y AWS Batch
- La historia interna de la colaboración de Microsoft con OpenAI
- Chip fotónico ‘se ajusta como un Lego
- La retroalimentación colaborativa ayuda a entrenar a los robots