Este documento de IA explora la comprensión del espacio latente de los modelos de difusión a través de la geometría de Riemann.
Explorando la comprensión del espacio latente de los modelos de difusión a través de la geometría de Riemann en este documento de IA
Con la creciente popularidad de la Inteligencia Artificial y el Aprendizaje Automático, sus principales subcampos, como el Procesamiento de Lenguaje Natural, la Generación de Lenguaje Natural, etc., están avanzando a un ritmo rápido. La reciente introducción, es decir, los modelos de difusión (DMs), ha demostrado un rendimiento excepcional en una variedad de aplicaciones, incluyendo la edición de imágenes, problemas inversos y síntesis de texto a imagen. Aunque estos modelos generativos han ganado mucha apreciación y éxito, se conoce menos acerca de su espacio latente y cómo afectan a los resultados producidos.
Aunque las imágenes totalmente difundidas suelen considerarse variables latentes, inesperadamente se alteran al atravesar determinadas direcciones en el espacio latente, ya que carecen de cualidades relevantes para regular los resultados. En un trabajo reciente, se propuso la idea de un espacio de características intermedio representado por la letra H dentro del kernel de difusión que sirve como un espacio latente semántico. Otra investigación trató sobre los mapas de características de las operaciones de atención cruzada o auto-atención, que pueden influir en tareas posteriores como la segmentación semántica, aumentar la calidad de las muestras o mejorar el control de los resultados.
A pesar de estos avances, todavía se necesita explorar la estructura del espacio Xt que contiene las variables latentes {xt}. Esto es difícil debido a la naturaleza del entrenamiento de DMs, que difiere de la supervisión convencional como la clasificación o la similitud en que el modelo predice el ruido hacia adelante de forma independiente a la entrada. El estudio se complica aún más por la existencia de varias variables latentes a lo largo de varios pasos temporales recursivos.
- Un enfoque de 3 pasos para evaluar un Retrieval Augmented Generation (RAG)
- Construye una Red Neuronal Convolucional desde cero utilizando Numpy
- Tu guía para AI y ML generativos en AWS reInvent 2023
En una investigación reciente, un equipo de investigadores ha abordado los desafíos examinando el espacio Xt junto con su representación correspondiente H. La métrica de retroceso de la geometría riemanniana es la forma en que el equipo ha sugerido integrar la geometría local en Xt. El equipo ha involucrado una perspectiva geométrica para el análisis y ha utilizado la métrica de retroceso conectada a los mapas de características de codificación de DMs para derivar una base latente local dentro de X.
El equipo ha compartido que el estudio ha dado como resultado el descubrimiento de una base latente local crucial para habilitar funciones de alteración de imágenes. Para esto, se ha manipulado el espacio latente de los DMs a lo largo del vector de base en pasos temporales predeterminados. Esto ha permitido actualizar imágenes sin necesidad de más entrenamiento aplicando las modificaciones una vez en un cierto paso temporal t.
El equipo también ha evaluado las variaciones en diferentes circunstancias de texto y la evolución de la estructura geométrica de los DMs durante los pasos de difusión. Este análisis ha reafirmado el fenómeno ampliamente reconocido de generación de grueso a fino, que también aclara el efecto de la complejidad del conjunto de datos y los efectos variables en el tiempo de los desencadenantes de texto.
En conclusión, esta investigación es única y es la primera en presentar la modificación de imágenes a través de la travesía del espacio x, permitiendo realizar ediciones en momentos particulares sin necesidad de entrenamiento adicional.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La instancia de Amazon EC2 DL2q para inferencia de IA rentable y de alto rendimiento ahora está disponible en general
- Explorando la próxima gran tendencia en el Gen de IA con Sandeep Singh
- Microsoft Research presenta Florence-2 un nuevo modelo de base para la visión con una representación unificada basada en indicaciones para una variedad de tareas de visión por computadora y visión del lenguaje.
- Una versión mejorada del análisis de cómo las características del producto afectan a la retención
- Inmersión profunda en Amazon EC2 Optimización de cargas de trabajo con información sobre hardware
- Investigadores de Alibaba presentan la serie Qwen-Audio Un conjunto de modelos de audio-idioma a gran escala con habilidades universales de comprensión de audio.
- Investigadores de la Universidad de Pennsylvania han desarrollado un marco de aprendizaje automático para evaluar la eficacia de las características de inteligencia artificial basadas en la visión mediante la realización de una serie de pruebas en