Conoce a HyperHuman Un nuevo marco de IA para la generación hiperrealista de humanos con difusión estructural latente.

Descubre a HyperHuman Un nuevo enfoque de IA para generar imágenes hiperrealistas de personas mediante difusión estructural latente.

La generación de imágenes hiperrealistas de humanos a partir de condiciones definidas por el usuario, como texto y pose, es significativa para diversas aplicaciones, incluyendo animación de imágenes y pruebas virtuales. Se han realizado numerosos esfuerzos para explorar la tarea de generación de imágenes de humanos controlables. Los métodos tempranos se basaban en codificadores auto-variacionales (VAEs) en una manera de reconstrucción o mejoraban el realismo a través de redes generativas adversarias (GANs). A pesar de la creación de imágenes de alta calidad por parte de algunos métodos, desafíos como el entrenamiento inestable y la capacidad limitada del modelo los confinaron a conjuntos de datos pequeños con poca diversidad.

La reciente aparición de modelos de difusión (DMs) ha introducido un nuevo paradigma para la síntesis realista, convirtiéndose en la arquitectura predominante en la Inteligencia Artificial Generativa. Sin embargo, los modelos ejemplares de texto a imagen (T2I) como Stable Diffusion y DALL·E 2 aún tienen dificultades para crear imágenes humanas con anatomía coherente, como brazos, piernas y poses naturales. El desafío principal radica en las deformaciones no rígidas de la forma humana, que requieren información estructural difícil de representar únicamente a través de indicaciones de texto.

Obras recientes, como ControlNet y T2I-Adapter, han intentado habilitar el control estructural para la generación de imágenes al introducir una rama aprendible para modular DMs pre-entrenados, como Stable Diffusion, de manera enchufar y usar. Sin embargo, estos enfoques sufren de discrepancias de características entre las ramas principal y auxiliar, lo que resulta en inconsistencia entre las señales de control (por ejemplo, mapas de poses) e imágenes generadas. HumanSD propone ingresar directamente el esqueleto del cuerpo en la U-Net de difusión a través de concatenación a nivel de canal para abordar esto. Sin embargo, este método se limita a generar imágenes con estilo artístico con diversidad limitada. Además, el contenido humano se sintetiza solo con control de pose, sin tener en cuenta otra información estructural crucial como mapas de profundidad y mapas de superficie y normales.

El trabajo reportado en este artículo propone un marco unificado, HyperHuman, para generar imágenes humanas en la naturaleza con alto realismo y disposiciones diversas. Su descripción general se ilustra en la figura a continuación.

La clave es reconocer la naturaleza inherentemente estructural de las imágenes humanas en múltiples niveles, desde los esqueletos corporales de nivel grueso hasta la geometría espacial de grano fino. Capturar tales correlaciones entre la apariencia explícita y la estructura latente en un solo modelo es esencial para generar imágenes humanas coherentes y naturales. El artículo establece un conjunto de datos centrado en humanos a gran escala llamado HumanVerse, que contiene 340 millones de imágenes de humanos en la naturaleza con anotaciones completas. Sobre la base de este conjunto de datos, se diseñaron dos módulos para la generación hiperrealista y controlable de imágenes humanas: el Modelo de Difusión Estructural Latente y el Refinador Guiado por Estructura. El primero aumenta la columna vertebral de difusión pre-entrenada para denoizar simultáneamente los aspectos RGB, de profundidad y normales, asegurando la alineación espacial entre las texturas y estructuras denoizadas.

Debido a este diseño meticuloso, la modelación de la apariencia de la imagen, las relaciones espaciales y la geometría ocurre de manera colaborativa dentro de una red unificada. Cada rama complementa a las demás, incorporando tanto la conciencia estructural como la riqueza textural. Un programa de ruido mejorado elimina las filtraciones de información de baja frecuencia, asegurando valores uniformes de profundidad y superficie-normal en regiones locales. Emplear el mismo paso de tiempo para cada rama mejora el aprendizaje y facilita la fusión de características. Con mapas de estructura alineados espacialmente, el Refinador Guiado por Estructura compone condiciones predictivas para la generación detallada de imágenes de alta resolución. Además, se diseñó un sólido esquema de condicionamiento para aliviar el impacto de la acumulación de errores en el proceso de generación en dos etapas.

A continuación se muestra una comparación con técnicas de vanguardia.

La primera cuadrícula 4×4 de cada fila contiene el esqueleto de entrada, la normal conjuntamente restaurada, la profundidad y el RGB grueso (512×512) calculados por HyperHuman.

Esto fue un resumen de HyperHuman, un nuevo marco de inteligencia artificial para generar imágenes humanas en condiciones naturales con alta realismo y diseños diversos. Si estás interesado y deseas aprender más al respecto, no dudes en consultar los enlaces citados a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceComputer Vision

Was this article helpful?

93 out of 132 found this helpful

Conoce a HyperHuman Un nuevo marco de IA para la generación hiperrealista de humanos con difusión estructural latente.

Was this article helpful?

Lo largo y corto de ello La relevancia basada en la proporción para capturar la semántica del documento de principio a fin

Conoce snnTorch Un paquete de Python de código abierto para realizar aprendizaje basado en gradientes con redes neuronales de disparo.

Inteligencia Artificial

Persistent Systems moldea el futuro de la ingeniería de software con Amazon CodeWhisperer

Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes

Un cambio de paradigma en el desarrollo de software los agentes de inteligencia artificial AI de GPTConsole abren nuevos horizontes

Este documento de IA explora la comprensión del espacio latente de los modelos de difusión a través de la geometría de Riemann.

Aprendiendo el lenguaje de las moléculas para predecir sus propiedades

DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China