Investigadores de la Universidad de Stanford y FAIR Meta presentan CHOIS un revolucionario método de IA para sintetizar interacciones realistas entre humanos y objetos en 3D guiado por el lenguaje.

CHOIS un revolucionario método de IA para sintetizar interacciones realistas entre humanos y objetos en 3D, presentado por investigadores de la Universidad de Stanford y FAIR Meta

El problema de generar movimientos sincronizados de objetos y humanos dentro de una escena en 3D ha sido abordado por investigadores de la Universidad de Stanford y FAIR Meta al introducir CHOIS. El sistema opera en base a puntos de referencia de objetos dispersos, un estado inicial de cosas y humanos, y una descripción textual. Controla las interacciones entre humanos y objetos produciendo movimientos realistas y controlables para ambas entidades en el entorno 3D especificado.

Aprovechando conjuntos de datos de captura de movimiento a gran escala y alta calidad como AMASS, el interés en la modelización generativa del movimiento humano ha aumentado, incluyendo la síntesis condicionada por acciones y textos. Mientras que trabajos anteriores utilizaban formulaciones VAE para la generación diversa de movimiento humano a partir de texto, CHOIS se centra en las interacciones humano-objeto. A diferencia de los enfoques existentes que suelen centrarse en la síntesis del movimiento de la mano, CHOIS considera los movimientos de todo el cuerpo antes de agarrar el objeto y predice el movimiento del objeto en base a los movimientos del humano, ofreciendo una solución completa para simulaciones interactivas de escenas 3D.

CHOIS aborda una necesidad crítica de sintetizar comportamientos humanos realistas en entornos 3D, crucial para gráficos por computadora, IA corporificada y robótica. CHOIS avanza en el campo generando movimiento humano y de objeto sincronizados en base a descripciones de lenguaje, estados iniciales y puntos de referencia de objetos dispersos. Aborda desafíos como la generación realista de movimiento, la acomodación del desorden del entorno y la síntesis de interacciones a partir de descripciones de lenguaje, presentando un sistema completo para interacciones controlables humano-objeto en diversas escenas 3D.

El modelo utiliza un enfoque de difusión condicional para generar movimiento sincronizado de objetos y humanos en base a descripciones de lenguaje, geometría de objetos y estados iniciales. Las restricciones se incorporan durante el proceso de muestreo para garantizar un contacto humano-objeto realista. La fase de entrenamiento utiliza una función de pérdida para guiar al modelo en la predicción de las transformaciones del objeto sin imponer explícitamente restricciones de contacto.

El sistema CHOIS se evalúa rigurosamente contra baselines y ablations, mostrando un rendimiento superior en métricas como la coincidencia de condiciones, la precisión del contacto, la reducción de la penetración entre la mano y el objeto, y el flotamiento del pie. En el conjunto de datos FullBodyManipulation, la pérdida de geometría de objetos mejora las capacidades del modelo. CHOIS supera a las baselines y ablations en el conjunto de datos 3D-FUTURE, demostrando su capacidad de generalización a nuevos objetos. Los estudios perceptuales humanos destacan una mejor alineación de CHOIS con la entrada de texto y una calidad de interacción superior en comparación con la línea de base. Las métricas cuantitativas, incluyendo errores de posición y orientación, miden la desviación de los resultados generados en comparación con el movimiento real.

En conclusión, CHOIS es un sistema que genera interacciones humano-objeto realistas en base a descripciones de lenguaje y puntos de referencia de objetos dispersos. El procedimiento considera la pérdida de geometría de objetos durante el entrenamiento y utiliza términos de guía efectivos durante el muestreo para mejorar la realidad de los resultados. El módulo de interacción aprendido por CHOIS puede integrarse en un flujo de trabajo para sintetizar interacciones a largo plazo dado un lenguaje y escenas 3D. CHOIS ha mejorado significativamente en la generación de interacciones humano-objeto realistas alineadas con las descripciones de lenguaje proporcionadas.

Investigaciones futuras podrían explorar la mejora de CHOIS mediante la integración de supervisión adicional, como la pérdida de geometría de objetos, para mejorar la coincidencia del movimiento generado del objeto con los puntos de referencia de entrada. La investigación de términos de guía avanzados para imponer restricciones de contacto puede conducir a resultados más realistas. Ampliar las evaluaciones a conjuntos de datos y escenarios diversos probará las capacidades de generalización de CHOIS. Los estudios perceptuales humanos adicionales pueden proporcionar una comprensión más profunda de las interacciones generadas. Aplicar el módulo de interacción aprendido para generar interacciones a largo plazo basadas en puntos de referencia de objetos de escenas 3D también ampliaría la aplicabilidad de CHOIS.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad de Stanford y FAIR Meta presentan CHOIS un revolucionario método de IA para sintetizar interacciones realistas entre humanos y objetos en 3D guiado por el lenguaje.

Was this article helpful?

Investigadores de CMU y Princeton presentan Mamba una arquitectura SSM revolucionaria que supera la eficiencia del Transformer para aplicaciones de aprendizaje profundo multimodal.

Dominar la eficiencia del algoritmo

Inteligencia Artificial

Investigadores de AWS presentan Gemini recuperación rápida pionera de fallos en el entrenamiento de aprendizaje profundo a gran escala

Conoce a MetaGPT El asistente de IA impulsado por ChatGPT que convierte texto en aplicaciones web.

Investigadores de IA de Google presentan Pic2Word Un nuevo enfoque para la recuperación de imágenes compuestas sin disparo (ZS-CIR)

Conoce a los razonadores RAP y LLM Dos marcos basados en conceptos similares para el razonamiento avanzado con LLMs

Nueva herramienta de imagen basada en HADAR te permite ver claramente en la oscuridad

Cómo este investigador ganador del Premio Turing se convirtió en un legendario asesor académico