Investigadores de la Universidad de Cambridge presentan un conjunto de datos de 50,000 imágenes sintéticas y fotorealistas de pies, junto con una novedosa biblioteca de IA para pies.

Expertos de la Universidad de Cambridge lanzan un conjunto de 50,000 imágenes sintéticas y fotorealistas de pies, con una innovadora biblioteca de IA especializada en el cuidado de los pies.

Las industrias de la salud, la moda y el fitness están muy interesadas en el difícil problema de visión por computadora de reconstruir en 3D partes del cuerpo humano a partir de imágenes. En este estudio se aborda el problema de reconstruir un pie humano. Modelos precisos del pie son útiles para comprar zapatos, ortopedia y monitoreo personal de la salud, y la idea de recuperar un modelo tridimensional del pie a partir de imágenes se ha vuelto muy atractiva a medida que crece el mercado digital para estos negocios. Existen cuatro tipos de soluciones existentes para la reconstrucción del pie: un método es el uso de costosos aparatos de escaneo para reconstruir nubes de puntos ruidosas, otro método utiliza mapas de profundidad o sensores basados en teléfonos como una cámara TrueDepth, luego viene la Estructura desde Movimiento (SfM, por sus siglas en inglés) seguido por el Multi-View Stereo (MVS) y un cuarto método en el que se ajustan modelos generativos de pie a las siluetas de las imágenes.

Llegan a la conclusión de que ninguna de estas opciones es adecuada para un escaneo preciso en un entorno doméstico: la mayoría de las personas no pueden permitirse equipos de escaneo costosos; los sensores basados en teléfonos no están ampliamente disponibles ni son fáciles de usar; las nubes de puntos ruidosas son difíciles de utilizar para actividades que vienen después, como la renderización y la medición; además, los modelos generativos de pie han sido de baja calidad y restrictivos, y el uso solo de siluetas de imágenes limita la cantidad de información geométrica que se puede obtener de las imágenes, lo cual es especialmente problemático en un entorno de vista limitada. SfM depende de muchas vistas de entrada para emparejar características densas entre imágenes, y MVS también puede producir nubes de puntos ruidosas.

La disponibilidad insuficiente de imágenes emparejadas y datos de referencia tridimensionales para los pies para el entrenamiento restringe aún más el rendimiento de estos enfoques. Para abordar esto, investigadores de la Universidad de Cambridge presentan FOUND, o Foot Optimisation, utilizando Normales Inciertas para Deformación de Superficies. Este algoritmo utiliza incertidumbres además de normales de superficie por píxel para mejorar los enfoques convencionales de optimización de reconstrucción multi-vista. A pesar de depender solo de siluetas, que carecen de información geométrica, utilizan normales de superficie y puntos clave como pistas complementarias. También ponen a disposición una colección considerable de fotos artificialmente foto-realistas emparejadas con etiquetas de referencia para este tipo de señales para superar la escasez de datos.

Sus principales contribuciones se detallan a continuación:

• Lanzan SynFoot, un conjunto de datos sintético a gran escala de 50,000 fotos de pies foto-realistas con siluetas precisas, normales de superficie y etiquetas de puntos clave, para ayudar en la investigación sobre la reconstrucción tridimensional de pies. Aunque obtener esta información en fotos reales requiere equipos de escaneo costosos, su conjunto de datos muestra una gran capacidad de escala. Demuestran que su conjunto de datos sintético captura suficiente variación dentro de las fotos de pies para que las tareas posteriores sean generalizables a imágenes reales, a pesar de tener solo 8 escaneos reales de pies. Además, ponen a disposición un conjunto de datos de evaluación que consta de 474 fotos de 14 pies reales. Cada uno de ellos emparejado con escaneos 3D de alta resolución y normales de superficie por píxel de referencia. Por último, dan a conocer su librería propietaria de Python para Blender, que permite la creación efectiva de conjuntos de datos sintéticos a gran escala.

• Demuestran que una red de estimación de normales de superficie consciente de la incertidumbre puede generalizarse a fotos reales de pies en entornos silvestres después de entrenar solo con sus datos sintéticos de 8 escaneos de pies. Para reducir la diferencia en el dominio entre las fotos de pies artificiales y auténticas, utilizan una fuerte ampliación de apariencia y perspectiva. La red calcula la incertidumbre asociada y las normales de superficie en cada píxel. La incertidumbre ayuda de dos formas: primero, al establecer un umbral para la incertidumbre, pueden obtener siluetas precisas sin necesidad de entrenar una red diferente; segundo, utilizando la incertidumbre estimada para ponderar la pérdida de las normales de superficie en su esquema de optimización, pueden aumentar la robustez contra la posibilidad de que las predicciones realizadas en algunas vistas no sean precisas.

• Proporcionan una estrategia de optimización que utiliza el renderizado diferenciable para ajustar un modelo generativo de pie a una serie de fotos calibradas con normales de superficie y puntos clave esperados. Su proceso supera a la fotogrametría de vanguardia para la reconstrucción de superficies, es consciente de la incertidumbre y puede reconstruir una malla estanca a partir de un número limitado de vistas. También se puede utilizar para datos obtenidos desde el teléfono celular de un consumidor.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickStaff

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad de Cambridge presentan un conjunto de datos de 50,000 imágenes sintéticas y fotorealistas de pies, junto con una novedosa biblioteca de IA para pies.

Was this article helpful?

Conoce CodeGPT Una nueva herramienta de generación de código que está causando sensación en la comunidad de IA

Investigadores del MIT presentan LILO un marco neuro-simbólico para aprender bibliotecas interpretables para la síntesis de programas

Inteligencia Artificial

¡Gol! El equipo de NVIDIA se lleva el trofeo en Sistemas de Recomendación

Conoce LMSYS-Chat-1M Un conjunto de datos a gran escala que contiene un millón de conversaciones del mundo real con 25 LLM de última generación.

Abriendo la caja negra

Investigadores de Apple proponen un nuevo modelo de descomposición de tensores para el filtrado colaborativo con retroalimentación implícita

Conoce Embroid Un método de IA para unir un LLM con información de incrustación de múltiples modelos más pequeños, lo que permite corregir automáticamente las predicciones del LLM sin supervisión.

Automatiza la preetiquetado de PDFs para Amazon Comprehend