Investigadores de la Universidad de Cambridge presentan un conjunto de datos de 50,000 imágenes sintéticas y fotorealistas de pies, junto con una novedosa biblioteca de IA para pies.
Expertos de la Universidad de Cambridge lanzan un conjunto de 50,000 imágenes sintéticas y fotorealistas de pies, con una innovadora biblioteca de IA especializada en el cuidado de los pies.
Las industrias de la salud, la moda y el fitness están muy interesadas en el difícil problema de visión por computadora de reconstruir en 3D partes del cuerpo humano a partir de imágenes. En este estudio se aborda el problema de reconstruir un pie humano. Modelos precisos del pie son útiles para comprar zapatos, ortopedia y monitoreo personal de la salud, y la idea de recuperar un modelo tridimensional del pie a partir de imágenes se ha vuelto muy atractiva a medida que crece el mercado digital para estos negocios. Existen cuatro tipos de soluciones existentes para la reconstrucción del pie: un método es el uso de costosos aparatos de escaneo para reconstruir nubes de puntos ruidosas, otro método utiliza mapas de profundidad o sensores basados en teléfonos como una cámara TrueDepth, luego viene la Estructura desde Movimiento (SfM, por sus siglas en inglés) seguido por el Multi-View Stereo (MVS) y un cuarto método en el que se ajustan modelos generativos de pie a las siluetas de las imágenes.
Llegan a la conclusión de que ninguna de estas opciones es adecuada para un escaneo preciso en un entorno doméstico: la mayoría de las personas no pueden permitirse equipos de escaneo costosos; los sensores basados en teléfonos no están ampliamente disponibles ni son fáciles de usar; las nubes de puntos ruidosas son difíciles de utilizar para actividades que vienen después, como la renderización y la medición; además, los modelos generativos de pie han sido de baja calidad y restrictivos, y el uso solo de siluetas de imágenes limita la cantidad de información geométrica que se puede obtener de las imágenes, lo cual es especialmente problemático en un entorno de vista limitada. SfM depende de muchas vistas de entrada para emparejar características densas entre imágenes, y MVS también puede producir nubes de puntos ruidosas.
La disponibilidad insuficiente de imágenes emparejadas y datos de referencia tridimensionales para los pies para el entrenamiento restringe aún más el rendimiento de estos enfoques. Para abordar esto, investigadores de la Universidad de Cambridge presentan FOUND, o Foot Optimisation, utilizando Normales Inciertas para Deformación de Superficies. Este algoritmo utiliza incertidumbres además de normales de superficie por píxel para mejorar los enfoques convencionales de optimización de reconstrucción multi-vista. A pesar de depender solo de siluetas, que carecen de información geométrica, utilizan normales de superficie y puntos clave como pistas complementarias. También ponen a disposición una colección considerable de fotos artificialmente foto-realistas emparejadas con etiquetas de referencia para este tipo de señales para superar la escasez de datos.
- Conoce CodeGPT Una nueva herramienta de generación de código que está causando sensación en la comunidad de IA
- El nuevo modelo de IA de Phind supera a GPT-4 en codificación, con una velocidad similar a la de GPT-3.5 y un contexto de 16k.
- Investigadores de Amazon presentan Fortuna una biblioteca de IA para la cuantificación de la incertidumbre en el aprendizaje profundo
Sus principales contribuciones se detallan a continuación:
• Lanzan SynFoot, un conjunto de datos sintético a gran escala de 50,000 fotos de pies foto-realistas con siluetas precisas, normales de superficie y etiquetas de puntos clave, para ayudar en la investigación sobre la reconstrucción tridimensional de pies. Aunque obtener esta información en fotos reales requiere equipos de escaneo costosos, su conjunto de datos muestra una gran capacidad de escala. Demuestran que su conjunto de datos sintético captura suficiente variación dentro de las fotos de pies para que las tareas posteriores sean generalizables a imágenes reales, a pesar de tener solo 8 escaneos reales de pies. Además, ponen a disposición un conjunto de datos de evaluación que consta de 474 fotos de 14 pies reales. Cada uno de ellos emparejado con escaneos 3D de alta resolución y normales de superficie por píxel de referencia. Por último, dan a conocer su librería propietaria de Python para Blender, que permite la creación efectiva de conjuntos de datos sintéticos a gran escala.
• Demuestran que una red de estimación de normales de superficie consciente de la incertidumbre puede generalizarse a fotos reales de pies en entornos silvestres después de entrenar solo con sus datos sintéticos de 8 escaneos de pies. Para reducir la diferencia en el dominio entre las fotos de pies artificiales y auténticas, utilizan una fuerte ampliación de apariencia y perspectiva. La red calcula la incertidumbre asociada y las normales de superficie en cada píxel. La incertidumbre ayuda de dos formas: primero, al establecer un umbral para la incertidumbre, pueden obtener siluetas precisas sin necesidad de entrenar una red diferente; segundo, utilizando la incertidumbre estimada para ponderar la pérdida de las normales de superficie en su esquema de optimización, pueden aumentar la robustez contra la posibilidad de que las predicciones realizadas en algunas vistas no sean precisas.
• Proporcionan una estrategia de optimización que utiliza el renderizado diferenciable para ajustar un modelo generativo de pie a una serie de fotos calibradas con normales de superficie y puntos clave esperados. Su proceso supera a la fotogrametría de vanguardia para la reconstrucción de superficies, es consciente de la incertidumbre y puede reconstruir una malla estanca a partir de un número limitado de vistas. También se puede utilizar para datos obtenidos desde el teléfono celular de un consumidor.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Core42 y Cerebras establecen un nuevo referente para los modelos árabes de lenguaje grande con el lanzamiento de Jais 30B
- Investigadores de Hugging Face presentan Distil-Whisper un modelo compacto de reconocimiento de voz que cubre la brecha en entornos de alto rendimiento y bajos recursos.
- Esta investigación de IA presenta PERF la transformación Panorámica NeRF que convierte imágenes individuales en escenas 3D explorables.
- 40+ Herramientas de IA Geniales que Deberías Comprobar (noviembre de 2023)
- Nuevo trabajo de DeepMind revela semillas suprema de prompt para modelos de lenguaje
- La inflación de la inteligencia artificial ¿es siempre mejor tener más?
- Los datos nos dicen el qué y siempre buscamos el por qué.