Conoce BITE Un Nuevo Método Que Reconstruye la Forma y Poses 3D de un Perro a Partir de una Imagen, Incluso con Poses Desafiantes como Sentado y Acostado.

Conoce BITE, un método que reconstruye la forma y poses 3D de un perro a partir de una imagen, incluso en poses desafiantes.

Múltiples campos, incluyendo la biología y la conservación, así como el entretenimiento y el desarrollo de contenido virtual, pueden beneficiarse de la captura y modelado de formas y actitudes animales en 3D. Debido a que no necesitan que el animal permanezca inmóvil, mantenga una postura particular, haga contacto físico con el observador o haga algo más cooperativo, las cámaras son un sensor natural para observar animales. Existe una larga historia de utilización de fotos para estudiar animales, como las cronofotografías conocidas de Muybridge “Caballo en movimiento”. Sin embargo, a diferencia de trabajos anteriores sobre la forma y postura humana en 3D, recientemente se han desarrollado modelos expresivos en 3D que pueden cambiar a la forma y posición única de un animal. Aquí, se centran en el desafío de la reconstrucción en 3D de un perro a partir de una sola fotografía.

Se concentran en los perros como especie modelo debido a sus fuertes deformaciones articuladas cuadrúpedas y la amplia variación de formas entre razas. Los perros son capturados regularmente en cámaras. Por lo tanto, varias posturas, formas y entornos están fácilmente disponibles. Modelar personas y perros puede tener dificultades comparables a primera vista, pero plantean obstáculos tecnológicos extremadamente distintos. Ya existe una gran cantidad de datos de escaneo en 3D y captura de movimiento disponible para las personas. El aprendizaje de modelos robustos y articulados como SMPL o GHUM ha sido posible gracias a la cobertura de datos de variables de postura y forma adecuadas.

Por el contrario, es difícil recopilar observaciones en 3D de animales, y actualmente se necesitan más para entrenar modelos estadísticos 3D expresivos similares que tengan en cuenta todas las formas y posiciones concebibles. Ahora es posible recrear animales en 3D a partir de fotografías, incluidos los perros, gracias al desarrollo de SMAL, un modelo cuadrúpedo paramétrico aprendido a partir de figuras de juguete. Por el contrario, SMAL es un modelo general para muchas especies, desde gatos hasta hipopótamos. Si bien puede representar muchos tipos de cuerpo de varios animales, no puede representar los detalles distintivos y minuciosos de las razas de perros, como la gran variedad de orejas. Para resolver este problema, investigadores de ETH Zurich, Max Planck Institute for Intelligent Systems, Alemania y IMATI-CNR, Italia proporcionan el primer modelo paramétrico D-SMAL, que representa correctamente a los perros.

Otro problema es que, en contraste con las personas, los perros tienen relativamente pocos datos de captura de movimiento, y de los datos que existen, las posturas sentadas y reclinadas rara vez se capturan. Debido a esto, es difícil para los algoritmos actuales inferir perros en ciertas posturas. Por ejemplo, aprender una prioridad sobre las poses en 3D a partir de datos históricos la sesgará hacia las posiciones de pie y caminando. Utilizando restricciones genéricas, se puede debilitar esta prioridad, pero la estimación de la postura se volvería muy subestimada. Para resolver este problema, utilizan información sobre el contacto físico que aún no se ha pasado por alto al modelar animales terrestres, como el hecho de que están sujetos a la gravedad y, por lo tanto, se paran, se sientan o se acuestan en el suelo.

En situaciones difíciles con una extensa auto-oclusión, demuestran cómo pueden utilizar la información de contacto con el suelo para estimar posiciones complicadas de los perros. Aunque las restricciones del plano del suelo se han utilizado en la estimación de la postura humana, la ventaja potencial es mayor para los cuadrúpedos. Cuatro patas sugieren más puntos de contacto con el suelo, más partes del cuerpo oscurecidas cuando se sientan o se acuestan y mayores deformaciones no rígidas. Otra desventaja de investigaciones anteriores es que las tuberías de reconstrucción a menudo se entrenan en imágenes 2D ya que es difícil recopilar datos en 3D (con imágenes 2D coincidentes). Como resultado, a menudo pronostican posiciones y formas que, cuando se reproyectan, se ajustan estrechamente a la evidencia visual pero se deforman a lo largo de la dirección de visualización.

La reconstrucción en 3D podría ser errónea cuando se ve desde un ángulo diferente porque, en ausencia de datos emparejados, no hay suficiente información para determinar dónde colocar componentes corporales más lejanos o incluso oscurecidos en la dirección de la profundidad. Una vez más, descubren que simular el contacto con el suelo es beneficioso. En lugar de reconstruir (o sintetizar) manualmente datos acoplados en 2D y 3D, cambian a un método de supervisión en 3D más laxo y adquieren etiquetas de contacto con el suelo. Piden a los anotadores que indiquen si la superficie del suelo debajo del perro es plana y, de ser así, que también anoten los puntos de contacto con el suelo en el animal en 3D. Logran esto presentando fotos genuinas a los anotadores.

Figura 1 muestra cómo BITE hace posible estimar la forma y postura de un perro en 3D a partir de una sola imagen de entrada. El modelo es capaz de trabajar con una variedad de razas y tipos, así como con posturas difíciles que están fuera del ámbito de las posturas de entrenamiento, incluyendo sentarse o acostarse en el suelo.

Descubrieron que la red podía ser enseñada para clasificar la superficie y detectar los puntos de contacto con bastante precisión a partir de una sola imagen, de modo que también pueden ser empleados en tiempo de prueba. Estas etiquetas son utilizadas no solo para el entrenamiento. Basándose en el modelo más avanzado de última generación, BARC, su sistema de reconstrucción es conocido como BITE. Vuelven a entrenar BARC usando su nuevo modelo de perro D-SMAL como un paso inicial y de ajuste grueso. Después, envían las predicciones resultantes a su red de refinamiento recién creada, que entrenan utilizando pérdidas de contacto con el suelo para mejorar tanto los ajustes de la cámara como la postura del perro. También pueden utilizar la pérdida de contacto con el suelo en tiempo de prueba para optimizar completamente el ajuste a la imagen de prueba de manera totalmente autónoma.

Esto aumenta enormemente la calidad de la reconstrucción. Incluso si el conjunto de entrenamiento para la pose de BARC no contiene tales poses, pueden obtener perros utilizando BITE que se mantienen correctamente en el suelo (localmente plano) o se reconstruyen de manera realista en posiciones sentadas y reclinadas (ver Fig. 1). El trabajo previo en la reconstrucción 3D de perros se evalúa mediante evaluaciones visuales subjetivas o mediante la retroproyección de la imagen y la evaluación de residuos 2D, proyectando así las imprecisiones relacionadas con la profundidad. Han desarrollado un conjunto de datos semi-sintético único con la verdad del suelo 3D produciendo escaneos 3D de caninos reales desde varios ángulos de visión para superar la falta de evaluaciones 3D objetivas. Evalúan BITE y sus principales competidores utilizando este nuevo conjunto de datos, demostrando que BITE establece un nuevo estándar para el campo.

El siguiente resumen de sus contribuciones:

1. Proporcionan D-SMAL, un nuevo modelo de postura y forma 3D específico de perros desarrollado a partir de SMAL.

2. Crean BITE, un modelo neuronal para mejorar las posturas 3D de los perros mientras evalúa simultáneamente el plano local del suelo. BITE fomenta un contacto convincente con el suelo.

3. Demuestran cómo es posible recuperar posiciones de perros muy diferentes de las codificadas en un modelo previo (necesariamente pequeño).

4. Usando el complejo conjunto de datos StanfordExtra, mejoran el estado del arte para la estimación de la postura 3D monocular.

5. Para promover la transición a la verdadera evaluación 3D, presentan una nueva colección de pruebas 3D semi-sintética basada en escaneos de caninos reales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google Bard ahora puede resumir los videos de Youtube para ti

El chatbot ‘Bard’ de Google ha dado un gran salto en sus capacidades al presentar una innovadora “E...

Ciencia de Datos

El enemigo invisible de la IA enfrentando el desafío de la materia oscura digital

La materia oscura digital es el resultado de los científicos que toman prestadas técnicas computacionales de la intel...

Ciencia de Datos

LangChain Mejorando el rendimiento con la capacidad de memoria

Ya he publicado artículos sobre LangChain antes, presentando la biblioteca y todas sus capacidades. Ahora me gustaría...

Inteligencia Artificial

Cuando la visión por computadora funciona más como un cerebro, ve más como lo hacen las personas.

Entrenar redes neuronales artificiales con datos de cerebros reales puede hacer que la visión por computadora sea más...

Inteligencia Artificial

Descenso del Gradiente La Guía del Excursionista de Montaña para la Optimización con Matemáticas

El descenso de gradiente es una técnica de optimización utilizada para minimizar errores en modelos de aprendizaje au...