Una nueva investigación de IA de Stanford, Cornell y Oxford presenta un modelo generativo que descubre intrínsecos de objetos a partir de solo unas pocas instancias en una sola imagen.

A new AI research from Stanford, Cornell and Oxford presents a generative model that discovers intrinsic features of objects from just a few instances in a single image.

La esencia de una rosa está compuesta por su geometría única, textura y composición material. Esto se puede utilizar para crear rosas de diferentes tamaños y formas en varias posiciones y con una amplia gama de efectos de iluminación. Incluso si cada rosa tiene un conjunto único de valores de píxeles, todavía podemos identificarlos como miembros de la misma clase.

Usando datos de una sola fotografía, investigadores de Stanford, Oxford y Cornell Tech esperan crear un modelo que se pueda utilizar para generar nuevas formas e imágenes desde diferentes perspectivas e iluminación.

Hay tres obstáculos para resolver esta declaración de problema:

El problema de inferencia está extremadamente poco ligado ya que solo hay una imagen en el conjunto de datos de entrenamiento, y solo tiene unas pocas cientos de instancias.
Puede haber una amplia gama de valores de píxeles posibles en estas pocas circunstancias. Esto se debe a que ni las posturas ni las condiciones de iluminación se han registrado o son conocidas.
Ninguna rosa es igual a otra, y es necesario capturar una distribución de su forma, textura y material para aprovechar la información subyacente de múltiples vistas. Por lo tanto, los intrínsecos del objeto destinados a inferir son probabilísticos en lugar de deterministas. En comparación con los enfoques actuales de reconstrucción de múltiples vistas o renderizado neuronal para un objeto o escena estáticos, esto es una partida significativa.

El enfoque propuesto toma los intrínsecos del objeto como punto de partida para inducir sesgos en la creación del modelo. Estas reglas tienen dos partes:

Las instancias a presentar deben tener todas el mismo intrínseco del objeto o distribución de geometría, textura y material.
Las propiedades intrínsecas no son independientes entre sí, sino que están entrelazadas de una manera particular, como lo define un motor de renderizado y, en última instancia, el mundo físico.

Más específicamente, su modelo toma una sola imagen de entrada y, utilizando una colección de máscaras de instancia y una distribución de posición particular de las instancias, aprende una representación neuronal de la distribución sobre la forma 3D, el albedo de la superficie y el brillo del objeto, eliminando así los efectos de las fluctuaciones de pose e iluminación. Esta desenredamiento explícito y fundamentado físicamente ayuda en su breve explicación de las instancias. Permite que el modelo adquiera los intrínsecos del objeto sin sobreajustar las observaciones dispersas proporcionadas por una sola imagen.

Como mencionan los investigadores, el modelo resultante hace posible múltiples usos. Por ejemplo, se pueden generar nuevas instancias con identidades distintas mediante el muestreo aleatorio de los intrínsecos del objeto aprendidos. Las instancias sintéticas se pueden volver a renderizar con nuevos ángulos de cámara y configuraciones de iluminación ajustando estos elementos externos.

El equipo realizó pruebas exhaustivas para demostrar el rendimiento mejorado de reconstrucción y generación de formas del modelo, la síntesis innovadora de vistas y el cambio de iluminación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickGenerative AIMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Una nueva investigación de IA de Stanford, Cornell y Oxford presenta un modelo generativo que descubre intrínsecos de objetos a partir de solo unas pocas instancias en una sola imagen.

Was this article helpful?

Conoce Video-ControlNet Un nuevo modelo de difusión de texto a video que cambiará el juego y dará forma al futuro de la generación de video controlable.

¿Reemplazará la inteligencia artificial a los humanos?

Investigación

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

Conoce Objaverse-XL Un conjunto de datos abierto de más de 10 millones de objetos en 3D.

Evaluar modelos de lenguaje grandes en cuanto a calidad y responsabilidad

Conoce a DiagrammerGPT un nuevo marco de inteligencia artificial de generación de texto a diagrama de dos etapas que aprovecha el conocimiento de LLM para planificar y refinar los planes generales de diagramas

Explorando el Árbol de Pensamiento Promoviendo Cómo la IA puede aprender a razonar a través de la búsqueda

Aprendiendo la Estimación de Poses Usando Nuevas Técnicas de Visión por Computadora