Una nueva investigación de IA de Stanford, Cornell y Oxford presenta un modelo generativo que descubre intrínsecos de objetos a partir de solo unas pocas instancias en una sola imagen.
A new AI research from Stanford, Cornell and Oxford presents a generative model that discovers intrinsic features of objects from just a few instances in a single image.
La esencia de una rosa está compuesta por su geometría única, textura y composición material. Esto se puede utilizar para crear rosas de diferentes tamaños y formas en varias posiciones y con una amplia gama de efectos de iluminación. Incluso si cada rosa tiene un conjunto único de valores de píxeles, todavía podemos identificarlos como miembros de la misma clase.
Usando datos de una sola fotografía, investigadores de Stanford, Oxford y Cornell Tech esperan crear un modelo que se pueda utilizar para generar nuevas formas e imágenes desde diferentes perspectivas e iluminación.
Hay tres obstáculos para resolver esta declaración de problema:
- Abordando la brecha de generalización del AI Investigadores de University College London proponen Spawrious – una suite de referencia de clasificación de imágenes que contiene correlaciones espurias entre clases y fondos.
- Revolutionizando la síntesis de texto a imagen investigadores de UC Berkeley utilizan modelos de lenguaje grandes en un proceso de generación de dos etapas para mejorar el razonamiento espacial y del sentido común.
- Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.
- El problema de inferencia está extremadamente poco ligado ya que solo hay una imagen en el conjunto de datos de entrenamiento, y solo tiene unas pocas cientos de instancias.
- Puede haber una amplia gama de valores de píxeles posibles en estas pocas circunstancias. Esto se debe a que ni las posturas ni las condiciones de iluminación se han registrado o son conocidas.
- Ninguna rosa es igual a otra, y es necesario capturar una distribución de su forma, textura y material para aprovechar la información subyacente de múltiples vistas. Por lo tanto, los intrínsecos del objeto destinados a inferir son probabilísticos en lugar de deterministas. En comparación con los enfoques actuales de reconstrucción de múltiples vistas o renderizado neuronal para un objeto o escena estáticos, esto es una partida significativa.
El enfoque propuesto toma los intrínsecos del objeto como punto de partida para inducir sesgos en la creación del modelo. Estas reglas tienen dos partes:
- Las instancias a presentar deben tener todas el mismo intrínseco del objeto o distribución de geometría, textura y material.
- Las propiedades intrínsecas no son independientes entre sí, sino que están entrelazadas de una manera particular, como lo define un motor de renderizado y, en última instancia, el mundo físico.
Más específicamente, su modelo toma una sola imagen de entrada y, utilizando una colección de máscaras de instancia y una distribución de posición particular de las instancias, aprende una representación neuronal de la distribución sobre la forma 3D, el albedo de la superficie y el brillo del objeto, eliminando así los efectos de las fluctuaciones de pose e iluminación. Esta desenredamiento explícito y fundamentado físicamente ayuda en su breve explicación de las instancias. Permite que el modelo adquiera los intrínsecos del objeto sin sobreajustar las observaciones dispersas proporcionadas por una sola imagen.
Como mencionan los investigadores, el modelo resultante hace posible múltiples usos. Por ejemplo, se pueden generar nuevas instancias con identidades distintas mediante el muestreo aleatorio de los intrínsecos del objeto aprendidos. Las instancias sintéticas se pueden volver a renderizar con nuevos ángulos de cámara y configuraciones de iluminación ajustando estos elementos externos.
El equipo realizó pruebas exhaustivas para demostrar el rendimiento mejorado de reconstrucción y generación de formas del modelo, la síntesis innovadora de vistas y el cambio de iluminación.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de LinkedIn y UC Berkeley proponen un nuevo método para detectar fotos de perfil generadas por IA.
- El Avance Computacional Ayudará a los Investigadores a Modelar el Clima con Mayor Fidelidad.
- Perro Robot Hace Moonwalk al Estilo MJ Esta Investigación de IA Propone Utilizar Recompensas Representadas en Código como una Interfaz Flexible Entre LLMs y un Controlador de Movimiento Basado en Optimización.
- La IA responsable en Google Research IA para el bien social
- Investigadores de Deepmind publican TAPIR de código abierto un nuevo modelo de IA para rastrear cualquier punto (TAP) que sigue eficazmente un punto de consulta en una secuencia de video.
- La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.
- Diseñar coches eléctricos ahora es más rápido con la IA de Toyota.