Más allá de NeRFs (Parte Dos)

Beyond NeRFs (Part Two)

Consejos y trucos para utilizar NeRFs con éxito en la naturaleza

(Foto de Ashim D’Silva en Unsplash)

En el ámbito de la representación y renderización de escenas 3D, los campos de radiación neuronal (NeRFs) proporcionaron un gran avance en precisión. Dado varias imágenes de una escena subyacente, NeRFs puede reconstruir renderizaciones 2D de alta resolución de esta escena desde cualquier punto de vista. En comparación con técnicas anteriores como la fusión de campos de luz local (LLFF) [5] y las redes de representación de escenas (SRN) [6], NeRFs son mucho más capaces de capturar componentes complejos de la apariencia y geometría de una escena (por ejemplo, reflejos dependientes de la vista y materiales intrincados).

Los NeRFs tienen el potencial de revolucionar aplicaciones como la realidad virtual, la gráfica por computadora y más. Se podría imaginar, por ejemplo, utilizar NeRFs para reconstruir renderizaciones 3D de una casa en venta dada imágenes de la casa disponibles en línea, o incluso diseñar entornos de videojuegos utilizando NeRFs entrenados en escenas del mundo real. Sin embargo, en su formulación original, los NeRFs fueron evaluados principalmente utilizando imágenes capturadas en entornos simples y controlados. Cuando se entrenan con imágenes de escenas del mundo real, los NeRFs tienden a no funcionar tan bien (ver abajo), lo que los hace menos útiles en aplicaciones prácticas.

(de [2])

Dentro de esta descripción general, estudiaremos los NeRFs en profundidad para comprender mejor por qué tienen un mal desempeño en el mundo real y cómo se puede resolver este problema. En particular, exploraremos algunas propuestas recientes, llamadas NeRF-W [1] y def-NeRF [2], que modifican los NeRFs para manejar mejor las imágenes capturadas en entornos ruidosos e incontrolados. Tales técnicas hacen que los NeRFs sean mucho más útiles al permitir su aplicación en imágenes que se ajustan más de cerca a los datos que se encontrarán en la mayoría de las aplicaciones prácticas.

(de [1, 2])

Antecedentes

Esta descripción general forma parte de nuestra serie sobre aprendizaje profundo para formas y escenas 3D. Si aún no lo ha hecho, recomiendo leer las publicaciones anteriores de esta serie, ya que contienen mucha información útil sobre NeRFs y técnicas relacionadas. Aquí, revisaremos brevemente los NeRFs y algunos otros conceptos relevantes (por ejemplo, espacios latentes, deformaciones no rígidas, codificación posicional, etc.) que surgirán en nuestra discusión de NeRF-W [1] y def-NeRF [2].

Una breve descripción general de NeRFs

En una descripción general anterior, ya hemos discutido la idea de los campos de radiación neuronal (NeRFS) [3] en profundidad. Dado que esta descripción general explora la ampliación y modificación de los NeRFs para aplicaciones del mundo real, recomiendo leer la descripción general de NeRFs aquí.

descripción general rápida. Para resumir la idea básica detrás de los NeRFs, son solo redes neuronales de alimentación directa que toman una coordenada 3D y una dirección de visualización como entrada y producen una densidad de volumen y un color RGB como salida. Al evaluar el NeRF en una variedad de puntos diferentes (y direcciones de visualización) en el espacio 3D, podemos acumular mucha información sobre la geometría y apariencia de una escena, que se puede utilizar para renderizar una imagen (o vista) de esa escena; ver abajo.

(de [3])

Para entrenar un NeRF, simplemente necesitamos acumular varias imágenes de una escena e información relevante sobre la posición de la cámara para cada imagen. ¡Entonces, podemos usar estas imágenes como un objetivo para entrenar nuestro NeRF! En particular, repetidamente i) utilizamos el NeRF para renderizar una imagen en un punto de vista conocido y ii) comparamos la salida del NeRF con la imagen real utilizando una función de pérdida fotométrica (es decir, esto simplemente mide las diferencias entre los valores de píxeles RGB); ver abajo.

(de [3])

Problemas con NeRFs. Los NeRFs fueron un gran avance en el campo de la representación de escenas 3D, pero tienen algunas limitaciones. En una revisión previa, discutimos la carga computacional del entrenamiento y la representación de los NeRFs, así como su necesidad de muchas imágenes de una escena subyacente para el entrenamiento. Sin embargo, técnicas como InstantNGP [7] y PixelNeRF [8] mejoran drásticamente la eficiencia computacional y de muestra de los NeRFs.

Además, los NeRFs hacen la suposición de que las escenas son estáticas. En la práctica, esta suposición a menudo no es cierta. Las imágenes pueden contener objetos en movimiento (por ejemplo, personas) que ocultan partes relevantes de la escena o incluso pueden ser tomadas en diferentes momentos del día (por ejemplo, por la noche o por la mañana). Estos son componentes transitorios de una escena que pueden estar presentes en una imagen pero no en otra.

“La limitación central de NeRF… es su suposición de que el mundo es geométrica, material y fotométricamente estático. NeRF requiere que dos fotografías tomadas en la misma posición y orientación deben ser idénticas. Esta suposición se viola en muchos conjuntos de datos del mundo real.” – de [1]

Esta suposición estática es un factor importante que subyace al bajo rendimiento de NeRF en entornos no controlados. En esta revisión, exploraremos cómo esta suposición puede ser mitigada, permitiendo que los NeRFs sean entrenados sobre conjuntos de datos imperfectos del mundo real que encontramos en aplicaciones prácticas.

Introducción a la deformación de formas

Para entrenar con éxito NeRFs en imágenes ruidosas de teléfonos inteligentes, las técnicas recientes aumentan los NeRFs con campos de deformación aprendibles. Para entender lo que esto significa, sin embargo, necesitamos aprender sobre las deformaciones en general. Cubriremos brevemente esta idea a continuación.

En pocas palabras, una deformación describe una transformación de una geometría inicial a una geometría final (por ejemplo, mediante la desplazamiento, la traslación o la deformación de puntos en relación con algún marco de referencia). Hay dos tipos básicos de deformaciones que encontraremos típicamente:

  1. Deformación rígida
  2. Deformación no rígida

Para las deformaciones rígidas (por ejemplo, rotaciones y traslaciones), el objeto que se deforma cambia con respecto a un marco de referencia externo pero permanece sin cambios con respecto a un marco de referencia interno. Se proporcionan ejemplos en la imagen de abajo.

Ejemplos de deformaciones rígidas (de sci.sdsu.edu)

Las deformaciones no rígidas son ligeramente diferentes. Los objetos cambian con respecto a los marcos de referencia internos y externos. Por lo tanto, las deformaciones no rígidas pueden capturar transformaciones como la dilatación y el corte; ver abajo.

Ejemplos de deformaciones no rígidas (de sci.sdsu.edu)

Campos de deformación. Un campo de deformación es una forma de representar deformaciones. Simplemente define una transformación a través de un mapeo de puntos en el espacio 3D (es decir, cada punto en el espacio se mapea a un nuevo punto). Al reposicionar/transformar un objeto basado en el mapeo definido por este campo, podemos transformar arbitrariamente la forma de un objeto, similar a las deformaciones mostradas arriba.

Otros recursos

Además de la discusión anterior, hay algunos conceptos que pueden proporcionar una comprensión más profunda del contenido de esta publicación. Consulte los siguientes enlaces a recursos relevantes:

  • ¿Qué es el espacio latente? [ enlace ]
  • Introducción a la codificación posicional [ enlace ]
  • Renderizado de volumen [ enlace ]

Publicaciones

Aunque los NeRFs son efectivos en entornos controlados, tienen dificultades para renderizar escenas 3D a partir de imágenes capturadas en el mundo real. Aquí, revisaremos dos métodos propuestos recientemente, llamados NeRF-W [1] y def-NeRF [2], que intentan resolver este problema. ¡Estos métodos pueden renderizar escenas 3D precisas a partir de conjuntos de fotos que están imperfectamente capturadas (por ejemplo, en un teléfono móvil) e incluso contienen cambios drásticos de iluminación u objetos ocultos!

NeRF en la naturaleza: Campos de Radiance Neurales para Colecciones de Fotos no Restringidas [1]

(de [1])

A menudo, las imágenes del mundo real tienen muchas propiedades indeseables que hacen que el entrenamiento de NeRFs sea bastante difícil. Considere, por ejemplo, tratar de entrenar un NeRF en varias imágenes de un hito importante que fueron tomadas con años de diferencia; véase arriba. ¡Las imágenes de esta escena pueden ser tomadas en diferentes momentos del día o de la noche y contener cualquier cantidad de personas u objetos en movimiento que en realidad no forman parte de la geometría de la escena!

En escenarios no controlados, los NeRFs tienden a fallar debido a su suposición de que las escenas son estáticas, lo que impide su uso en aplicaciones del mundo real. NeRF-W [1] – una extensión de NeRF – mitiga estos problemas al relajar la suposición estática hecha por NeRF y permitir la modelización precisa de escenas 3D bajo problemas comunes del mundo real (por ejemplo, objetos transitorios y cambios de iluminación).

(de [1])

descomposición de una escena. Los principales problemas encontrados por los NeRF en la naturaleza pueden clasificarse de manera general en:

  1. Cambios fotométricos: la hora del día y las condiciones atmosféricas afectan la iluminación/radiancia de una escena.
  2. Objetos transitorios: las escenas del mundo real rara vez se capturan aisladas. Por lo general, hay personas u objetos que ocultan y se mueven a través de la escena mientras se toman las imágenes.

Estos problemas, ambas violaciones a la suposición estática, se ilustran en la figura de arriba.

cambios fotométricos. Para abordar los cambios fotométricos, cada imagen se asigna su propio vector de “apariencia”, que es considerado (como una entrada adicional) por NeRF-W al predecir el color RGB de salida. Sin embargo, la incrustación de apariencia no tiene impacto en la densidad de volumen predicha, que captura la geometría 3D de una escena. Este cambio se realiza separando la red neuronal de propagación hacia adelante de NeRF en algunos componentes que toman diferentes entradas; véase abajo.

La incrustación de apariencia afecta el color pero no la densidad de volumen (de [1]).

Al condicionar la salida RGB de NeRF-W en esta incrustación de apariencia, el modelo puede variar la apariencia de una escena en función de una imagen particular, al tiempo que garantiza que la geometría subyacente de la escena sea invariante a la apariencia y se comparta entre imágenes. Las incrustaciones de apariencia únicas asignadas a cada imagen de entrenamiento se optimizan junto con los parámetros del modelo durante todo el entrenamiento.

componentes estáticos vs. transitorios. Para manejar los objetos transitorios, debemos notar que una escena contiene dos tipos de entidades:

  • Componentes dependientes de la imagen (es decir, objetos móviles/transitorios)
  • Componentes compartidos (es decir, la escena real)

NeRF-W utiliza componentes de red neuronal de propagación hacia adelante separados para modelar componentes de escena dependientes de la imagen (transitorios) y compartidos (estáticos). Tanto las porciones transitorias como estáticas de la red emiten sus propias estimaciones de color y densidad, lo que permite que NeRF-W desentrañe los componentes estáticos y transitorios de una escena; véase abajo.

Componentes estáticos y transitorios de NeRF-W (de [1])

La porción transitoria de NeRF-W emite un campo de incertidumbre (utilizando un marco de aprendizaje bayesiano [4]) que permite ignorar los componentes de la escena ocultos durante el entrenamiento. Para garantizar que los efectos transitorios en la escena sean dependientes de la imagen, a cada imagen de entrenamiento se le asocia un vector de incrustación “transitorio”, que se da como entrada al componente transitorio de NeRF-W. Al igual que las incrustaciones de apariencia, las incrustaciones transitorias se aprenden durante el entrenamiento. Vea a continuación una representación completa de la arquitectura de NeRF-W.

(de [1])

Todos los componentes de NeRF-W se optimizan conjuntamente utilizando un procedimiento similar a NeRF [3], como se describe en el enlace aquí. NeRF-W se evalúa utilizando colecciones de fotos del mundo real de lugares notables, seleccionados del conjunto de datos de turismo fotográfico. Cuando NeRF-W se entrena para representar seis lugares, vemos que NeRF-W supera a los baselines cuantitativamente en la mayoría de los casos; ver abajo.

(de [1])

Debemos recordar que, para realizar la evaluación, nosotros:

  1. Entrenamos un modelo sobre imágenes correspondientes a una única escena.
  2. Muestreamos una imagen de prueba (y su correspondiente posición de la cámara).
  3. Renderizamos un punto de vista (con el modelo entrenado) utilizando información de la posición de la cámara de la imagen de prueba.
  4. Comparamos la renderización con la imagen de verdad terrenal.

Para NeRF-W, no tenemos embeddings de apariencia o transitorios para imágenes de prueba. Como resultado, NeRF-W optimiza estos embeddings basados en una mitad de la imagen de prueba y realiza la evaluación en la otra mitad de la imagen; ver abajo.

(de [1])

Cuando examinamos la salida de diferentes variantes de NeRF, vemos que la salida de NeRF tiende a contener artefactos fantasma debido a objetos transitorios en las imágenes de entrenamiento. En comparación, NeRF-W produce renderizaciones precisas y nítidas, lo que indica que es más capaz de manejar la variación del mundo real en la apariencia de la escena; ver abajo.

(de [1])

Además, NeRF-W puede producir renderizaciones precisas de escenas dadas imágenes de entrenamiento con diferentes condiciones de iluminación. Dado que NeRF-W puede generar una salida dada diferentes embeddings de apariencia como entrada, podemos ajustar el embedding de apariencia de NeRF-W para modificar la apariencia de la renderización final; ver abajo.

(de [1])

Llevando esta idea un paso más allá, incluso podemos interpolar entre los embeddings de apariencia de diferentes imágenes de entrenamiento, lo que produce un cambio suave en la apariencia de la escena renderizada; ver abajo.

(de [1])

Nerfies: Campos de Radiance Neurales Deformables [2]

(de [2])

La mayoría de los datos de visión por computadora para aplicaciones modernas se capturan en un teléfono inteligente. Con esto en mente, uno podría preguntarse si es posible entrenar un NeRF usando estos datos. En [2], los autores exploran una aplicación específica en estas líneas: convertir imágenes/videos “selfie” capturados casualmente en un NeRF que pueda generar renderizaciones fotorealistas de un sujeto/persona. ¡Los autores llaman a estos modelos “Nerfies” (es decir, una selfie basada en NeRF)!

Inicialmente, esta aplicación puede parecer bastante específica e inútil. ¿Realmente nos importa tanto ajustar el ángulo de visión de nuestra selfie? ¿Cuánto más estético puede hacer esto nuestras publicaciones de Instagram? Sin embargo, la metodología propuesta en [2] es increíblemente perspicaz por algunas razones:

  1. Nos da una idea de la viabilidad de entrenar NeRFs utilizando imágenes y videos de un teléfono inteligente.
  2. Mejora la capacidad de NeRFs para manejar materiales desafiantes, detallados o capturados de manera imperfecta en una escena.
  3. No solo se aplica a la captura de autorretratos, sino que también se puede aplicar a aplicaciones más generales de modelado de escenas.

Usando técnicas propuestas en [2], podemos producir representaciones de escenas de alta calidad dadas imágenes ruidosas e imperfectas capturadas en un teléfono móvil. Como ejemplo de cómo se puede utilizar dicha técnica, imagine generar un modelo 3D de usted mismo simplemente tomando un video rápido en su teléfono. ¡Los enfoques actuales para esto requieren laboratorios especializados completos con luces y cámaras sincronizadas!

NeRFs + campos de deformación. Cuando pensamos en usar una cámara portátil para construir un modelo 3D de una persona, pueden surgir algunas dificultades:

  • La cámara se moverá (¡esto viola la suposición estática!).
  • Los humanos contienen muchas geometrías y materiales complejos que son difíciles de modelar (por ejemplo, cabello, gafas, joyas, etc.).

En [2], los autores abordan estos desafíos mediante la mejora de NeRFs con un campo de deformación no rígido y optimizado conjuntamente, que aprende a transformar la geometría subyacente de la escena en el espacio 3D.

Transformación de coordenadas con un campo de deformación (de [2])

Este campo de deformación se modela con una red feed-forward que toma una coordenada codificada posicionalmente en 3D y un código latente de deformación por imagen como entrada y produce una coordenada 3D no rígidamente deformada como salida; ver arriba.

cómo funciona def-NeRF. La metodología en [2], que llamaremos un campo de radiance neural deformable (def-NeRF), tiene dos componentes:

  1. Campo de deformación: modela una deformación no rígida de las coordenadas 3D utilizando una red neuronal feed-forward.
  2. NeRF: utiliza una arquitectura NeRF básica para crear una plantilla de la geometría y apariencia subyacentes de la escena.

Asociamos cada imagen de entrenamiento con vectores de deformación y apariencia aprendibles. Estos códigos latentes, que imitan el enfoque de incrustación por imagen utilizado por NeRF-W [1], permiten que la deformación y la apariencia dependan de la imagen y permiten que def-NeRF maneje la variación en las imágenes de la escena (por ejemplo, cambios de iluminación).

(de [2])

def-NeRF toma una coordenada 3D como entrada. Esta coordenada está codificada posicionalmente y combinada con el código de deformación latente (a través de la suma) antes de pasarla a la red feed-forward que modela el campo de deformación de def-NeRF. La salida de esta red es una coordenada 3D transformada; ver arriba.

(de [2])

Esta coordenada transformada se pasa como entrada al NeRF. Al igual que con NeRF-W [1], augmentamos este NeRF con un vector de apariencia aprendible por imagen. Dada la coordenada transformada, la dirección de visualización y un vector de apariencia como entrada, NeRF produce una densidad de volumen y un color RGB como salida; ver arriba.

(de [2])

La arquitectura completa de def-NeRF, ilustrada arriba, comparte una arquitectura y estrategia de entrenamiento casi idénticas en comparación con NeRFs básicos. Las principales diferencias son:

  • La modelización de un campo de deformación.
  • El uso de vectores de deformación y apariencia por imagen.

“Al renderizar, simplemente lanzamos rayos y muestreamos puntos en el marco de observación y luego usamos el campo de deformación para asignar los puntos muestreados a la plantilla.” – de [2]

(de [2])

¿Por qué es necesario? def-NeRF simplemente agrega un campo de deformación que deforma no rígidamente las coordenadas de entrada a la arquitectura principal de NeRF. Como resultado, este enfoque descompone las representaciones de escenas en dos partes:

  1. Un modelo geométrico de la escena.
  2. Una deformación de esta geometría hacia la posición deseada.

Como tal, los def-NeRFs relajan la suposición estática de los NeRFs y permiten que la geometría subyacente de la escena se aprenda de una manera que es invariante a desplazamientos, traslaciones, cambios de perspectiva y más.

La regularización añadida mejora la calidad de la reconstrucción (de [2])

Regularización. Los autores de [2] observan que los campos de deformación aprendidos son propensos a mínimos locales y sobreajuste. Como solución, podemos agregar regularización adicional al proceso de optimización de def-NeRF; consulte arriba. Se adoptan varios esquemas de regularización diferentes, como se describe en la Sección 3.3-3.5 de [2].

¿Funciona bien? def-NeRF se evalúa principalmente en función de su capacidad para producir “Nerfies” (es decir, representaciones fotorealistas de una persona/sujeto desde puntos de vista arbitrarios). Para crear un Nerfie, un usuario filma su cara usando un teléfono inteligente durante unos 20 segundos. Luego, se entrena la metodología def-NeRF con estos datos y se usa para renderizar selfies desde varios puntos de vista novedosos.

(de [2])

Para evaluar la calidad de estas reconstrucciones de escenas desde puntos de vista novedosos, los autores construyen un soporte de cámara que captura simultáneamente un sujeto desde múltiples puntos de vista. Esto permite construir un conjunto de validación utilizando imágenes que capturan la misma escena exacta desde dos puntos de vista diferentes; consulte arriba.

(de [2])

Cuando se compara cuantitativamente con varias líneas de base, def-NeRF produce reconstrucciones de sujetos de mayor calidad en la mayoría de los casos. Notablemente, def-NeRF parece tener dificultades con la métrica de PSNR. Sin embargo, los autores afirman que esta métrica favorece las imágenes borrosas y no es ideal para evaluar reconstrucciones de escenas.

(de [2])

Cualitativamente, vemos que def-NeRF es más capaz de capturar detalles finos dentro de una escena (por ejemplo, cabello, arrugas de la camisa, gafas, etc.) en comparación con las líneas de base; consulte arriba. Además, el método funciona bien para escenas generales que van más allá de la reconstrucción de sujetos humanos en un Nerfie. En general, ¡def-NeRF parece proporcionar reconstrucciones de escenas de alta calidad dados imágenes de un teléfono móvil!

(de [2])

Conclusiones

Aunque los NeRFs producen demos impresionantes, no son realmente útiles a menos que podamos aplicarlos a imágenes encontradas en el mundo real. En esta visión general, destacamos las principales razones por las que aplicar NeRFs en la naturaleza a menudo es difícil (es decir, la suposición estática) y resumimos algunas investigaciones recientes que buscan resolver este problema. Algunas de las principales conclusiones se describen a continuación.

Suposición estática. Los NeRFs, en su forma original, asumen que las escenas son estáticas, lo que significa que dos imágenes tomadas de una escena desde la misma posición/dirección deben ser idénticas. ¡En la práctica, esta suposición rara vez se cumple! Las personas u objetos pueden moverse a través de la escena y las condiciones variables de iluminación pueden cambiar significativamente la apariencia de una imagen. Desplegar NeRFs en el mundo real requiere que esta suposición se relaje significativamente.

incrustaciones dependientes de la imagen. Las escenas del mundo real se pueden separar en componentes independientes de la imagen y dependientes de la imagen. Si queremos aprender la geometría subyacente de una escena sin sobreajustarnos a los componentes dependientes de la imagen, debemos personalizar la salida de un NeRF por imagen. Tanto para NeRF-W como para def-NeRF, esto se logra en gran medida mediante la adición de vectores de incrustaciones por imagen (es decir, vectores de apariencia, transitorios y de deformación). Sin embargo, el hecho de que los vectores de incrustación por imagen no estén disponibles para imágenes no vistas/prueba puede dificultar la implementación de estos modelos.

limitaciones. Permitir que los NeRF se apliquen más allá de los entornos controlados es importante, ¡pero esta no es la única limitación de los NeRF! Estos modelos todavía sufren de una eficiencia de muestra deficiente y complejidad computacional, como se discutió en un post anterior. Hacer que los NeRF sean viables para aplicaciones en tiempo real requerirá una combinación de técnicas que resuelvan cada problema individual que enfrentan los NeRF.

Pensamientos Finales

Gracias por leer este artículo. Soy Cameron R. Wolfe, Director de Inteligencia Artificial en Rebuy. Estudio los fundamentos empíricos y teóricos del aprendizaje profundo. ¡También puedes consultar mis otros escritos en Zepes! Si te gustó, por favor sígueme en Twitter o suscríbete a mi boletín de noticias Deep (Learning) Focus, donde ayudo a los lectores a construir una comprensión más profunda de los temas en la investigación del aprendizaje profundo a través de resúmenes comprensibles de artículos populares.

Bibliografía

[1] Martin-Brualla, Ricardo, et al. “Nerf en la naturaleza: campos de radiación neuronal para colecciones de fotos no restringidas”. Actas de la Conferencia de Visión por Computadora y Reconocimiento de Patrones de la IEEE/CVF. 2021.

[2] Park, Keunhong, et al. “Nerfies: campos de radiación neuronal deformables”. Actas de la Conferencia Internacional de Visión por Computadora de la IEEE/CVF. 2021.

[3] Mildenhall, Ben, et al. “Nerf: Representación de escenas como campos de radiación neuronal para la síntesis de vistas”. Comunicaciones de la ACM 65.1 (2021): 99–106.

[4] Kendall, Alex, y Yarin Gal. “¿Qué incertidumbres necesitamos en el aprendizaje profundo bayesiano para la visión por computadora?”. Avances en sistemas de información neural 30 (2017).

[5] Mildenhall, Ben, et al. “Fusión local de campos de luz: síntesis práctica de vistas con pautas de muestreo prescriptivas”. ACM Transactions on Graphics (TOG) 38.4 (2019): 1–14.

[6] Sitzmann, Vincent, Michael Zollhöfer y Gordon Wetzstein. “Redes de representación de escenas: representaciones continuas de escenas neurales conscientes de la estructura 3D”. Avances en sistemas de información neural 32 (2019).

[7] Müller, Thomas, et al. “Primitivas gráficas neurales instantáneas con una codificación hash multirresolución”. ACM Transactions on Graphics (TOG) 41.4 (2022): 1–15.

[8] Yu, Alex, et al. “Pixelnerf: campos de radiación neuronal de una o pocas imágenes”. Actas de la Conferencia de Visión por Computadora y Reconocimiento de Patrones de la IEEE/CVF. 2021.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una Breve Historia de las Redes Neuronales

Desde la neurona biológica hasta LLM Cómo la IA se volvió inteligente.

Inteligencia Artificial

¿Qué es la generación aumentada por recuperación?

Para entender el último avance en inteligencia artificial generativa, imagina un tribunal. Los jueces escuchan y deci...

Aprendizaje Automático

AI Ve lo que tú Ves Mind's Eye es un Modelo de IA que Puede Reconstruir Escaneos Cerebrales en Imágenes.

Desde hace tiempo, nos ha intrigado el desafío de entender cómo funciona nuestro cerebro. El campo de la neurociencia...

Inteligencia Artificial

Google DeepMind utilizó un gran modelo de lenguaje para resolver un problema matemático insoluble

Tuvieron que desechar la mayor parte de lo que producían, pero había oro entre la basura.

Ciencia de Datos

Investigadores enseñan a una IA a escribir mejores leyendas de gráficos

Un nuevo conjunto de datos puede ayudar a los científicos a desarrollar sistemas automáticos que generen leyendas más...