¿Por qué el aprendizaje profundo siempre se realiza en datos de matriz? Nueva investigación de IA introduce ‘Spatial Functa’, donde desde los datos hasta la Functa se tratan como uno solo.

La investigación de IA introduce 'Spatial Functa', donde los datos y la Functa se tratan como uno solo, explicando por qué el aprendizaje profundo se realiza siempre en datos de matriz.

Las representaciones neurales implícitas (INRs) o campos neurales son redes neuronales basadas en coordenadas que representan un campo, como una escena en 3D, mapeando coordenadas en 3D a valores de color y densidad en el espacio 3D. Recientemente, los campos neurales han ganado mucha atención en la visión por computadora como un medio para representar señales como imágenes, formas/escenas en 3D, películas, música, imágenes médicas y datos meteorológicos.

En lugar de utilizar el enfoque tradicional de procesar representaciones en forma de matrices como píxeles, trabajos recientes han propuesto un marco llamado functa para realizar aprendizaje profundo directamente en estas representaciones de campos. Rendimiento bien en muchas áreas de investigación, incluyendo generación, inferencia y clasificación. Van desde imágenes hasta vóxeles, datos climáticos y escenas en 3D, pero típicamente solo funcionan con conjuntos de datos pequeños o simples como CelebA-HQ 64 64 o ShapeNet.

El trabajo previo de functa demostró que el aprendizaje profundo en campos neurales es posible para muchas modalidades diferentes, incluso con conjuntos de datos relativamente pequeños. Sin embargo, el método tuvo un rendimiento deficiente en las tareas de clasificación y generación de CIFAR-10. Esto fue sorprendente para los investigadores porque las representaciones de campos neurales de CIFAR-10 eran tan precisas que contenían todos los datos necesarios para completar las tareas posteriores.

Un nuevo estudio realizado por DeepMind y la Universidad de Haifa presenta una estrategia para ampliar la aplicabilidad de functa a conjuntos de datos más amplios e intrincados. Primero demuestran que los resultados de functa reportados en CelebA-HQ se pueden replicar utilizando su metodología. Luego lo aplican a tareas posteriores en CIFAR-10, donde los resultados en clasificación y generación son sorprendentemente pobres.

Como una extensión de functa, functa espacial reemplaza los vectores latentes planos con representaciones de variables latentes ordenadas espacialmente. Como resultado, las características en cada índice espacial pueden recopilar información específica de esa ubicación en lugar de recopilar datos de todas las ubicaciones posibles. Este pequeño ajuste permite el uso de arquitecturas más sofisticadas para resolver tareas posteriores, como Transformers con codificaciones posicionales y UNets, cuyos sesgos inductivos son adecuados para datos organizados espacialmente.

Esto permite que el marco functa se adapte a conjuntos de datos complejos como ImageNet-1k en una resolución de 256 256. Los hallazgos también muestran que las limitaciones observadas en la clasificación/generación de CIFAR-10 se resuelven mediante functa espacial. Los resultados en clasificación están a la par con ViTs y en producción de imágenes están a la par con Latent Diffusion.

El equipo cree que el marco functa brillará a gran escala en estas modalidades de mayor dimensión porque los campos neurales capturan la gran cantidad de información redundante presente en las representaciones en forma de matriz de estas modalidades de manera mucho más eficiente.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #61

En los últimos meses hemos seguido viendo avances significativos en los modelos de lenguaje (LLM) y una introducción ...

Inteligencia Artificial

Aprendiendo Transformers Code First Parte 1 - La Configuración

No sé tú, pero a veces mirar código es más fácil que leer papers. Cuando estaba trabajando en AdventureGPT, comencé l...

Inteligencia Artificial

Conoce a Baichuan 2 Una serie de modelos de lenguaje multilingües a gran escala que contienen 7B y 13B de parámetros, entrenados desde cero, con 2.6T tokens.

Los modelos de lenguaje grandes han experimentado avances significativos y alentadores en los últimos años. Los model...

Inteligencia Artificial

Meet LLMWare Un marco de Inteligencia Artificial todo en uno para agilizar el desarrollo de aplicaciones basadas en LLM para aplicaciones de IA generativa

A pesar del gran interés en los Modelos de Lenguaje Grande LLM (por sus siglas en inglés) durante el último año, much...

Inteligencia Artificial

Conoce a BLIVA un modelo de lenguaje multimodal grande para manejar mejor preguntas visuales ricas en texto

Recientemente, los Modelos de Lenguaje Grande (LLMs) han desempeñado un papel crucial en el campo de la comprensión d...

Ciencia de Datos

Implementar una solución de seguimiento de múltiples objetos en un conjunto de datos personalizado con Amazon SageMaker.

La demanda de seguimiento de múltiples objetos (MOT) en el análisis de video ha aumentado significativamente en mucha...