Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video

Investigadores de la Universidad Nacional de Singapur proponen Mind-Video, una herramienta de IA que usa datos de fMRI para recrear imágenes de video.

Comprender la cognición humana ha hecho que la reconstrucción de la visión humana a partir de procesos cerebrales sea intrigante, especialmente cuando se emplean tecnologías no invasivas como la Resonancia Magnética Funcional (fMRI, por sus siglas en inglés). Se ha avanzado mucho en la recuperación de imágenes fijas a partir de grabaciones cerebrales no invasivas, pero no tanto en cuanto a experiencias visuales continuas como películas.

Aunque las tecnologías no invasivas solo recopilan una cantidad limitada de datos debido a que son menos robustas y más vulnerables a influencias externas como el ruido. Además, recopilar datos de neuroimagen es un proceso que consume mucho tiempo y costoso.

Se ha avanzado a pesar de estos desafíos, especialmente en el aprendizaje de características fMRI útiles con pares de anotaciones fMRI dispersas. A diferencia de las imágenes estáticas, la experiencia visual humana es un flujo continuo y cambiante de paisajes, movimientos y objetos. Debido a que la fMRI mide las señales dependientes del nivel de oxigenación de la sangre (BOLD, por sus siglas en inglés) y toma imágenes de la actividad cerebral cada pocos segundos, puede resultar difícil restaurar la experiencia visual dinámica. Cada lectura de fMRI puede considerarse una “media” de la actividad cerebral durante el escaneo. Por el contrario, la frecuencia de cuadros de un video estándar es de 30 cuadros por segundo (FPS, por sus siglas en inglés). En el tiempo que se tarda en adquirir un cuadro de fMRI, se pueden mostrar 60 cuadros de video como estímulos visuales, lo que potencialmente expone al sujeto a una amplia gama de objetos, acciones y configuraciones. Por lo tanto, recuperar películas a una frecuencia de cuadros significativamente mayor que la resolución temporal de la fMRI mediante decodificación fMRI es un desafío.

Investigadores de la Universidad Nacional de Singapur y la Universidad China de Hong Kong presentaron MinD-Video, una canalización modular de decodificación cerebral que comprende un codificador de fMRI y un modelo de difusión estable mejorado entrenado de forma independiente y luego afinado conjuntamente. El modelo propuesto toma datos del cerebro en etapas, ampliando su conocimiento del campo semántico.

En un principio, el equipo entrena características visuales fMRI genéricas utilizando aprendizaje no supervisado a gran escala y modelado cerebral enmascarado. A continuación, utilizan la multimodalidad del conjunto de datos anotados para destilar características relacionadas con la semántica y emplean el aprendizaje contrastivo para entrenar el codificador de fMRI en el espacio de Preentrenamiento de Lenguaje-Imagen Contrastivo (CLIP, por sus siglas en inglés). Después, se entrena conjuntamente un modelo de difusión estable mejorado, diseñado para la producción de videos utilizando entradas de fMRI, con las características aprendidas para perfeccionarlas.

Los investigadores agregaron enfoque cercano al modelo de difusión estable para generar videos con escenas dinámicas. También desarrollaron un sistema de guía adversarial para condicionar las exploraciones de fMRI con fines específicos. Se recuperaron videos de alta calidad y su semántica, como movimientos y dinámicas de escenas, fue precisa.

El equipo evaluó los resultados utilizando métricas semánticas y de píxeles a nivel de video y cuadro. Con una precisión del 85% en métricas semánticas y 0.19 en SSIM, este método es un 49% más efectivo que los métodos anteriores más avanzados. Los hallazgos también sugieren que el modelo parece tener plausibilidad biológica e interpretabilidad basada en los resultados del estudio de atención, que mostraron que se mapea en la corteza visual y las redes cognitivas superiores.

Debido a las diferencias individuales, todavía se está estudiando la capacidad de la técnica propuesta para generalizarse en sujetos diferentes. Se utiliza menos del 10% de los voxels corticales en este método para las reconstrucciones, mientras que el potencial completo de los datos cerebrales totales aún no se ha aprovechado. Los investigadores creen que a medida que se construyan modelos más complejos, es probable que esta área encuentre utilidad en campos como la neurociencia y la IBC.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

De Sonido a Vista Conoce AudioToken para la Síntesis de Audio a Imagen.

Los modelos generativos neuronales han transformado la forma en que consumimos contenido digital, revolucionando vari...

Inteligencia Artificial

10 millones se registran en la aplicación rival de Twitter de Meta, Threads.

La experiencia de microblogging similar a Twitter sugiere que Meta Platforms se ha estado preparando para desafiar di...

Inteligencia Artificial

50+ Nuevas Herramientas de Inteligencia Artificial (IA) de Vanguardia (noviembre de 2023)

Las herramientas de IA están aumentando rápidamente su desarrollo, con nuevas herramientas que se presentan regularme...

Ciencia de Datos

Conoce AnythingLLM Una Aplicación Full-Stack Que Transforma Tu Contenido en Datos Enriquecidos para Mejorar las Interacciones con Modelos de Lenguaje Amplio (LLMs)

Desde el lanzamiento del revolucionario ChatGPT de OpenAI, el número de proyectos relacionados con la IA, especialmen...

Inteligencia Artificial

Conoce a SQLCoder Un nuevo modelo de código abierto y de última generación para convertir preguntas en lenguaje natural en consultas SQL

Defog.ai ha lanzado SQLCoder, un modelo de vanguardia para traducir consultas en lenguaje natural en consultas de bas...

Inteligencia Artificial

Decodificación anticipada un algoritmo de decodificación paralela para acelerar la inferencia de LLM

Aunque los modelos de lenguaje grandes (LLM) como GPT-4 y LLaMA están reimaginando rápidamente las aplicaciones moder...