Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video
Investigadores de la Universidad Nacional de Singapur proponen Mind-Video, una herramienta de IA que usa datos de fMRI para recrear imágenes de video.
Comprender la cognición humana ha hecho que la reconstrucción de la visión humana a partir de procesos cerebrales sea intrigante, especialmente cuando se emplean tecnologías no invasivas como la Resonancia Magnética Funcional (fMRI, por sus siglas en inglés). Se ha avanzado mucho en la recuperación de imágenes fijas a partir de grabaciones cerebrales no invasivas, pero no tanto en cuanto a experiencias visuales continuas como películas.
Aunque las tecnologías no invasivas solo recopilan una cantidad limitada de datos debido a que son menos robustas y más vulnerables a influencias externas como el ruido. Además, recopilar datos de neuroimagen es un proceso que consume mucho tiempo y costoso.
Se ha avanzado a pesar de estos desafíos, especialmente en el aprendizaje de características fMRI útiles con pares de anotaciones fMRI dispersas. A diferencia de las imágenes estáticas, la experiencia visual humana es un flujo continuo y cambiante de paisajes, movimientos y objetos. Debido a que la fMRI mide las señales dependientes del nivel de oxigenación de la sangre (BOLD, por sus siglas en inglés) y toma imágenes de la actividad cerebral cada pocos segundos, puede resultar difícil restaurar la experiencia visual dinámica. Cada lectura de fMRI puede considerarse una “media” de la actividad cerebral durante el escaneo. Por el contrario, la frecuencia de cuadros de un video estándar es de 30 cuadros por segundo (FPS, por sus siglas en inglés). En el tiempo que se tarda en adquirir un cuadro de fMRI, se pueden mostrar 60 cuadros de video como estímulos visuales, lo que potencialmente expone al sujeto a una amplia gama de objetos, acciones y configuraciones. Por lo tanto, recuperar películas a una frecuencia de cuadros significativamente mayor que la resolución temporal de la fMRI mediante decodificación fMRI es un desafío.
- Investigadores de UT Austin y UC Berkeley presentan Ambient Diffusion un marco de inteligencia artificial para entrenar/ajustar modelos de difusión dados solo datos corruptos como entrada.
- Conoce a QLORA Un enfoque de ajuste eficiente que reduce el uso de memoria lo suficiente como para ajustar un modelo de 65B parámetros en una sola GPU de 48GB, preservando al mismo tiempo el rendimiento completo de la tarea de ajuste fino de 16 bits.
- LLMs superan al aprendizaje por refuerzo Conozca SPRING un innovador marco de trabajo de sugerencias para LLMs diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.
Investigadores de la Universidad Nacional de Singapur y la Universidad China de Hong Kong presentaron MinD-Video, una canalización modular de decodificación cerebral que comprende un codificador de fMRI y un modelo de difusión estable mejorado entrenado de forma independiente y luego afinado conjuntamente. El modelo propuesto toma datos del cerebro en etapas, ampliando su conocimiento del campo semántico.
En un principio, el equipo entrena características visuales fMRI genéricas utilizando aprendizaje no supervisado a gran escala y modelado cerebral enmascarado. A continuación, utilizan la multimodalidad del conjunto de datos anotados para destilar características relacionadas con la semántica y emplean el aprendizaje contrastivo para entrenar el codificador de fMRI en el espacio de Preentrenamiento de Lenguaje-Imagen Contrastivo (CLIP, por sus siglas en inglés). Después, se entrena conjuntamente un modelo de difusión estable mejorado, diseñado para la producción de videos utilizando entradas de fMRI, con las características aprendidas para perfeccionarlas.
Los investigadores agregaron enfoque cercano al modelo de difusión estable para generar videos con escenas dinámicas. También desarrollaron un sistema de guía adversarial para condicionar las exploraciones de fMRI con fines específicos. Se recuperaron videos de alta calidad y su semántica, como movimientos y dinámicas de escenas, fue precisa.
El equipo evaluó los resultados utilizando métricas semánticas y de píxeles a nivel de video y cuadro. Con una precisión del 85% en métricas semánticas y 0.19 en SSIM, este método es un 49% más efectivo que los métodos anteriores más avanzados. Los hallazgos también sugieren que el modelo parece tener plausibilidad biológica e interpretabilidad basada en los resultados del estudio de atención, que mostraron que se mapea en la corteza visual y las redes cognitivas superiores.
Debido a las diferencias individuales, todavía se está estudiando la capacidad de la técnica propuesta para generalizarse en sujetos diferentes. Se utiliza menos del 10% de los voxels corticales en este método para las reconstrucciones, mientras que el potencial completo de los datos cerebrales totales aún no se ha aprovechado. Los investigadores creen que a medida que se construyan modelos más complejos, es probable que esta área encuentre utilidad en campos como la neurociencia y la IBC.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER) un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo.
- Optimización del controlador PID Un enfoque de descenso de gradiente
- LLM (Modelos de Lenguaje Grandes) para un Mejor Aprendizaje del Desarrollador de tu Producto
- Conoce a WebAgent el nuevo LLM de DeepMind que sigue instrucciones y completa tareas en sitios web
- El modelo POE de sistemas de hardware inspirados en la biología
- Dominando las Expresiones Regulares con Python
- Pythia Un conjunto de 16 LLMs para investigación en profundidad