Investigadores de Meta AI presentan un modelo de aprendizaje automático que explora la decodificación de la percepción del habla a partir de registros cerebrales no invasivos.

Expertos de Meta AI presentan un innovador modelo de aprendizaje automático que descifra la percepción del habla mediante el uso de registros cerebrales no invasivos.

Descifrar el habla a partir de la actividad cerebral, una meta antigua en el ámbito de la salud y la neurociencia, ha obtenido recientemente avances con dispositivos invasivos. Los algoritmos de aprendizaje profundo entrenados con grabaciones intracraneales pueden descodificar elementos lingüísticos básicos. Sin embargo, extender esto al habla natural y a las grabaciones no invasivas del cerebro plantea un desafío. Investigadores de Meta presentan un modelo de aprendizaje automático que utiliza el aprendizaje contrastivo para descodificar representaciones del habla percibida a partir de grabaciones no invasivas. Su método combina cuatro conjuntos de datos y logra resultados prometedores, ofreciendo un camino potencial para la descodificación del lenguaje a partir de la actividad cerebral sin procedimientos invasivos, con implicaciones para la salud y la neurociencia.

Los investigadores exploran la descodificación del habla a partir de las grabaciones de la actividad cerebral no invasivas, basándose en los éxitos recientes con dispositivos invasivos en la descodificación de elementos lingüísticos. Su método presenta un modelo de aprendizaje contrastivo entrenado para descodificar representaciones del habla auto supervisadas. Se discuten las comparaciones con estudios invasivos que resaltan un vocabulario más amplio y posibles aplicaciones en la producción del habla. Se obtuvieron aprobaciones éticas para los conjuntos de datos de voluntarios adultos sanos que involucraron escucha pasiva.

Descodificar el habla a partir de grabaciones no invasivas del cerebro es un desafío significativo en el ámbito de la salud y la neurociencia. Si bien los dispositivos invasivos han avanzado, extender esto al habla natural sigue siendo difícil. Su enfoque presenta un modelo entrenado con aprendizaje contrastivo para descodificar representaciones del habla auto supervisadas a partir de datos no invasivos. Su avance ofrece una promesa en la descodificación del lenguaje a partir de la actividad cerebral sin procedimientos invasivos.

Su método introduce una tarea de descodificación neural para descifrar el habla percibida a partir de grabaciones no invasivas del cerebro. El modelo se entrena y evalúa utilizando cuatro conjuntos de datos públicos con 175 voluntarios grabados mediante MEG o EEG mientras escuchan historias. Utiliza una arquitectura de convolución común, entrenada simultáneamente en varios participantes. El análisis comparativo con líneas de base subraya la importancia del objetivo contrastivo y las representaciones del habla pre entrenadas. Además, las predicciones del descodificador dependen principalmente de representaciones semánticas léxicas y contextuales.

La precisión de descodificación varió entre los participantes y los conjuntos de datos. Las predicciones a nivel de palabras mostraron la identificación precisa de palabras correctas y la discriminación respecto a candidatos negativos. Las comparaciones con líneas de base subrayaron la importancia del objetivo contrastivo, las representaciones del habla pre entrenadas y una arquitectura de convolución compartida para mejorar la precisión de la descodificación. Las predicciones del descodificador dependen principalmente de representaciones semánticas léxicas y contextuales.

Los investigadores presentan un modelo basado en el aprendizaje contrastivo para descodificar el habla percibida a partir de grabaciones no invasivas del cerebro. Su modelo demuestra resultados prometedores, alcanzando una precisión promedio de hasta un 41% en la identificación de segmentos de habla y hasta un 80% de precisión en los participantes de mejor rendimiento. La comparación con líneas de base subraya la importancia de los objetivos contrastivos, las representaciones del habla pre entrenadas y una arquitectura de convolución compartida para mejorar la precisión de la descodificación. Las predicciones del descodificador dependen principalmente de la semántica léxica y contextual. Su trabajo tiene potencial para la descodificación del lenguaje no invasiva en aplicaciones de salud y neurociencia.

Investigaciones futuras deben elucidar los factores que contribuyen a las variaciones de precisión de descodificación entre los participantes y los conjuntos de datos. Es esencial investigar el rendimiento del modelo en la resolución de atributos lingüísticos más complejos y escenarios de percepción del habla en tiempo real. Es imperativo evaluar la capacidad del modelo para generalizarse a diversas técnicas de grabación o imágenes del cerebro. Explorar su capacidad para capturar la prosodia y las características fonéticas ofrecería una visión integral de la descodificación del habla.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El avance de la inteligencia artificial de IBM traducir COBOL a Java ahora es fácil

El mundo de la tecnología está en constante evolución, y IBM lidera la carga con una innovadora solución de IA que po...

Inteligencia Artificial

¿Se cayó ChatGPT? ¡Tiempo de inactividad y rápida recuperación del AI de OpenAI!

La comunidad de inteligencia artificial sufrió un breve revés. ChatGPT, un popular chatbot desarrollado por OpenAI, e...

Aprendizaje Automático

¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?

La escala exponencialmente creciente de los modelos de deep learning es una fuerza importante para avanzar en el esta...