Investigadores de Microsoft y Georgia Tech presentan TongueTap reconocimiento multimodal de gestos de lengua con dispositivos usados en la cabeza.

Investigadores de Microsoft y Georgia Tech presentan TongueTap el reconocimiento multimodal de gestos de lengua con dispositivos usados en la cabeza.

La búsqueda de una interacción suave y sin manos en el campo en rápido desarrollo de la tecnología ponible ha producido descubrimientos revolucionarios. TongueTap, una tecnología que sincroniza múltiples flujos de datos para permitir el reconocimiento de gestos de lengua para controlar dispositivos usados en la cabeza, es un desarrollo prometedor. Este método permite a los usuarios interactuar en silencio, sin usar las manos ni los ojos, y sin necesidad de interfaces especialmente diseñadas que normalmente se colocan dentro o cerca de la boca.

En colaboración con Microsoft Research, Redmond, Washington, Estados Unidos, los investigadores del Instituto de Tecnología de Georgia han creado una interfaz de gestos de lengua (TongueTap) combinando sensores de dos cascos comerciales. Ambos cascos contenían IMUs y sensores de fotopletismografía (PPG). Uno de los cascos incluye sensores de electroencefalografía (EEG), seguimiento ocular y seguimiento de cabeza. Los datos de los dos cascos, Muse 2 y Reverb G2 OE, se sincronizaron utilizando Lab Streaming Layer (LSL), un sistema de sincronización de tiempo comúnmente utilizado para interfaces cerebro-computadora multimodales.

El equipo preprocesó el flujo de trabajo utilizando un filtro pasa baja de 128 Hz utilizando SciPy y un análisis de componentes independientes (ICA) en las señales de EEG, mientras que aplicaban un análisis de componentes principales (PCA) a los otros sensores, cada sensor por separado de los demás. Para el reconocimiento de gestos, utilizaron una Máquina de Vectores de Soporte (SVM) en Scikit-Learn utilizando una función de núcleo de base radial (RBF) con hiperparámetros C=100 y gamma=1 para realizar una clasificación binaria y determinar si una ventana móvil de datos contenía un gesto o no.

Recopilaron un gran conjunto de datos para evaluar el reconocimiento de gestos de lengua con la ayuda de 16 participantes. El resultado más interesante del estudio fue qué sensores eran más efectivos para clasificar los gestos de lengua. El IMU en el Muse fue el sensor más efectivo, alcanzando el 80% por sí solo. Las combinaciones multimodales, que incluían el IMU de Muse, fueron aún más eficientes, con una variedad de sensores PPG logrando una precisión del 94%.

Basándose en los sensores con la mejor precisión, se observó que el IMU detrás de la oreja es un método de bajo costo para detectar gestos de lengua con una posición que permite combinarlo con enfoques anteriores de detección de boca. Otro paso crítico para hacer que los gestos de lengua sean viables para los productos es un modelo de clasificación confiable e independiente del usuario. Se necesita un diseño de estudio más ecológicamente válido con múltiples sesiones y movilidad entre entornos para que los gestos se traduzcan a entornos más realistas.

Un gran avance en la dirección de una interacción suave e intuitiva con dispositivos ponibles está representado por TongueTap. Su capacidad para identificar y categorizar gestos de lengua utilizando tecnología comercialmente disponible allana el camino para un momento en que el control discreto, preciso y fácil de usar de dispositivos usados en la cabeza sea concebible. La aplicación más prometedora para las interacciones de lengua es el control de interfaces de realidad aumentada. Los investigadores planean estudiar esta interacción multiórgano más a fondo experimentando con su uso en auriculares de realidad aumentada y comparándolo con otras interacciones basadas en la vista.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Uncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Microsoft y Georgia Tech presentan TongueTap reconocimiento multimodal de gestos de lengua con dispositivos usados en la cabeza.

Was this article helpful?

¿Podemos mapear escenas a gran escala en tiempo real sin aceleración de GPU? Este artículo de IA presenta ‘ImMesh’ para la localización y mapeo avanzado basado en LiDAR.

Las mejores 15 bases de datos vectoriales para la ciencia de datos en 2024 una guía completa

Inteligencia Artificial

Principales 10 vulnerabilidades LLM

Un estudio encuentra que ChatGPT aumenta la productividad de los trabajadores en algunas tareas de escritura

¿Por qué el aprendizaje profundo siempre se realiza en datos de matriz? Nueva investigación de IA introduce 'Spatial Functa', donde desde los datos hasta la Functa se tratan como uno solo.

Desde el Internet de las Cosas hasta el Internet de Todo La Convergencia de la IA y el 6G para una Inteligencia Conectada

Investigadores de la Universidad Johannes Kepler presentan GateLoop Avanzando en el modelado de secuencias con recurrencia lineal y transiciones de estado controladas por datos'.

Analógico y Digital Lo Mejor de Ambos Mundos en un Sistema Eficiente en Energía