Investigadores de Microsoft y Georgia Tech presentan TongueTap reconocimiento multimodal de gestos de lengua con dispositivos usados en la cabeza.
Investigadores de Microsoft y Georgia Tech presentan TongueTap el reconocimiento multimodal de gestos de lengua con dispositivos usados en la cabeza.
La búsqueda de una interacción suave y sin manos en el campo en rápido desarrollo de la tecnología ponible ha producido descubrimientos revolucionarios. TongueTap, una tecnología que sincroniza múltiples flujos de datos para permitir el reconocimiento de gestos de lengua para controlar dispositivos usados en la cabeza, es un desarrollo prometedor. Este método permite a los usuarios interactuar en silencio, sin usar las manos ni los ojos, y sin necesidad de interfaces especialmente diseñadas que normalmente se colocan dentro o cerca de la boca.
En colaboración con Microsoft Research, Redmond, Washington, Estados Unidos, los investigadores del Instituto de Tecnología de Georgia han creado una interfaz de gestos de lengua (TongueTap) combinando sensores de dos cascos comerciales. Ambos cascos contenían IMUs y sensores de fotopletismografía (PPG). Uno de los cascos incluye sensores de electroencefalografía (EEG), seguimiento ocular y seguimiento de cabeza. Los datos de los dos cascos, Muse 2 y Reverb G2 OE, se sincronizaron utilizando Lab Streaming Layer (LSL), un sistema de sincronización de tiempo comúnmente utilizado para interfaces cerebro-computadora multimodales.
El equipo preprocesó el flujo de trabajo utilizando un filtro pasa baja de 128 Hz utilizando SciPy y un análisis de componentes independientes (ICA) en las señales de EEG, mientras que aplicaban un análisis de componentes principales (PCA) a los otros sensores, cada sensor por separado de los demás. Para el reconocimiento de gestos, utilizaron una Máquina de Vectores de Soporte (SVM) en Scikit-Learn utilizando una función de núcleo de base radial (RBF) con hiperparámetros C=100 y gamma=1 para realizar una clasificación binaria y determinar si una ventana móvil de datos contenía un gesto o no.
- ¿Podemos mapear escenas a gran escala en tiempo real sin aceleración de GPU? Este artículo de IA presenta ‘ImMesh’ para la localización y mapeo avanzado basado en LiDAR.
- 20 Mejores Comandos de ChatGPT para Escribir en un Blog
- Manteniendo los costos de infraestructura de IA bajos con gobernanza de API
Recopilaron un gran conjunto de datos para evaluar el reconocimiento de gestos de lengua con la ayuda de 16 participantes. El resultado más interesante del estudio fue qué sensores eran más efectivos para clasificar los gestos de lengua. El IMU en el Muse fue el sensor más efectivo, alcanzando el 80% por sí solo. Las combinaciones multimodales, que incluían el IMU de Muse, fueron aún más eficientes, con una variedad de sensores PPG logrando una precisión del 94%.
Basándose en los sensores con la mejor precisión, se observó que el IMU detrás de la oreja es un método de bajo costo para detectar gestos de lengua con una posición que permite combinarlo con enfoques anteriores de detección de boca. Otro paso crítico para hacer que los gestos de lengua sean viables para los productos es un modelo de clasificación confiable e independiente del usuario. Se necesita un diseño de estudio más ecológicamente válido con múltiples sesiones y movilidad entre entornos para que los gestos se traduzcan a entornos más realistas.
Un gran avance en la dirección de una interacción suave e intuitiva con dispositivos ponibles está representado por TongueTap. Su capacidad para identificar y categorizar gestos de lengua utilizando tecnología comercialmente disponible allana el camino para un momento en que el control discreto, preciso y fácil de usar de dispositivos usados en la cabeza sea concebible. La aplicación más prometedora para las interacciones de lengua es el control de interfaces de realidad aumentada. Los investigadores planean estudiar esta interacción multiórgano más a fondo experimentando con su uso en auriculares de realidad aumentada y comparándolo con otras interacciones basadas en la vista.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Observabilidad de Datos Confiabilidad en la Era de la IA
- Navegando el liderazgo en software en una era dinámica
- 3 Poderosas Bibliotecas de Python para (Parcialmente) Automatizar EDA Y Ayudarte a Comenzar con tu Proyecto de Datos
- Introducción a la Optimización Matemática en Python
- 15 Proyectos Guiados para Reforzar tus Habilidades en Ciencia de Datos
- Control de versiones en la práctica datos, modelo de ML y código
- Investigadores de Microsoft presentan el Marco de Consorcio Confidencial (CCF) un marco de inteligencia artificial de propósito general para el desarrollo de aplicaciones de la CIA seguras y con estado.