Investigadores del Instituto de Tecnología Shibaura revolucionan la detección de la dirección del rostro con Aprendizaje Profundo navegando los desafíos de las características faciales ocultas y ampliando los ángulos del horizonte.

Expertos del Instituto de Tecnología Shibaura transforman la detección de la orientación facial usando Aprendizaje Profundo para superar los desafíos de las características ocultas y ampliar los ángulos del horizonte.

En visión por computadora e interacción humano-computadora, la tarea crítica de estimación de la orientación facial ha surgido como un componente esencial con aplicaciones multifacéticas. Un dominio particularmente notable donde esta tecnología desempeña un papel vital es en los sistemas de monitoreo de conductores destinados a mejorar la seguridad vial. Estos sistemas aprovechan el poder de los modelos de aprendizaje automático para analizar continuamente la orientación del rostro del conductor en tiempo real, determinando su atención a la carretera o cualquier distracción que pueda estar presente, como enviar mensajes de texto o somnolencia. Cuando se detectan desviaciones de la orientación deseada, estos sistemas pueden emitir alertas o activar mecanismos de seguridad, reduciendo significativamente el riesgo de accidentes.

Tradicionalmente, la estimación de la orientación facial se basaba en reconocer características faciales distintivas y rastrear sus movimientos para inferir la orientación. Sin embargo, estos métodos convencionales encontraron limitaciones, como preocupaciones de privacidad y su susceptibilidad a fallar cuando las personas llevaban máscaras o cuando sus cabezas asumían posiciones inesperadas.

En respuesta a estos desafíos, investigadores del Instituto de Tecnología de Shibaura en Japón han liderado una solución innovadora de IA. Su enfoque revolucionario aprovecha técnicas de aprendizaje profundo e integra un sensor adicional en el proceso de entrenamiento del modelo. Esta innovadora adición identifica con precisión cualquier orientación facial a partir de datos de nube de puntos y logra este notable logro utilizando un conjunto de datos de entrenamiento relativamente pequeño.

Los investigadores aprovecharon las capacidades de una cámara de profundidad 3D, similar a los métodos anteriores, pero introdujeron un cambio radical: sensores giroscópicos, durante el proceso de entrenamiento. A medida que se recibían los datos, las nubes de puntos capturadas por la cámara de profundidad se emparejaban meticulosamente con información precisa sobre la orientación del rostro adquirida de un sensor giroscópico estratégicamente colocado en la parte posterior de la cabeza. Esta combinación ingeniosa produjo una medida precisa y consistente del ángulo de rotación horizontal de la cabeza.

La clave de su éxito radicaba en el vasto conjunto de datos que acumularon, que representaba una amplia variedad de ángulos de cabeza. Esta amplia base de datos permitió el entrenamiento de un modelo altamente preciso capaz de reconocer un espectro más amplio de orientaciones de la cabeza que los métodos tradicionales limitados solo a unos pocos. Además, gracias a la precisión del sensor giroscópico, solo se necesitaron una cantidad relativamente modesta de muestras para lograr esta notable versatilidad.

En conclusión, la fusión de técnicas de aprendizaje profundo con sensores giroscópicos ha inaugurado una nueva era de estimación de la orientación facial, trascendiendo las limitaciones de los métodos tradicionales. Con su capacidad para reconocer una amplia gama de orientaciones de cabeza y mantener la privacidad, este enfoque innovador tiene un gran potencial no solo para los sistemas de monitoreo de conductores, sino también para revolucionar la interacción humano-computadora y las aplicaciones de atención médica. A medida que la investigación en este campo avanza, podemos esperar carreteras más seguras, experiencias virtuales más inmersivas y diagnósticos de atención médica mejorados, todo gracias al ingenio de aquellos que empujan los límites de la tecnología.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceDeep LearningEditors PickMachine Learning

Was this article helpful?

93 out of 132 found this helpful

Investigadores de ETH Zurich y Microsoft presentan SCREWS Un marco de inteligencia artificial para mejorar el razonamiento en modelos de lenguaje grandes.

Investigadores del Instituto de Tecnología Shibaura revolucionan la detección de la dirección del rostro con Aprendizaje Profundo navegando los desafíos de las características faciales ocultas y ampliando los ángulos del horizonte.

Was this article helpful?

Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D

Investigadores de ETH Zurich y Microsoft presentan SCREWS Un marco de inteligencia artificial para mejorar el razonamiento en modelos de lenguaje grandes.

Inteligencia Artificial

Investigadores de UC Berkeley y UCSF revolucionan la generación de video neural presentando LLM-Grounded Video Diffusion (LVD) para mejorar la dinámica espacio-temporal.

Esta investigación de IA comparte una visión general exhaustiva de los modelos de lenguaje grandes (LLM) en grafos.

Nvidia está probando una IA generativa para sus ingenieros

Forjado en Llamas Startup fusiona la IA Generativa y la Visión por Computadora para Combatir los Incendios Forestales.

Investigadores de UC Berkeley presentan Gorilla un modelo basado en LLaMA afinado que supera a GPT-4 en la escritura de llamadas a la API.

ChatGPT obtiene una puntuación en el 1% superior en la prueba de creatividad humana