API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo mediante la vinculación con un modelo de lenguaje GPT.
API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo con la integración de un modelo de lenguaje GPT
Parte de una serie sobre cómo la inteligencia artificial moderna y otras tecnologías podrían ayudar a una interacción humano-computadora más eficiente
Creo que las tecnologías modernas permiten interacciones humano-computadora mucho más simples y naturales de lo que propone el software actual. De hecho, pienso que las tecnologías están suficientemente maduras como para prescindir de las interfaces tradicionales y avanzar con una revolución en la experiencia del usuario.
Los modelos de lenguaje grandes ciertamente han desencadenado una etapa de esta revolución, especialmente en la forma en que buscamos información. Sin embargo, creo que las tecnologías aún pueden ofrecer mucho más. Por ejemplo, todavía estamos mayormente limitados a pantallas planas a pesar de la disminución de los costos de los auriculares de realidad virtual; todavía utilizamos el ratón, el teclado y los gestos táctiles para operar dispositivos a pesar del nivel de avance de tecnologías como el seguimiento visual, el reconocimiento de voz y el seguimiento de las extremidades del cuerpo; aún estamos leyendo mucho a pesar de los grandes avances en la síntesis de voz.
Siento que las tecnologías actuales son suficientemente maduras para ofrecer interacciones humano-computadora casi como las de Star Trek (si no sabes a qué me refiero, mira esto), sin embargo, queremos quedarnos anclados en el pasado.
Con este artículo, inicio una serie corta dedicada a cómo podrían cambiar para siempre las interacciones humano-computadora gracias a tecnologías modernas que ya funcionan muy bien, como podrás comprobar tú mismo con los fragmentos de código y las aplicaciones de ejemplo que compartiré.
- Modelos grandes se encuentran con Big Data Spark y LLM (modelos lineales latentes) en armonía
- Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la red neuronal recurrente RNN jerárquicamente controlada una nueva frontera en la eficiente modelización de dependencia a largo plazo
- Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles
Fiel a mi estilo, hablaré específicamente sobre implementaciones basadas en la web de todas estas tecnologías modernas. Y empiezo aquí con la API de reconocimiento de voz del navegador web, discutiendo su poder, mostrando algunos casos de uso, resaltando limitaciones y ejemplificando cómo se pueden superar algunas de estas limitaciones acoplando la API a modelos de lenguaje grandes.
Esta serie se basa en un proyecto reciente en el que trabajé para construir una aplicación web de primer tipo para gráficos y modelado molecular inmersivos y multiusuario, HandMol:
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- El Enfoque Principiado para las Etapas Tempranas de Clasificación
- Protección de datos fundamentales para la aceleración de LLM empresarial con Protopia AI
- Permite un entrenamiento más rápido con la biblioteca de paralelismo de datos de Amazon SageMaker
- Ciberseguridad protege la alimentación y la agricultura
- Utilizando LLMs para codificar nuevas tareas para los robots
- Enfoque de un Arquitecto Ejecutivo de FinOps Cómo la Inteligencia Artificial y la Automatización Simplifican la Gestión de Datos
- ¿Qué están diciendo los despidos tecnológicos sobre la industria de la Inteligencia Artificial?