API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo mediante la vinculación con un modelo de lenguaje GPT.

API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo con la integración de un modelo de lenguaje GPT

Parte de una serie sobre cómo la inteligencia artificial moderna y otras tecnologías podrían ayudar a una interacción humano-computadora más eficiente

Foto de palesa en Unsplash

Creo que las tecnologías modernas permiten interacciones humano-computadora mucho más simples y naturales de lo que propone el software actual. De hecho, pienso que las tecnologías están suficientemente maduras como para prescindir de las interfaces tradicionales y avanzar con una revolución en la experiencia del usuario.

Los modelos de lenguaje grandes ciertamente han desencadenado una etapa de esta revolución, especialmente en la forma en que buscamos información. Sin embargo, creo que las tecnologías aún pueden ofrecer mucho más. Por ejemplo, todavía estamos mayormente limitados a pantallas planas a pesar de la disminución de los costos de los auriculares de realidad virtual; todavía utilizamos el ratón, el teclado y los gestos táctiles para operar dispositivos a pesar del nivel de avance de tecnologías como el seguimiento visual, el reconocimiento de voz y el seguimiento de las extremidades del cuerpo; aún estamos leyendo mucho a pesar de los grandes avances en la síntesis de voz.

Siento que las tecnologías actuales son suficientemente maduras para ofrecer interacciones humano-computadora casi como las de Star Trek (si no sabes a qué me refiero, mira esto), sin embargo, queremos quedarnos anclados en el pasado.

Con este artículo, inicio una serie corta dedicada a cómo podrían cambiar para siempre las interacciones humano-computadora gracias a tecnologías modernas que ya funcionan muy bien, como podrás comprobar tú mismo con los fragmentos de código y las aplicaciones de ejemplo que compartiré.

Fiel a mi estilo, hablaré específicamente sobre implementaciones basadas en la web de todas estas tecnologías modernas. Y empiezo aquí con la API de reconocimiento de voz del navegador web, discutiendo su poder, mostrando algunos casos de uso, resaltando limitaciones y ejemplificando cómo se pueden superar algunas de estas limitaciones acoplando la API a modelos de lenguaje grandes.

Esta serie se basa en un proyecto reciente en el que trabajé para construir una aplicación web de primer tipo para gráficos y modelado molecular inmersivos y multiusuario, HandMol:

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a Fuyu-8B El modelo de fundación muy único detrás de la plataforma Adept

Adept.ai es parte de la generación de nuevos unicornios de la IA. Inicialmente incubado por algunos de los autores de...

Inteligencia Artificial

La FAA aprueba el sistema de aeronaves no tripuladas más grande de los Estados Unidos.

La Administración Federal de Aviación de los Estados Unidos aprobó la operación comercial de los rociadores agrícolas...

Inteligencia Artificial

Train y despliega modelos de ML en un entorno multicloud utilizando Amazon SageMaker

En esta publicación, demostramos una de las muchas opciones que tienes para aprovechar las capacidades de IA/ML más a...

Inteligencia Artificial

Asistentes de correo electrónico AI más valorados (noviembre de 2023)

Translate this html (keep the html code in the result) to Spanish: Los asistentes de correo electrónico de inteligenc...

Noticias de Inteligencia Artificial

'AI Doctor' predice la readmisión en hospitales y otros resultados de salud.

Los investigadores inventaron un algoritmo de inteligencia artificial para predecir los resultados de salud de los pa...