API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo mediante la vinculación con un modelo de lenguaje GPT.

API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo con la integración de un modelo de lenguaje GPT

Parte de una serie sobre cómo la inteligencia artificial moderna y otras tecnologías podrían ayudar a una interacción humano-computadora más eficiente

Creo que las tecnologías modernas permiten interacciones humano-computadora mucho más simples y naturales de lo que propone el software actual. De hecho, pienso que las tecnologías están suficientemente maduras como para prescindir de las interfaces tradicionales y avanzar con una revolución en la experiencia del usuario.

Los modelos de lenguaje grandes ciertamente han desencadenado una etapa de esta revolución, especialmente en la forma en que buscamos información. Sin embargo, creo que las tecnologías aún pueden ofrecer mucho más. Por ejemplo, todavía estamos mayormente limitados a pantallas planas a pesar de la disminución de los costos de los auriculares de realidad virtual; todavía utilizamos el ratón, el teclado y los gestos táctiles para operar dispositivos a pesar del nivel de avance de tecnologías como el seguimiento visual, el reconocimiento de voz y el seguimiento de las extremidades del cuerpo; aún estamos leyendo mucho a pesar de los grandes avances en la síntesis de voz.

Siento que las tecnologías actuales son suficientemente maduras para ofrecer interacciones humano-computadora casi como las de Star Trek (si no sabes a qué me refiero, mira esto), sin embargo, queremos quedarnos anclados en el pasado.

Con este artículo, inicio una serie corta dedicada a cómo podrían cambiar para siempre las interacciones humano-computadora gracias a tecnologías modernas que ya funcionan muy bien, como podrás comprobar tú mismo con los fragmentos de código y las aplicaciones de ejemplo que compartiré.

Fiel a mi estilo, hablaré específicamente sobre implementaciones basadas en la web de todas estas tecnologías modernas. Y empiezo aquí con la API de reconocimiento de voz del navegador web, discutiendo su poder, mostrando algunos casos de uso, resaltando limitaciones y ejemplificando cómo se pueden superar algunas de estas limitaciones acoplando la API a modelos de lenguaje grandes.

Esta serie se basa en un proyecto reciente en el que trabajé para construir una aplicación web de primer tipo para gráficos y modelado molecular inmersivos y multiusuario, HandMol:

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

API de reconocimiento de voz en la web qué funciona, qué no funciona y cómo mejorarlo mediante la vinculación con un modelo de lenguaje GPT.

Parte de una serie sobre cómo la inteligencia artificial moderna y otras tecnologías podrían ayudar a una interacción humano-computadora más eficiente

Was this article helpful?

Modelos grandes se encuentran con Big Data Spark y LLM (modelos lineales latentes) en armonía

Programando las GPU de Apple a través de Go y el lenguaje de sombreado Metal

Inteligencia Artificial

Conoce a Fuyu-8B El modelo de fundación muy único detrás de la plataforma Adept

Investigadores de la Universidad de Pennsylvania han desarrollado un marco de aprendizaje automático para evaluar la eficacia de las características de inteligencia artificial basadas en la visión mediante la realización de una serie de pruebas en

La FAA aprueba el sistema de aeronaves no tripuladas más grande de los Estados Unidos.

Train y despliega modelos de ML en un entorno multicloud utilizando Amazon SageMaker

Asistentes de correo electrónico AI más valorados (noviembre de 2023)

'AI Doctor' predice la readmisión en hospitales y otros resultados de salud.