Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que se entrena de principio a fin para procesar directamente los espectrogramas como entrada y salida.

Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que procesa espectrogramas directamente como entrada y salida, entrenado de principio a fin.

Los LLM de continuación de discurso y preguntas y respuestas son herramientas versátiles que se pueden aplicar a una amplia gama de tareas e industrias, lo que las hace valiosas para mejorar la productividad, mejorar las experiencias de usuario y avanzar en la investigación y desarrollo en diversos campos. Ejemplos destacados de tales LLM incluyen GPT-3 y sus sucesores, que han ganado atención significativa por su impresionante rendimiento en la comprensión y generación de texto.

Estos LLM suelen estar construidos sobre arquitecturas de aprendizaje profundo. Se pre-entrenan en grandes cantidades de datos de texto, lo que les permite comprender los matices del lenguaje humano y generar texto relevante y coherente contextualmente, capturando los patrones estadísticos y las estructuras del lenguaje natural basado en texto.

El equipo de investigación de Google y Verily AI presentó un nuevo modelo de lenguaje oral llamado “Spectron”. Este modelo procesa directamente espectrogramas tanto como entrada como salida. Un espectrograma es una representación visual del espectro de frecuencias de una señal a medida que varían en el tiempo. Este modelo utiliza capas de proyección intermedias para aprovechar las capacidades de audio de un codificador de voz pre-entrenado. Este modelo no solo elimina los sesgos inductivos que suelen surgir en un codificador y decodificador pre-entrenados, sino que lo hace sin sacrificar la fidelidad de representación.

El modelo de lenguaje transcribe y genera continuaciones de texto, actuando como un “papel de borrador” intermedio, condicionado adicionalmente para la generación de audio. Las derivadas de la verdad fundamental expresan información rica y a largo plazo sobre la forma de la señal. El equipo utiliza este hecho para supervisar el modelo y coincidir con las deltas temporales y de características de orden superior de la verdad fundamental utilizando la regresión de espectrograma.

La arquitectura del modelo se inicializa con un codificador de voz pre-entrenado y un decodificador de lenguaje pre-entrenado. El codificador se solicita con una expresión de voz como entrada y se codifica en características lingüísticas. Las características actúan como entrada al decodificador como un prefijo, y todo el codificador-decodificador se optimiza para minimizar la entropía cruzada conjuntamente. Este método proporciona una indicación hablada, codificada y luego decodificada para dar tanto continuaciones de texto como de voz.

Los investigadores utilizaron la misma arquitectura para decodificar el texto intermedio y los espectrogramas. Esto tiene dos beneficios. En primer lugar, el pre-entrenamiento del LM en el dominio del texto para continuar la indicación en el dominio del texto antes de sintetizar el habla. En segundo lugar, el texto predicho sirve como razonamiento intermedio, mejorando la calidad del habla sintetizada, de manera análoga a las mejoras en los modelos de lenguaje basados en texto.

Sin embargo, su trabajo es complejo en cuanto a tiempo y espacio. Requiere la generación de múltiples tramas de espectrograma, lo cual lleva tiempo. Esto hace que la generación de enunciados de habla largos no sea posible. Otra limitación es que el modelo no puede ejecutar el proceso de decodificación de texto y espectrograma en paralelo. En el futuro, el equipo se centrará en el desarrollo de un algoritmo de decodificación paralelizada.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Tesla retira 2 millones de autos con controles de seguridad de 'autoguiado' insuficientes

Tesla está retirando más de 2 millones de vehículos para solucionar los sistemas de Autopilot que los reguladores gub...

Inteligencia Artificial

Una Nueva Forma de Ver la Privacidad de los Datos

Una nueva métrica permite agregar una pequeña cantidad de ruido a los modelos para proteger los datos sensibles mient...

Ciencias de la Computación

Europa avanza en la regulación de la IA, desafiando el poder de los gigantes tecnológicos.

Bruselas presentó un nuevo desafío antimonopolio contra Google el mismo día en que los legisladores europeos votaron ...

Inteligencia Artificial

La IA y los implantes cerebrales restauran el movimiento y la sensación para un hombre paralizado

En un logro médico innovador, médicos en Estados Unidos han aprovechado el poder de la Inteligencia Artificial (IA) y...

Inteligencia Artificial

Conoce a Gemini el innovador modelo multimodal de IA de Google que redefine el futuro de la inteligencia artificial

La última incursión de Google en la inteligencia artificial, Gemini, representa un salto significativo en la tecnolog...

Inteligencia Artificial

Modelos Generales del Mundo Investigación en IA de Pasarela Iniciando un Nuevo Esfuerzo de Investigación a Largo Plazo

Un modelo mundial es un sistema de IA que tiene como objetivo construir una comprensión interna de un entorno y utili...