Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que se entrena de principio a fin para procesar directamente los espectrogramas como entrada y salida.

Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que procesa espectrogramas directamente como entrada y salida, entrenado de principio a fin.

Los LLM de continuación de discurso y preguntas y respuestas son herramientas versátiles que se pueden aplicar a una amplia gama de tareas e industrias, lo que las hace valiosas para mejorar la productividad, mejorar las experiencias de usuario y avanzar en la investigación y desarrollo en diversos campos. Ejemplos destacados de tales LLM incluyen GPT-3 y sus sucesores, que han ganado atención significativa por su impresionante rendimiento en la comprensión y generación de texto.

Estos LLM suelen estar construidos sobre arquitecturas de aprendizaje profundo. Se pre-entrenan en grandes cantidades de datos de texto, lo que les permite comprender los matices del lenguaje humano y generar texto relevante y coherente contextualmente, capturando los patrones estadísticos y las estructuras del lenguaje natural basado en texto.

El equipo de investigación de Google y Verily AI presentó un nuevo modelo de lenguaje oral llamado “Spectron”. Este modelo procesa directamente espectrogramas tanto como entrada como salida. Un espectrograma es una representación visual del espectro de frecuencias de una señal a medida que varían en el tiempo. Este modelo utiliza capas de proyección intermedias para aprovechar las capacidades de audio de un codificador de voz pre-entrenado. Este modelo no solo elimina los sesgos inductivos que suelen surgir en un codificador y decodificador pre-entrenados, sino que lo hace sin sacrificar la fidelidad de representación.

El modelo de lenguaje transcribe y genera continuaciones de texto, actuando como un “papel de borrador” intermedio, condicionado adicionalmente para la generación de audio. Las derivadas de la verdad fundamental expresan información rica y a largo plazo sobre la forma de la señal. El equipo utiliza este hecho para supervisar el modelo y coincidir con las deltas temporales y de características de orden superior de la verdad fundamental utilizando la regresión de espectrograma.

La arquitectura del modelo se inicializa con un codificador de voz pre-entrenado y un decodificador de lenguaje pre-entrenado. El codificador se solicita con una expresión de voz como entrada y se codifica en características lingüísticas. Las características actúan como entrada al decodificador como un prefijo, y todo el codificador-decodificador se optimiza para minimizar la entropía cruzada conjuntamente. Este método proporciona una indicación hablada, codificada y luego decodificada para dar tanto continuaciones de texto como de voz.

Los investigadores utilizaron la misma arquitectura para decodificar el texto intermedio y los espectrogramas. Esto tiene dos beneficios. En primer lugar, el pre-entrenamiento del LM en el dominio del texto para continuar la indicación en el dominio del texto antes de sintetizar el habla. En segundo lugar, el texto predicho sirve como razonamiento intermedio, mejorando la calidad del habla sintetizada, de manera análoga a las mejoras en los modelos de lenguaje basados en texto.

Sin embargo, su trabajo es complejo en cuanto a tiempo y espacio. Requiere la generación de múltiples tramas de espectrograma, lo cual lleva tiempo. Esto hace que la generación de enunciados de habla largos no sea posible. Otra limitación es que el modelo no puede ejecutar el proceso de decodificación de texto y espectrograma en paralelo. En el futuro, el equipo se centrará en el desarrollo de un algoritmo de decodificación paralelizada.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceDeep LearningEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Google AI presenta Spectron el primer modelo de IA de lenguaje hablado que se entrena de principio a fin para procesar directamente los espectrogramas como entrada y salida.

Was this article helpful?

Revolucionando las predicciones de moléculas biológicas con AlphaFold de DeepMind

¿Qué tan transparentes son los modelos de lenguaje grandes?

Inteligencia Artificial

Tesla retira 2 millones de autos con controles de seguridad de 'autoguiado' insuficientes

Una Nueva Forma de Ver la Privacidad de los Datos

Europa avanza en la regulación de la IA, desafiando el poder de los gigantes tecnológicos.

La IA y los implantes cerebrales restauran el movimiento y la sensación para un hombre paralizado

Conoce a Gemini el innovador modelo multimodal de IA de Google que redefine el futuro de la inteligencia artificial

Modelos Generales del Mundo Investigación en IA de Pasarela Iniciando un Nuevo Esfuerzo de Investigación a Largo Plazo