Revolucionando las habilidades de escucha de la IA La Universidad de Tsinghua y ByteDance revelan SALMONN, una revolucionaria red neuronal multimodal para el procesamiento avanzado de audio

Revolucionando las habilidades de escucha de la IA Universidad de Tsinghua y ByteDance presentan SALMONN, una red neuronal multimodal pionera en el procesamiento avanzado de audio

En varias aplicaciones de procesamiento del lenguaje natural, los grandes modelos de lenguaje basados en texto han demostrado un rendimiento impresionante e incluso a nivel humano. Mientras tanto, ha surgido un paradigma de entrenamiento de LLM conocido como ajuste de instrucciones, en el cual los datos se organizan en pares de instrucciones del usuario y respuestas de referencia, que permite a los LLM cumplir con comandos de usuario sin restricciones. Cada vez más, los investigadores están interesados en dotar a los LLM con habilidades sensoriales multimodales. La investigación actual se centra en vincular los LLM con el codificador de uno o más tipos de entrada, como una imagen, un video silencioso, un evento de audio o voz, o con los codificadores de varios tipos de entrada juntos.

Para alinear los espacios de salida del codificador con el espacio de entrada del LLM, que a menudo se enseña mediante preentrenamiento cruzado y ajuste de instrucciones, se puede utilizar un módulo de conexión y adaptadores de LLM. El sistema de red neural abierto de habla, audio, lenguaje y música propuesto en este estudio es un LLM multimodal de audio y texto único que puede reconocer y comprender habla, eventos de audio y música, las tres principales categorías de sonidos. SALMONN utiliza un marco de codificador dual, que comprende un codificador de audio BEATs y un codificador de voz del modelo de voz Whisper, para mejorar el rendimiento tanto en aplicaciones de habla como de audio no relacionadas con el habla.

Para mejorar aún más el rendimiento de Vicuna, se utiliza una estrategia de adaptador de baja graduación como un adaptador cruzado para igualar el espacio de entrada aumentado con el espacio de salida. Las fases de preentrenamiento y ajuste de instrucciones cruzadas de Q-Former y LoRA a nivel de ventana emplean muchos desafíos de habla, audio y música. Los LLM multimodales resultantes muestran habilidades transmodales emergentes escasas o nulas y pueden estar limitados a los tipos específicos de tareas utilizados en el ajuste de instrucciones, en concreto, subtitulación de audio y reconocimiento de voz, lo que ellos denominan el problema de ajuste excesivo de tareas. La capacidad de realizar tareas transmodales que no se perciben durante el entrenamiento se denomina habilidades emergentes transmodales en este estudio. Estas habilidades son básicamente las capacidades emergentes de los LLM que se pierden durante la adaptación de instrucciones.

Para mitigar el olvido catastrófico significativo de las tareas de entrenamiento, sugieren añadir una etapa adicional de ajuste de activación a pocos tiros al repertorio de SALMONN. Se evalúan las habilidades auditivas cognitivas de SALMONN utilizando una variedad de estándares de habla, eventos auditivos y música. Hay tres niveles para las tareas. Los dos primeros niveles prueban actividades no entrenadas, mientras que el primer nivel establece ocho tareas que se enseñan en el ajuste de instrucciones, incluyendo subtitulación de audio, traducción y reconocimiento de voz. El segundo nivel incluye cinco tareas de procesamiento del lenguaje natural (NLP) basadas en el habla, incluyendo el llenado de espacios y la traducción a idiomas no entrenados. Estas tareas requieren alineaciones multilingües y de alta calidad entre la voz y los tokens de texto.

La comprensión de la información auditiva no relacionada con el habla es necesaria para el último conjunto de actividades, como la narración basada en audio y el razonamiento conjunto de audio y voz. Los resultados de los experimentos demuestran que SALMONN puede completar todas estas tareas y comportarse de manera competitiva en pruebas de la industria cuando se utiliza como un único modelo. Esto sugiere que es posible crear inteligencia artificial capaz de “escuchar” y comprender una amplia variedad de entradas de audio, incluyendo habla, eventos de audio y música.

La principal contribución de este documento se puede resumir de la siguiente manera.

• Hasta donde sabemos, los investigadores de la Universidad Tsinghua y ByteDance ofrecen SALMONN, el primer LLM multimodal que puede reconocer y comprender entradas de audio generales, incluyendo voz, eventos de audio y música.

• Variando el factor de escala de LoRA, investigan la existencia de habilidades emergentes transmodales. Luego sugieren una técnica de ajuste de activación de bajo coste como paso adicional de entrenamiento que puede activar estas habilidades y reducir el olvido catastrófico de las tareas encontradas durante el entrenamiento.

• Proponen dos nuevas tareas, la narración basada en audio y el razonamiento conjunto de audio y voz, y evalúan SALMONN en una variedad de tareas que representan una serie de habilidades auditivas generales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Renee Grogan, desarrolladora de soluciones mineras en Impossible Metals, visualiza a los robots submarinos como clave...

Inteligencia Artificial

Este artículo de IA presenta un estudio sobre las pruebas de AIS (Síndrome de Insensibilidad a los Andrógenos) utilizando modelos de aprendizaje profundo

AIS significa Síndrome de Insensibilidad a los Andrógenos. AIS es un problema cerebral espinal que afecta a la genera...

Inteligencia Artificial

Sistemas de IA Sesgos desenterrados y la apasionante búsqueda de la verdadera equidad

La Inteligencia Artificial (IA) ya no es un concepto futurista, se ha convertido en una parte intrínseca de nuestras ...

Inteligencia Artificial

Visión del PM Modi sobre la regulación de la IA en India Cumbre B20 2023

A medida que el B20 Summit India 2023 llegaba a su fin en Delhi, las palabras del primer ministro Narendra Modi conti...

Inteligencia Artificial

ChatGPT se adentra en el lado robótico la última maravilla mecánica de Boston Dynamics ahora responde verbalmente

En un desarrollo innovador, la empresa de ingeniería Boston Dynamics ha integrado ChatGPT, un sofisticado modelo de l...