Revolucionando las habilidades de escucha de la IA La Universidad de Tsinghua y ByteDance revelan SALMONN, una revolucionaria red neuronal multimodal para el procesamiento avanzado de audio
Revolucionando las habilidades de escucha de la IA Universidad de Tsinghua y ByteDance presentan SALMONN, una red neuronal multimodal pionera en el procesamiento avanzado de audio
En varias aplicaciones de procesamiento del lenguaje natural, los grandes modelos de lenguaje basados en texto han demostrado un rendimiento impresionante e incluso a nivel humano. Mientras tanto, ha surgido un paradigma de entrenamiento de LLM conocido como ajuste de instrucciones, en el cual los datos se organizan en pares de instrucciones del usuario y respuestas de referencia, que permite a los LLM cumplir con comandos de usuario sin restricciones. Cada vez más, los investigadores están interesados en dotar a los LLM con habilidades sensoriales multimodales. La investigación actual se centra en vincular los LLM con el codificador de uno o más tipos de entrada, como una imagen, un video silencioso, un evento de audio o voz, o con los codificadores de varios tipos de entrada juntos.
Para alinear los espacios de salida del codificador con el espacio de entrada del LLM, que a menudo se enseña mediante preentrenamiento cruzado y ajuste de instrucciones, se puede utilizar un módulo de conexión y adaptadores de LLM. El sistema de red neural abierto de habla, audio, lenguaje y música propuesto en este estudio es un LLM multimodal de audio y texto único que puede reconocer y comprender habla, eventos de audio y música, las tres principales categorías de sonidos. SALMONN utiliza un marco de codificador dual, que comprende un codificador de audio BEATs y un codificador de voz del modelo de voz Whisper, para mejorar el rendimiento tanto en aplicaciones de habla como de audio no relacionadas con el habla.
Para mejorar aún más el rendimiento de Vicuna, se utiliza una estrategia de adaptador de baja graduación como un adaptador cruzado para igualar el espacio de entrada aumentado con el espacio de salida. Las fases de preentrenamiento y ajuste de instrucciones cruzadas de Q-Former y LoRA a nivel de ventana emplean muchos desafíos de habla, audio y música. Los LLM multimodales resultantes muestran habilidades transmodales emergentes escasas o nulas y pueden estar limitados a los tipos específicos de tareas utilizados en el ajuste de instrucciones, en concreto, subtitulación de audio y reconocimiento de voz, lo que ellos denominan el problema de ajuste excesivo de tareas. La capacidad de realizar tareas transmodales que no se perciben durante el entrenamiento se denomina habilidades emergentes transmodales en este estudio. Estas habilidades son básicamente las capacidades emergentes de los LLM que se pierden durante la adaptación de instrucciones.
- Cómo creo personajes consistentes con DALL-E 3 en ChatGPT.
- Mejorando la seguridad en los juegos con la integración de IA y Blockchain
- Asistentes de correo electrónico AI más valorados (noviembre de 2023)
Para mitigar el olvido catastrófico significativo de las tareas de entrenamiento, sugieren añadir una etapa adicional de ajuste de activación a pocos tiros al repertorio de SALMONN. Se evalúan las habilidades auditivas cognitivas de SALMONN utilizando una variedad de estándares de habla, eventos auditivos y música. Hay tres niveles para las tareas. Los dos primeros niveles prueban actividades no entrenadas, mientras que el primer nivel establece ocho tareas que se enseñan en el ajuste de instrucciones, incluyendo subtitulación de audio, traducción y reconocimiento de voz. El segundo nivel incluye cinco tareas de procesamiento del lenguaje natural (NLP) basadas en el habla, incluyendo el llenado de espacios y la traducción a idiomas no entrenados. Estas tareas requieren alineaciones multilingües y de alta calidad entre la voz y los tokens de texto.
La comprensión de la información auditiva no relacionada con el habla es necesaria para el último conjunto de actividades, como la narración basada en audio y el razonamiento conjunto de audio y voz. Los resultados de los experimentos demuestran que SALMONN puede completar todas estas tareas y comportarse de manera competitiva en pruebas de la industria cuando se utiliza como un único modelo. Esto sugiere que es posible crear inteligencia artificial capaz de “escuchar” y comprender una amplia variedad de entradas de audio, incluyendo habla, eventos de audio y música.
La principal contribución de este documento se puede resumir de la siguiente manera.
• Hasta donde sabemos, los investigadores de la Universidad Tsinghua y ByteDance ofrecen SALMONN, el primer LLM multimodal que puede reconocer y comprender entradas de audio generales, incluyendo voz, eventos de audio y música.
• Variando el factor de escala de LoRA, investigan la existencia de habilidades emergentes transmodales. Luego sugieren una técnica de ajuste de activación de bajo coste como paso adicional de entrenamiento que puede activar estas habilidades y reducir el olvido catastrófico de las tareas encontradas durante el entrenamiento.
• Proponen dos nuevas tareas, la narración basada en audio y el razonamiento conjunto de audio y voz, y evalúan SALMONN en una variedad de tareas que representan una serie de habilidades auditivas generales.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce a Watsonx Code Assistant de IBM Revolucionando la codificación empresarial con asistencia impulsada por IA
- Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión
- Aceptando la IA en el periodismo El carrusel de noticias
- El modelo de IA RealLife de Google se siente como magia
- Investigadores de Apple proponen la política de aprendizaje por refuerzo del modelo de lenguaje grande (LLaRP, por sus siglas en inglés) Enfoque de IA mediante el cual los LLM pueden adaptarse para actuar como políticas generalizables para tareas visuales
- Presentando las Regiones de Almacenamiento en el HF Hub
- La nueva canción de The Beatles ‘Now and Then’ utilizó inteligencia artificial para rescatar la voz de John Lennon