Salmonn Hacia habilidades auditivas genéricas para modelos de lenguaje de gran tamaño

Salmonn desarrollando habilidades auditivas genéricas para modelos de lenguaje de gran tamaño

La audición, que implica la percepción y comprensión de la información auditiva genérica, es crucial para los agentes de IA en entornos del mundo real. Esta información auditiva abarca tres tipos principales de sonido: música, eventos de audio y discurso. Recientemente, los marcos de modelos de lenguaje grandes basados en texto han mostrado habilidades notables, logrando un rendimiento a nivel humano en una amplia gama de tareas de procesamiento de lenguaje natural (NLP, por sus siglas en inglés). Además, la sintonización de instrucciones, un método de entrenamiento que utiliza pares de respuestas de referencia y estímulos de usuario, se ha vuelto popular. Este enfoque entrena a modelos de lenguaje grandes para seguir de manera más efectiva instrucciones abiertas de usuarios. Sin embargo, la investigación actual se centra cada vez más en mejorar los modelos de lenguaje grandes con la capacidad de percibir contenido multimodal.

Centrándonos en lo mismo, en este artículo hablaremos de SALMONN o Speech Audio Language Music Open Neural Network, un modelo neural de última generación abierto de habla, audio, lenguaje y música, construido mediante la incorporación de codificadores de habla y audio con un modelo de lenguaje grande pre-entrenado basado en texto en un único modelo multimodal de audio y texto. El modelo SALMONN permite que los modelos de lenguaje grandes comprendan y procesen entradas de audio genéricas directamente, y ofrezcan un rendimiento competitivo en una amplia variedad de tareas de audio y habla utilizadas en el entrenamiento, que incluyen respuesta a preguntas basadas en información auditiva, reconocimiento y traducción de voz, verificación de hablantes, reconocimiento de emociones, generación de subtítulos de audio y música, y mucho más. Nos sumergiremos más a fondo en el marco de SALMONN y exploraremos su funcionamiento, arquitectura y resultados en una amplia variedad de tareas de procesamiento de lenguaje natural. Así que empecemos. 

SALMONN: Una introducción a los modelos de lenguaje grandes multimodales de audio y texto únicos

SALMONN significa Speech Audio Language Music Open Neural Network, y es un marco de modelo grande de lenguaje multimodal de audio y texto único capaz de percibir y comprender tres tipos básicos de audio o sonido, que incluyen habla, eventos de audio y música. El modelo SALMONN permite que los modelos de lenguaje grandes comprendan y procesen entradas de audio genéricas directamente, y ofrezcan un rendimiento competitivo en una amplia variedad de tareas de audio y habla. 

Para mejorar su rendimiento tanto en tareas de audio de habla como de audio no hablado, el marco de SALMONN utiliza una estructura de codificador dual compuesta por un codificador de audio BEATs y un codificador de habla obtenido del modelo de habla Whisper. Además, el marco de SALMONN también utiliza un Q-Former o Transformador de consulta a nivel de ventana como módulo de conexión para convertir de manera efectiva una secuencia de salida de longitud variable del codificador a tokens de audio aumentados de un número variable, y lograr finalmente una alta resolución temporal para la alineación de audio y texto. El enfoque de adaptación de rango bajo, denominado LoRA, se utiliza como un adaptador cruzado para el marco de Vicuna con el fin de alinear su espacio de salida con su espacio de entrada aumentado en un intento de mejorar aún más su rendimiento. En el marco de SALMONN, la capacidad de realizar tareas cruzadas no vistas durante la fase de entrenamiento se pierde durante el entrenamiento de instrucciones como habilidades emergentes cruzadas, que es la razón principal por la que el marco de SALMONN implementa una etapa adicional de activación de unos pocos disparos para recuperar las habilidades emergentes generales del marco LLM. 

Además, el marco utiliza una amplia variedad de eventos de audio, puntos de referencia de música y puntos de referencia de habla para evaluar sus habilidades cognitivas auditivas, y divide los puntos de referencia en tres niveles. En el primer nivel de puntos de referencia, el marco entrena ocho tareas en la formación de instrucciones, que incluyen traducción, generación de subtítulos de audio y reconocimiento de voz. Los otros dos niveles de puntos de referencia son tareas no entrenadas, siendo el segundo nivel de puntos de referencia, tareas de procesamiento de lenguaje natural basadas en el habla, como el llenado de espacios y la traducción a idiomas no entrenados, basadas en alineaciones multilingües de alta calidad entre texto y tokens de habla. Las tareas de puntos de referencia finales intentan comprender información auditiva hablada y no hablada para razonamiento conjunto de habla-audio y narración basada en audio. 

Para resumir, el marco de SALMONN es:

  1. El primer modelo grande de lenguaje multimodal capaz de comprender y percibir entradas de audio generales que incluyen eventos de audio, habla y música al máximo de su capacidad. 
  2. Un intento de analizar habilidades emergentes cruzadas ofrecidas mediante la implementación del factor de escala LoRA y el uso de una etapa adicional de activación económica durante el entrenamiento para activar habilidades emergentes cruzadas del marco. 

SALMONN: Arquitectura y Metodología

En esta sección, echaremos un vistazo a la arquitectura, el método de entrenamiento y la configuración experimental para el marco SALMONN.

Arquitectura del Modelo

En el núcleo de su arquitectura, el marco SALMONN sincroniza y combina las salidas de dos codificadores auditivos, después de lo cual el marco implementa un Q-Former a nivel de cuadro como módulo de conexión. La secuencia de salida generada por el Q-Former se fusiona con los prompt de instrucciones de texto y luego se proporciona como entrada al enfoque de adaptación LoRA para generar la respuesta requerida.

Codificadores Auditivos

El marco SALMONN utiliza dos codificadores auditivos: un codificador de audio BEATs que no es de habla y un codificador de habla obtenido del marco Whisper de OpenAI. El codificador de audio BEATs se entrena utilizando el enfoque de aprendizaje iterativo auto-supervisado en un intento de extraer semántica de audio de alto nivel que no es de habla, mientras que el codificador de habla se entrena con una gran cantidad de datos débilmente supervisados para tareas de reconocimiento de habla y traducción de habla, con las características de salida del codificador adecuadas para incluir ruido de fondo e información de habla. El modelo primero tokeniza el audio de entrada y luego lo mascara y lo predice durante el entrenamiento. Las características auditivas resultantes de estos dos codificadores se complementan entre sí y son adecuadas tanto para información de habla como de no habla.

Q-Former a Nivel de Ventana

La implementación de la estructura Q-Former es un enfoque común utilizado en los marcos LLM para convertir la salida de un codificador de imagen en tokens de entrada de texto, y se necesita alguna modificación al tratar con tokens de audio de longitudes variables. Específicamente, el marco considera la salida del codificador de la imagen de entrada como una secuencia de salida de codificador concatenada, y el Q-Former despliega un número fijo de consultas entrenables para transformar la secuencia de salida del codificador en tokens de texto utilizando bloques apilados de Q-Former. Un bloque apilado de Q-Former se asemeja a un bloque decodificador de Transformador con las excepciones de eliminar máscaras causales en las capas de autoatención y el uso de un número fijo de consultas estáticas entrenables en los bloques iniciales.

LoRA y LLM

El marco SALMONN también implementa un LLM de Vicuna que es un marco de modelo de lenguaje grande LLaMA ajustado para seguir instrucciones de manera más precisa y efectiva. El marco LoRA es un método común utilizado para ajuste fino con eficiencia de parámetros, y su inclusión en el marco SALMONN se utiliza para valorar las matrices de pesos y adaptar la consulta en las capas de autoatención.

Método de Entrenamiento

El marco SALMONN utiliza un enfoque de entrenamiento cruzado de tres etapas. La etapa de entrenamiento comprende una etapa de pre-entrenamiento y una etapa de ajuste de instrucción que se incluyen en la mayoría de los marcos LLM visuales, y se implementa una etapa adicional de ajuste de activación para resolver problemas de sobreajuste encontrados durante la subtitulación de audio y las tareas de reconocimiento de habla.

Etapa de Pre-Entrenamiento

Para reducir la brecha observada entre los parámetros pre-entrenados que incluyen codificadores y LLM, y los parámetros inicializados al azar que incluyen adaptadores y módulos de conexión, el marco SALMONN utiliza una gran cantidad de datos de subtitulación de audio y reconocimiento de habla para pre-entrenar los componentes LoRA y Q-Former. Estas tareas contienen información auditiva vital sobre los contenidos clave de los eventos de audio, tanto habla como no habla, y ninguna de ellas requiere una comprensión o razonamiento complejo para aprender la alineación entre la información textual y auditiva.

Etapa de Ajuste Fino de Instrucciones

La etapa de ajuste fino de instrucciones implementada en el marco SALMONN se asemeja a la implementada en los marcos NLP y LLM visuales utilizando una lista de eventos de audio, tareas de música y eventos de habla para ajustar finamente las instrucciones de audio-texto. Las tareas se priorizan en función de su importancia en diferentes pruebas, incluido el reconocimiento de teléfono, el reconocimiento de habla superpuesta y los subtítulos de música. Además, la información textual combinada con datos de audio forma la base para generar los prompt de instrucción.

Sobreajuste de Tareas

Incluso al implementar solo las dos primeras etapas de entrenamiento, el marco SALMONN ofrece resultados competitivos en tareas de ajuste de instrucciones, aunque el rendimiento no está a la altura en las tareas que requieren habilidades de co-razonamiento cruzado, especialmente en tareas que requieren habilidades de co-razonamiento cruzado entre modalidades. Específicamente, el modelo ocasionalmente viola las instrucciones dadas, lo que resulta en la generación de respuestas irrelevantes o incorrectas, y este fenómeno se conoce como sobreajuste de tareas en el marco SALMONN, y se implementa la etapa de Ajuste de Activación para resolver estos problemas de sobreajuste.

Fase de Ajuste de Activación

Un enfoque efectivo para resolver problemas de sobreajuste es regularizar los modelos de lenguaje condicional intrínsecos utilizando respuestas más largas y diversas, como la narración de historias o la respuesta a preguntas basada en información auditiva. Luego, el marco genera los datos de entrenamiento en pares para tales tareas utilizando texto combinado con leyendas de audio, habla o música.

Especificaciones de la Tarea

Para evaluar las habilidades emergentes de transferencia zero-shot de SALMONN, los desarrolladores han incluido 15 tareas de habla, audio y música divididas en tres niveles.

Nivel 1

En el primer nivel, las tareas se utilizan para el ajuste de instrucciones y, por lo tanto, son el conjunto de tareas más fácil que el marco SALMONN debe realizar.

Nivel 2

El segundo nivel consiste en tareas no entrenadas, y el nivel de complejidad es mayor en comparación con las tareas del nivel 1. En el nivel 2, las tareas son basadas en Procesamiento de Lenguaje Natural, incluyendo la extracción de palabras clave de habla que se utiliza para evaluar la precisión del marco al extraer ciertas palabras clave usando habla. Otras tareas incluyen SQQA o Respuesta a Preguntas basada en Consultas Habladas, que evalúa el conocimiento de sentido común que el marco extrae mediante preguntas habladas; una tarea de Relleno de Espacios basada en Habla para evaluar la precisión de los valores en espacios, y finalmente, hay dos tareas de AST para conversiones de inglés a alemán y de inglés a japonés.

Nivel 3

La complejidad de las tareas en el Nivel 3 es la máxima en comparación con los otros dos niveles, e incluye Razonamiento de Co-ocurrencia de Audio-Habla y tareas de Narración basadas en Audio. La tarea de Razonamiento de Co-ocurrencia de Audio-Habla requiere que el marco SALMONN comprenda una pregunta incluida en el fragmento de audio alimentado al modelo, encuentre evidencia de apoyo utilizando eventos de audio o música en segundo plano, y finalmente genere una razón adecuada para responder la pregunta. Las tareas de Narración basadas en Audio requieren que el modelo genere una historia significativa basada en la información auditiva obtenida de entradas de audio generales.

Resultados

Tareas del Nivel 1

La siguiente tabla muestra los resultados en las tareas del Nivel 1, y como se puede observar, el marco SALMONN devuelve resultados competitivos en las tareas del Nivel 1 tanto con como sin ajuste de activación.

Tareas del Nivel 2 y 3

Aunque el marco SALMONN devuelve resultados competitivos en las tareas del Nivel 1 incluso sin afinación fina, lo mismo no puede decirse de las tareas del Nivel 2 y Nivel 3, ya que sin activación, el marco SALMONN sufre mucho por sobreajuste en las tareas. El rendimiento disminuye aún más en las tareas de SQQA, SAC y Narración con énfasis en interacciones multimodales, y el marco SALMONN tiene dificultades para seguir instrucciones sin ajuste de activación. Sin embargo, con ajuste de activación, los resultados mejoran considerablemente, y los resultados se incluyen en la siguiente imagen.

Factor de Escalado de Descuento de LoRA

El Factor de Escalado de Descuento de LoRA evalúa la influencia del uso de un factor de escala de descuento en pruebas temporales para minimizar los problemas de sobreajuste en las tareas. Como se puede observar en la siguiente figura, una disminución en el factor de escala de descuento a 2.0 eleva la capacidad de razonamiento de transferencia de SALMONN en las tareas de ASR y PR, tareas de SQQA, tareas de Narración y tareas de SAC.

Evaluación del Sobreajuste de Tareas

Para enfatizar en la afinación de la activación, el marco SALMONN analiza los cambios en la perplejidad durante las tres etapas de entrenamiento, como se puede ver en la siguiente imagen, los cambios de perplejidad para las tareas de AAC y ASR tienen pequeños valores finales después de la primera etapa de entrenamiento, lo que indica el aprendizaje del modelo de alineaciones multimodales.

Además, la perplejidad de la tarea de PR también disminuye después de la afinación de la instrucción debido a su dependencia del componente LoRA para aprender los tokens de salida. También se observa que aunque la afinación de la instrucción ayuda a reducir la perplejidad en las tareas de Storytelling y SAC, la brecha sigue siendo lo suficientemente grande como para realizar las tareas con éxito a menos que se agregue una etapa adicional de activación o se elimine el componente LoRA.

Afinación de la activación

El marco SALMONN explora diferentes métodos de activación, incluido el entrenamiento del modelo en pares de tareas de preguntas y respuestas basadas en texto con respuestas largas, o el uso de historias escritas largas basadas en audio, mientras que se utilizan transcripciones de discurso largo para las tareas de ASR. Ambos componentes Q-Former y LoRA se ajustan finamente utilizando estos tres métodos. Además, el marco ignora las entradas de audio y Q-Former en un intento de ajustar finamente los componentes LoRA y Vicuna como un modelo de lenguaje de texto adaptativo a gran escala, y los resultados se muestran en la siguiente imagen, como se puede ver, el modelo no puede ser activado por ASR (entrenando ASR con etiquetas largas), ni por Story o Texto al entrenar el componente LoRA usando entradas de texto.

Pensamientos Finales

En este artículo, hemos hablado de SALMONN o Red Neural Abierta de Lenguaje de Música de Idioma de Audio y Habla, un marco de modelo de lenguaje multimodal grande de audio-texto único capaz de percibir y comprender tres tipos básicos de audio o sonido, incluyendo habla, eventos de audio y música. El modelo SALMONN permite que los modelos de lenguaje grande comprendan y procesen entradas de audio genéricas directamente y brinden un rendimiento competitivo en una amplia gama de tareas de audio y habla.

El marco SALMONN ofrece un rendimiento competitivo en una amplia gama de tareas entrenadas, incluyendo subtitulación de audio, traducción y reconocimiento de voz, y más, al tiempo que generaliza a una serie de tareas de comprensión no entrenadas, incluyendo la traducción de voz para extraer palabras clave y lenguajes no entrenados. Debido a sus habilidades, el marco SALMONN puede considerarse como el siguiente paso hacia la mejora de las habilidades auditivas genéricas de los modelos de lenguaje grande.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

4 gigantes tecnológicos - OpenAI, Google, Microsoft y Anthropic se unen para la IA segura

En un movimiento histórico, cuatro de los nombres más importantes en el mundo de la inteligencia artificial se unen p...

Inteligencia Artificial

California acaba de abrir las compuertas para los coches autónomos

Después de una decisión de la junta reguladora estatal, San Francisco tendrá robotaxis las 24 horas del día, los 7 dí...

Aprendizaje Automático

MosaicML acaba de lanzar su MPT-30B bajo la licencia Apache 2.0.

Después del gran éxito de MosaicML-7B, MosaicML ha vuelto a superar el referente que ellos mismos habían establecido ...