Investigadores de Hugging Face presentan Distil-Whisper un modelo compacto de reconocimiento de voz que cubre la brecha en entornos de alto rendimiento y bajos recursos.

Investigadores de Hugging Face presentan Distil-Whisper un modelo compacto de reconocimiento de voz que soluciona la brecha en entornos de alto rendimiento y bajos recursos.

Los investigadores de Hugging Face han abordado el problema de implementar modelos de reconocimiento de voz preentrenados en entornos con recursos limitados. Lograron esto creando un conjunto de datos de código abierto sustancial a través de la pseudocomprobación. Luego, se utilizó el conjunto de datos para destilar una versión más pequeña del modelo Whisper, llamada Distil-Whisper.

El modelo de transformador de reconocimiento de voz de Whisper fue preentrenado en 680.000 horas de datos de voz de Internet con ruido. Comprende componentes de codificador y decodificador basados en transformadores y logra resultados competitivos en un escenario de prueba sin ajuste fino. Distil-Whisper es una versión compacta derivada mediante la destilación de conocimientos utilizando la pseudocomprobación. Distil-Whisper mantiene la resistencia del modelo Whisper en condiciones acústicas desafiantes al mismo tiempo que mitiga los errores de alucinación en el audio de formato largo. La investigación presenta un método de pseudocomprobación a gran escala para datos de voz, un ámbito aún poco explorado pero prometedor para la destilación de conocimientos.

Los sistemas de reconocimiento automático de voz (ASR) han alcanzado una exactitud similar a la humana pero enfrentan desafíos debido al crecimiento del tamaño de los modelos preentrenados en entornos con recursos limitados. El modelo Whisper, un modelo ASR preentrenado de gran tamaño, sobresale en varios conjuntos de datos pero podría ser más práctico para la implementación de baja latencia. Si bien la destilación de conocimientos ha comprimido los modelos de transformadores de PLN de manera efectiva, su uso en el reconocimiento de voz está poco explorado.

El enfoque propuesto utiliza la pseudocomprobación para construir un conjunto de datos de código abierto considerable, facilitando la destilación de conocimientos. Para garantizar la calidad del entrenamiento, se utiliza una heurística WER para seleccionar las pseudocomprobaciones óptimas. El objetivo de la destilación de conocimientos implica una combinación de divergencia de Kullback-Leibler y términos de pseudocomprobación, introduciendo un componente de error cuadrático medio para alinear las salidas de la capa oculta del estudiante con las del profesor. Esta técnica de destilación se aplica al modelo Whisper dentro del marco ASR Seq2Seq, garantizando un formato de transcripción uniforme y ofreciendo orientación de destilación a nivel de secuencia.

Distil-Whisper, derivado de la destilación de conocimientos, mejora significativamente la velocidad y reduce los parámetros en comparación con el modelo Whisper original al tiempo que mantiene su resistencia en condiciones acústicas desafiantes. Cuenta con una aceleración de 5.8x con una reducción de parámetros del 51%, logrando un WER de menos del 1% en datos de prueba fuera de distribución en un escenario de prueba sin ajuste fino. El modelo distil-medium.en tiene un WER ligeramente mayor pero muestra una inferencia más inmediata 6.8x y una compresión del modelo del 75%. El modelo Whisper es susceptible a errores de alucinación en la transcripción de audio de formato largo, mientras que Distil-Whisper mitiga estos errores al tiempo que mantiene un rendimiento de WER competitivo.

En conclusión, Distil-Whisper es una variante compacta del modelo Whisper lograda mediante la destilación de conocimientos. Este enfoque innovador ofrece beneficios notables en términos de velocidad y reducción de parámetros, siendo Distil-Whisper más rápido y con menos parámetros en comparación con el modelo Whisper original. El modelo distil-medium.en ofrece una inferencia más inmediata y una compresión sustancial del modelo a pesar de tener un WER ligeramente mayor.

Las oportunidades de investigación futuras en la destilación de conocimientos y la pseudocomprobación en el ámbito del audio y la compresión de modelos basados en transformadores en el reconocimiento de voz son prometedoras. Investigar los efectos de varios métodos y umbrales de filtrado en la calidad de la transcripción y el rendimiento del modelo derivado puede ofrecer conocimientos valiosos para optimizar la destilación de conocimientos. Explorar técnicas de compresión alternativas, incluidos métodos basados en capas y el uso de términos de error cuadrático medio, puede llevar a una compresión de modelos aún mayor sin sacrificar el rendimiento. Los códigos de entrenamiento, inferencia y los modelos proporcionados en este trabajo pueden ser un recurso valioso para investigaciones y experimentos adicionales en destilación de conocimientos para el reconocimiento de voz.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de la NTU de Singapur proponen IT3D un nuevo método de refinamiento de IA Plug-and-Play para la generación de texto a 3D.

Ha habido un notable progreso en el dominio de texto a imagen, lo que ha generado una oleada de entusiasmo dentro de ...

Inteligencia Artificial

Científicos secuencian la última pieza del genoma humano el cromosoma Y

El consorcio Telomere-to-Telomere ha completado la secuenciación del genoma humano al agregar el cromosoma Y completa...

Inteligencia Artificial

Conoce a SeamlessM4T el nuevo modelo base de Meta AI para la traducción de voz

El habla se está convirtiendo rápidamente en una de las próximas fronteras de los modelos fundamentales. Aunque los d...