Investigadores de ETH Zurich presentan UltraFastBERT una variante de BERT que utiliza el 0,3% de sus neuronas durante la inferencia y ofrece un rendimiento similar a otros modelos de BERT similares.
Investigadores de ETH Zurich presentan UltraFastBERT, una variante de BERT que utiliza solo el 0,3% de sus neuronas durante la inferencia y despliega un rendimiento equivalente a otros modelos similares de BERT.
El desarrollo de UltraFastBERT por investigadores de ETH Zurich abordó el problema de reducir el número de neuronas utilizadas durante la inferencia manteniendo niveles de rendimiento similares a otros modelos. Esto se logró a través de redes de avance rápido (FFFs), lo que resultó en una aceleración significativa en comparación con las implementaciones de referencia.
Los métodos existentes han sido respaldados por el código, la configuración de benchmarking y los pesos del modelo proporcionados por los investigadores de ETH Zurich. También han sugerido explorar múltiples árboles FFF para la computación conjunta y la potencial aplicación en modelos de lenguaje grandes como GPT-3. El estudio propone aceleración adicional a través de tensores dispersos híbridos y optimizaciones específicas del dispositivo.
UltraFastBERT muestra un modelado eficiente del lenguaje con un compromiso selectivo durante la inferencia. Reemplaza las redes de avance rápido de los modelos tradicionales con FFFs simplificados, utilizando funciones de activación consistentes y pesos de salida de todos los nodos mientras elimina los sesgos. Múltiples árboles FFF calculan colaborativamente las salidas de las capas intermedias, permitiendo arquitecturas diversas. Las implementaciones de nivel alto de CPU y PyTorch proporcionadas ofrecen mejoras sustanciales de velocidad, y la investigación explora la aceleración potencial a través de múltiples árboles FFF y sugiere reemplazar las redes de avance rápido de modelos de lenguaje grandes con FFFs. Se propone Intel MKL y NVIDIA cuBLAS para la optimización específica del dispositivo.
- Simplifica la preparación de datos para la IA generativa con Amazon SageMaker Data Wrangler
- Mejora el rendimiento de la inferencia para LLMs con los nuevos contenedores de Amazon SageMaker
- IA al descubierto Bloggers y escritores que debes seguir
UltraFastBERT logra un rendimiento comparable al de BERT-base utilizando solo el 0.3% de sus neuronas durante la inferencia. Entrenado en una sola GPU durante un día, conserva al menos el 96.0% del rendimiento predictivo de GLUE. UltraFastBERT-1×11-long logra el rendimiento de BERT-base con el 0.3% de sus neuronas. El rendimiento disminuye con redes de avance rápido más profundas, pero excluyendo CoLA, todos los modelos de UltraFastBERT conservan al menos el 98.6% del rendimiento predictivo. Las comparaciones muestran aceleraciones significativas con capas de avance rápido rápidas, logrando una inferencia inmediata de 48x a 78x más en CPU y una aceleración de 3.15x en GPU, lo que sugiere el potencial para reemplazos de modelos grandes.
En conclusión, UltraFastBERT es una modificación de BERT que logra un modelado eficiente del lenguaje utilizando solo una pequeña fracción de sus neuronas durante la inferencia. El modelo utiliza FFFs para una aceleración sustancial, con las implementaciones de CPU y PyTorch proporcionadas logrando mejoras de velocidad de 78x y 40x, respectivamente. El estudio sugiere una aceleración adicional potencial mediante la implementación de primitivas para la ejecución neural condicional. A pesar de utilizar solo el 0.3% de sus neuronas, el mejor modelo de UltraFastBERT coincide con el rendimiento de BERT-base, mostrando el potencial para un modelado eficiente del lenguaje. UltraFastBERT muestra posibles avances en el modelado eficiente del lenguaje, abriendo el camino para modelos más rápidos y amigables con los recursos en el futuro.
Las vías propuestas para investigaciones futuras incluyen la implementación de inferencia FFF eficiente utilizando tensores dispersos de nivel vectorial híbridos y optimizaciones específicas del dispositivo. Se sugiere explorar el potencial completo de la ejecución neural condicional para el modelado de lenguaje acelerado. Se discute la optimización potencial de modelos de lenguaje grandes mediante la sustitución de redes de avance rápido por FFFs. El trabajo futuro podría centrarse en implementaciones reproducibles en marcos populares como PyTorch o TensorFlow y en una extensa evaluación comparativa para evaluar el rendimiento y las implicaciones prácticas de UltraFastBERT y modelos de lenguaje eficientes similares.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Las 10 formas creativas de utilizar las paredes de palabras en tu rutina de estudio
- Máquinas que Aprenden Explorando las Posibilidades de la Tecnología de IA
- Dominar la migración a la nube Mejores prácticas para hacerla exitosa
- Asegurando la Nube Navegando la Frontera de la Seguridad en la Nube
- Desbloquea a tus ingenieros de software con Unblocked
- IA y sus Posibilidades/Destrucciones en el Arte.
- K-Means agrupado con Python Numba y CUDA C