Investigadores de ETH Zurich presentan UltraFastBERT una variante de BERT que utiliza el 0,3% de sus neuronas durante la inferencia y ofrece un rendimiento similar a otros modelos de BERT similares.

Investigadores de ETH Zurich presentan UltraFastBERT, una variante de BERT que utiliza solo el 0,3% de sus neuronas durante la inferencia y despliega un rendimiento equivalente a otros modelos similares de BERT.

El desarrollo de UltraFastBERT por investigadores de ETH Zurich abordó el problema de reducir el número de neuronas utilizadas durante la inferencia manteniendo niveles de rendimiento similares a otros modelos. Esto se logró a través de redes de avance rápido (FFFs), lo que resultó en una aceleración significativa en comparación con las implementaciones de referencia.

Los métodos existentes han sido respaldados por el código, la configuración de benchmarking y los pesos del modelo proporcionados por los investigadores de ETH Zurich. También han sugerido explorar múltiples árboles FFF para la computación conjunta y la potencial aplicación en modelos de lenguaje grandes como GPT-3. El estudio propone aceleración adicional a través de tensores dispersos híbridos y optimizaciones específicas del dispositivo.

UltraFastBERT muestra un modelado eficiente del lenguaje con un compromiso selectivo durante la inferencia. Reemplaza las redes de avance rápido de los modelos tradicionales con FFFs simplificados, utilizando funciones de activación consistentes y pesos de salida de todos los nodos mientras elimina los sesgos. Múltiples árboles FFF calculan colaborativamente las salidas de las capas intermedias, permitiendo arquitecturas diversas. Las implementaciones de nivel alto de CPU y PyTorch proporcionadas ofrecen mejoras sustanciales de velocidad, y la investigación explora la aceleración potencial a través de múltiples árboles FFF y sugiere reemplazar las redes de avance rápido de modelos de lenguaje grandes con FFFs. Se propone Intel MKL y NVIDIA cuBLAS para la optimización específica del dispositivo.

UltraFastBERT logra un rendimiento comparable al de BERT-base utilizando solo el 0.3% de sus neuronas durante la inferencia. Entrenado en una sola GPU durante un día, conserva al menos el 96.0% del rendimiento predictivo de GLUE. UltraFastBERT-1×11-long logra el rendimiento de BERT-base con el 0.3% de sus neuronas. El rendimiento disminuye con redes de avance rápido más profundas, pero excluyendo CoLA, todos los modelos de UltraFastBERT conservan al menos el 98.6% del rendimiento predictivo. Las comparaciones muestran aceleraciones significativas con capas de avance rápido rápidas, logrando una inferencia inmediata de 48x a 78x más en CPU y una aceleración de 3.15x en GPU, lo que sugiere el potencial para reemplazos de modelos grandes.

En conclusión, UltraFastBERT es una modificación de BERT que logra un modelado eficiente del lenguaje utilizando solo una pequeña fracción de sus neuronas durante la inferencia. El modelo utiliza FFFs para una aceleración sustancial, con las implementaciones de CPU y PyTorch proporcionadas logrando mejoras de velocidad de 78x y 40x, respectivamente. El estudio sugiere una aceleración adicional potencial mediante la implementación de primitivas para la ejecución neural condicional. A pesar de utilizar solo el 0.3% de sus neuronas, el mejor modelo de UltraFastBERT coincide con el rendimiento de BERT-base, mostrando el potencial para un modelado eficiente del lenguaje. UltraFastBERT muestra posibles avances en el modelado eficiente del lenguaje, abriendo el camino para modelos más rápidos y amigables con los recursos en el futuro.

Las vías propuestas para investigaciones futuras incluyen la implementación de inferencia FFF eficiente utilizando tensores dispersos de nivel vectorial híbridos y optimizaciones específicas del dispositivo. Se sugiere explorar el potencial completo de la ejecución neural condicional para el modelado de lenguaje acelerado. Se discute la optimización potencial de modelos de lenguaje grandes mediante la sustitución de redes de avance rápido por FFFs. El trabajo futuro podría centrarse en implementaciones reproducibles en marcos populares como PyTorch o TensorFlow y en una extensa evaluación comparativa para evaluar el rendimiento y las implicaciones prácticas de UltraFastBERT y modelos de lenguaje eficientes similares.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

No es el Vader que piensas 3D VADER es un modelo de IA que difunde modelos 3D

La generación de imágenes nunca ha sido tan fácil. Con el surgimiento de los modelos de IA generativos, el proceso se...

Inteligencia Artificial

OpenAI revela ChatGPT Enterprise con el poder de GPT-4

OpenAI, la organización pionera en investigación de IA, acaba de presentar un nuevo capítulo emocionante en el mundo ...

Noticias de Inteligencia Artificial

La F.T.C. acusa a Amazon de engañar a los usuarios para que se suscriban a Prime.

La demanda es la primera vez que la Comisión Federal de Comercio, bajo el liderazgo de su presidenta, Lina Khan, ha l...

Inteligencia Artificial

La cirugía cerebral impulsada por IA se convierte en una realidad en Hong Kong

El Centro de Inteligencia Artificial y Robótica, bajo la Academia China de Ciencias, completó pruebas exitosas de un ...

Inteligencia Artificial

Crear resúmenes de grabaciones utilizando IA generativa con Amazon Bedrock y Amazon Transcribe

Las notas de reuniones son una parte crucial de la colaboración, pero a menudo se pierden entre las grietas. Entre li...

Inteligencia Artificial

Desbloquea el avance de la comprensión de video de IA con MM-VID para GPT-4V(isión)

En todo el mundo, las personas crean una gran cantidad de videos todos los días, incluyendo transmisiones en vivo gen...