Investigadores de UCI y la Universidad de Zhejiang introducen Aceleración de Modelos de Lenguaje Grandes sin Pérdidas a través de la Decodificación Autoespeculativa utilizando Etapas de Borrador y Verificación.

Investigadores de UCI y la Universidad de Zhejiang introducen Aceleración de Modelos de Lenguaje Grandes sin Pérdidas.

Los Modelos de Lenguaje Grandes (LLMs) basados en transformadores, como GPT, PaLM y LLaMA, se han utilizado ampliamente en una variedad de aplicaciones del mundo real. Estos modelos se han aplicado a una variedad de tareas, incluyendo producción de texto, traducción e interpretación del lenguaje natural. Sin embargo, los altos costos de inferencia de estos modelos, especialmente en situaciones donde la baja latencia es importante, son una preocupación importante. El método de decodificación autoregresiva utilizado por estos modelos es la principal causa de los altos costos de inferencia. Dado que cada token de salida se produce secuencialmente durante la decodificación autoregresiva, hay muchas llamadas de transformador. El ancho de banda de memoria de cada llamada de transformador es limitado, lo que lleva a una computación ineficiente y tiempos de ejecución prolongados.

Con el fin de acelerar el proceso de inferencia de los Modelos de Lenguaje Grandes (LLMs), un estudio reciente ha introducido un método único llamado decodificación autoespeculativa que no requiere un modelo auxiliar. Este enfoque aborda el problema de producir la inferencia más rápidamente mientras se preserva la calidad de salida. Se caracteriza por un procedimiento de dos etapas que combina el borrador y la verificación.

Etapa de borrador: el objetivo de la etapa de borrador es producir tokens de borrador más rápidamente, incluso si son marginalmente de peor calidad que los tokens producidos utilizando el método autoregresivo convencional. El método omite algunas capas intermedias durante el borrador para lograr esto. Estas capas intermedias en los LLMs a menudo refinan la salida, pero también consumen mucho tiempo y recursos durante la inferencia.

Etapa de verificación: la técnica genera los tokens de salida de borrador en la etapa de borrador y luego los valida en un solo pase hacia adelante utilizando el LLM original e inalterado. Utilizando la técnica de decodificación autoregresiva convencional, el LLM habría producido el mismo resultado final, lo cual se garantiza mediante este paso de verificación. Debido a esto, aunque la etapa de borrador genere tokens más rápidamente, se preserva la calidad del producto final.

La decodificación autoespeculativa no requiere más entrenamiento de redes neuronales, lo cual es una de sus principales ventajas. El entrenamiento de modelos auxiliares o realizar cambios significativos en la arquitectura del LLM, que puede ser desafiante y requiere muchos recursos, son componentes comunes de los métodos existentes para una inferencia más rápida. Sin embargo, la decodificación autoespeculativa es un enfoque “plug-and-play” que se puede agregar a los LLM existentes sin entrenamiento adicional o modificaciones del modelo.

La investigación ha ofrecido apoyo empírico a la eficacia de la decodificación autoespeculativa. Los resultados de referencia se muestran utilizando LLaMA-2 y sus modelos mejorados. Según estos resultados de referencia, el método de decodificación autoespeculativa puede decodificar datos hasta 1.73 veces más rápido que el método autoregresivo convencional. Esto tiene el beneficio importante de hacer que el proceso de inferencia sea aproximadamente el doble de rápido, al mismo tiempo que se preserva la calidad de salida, lo cual es importante en situaciones en las que la latencia es un problema.

En conclusión, la decodificación autoespeculativa es un método revolucionario que mejora cómo los Modelos de Lenguaje Grandes infieren información. Esto se logra estableciendo un proceso de dos pasos de borrador y verificación, eligiendo qué capas omitir durante la etapa de borrador para generar tokens más rápidamente y verificando la calidad de salida durante la etapa de verificación. Este método acelera la inferencia de los LLM sin agregar ninguna carga de memoria adicional ni requisitos de entrenamiento para las redes neuronales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de UCI y la Universidad de Zhejiang introducen Aceleración de Modelos de Lenguaje Grandes sin Pérdidas a través de la Decodificación Autoespeculativa utilizando Etapas de Borrador y Verificación.

Was this article helpful?

Explorando Numexpr Un Motor Potente Detrás de Pandas

Confrontación de modelos de chat GPT-4 vs GPT-3.5 vs LLaMA-2 en un debate simulado – Parte 1

Inteligencia Artificial

AWS ofrece nuevas guías de inteligencia artificial, aprendizaje automático e IA generativa para planificar tu estrategia de IA

Investigadores de la Universidad de Toronto presentan scGPT un modelo base para Biología de Células Individuales basado en Generative Pre-Trained Transformer a través de un repositorio de más de 33 millones de células.

Los Nano-Tatuajes No Necesitan Baterías ni Cables

Drones Protegen los Aerogeneradores del Hielo

Evaluando el dominio lingüístico de la Inteligencia Artificial Un análisis exhaustivo de las habilidades morfológicas de ChatGPT en diferentes idiomas

Esta investigación de IA presenta Point-Bind un modelo de multimodalidad 3D que alinea nubes de puntos con imágenes 2D, lenguaje, audio y video