Investigadores de Google DeepMind presentan DiLoCo un novedoso algoritmo de aprendizaje automático distribuido y de baja comunicación para un entrenamiento efectivo y resistente de modelos de lenguaje grandes.

Google DeepMind presenta DiLoCo un innovador algoritmo de aprendizaje automático distribuido y de baja comunicación para entrenar de manera eficiente y resistente a modelos de lenguaje grandes

Las capacidades ascendentes de los modelos de lenguaje en aplicaciones del mundo real a menudo se ven obstaculizadas por los desafíos intrincados asociados con su entrenamiento a gran escala utilizando métodos convencionales como la retropropagación estándar. El último avance de Google DeepMind, DiLoCo (Distributed Low-Communication), establece un nuevo precedente en la optimización de modelos de lenguaje. En el artículo “DiLoCo: Distributed Low-Communication Training of Language Models”, el equipo de investigación presenta un innovador algoritmo de optimización distribuida que revoluciona los enfoques de entrenamiento al operar en grupos de dispositivos conectados de manera laxa, logrando un notable impulso en el rendimiento y reduciendo la comunicación en 500 veces.

Inspirados en los principios del Aprendizaje Federado, los investigadores idearon una variante del reconocido algoritmo de Promediado Federado (FedAvg), infundiéndole elementos similares al algoritmo FedOpt. DiLoCo incorpora estratégicamente AdamW como el optimizador interno y aprovecha el Momentum de Nesterov como el optimizador externo, creando una ingeniosa amalgama que aborda los desafíos arraigados en los paradigmas de entrenamiento convencionales.

La brillantez de DiLoCo radica en sus tres pilares fundamentales:

1. Requisitos limitados de co-ubicación: Cada trabajador requiere dispositivos co-ubicados, sin embargo, el número total requerido es notablemente menor, facilitando las complejidades logísticas.

2. Frecuencia reducida de comunicación: Los trabajadores ya no necesitan comunicarse en cada paso, sino que se sincronizan solo en intervalos de 𝐻 pasos, reduciendo significativamente la sobrecarga de comunicación a solo cientos o incluso miles.

3. Heterogeneidad de dispositivos: Si bien los dispositivos dentro de un grupo deben ser homogéneos, DiLoCo permite que diferentes grupos operen utilizando diversos tipos de dispositivos, ofreciendo una flexibilidad sin igual.

El proceso de entrenamiento de DiLoCo implica replicar un modelo pre-entrenado 𝜃 (0) varias veces. Cada trabajador entrena de manera independiente una réplica del modelo en su fragmento de datos individual durante 𝐻 pasos. Posteriormente, los trabajadores promedian sus gradientes externos y un optimizador externo actualiza la copia de parámetros globales 𝜃 (1), que se distribuye de nuevo a los trabajadores. Este proceso cíclico se repite 𝑇 veces, permitiendo el entrenamiento de cada réplica en ubicaciones globales distintas utilizando diversos aceleradores.

En experimentos prácticos con el conjunto de datos C4, DiLoCo empleando ocho trabajadores logra un rendimiento comparable a la optimización completamente sincrónica al tiempo que reduce la comunicación en 500 veces. Además, DiLoCo demuestra una excepcional resistencia a las variaciones en la distribución de datos entre los trabajadores y se adapta sin problemas a las variaciones en la disponibilidad de recursos durante el entrenamiento.

En esencia, DiLoCo se posiciona como una solución sólida y transformadora para distribuir el entrenamiento de modelos de lenguaje tipo transformer en múltiples máquinas con conexiones deficientes. Este enfoque innovador no solo supera los desafíos de infraestructura, sino que también muestra un rendimiento y adaptabilidad sin igual, marcando un gran avance en la optimización de modelos de lenguaje.

El artículo “Google DeepMind Researchers Introduce DiLoCo: A Novel Distributed, Low-Communication Machine Learning Algorithm for Effective and Resilient Large Language Model Training” se publicó por primera vez en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Un Enfoque Más Suave hacia la Robótica

Los robots flexibles están pasando del laboratorio de investigación al mundo real.

Inteligencia Artificial

Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

Desde noviembre de 2020, LINE se ha embarcado en un viaje transformador de investigación y desarrollo para crear y ap...

Investigación

Sistema de inyección bacteriano entrega proteínas en ratones y células humanas.

Con un mayor desarrollo, el sistema programable podría ser utilizado en una variedad de aplicaciones, incluyendo tera...

Inteligencia Artificial

La actualización de Super Resolución de Video NVIDIA RTX mejora la calidad del video, preserva los detalles y se expande a las GPU de la serie GeForce RTX 20'.

NVIDIA anunció hoy una actualización de RTX Video Super Resolution (VSR) que ofrece una mayor fidelidad gráfica gener...

Ciencia de Datos

Los investigadores del MIT hacen que los modelos de lenguaje sean autoaprendices escalables.

Los científicos utilizaron un conjunto de datos de inferencia lógica basado en lenguaje natural para crear modelos de...