Investigadores de Google DeepMind presentan DiLoCo un novedoso algoritmo de aprendizaje automático distribuido y de baja comunicación para un entrenamiento efectivo y resistente de modelos de lenguaje grandes.

Google DeepMind presenta DiLoCo un innovador algoritmo de aprendizaje automático distribuido y de baja comunicación para entrenar de manera eficiente y resistente a modelos de lenguaje grandes

Las capacidades ascendentes de los modelos de lenguaje en aplicaciones del mundo real a menudo se ven obstaculizadas por los desafíos intrincados asociados con su entrenamiento a gran escala utilizando métodos convencionales como la retropropagación estándar. El último avance de Google DeepMind, DiLoCo (Distributed Low-Communication), establece un nuevo precedente en la optimización de modelos de lenguaje. En el artículo “DiLoCo: Distributed Low-Communication Training of Language Models”, el equipo de investigación presenta un innovador algoritmo de optimización distribuida que revoluciona los enfoques de entrenamiento al operar en grupos de dispositivos conectados de manera laxa, logrando un notable impulso en el rendimiento y reduciendo la comunicación en 500 veces.

Inspirados en los principios del Aprendizaje Federado, los investigadores idearon una variante del reconocido algoritmo de Promediado Federado (FedAvg), infundiéndole elementos similares al algoritmo FedOpt. DiLoCo incorpora estratégicamente AdamW como el optimizador interno y aprovecha el Momentum de Nesterov como el optimizador externo, creando una ingeniosa amalgama que aborda los desafíos arraigados en los paradigmas de entrenamiento convencionales.

La brillantez de DiLoCo radica en sus tres pilares fundamentales:

1. Requisitos limitados de co-ubicación: Cada trabajador requiere dispositivos co-ubicados, sin embargo, el número total requerido es notablemente menor, facilitando las complejidades logísticas.

2. Frecuencia reducida de comunicación: Los trabajadores ya no necesitan comunicarse en cada paso, sino que se sincronizan solo en intervalos de 𝐻 pasos, reduciendo significativamente la sobrecarga de comunicación a solo cientos o incluso miles.

3. Heterogeneidad de dispositivos: Si bien los dispositivos dentro de un grupo deben ser homogéneos, DiLoCo permite que diferentes grupos operen utilizando diversos tipos de dispositivos, ofreciendo una flexibilidad sin igual.

El proceso de entrenamiento de DiLoCo implica replicar un modelo pre-entrenado 𝜃 (0) varias veces. Cada trabajador entrena de manera independiente una réplica del modelo en su fragmento de datos individual durante 𝐻 pasos. Posteriormente, los trabajadores promedian sus gradientes externos y un optimizador externo actualiza la copia de parámetros globales 𝜃 (1), que se distribuye de nuevo a los trabajadores. Este proceso cíclico se repite 𝑇 veces, permitiendo el entrenamiento de cada réplica en ubicaciones globales distintas utilizando diversos aceleradores.

En experimentos prácticos con el conjunto de datos C4, DiLoCo empleando ocho trabajadores logra un rendimiento comparable a la optimización completamente sincrónica al tiempo que reduce la comunicación en 500 veces. Además, DiLoCo demuestra una excepcional resistencia a las variaciones en la distribución de datos entre los trabajadores y se adapta sin problemas a las variaciones en la disponibilidad de recursos durante el entrenamiento.

En esencia, DiLoCo se posiciona como una solución sólida y transformadora para distribuir el entrenamiento de modelos de lenguaje tipo transformer en múltiples máquinas con conexiones deficientes. Este enfoque innovador no solo supera los desafíos de infraestructura, sino que también muestra un rendimiento y adaptabilidad sin igual, marcando un gran avance en la optimización de modelos de lenguaje.

El artículo “Google DeepMind Researchers Introduce DiLoCo: A Novel Distributed, Low-Communication Machine Learning Algorithm for Effective and Resilient Large Language Model Training” se publicó por primera vez en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaff

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Microsoft presentan el Marco de Consorcio Confidencial (CCF) un marco de inteligencia artificial de propósito general para el desarrollo de aplicaciones de la CIA seguras y con estado.

Investigadores de Google DeepMind presentan DiLoCo un novedoso algoritmo de aprendizaje automático distribuido y de baja comunicación para un entrenamiento efectivo y resistente de modelos de lenguaje grandes.

Was this article helpful?

Investigadores de Google y UIUC proponen ZipLoRA un novedoso método de inteligencia artificial para fusionar de manera fluida LoRAs de estilo y de tema entrenadas de forma independiente’.

Investigadores de Microsoft presentan el Marco de Consorcio Confidencial (CCF) un marco de inteligencia artificial de propósito general para el desarrollo de aplicaciones de la CIA seguras y con estado.

Inteligencia Artificial

Un Enfoque Más Suave hacia la Robótica

Investigadores de CMU descubren ideas clave sobre el comportamiento de las redes neuronales la interacción entre datos de distribución pesada y la profundidad de la red en la formación de la dinámica de optimización

Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

Sistema de inyección bacteriano entrega proteínas en ratones y células humanas.

La actualización de Super Resolución de Video NVIDIA RTX mejora la calidad del video, preserva los detalles y se expande a las GPU de la serie GeForce RTX 20'.

Los investigadores del MIT hacen que los modelos de lenguaje sean autoaprendices escalables.