Investigadores de Google DeepMind proponen 6 transformaciones componibles para aumentar de forma incremental el tamaño de las redes neuronales basadas en Transformers mientras se preserva la funcionalidad.

Investigadores de Google DeepMind proponen 6 transformaciones para aumentar el tamaño de las redes neuronales basadas en Transformers de forma incremental y preservando la funcionalidad.

Las redes neuronales basadas en transformadores han recibido mucha atención últimamente porque funcionan bien. La traducción automática, la creación de texto y la respuesta a preguntas son solo algunas de las actividades de procesamiento del lenguaje natural para las cuales la arquitectura de transformador (ver figura 1) ha surgido como el estándar de la industria. La eficacia de los modelos basados en transformadores no se limita al procesamiento del lenguaje natural; también se han utilizado con éxito en varios otros campos, como el reconocimiento de voz, la visión por computadora y los sistemas de recomendación. Los modelos de base de lenguaje, visión y multimodales más grandes, son los más complejos y efectivos de estos modelos, con miles de millones a billones de parámetros.

Cada nuevo modelo, sin embargo, suele ser enseñado desde el principio sin aprovechar las habilidades aprendidas por modelos anteriores más pequeños entrenados. Además, el tamaño del modelo se mantiene constante durante el entrenamiento. Debido a la mayor cantidad de datos de entrenamiento requeridos, el costo computacional del entrenamiento aumenta cuadráticamente con el tamaño del modelo. Reutilizar parámetros de un modelo preentrenado o aumentar dinámicamente el tamaño de un modelo durante el entrenamiento podría reducir el costo total del entrenamiento. Sin embargo, no es fácil hacerlo sin sacrificar el progreso del entrenamiento. Se proporcionan transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores para resolver estas restricciones.

Estas transformaciones aumentan el tamaño del modelo y, por lo tanto, la capacidad potencial del modelo sin cambiar su funcionalidad, lo que permite continuar el entrenamiento. Estas transformaciones componibles operan en dimensiones independientes de la arquitectura, lo que permite una expansión arquitectónica detallada. Algunos trabajos anteriores también han propuesto transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores, extendiendo técnicas para modelos de convolución y densos más pequeños.

**La figura 1** muestra cómo se muestra una red neuronal típica basada en el diseño del transformador.

En este estudio, investigadores de Google DeepMind y de la Universidad de Toulouse desarrollan un marco que es la colección más extensa y modular de transformaciones que conservan la función. Las seis contribuciones del documento son las seis transformaciones que conservan la función y se aplican a las arquitecturas de transformador. Son las siguientes:

El tamaño de la representación interna de la MLP
El número de cabezas de atención
El tamaño de la representación de salida para las cabezas de atención
El tamaño de la representación de entrada de atención
El tamaño de las representaciones de entrada/salida para las capas del transformador
Número de capas

Se demuestra cómo se logra la propiedad de conservación de la función precisa para cada transformación con las restricciones mínimas posibles en la inicialización de los parámetros adicionales. Los autores han discutido todas estas contribuciones en detalle en el documento.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Google DeepMind proponen 6 transformaciones componibles para aumentar de forma incremental el tamaño de las redes neuronales basadas en Transformers mientras se preserva la funcionalidad.

Was this article helpful?

15 Mejores Herramientas ETL Disponibles en el Mercado en 2023

Google AI presenta STUDY Un sistema recomendador consciente socialmente y causal-temporal para audiolibros en un entorno educativo

Inteligencia Artificial

Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión

Científicos más cerca de encontrar una prueba para el COVID prolongado

Gran noticia Google retrasa el lanzamiento del modelo de IA Gemini

Cómo generar audio utilizando el modelo de IA Bark de texto a voz

Esta investigación de IA presenta la integración de Lucene para una búsqueda vectorial potente con OpenAI Embeddings.

Registro KYC ahora hecho fácil usando IA