Investigadores de Google DeepMind proponen 6 transformaciones componibles para aumentar de forma incremental el tamaño de las redes neuronales basadas en Transformers mientras se preserva la funcionalidad.

Investigadores de Google DeepMind proponen 6 transformaciones para aumentar el tamaño de las redes neuronales basadas en Transformers de forma incremental y preservando la funcionalidad.

Las redes neuronales basadas en transformadores han recibido mucha atención últimamente porque funcionan bien. La traducción automática, la creación de texto y la respuesta a preguntas son solo algunas de las actividades de procesamiento del lenguaje natural para las cuales la arquitectura de transformador (ver figura 1) ha surgido como el estándar de la industria. La eficacia de los modelos basados en transformadores no se limita al procesamiento del lenguaje natural; también se han utilizado con éxito en varios otros campos, como el reconocimiento de voz, la visión por computadora y los sistemas de recomendación. Los modelos de base de lenguaje, visión y multimodales más grandes, son los más complejos y efectivos de estos modelos, con miles de millones a billones de parámetros.

Cada nuevo modelo, sin embargo, suele ser enseñado desde el principio sin aprovechar las habilidades aprendidas por modelos anteriores más pequeños entrenados. Además, el tamaño del modelo se mantiene constante durante el entrenamiento. Debido a la mayor cantidad de datos de entrenamiento requeridos, el costo computacional del entrenamiento aumenta cuadráticamente con el tamaño del modelo. Reutilizar parámetros de un modelo preentrenado o aumentar dinámicamente el tamaño de un modelo durante el entrenamiento podría reducir el costo total del entrenamiento. Sin embargo, no es fácil hacerlo sin sacrificar el progreso del entrenamiento. Se proporcionan transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores para resolver estas restricciones.

Estas transformaciones aumentan el tamaño del modelo y, por lo tanto, la capacidad potencial del modelo sin cambiar su funcionalidad, lo que permite continuar el entrenamiento. Estas transformaciones componibles operan en dimensiones independientes de la arquitectura, lo que permite una expansión arquitectónica detallada. Algunos trabajos anteriores también han propuesto transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores, extendiendo técnicas para modelos de convolución y densos más pequeños.

La figura 1 muestra cómo se muestra una red neuronal típica basada en el diseño del transformador.

En este estudio, investigadores de Google DeepMind y de la Universidad de Toulouse desarrollan un marco que es la colección más extensa y modular de transformaciones que conservan la función. Las seis contribuciones del documento son las seis transformaciones que conservan la función y se aplican a las arquitecturas de transformador. Son las siguientes:

  1. El tamaño de la representación interna de la MLP
  2. El número de cabezas de atención
  3. El tamaño de la representación de salida para las cabezas de atención
  4. El tamaño de la representación de entrada de atención
  5. El tamaño de las representaciones de entrada/salida para las capas del transformador
  6. Número de capas

Se demuestra cómo se logra la propiedad de conservación de la función precisa para cada transformación con las restricciones mínimas posibles en la inicialización de los parámetros adicionales. Los autores han discutido todas estas contribuciones en detalle en el documento.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión

Los modelos de texto a imagen (T2I) son difíciles de evaluar y a menudo dependen de métodos de generación y respuesta...

Inteligencia Artificial

Científicos más cerca de encontrar una prueba para el COVID prolongado

Un equipo multiinstitucional de científicos podría haber descubierto biomarcadores de la COVID-19 prolongada que podr...

Inteligencia Artificial

Gran noticia Google retrasa el lanzamiento del modelo de IA Gemini

En un desarrollo inesperado, Google ha decidido posponer el tan esperado lanzamiento de su avanzado modelo de intelig...

Inteligencia Artificial

Cómo generar audio utilizando el modelo de IA Bark de texto a voz

Introducción Bark es un modelo de texto a audio de código abierto y completamente generativo creado por Suno.ai que p...

Inteligencia Artificial

Esta investigación de IA presenta la integración de Lucene para una búsqueda vectorial potente con OpenAI Embeddings.

Últimamente, se han logrado avances significativos en la aplicación de redes neuronales profundas al campo de la búsq...

Inteligencia Artificial

Registro KYC ahora hecho fácil usando IA

Los participantes del mercado de capitales pueden ahora despedirse de los largos y engorrosos procesos de registro de...