Investigadores de Google DeepMind proponen 6 transformaciones componibles para aumentar de forma incremental el tamaño de las redes neuronales basadas en Transformers mientras se preserva la funcionalidad.
Investigadores de Google DeepMind proponen 6 transformaciones para aumentar el tamaño de las redes neuronales basadas en Transformers de forma incremental y preservando la funcionalidad.
Las redes neuronales basadas en transformadores han recibido mucha atención últimamente porque funcionan bien. La traducción automática, la creación de texto y la respuesta a preguntas son solo algunas de las actividades de procesamiento del lenguaje natural para las cuales la arquitectura de transformador (ver figura 1) ha surgido como el estándar de la industria. La eficacia de los modelos basados en transformadores no se limita al procesamiento del lenguaje natural; también se han utilizado con éxito en varios otros campos, como el reconocimiento de voz, la visión por computadora y los sistemas de recomendación. Los modelos de base de lenguaje, visión y multimodales más grandes, son los más complejos y efectivos de estos modelos, con miles de millones a billones de parámetros.
Cada nuevo modelo, sin embargo, suele ser enseñado desde el principio sin aprovechar las habilidades aprendidas por modelos anteriores más pequeños entrenados. Además, el tamaño del modelo se mantiene constante durante el entrenamiento. Debido a la mayor cantidad de datos de entrenamiento requeridos, el costo computacional del entrenamiento aumenta cuadráticamente con el tamaño del modelo. Reutilizar parámetros de un modelo preentrenado o aumentar dinámicamente el tamaño de un modelo durante el entrenamiento podría reducir el costo total del entrenamiento. Sin embargo, no es fácil hacerlo sin sacrificar el progreso del entrenamiento. Se proporcionan transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores para resolver estas restricciones.
Estas transformaciones aumentan el tamaño del modelo y, por lo tanto, la capacidad potencial del modelo sin cambiar su funcionalidad, lo que permite continuar el entrenamiento. Estas transformaciones componibles operan en dimensiones independientes de la arquitectura, lo que permite una expansión arquitectónica detallada. Algunos trabajos anteriores también han propuesto transformaciones de expansión de parámetros que conservan la función para modelos basados en transformadores, extendiendo técnicas para modelos de convolución y densos más pequeños.
- 15 Mejores Herramientas ETL Disponibles en el Mercado en 2023
- Swin Transformers | Tareas modernas de visión por computadora
- Encontrar agujas en un pajar índices de búsqueda para la similitud de Jaccard
En este estudio, investigadores de Google DeepMind y de la Universidad de Toulouse desarrollan un marco que es la colección más extensa y modular de transformaciones que conservan la función. Las seis contribuciones del documento son las seis transformaciones que conservan la función y se aplican a las arquitecturas de transformador. Son las siguientes:
- El tamaño de la representación interna de la MLP
- El número de cabezas de atención
- El tamaño de la representación de salida para las cabezas de atención
- El tamaño de la representación de entrada de atención
- El tamaño de las representaciones de entrada/salida para las capas del transformador
- Número de capas
Se demuestra cómo se logra la propiedad de conservación de la función precisa para cada transformación con las restricciones mínimas posibles en la inicialización de los parámetros adicionales. Los autores han discutido todas estas contribuciones en detalle en el documento.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo crear atractivas clasificaciones de países utilizando Python y Matplotlib
- La Associated Press y otras organizaciones de noticias desarrollan estándares para la inteligencia artificial en la sala de redacción
- Función de Llamada Integra tu Chatbot GPT con cualquier cosa
- Herramienta LLM encuentra y remedia vulnerabilidades de software
- 10 Mejores Herramientas Generadoras de Imágenes de IA para Usar en 2023
- William Wu, Fundador y CEO de Artisse – Serie de Entrevistas
- Más allá de Photoshop Cómo Inst-Inpaint está revolucionando la eliminación de objetos con modelos de difusión