RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Ideas de un artículo de investigación de Google DeepMind
RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Artículo de investigación de Google DeepMind
Hoy en día, una arquitectura común de aprendizaje automático es la arquitectura de transformer. Una de las partes principales del transformer, la atención, tiene un softmax que genera una distribución de probabilidad entre los tokens. La paralelización es difícil con Softmax ya que es costoso debido a un cálculo exponencial y una suma sobre la longitud de la secuencia. En este estudio, investigan alternativas de softmax puntuales que no siempre proporcionan una distribución de probabilidad. Un hallazgo destacado es que, para los transformadores visuales, el comportamiento de escalamiento para la atención con ReLU dividida por la longitud de la secuencia puede acercarse o coincidir con el de la atención softmax clásica.
Este hallazgo abre nuevas posibilidades para la paralelización, ya que la atención con ReLU se puede paralelizar más fácilmente que la atención estándar a lo largo de la dimensión de la longitud de la secuencia. En estudios anteriores, se ha considerado a ReLU o ReLU al cuadrado como posibles reemplazos de softmax. Sin embargo, estos métodos no se dividen por longitud de secuencia, lo cual los investigadores de Google DeepMind consideran crucial para lograr una precisión comparable a softmax. Además, investigaciones anteriores han asumido el papel de softmax, aunque la normalización a lo largo del eje de la longitud de la secuencia sigue siendo necesaria para garantizar que los pesos de atención sumen uno. La desventaja de requerir una recolección permanece con esto. Además, existe una gran cantidad de investigaciones que eliminan las funciones de activación para hacer que la atención sea lineal, lo cual es ventajoso para duraciones de secuencias largas.
En sus estudios, la precisión disminuyó cuando se eliminó por completo la activación. Sus pruebas utilizan configuraciones de entrenamiento de ImageNet-21k e ImageNet-1k de la fuente BigVision sin cambiar los hiperparámetros. Entrenan durante 30 épocas en sus experimentos en ImageNet-21k y 300 épocas en sus pruebas en ImageNet-1k. Como resultado, ambas ejecuciones de entrenamiento toman alrededor de 9e5 pasos, que es una cantidad similar. Como se descubrió previamente que esto es necesario para evitar la inestabilidad al escalar el tamaño del modelo, utilizan ViTs con la norma de capa qk. Concluyen que este no es un elemento crucial en sus escalas.
- Branch and Bound – Introducción antes de codificar el algoritmo desde cero
- Lo más difícil de Pandas pivot_table, stack y unstack claramente explicados
- Robot Blando Camina al Inflarse Repetidamente
Informan la precisión de ImageNet-1k para los modelos de ImageNet-21k tomando la clase superior entre los de ImageNet-1k sin ajuste fino. Utilizan los términos i21k e i1k para denotar ImageNet-21k e ImageNet-1k, respectivamente. Utilizan una sonda lineal de 10 disparos promediada en tres semillas para evaluar el rendimiento de transferencia en actividades posteriores. Las tareas posteriores son Caltech Birds, Caltech101, Stanford Cars, CIFAR-100, DTD, ColHsit, Pets y UC Merced. Este estudio plantea muchas preguntas sin respuesta. Deben descubrir por qué el factor L^(-1) mejora el rendimiento o si este concepto se puede aprender. Además, puede haber una función de activación más efectiva que no están investigando.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Utilizando Psicología para Fortalecer la Ciberseguridad
- La lucha por reparar
- Cómo la IA nos ayudó a agregar la búsqueda vectorial a Cassandra en seis semanas
- Usa Deep Learning para generar nombres de personajes de fantasía Construye un modelo de lenguaje desde cero
- Explorando qué hace que una caja de herramientas de ética de IA funcione
- ¿Cómo crear un gráfico de cascada en Excel?
- Los Juegos Olímpicos de la IA Evaluando los Sistemas de Aprendizaje Automático