RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Ideas de un artículo de investigación de Google DeepMind

RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Artículo de investigación de Google DeepMind

Hoy en día, una arquitectura común de aprendizaje automático es la arquitectura de transformer. Una de las partes principales del transformer, la atención, tiene un softmax que genera una distribución de probabilidad entre los tokens. La paralelización es difícil con Softmax ya que es costoso debido a un cálculo exponencial y una suma sobre la longitud de la secuencia. En este estudio, investigan alternativas de softmax puntuales que no siempre proporcionan una distribución de probabilidad. Un hallazgo destacado es que, para los transformadores visuales, el comportamiento de escalamiento para la atención con ReLU dividida por la longitud de la secuencia puede acercarse o coincidir con el de la atención softmax clásica.

Este hallazgo abre nuevas posibilidades para la paralelización, ya que la atención con ReLU se puede paralelizar más fácilmente que la atención estándar a lo largo de la dimensión de la longitud de la secuencia. En estudios anteriores, se ha considerado a ReLU o ReLU al cuadrado como posibles reemplazos de softmax. Sin embargo, estos métodos no se dividen por longitud de secuencia, lo cual los investigadores de Google DeepMind consideran crucial para lograr una precisión comparable a softmax. Además, investigaciones anteriores han asumido el papel de softmax, aunque la normalización a lo largo del eje de la longitud de la secuencia sigue siendo necesaria para garantizar que los pesos de atención sumen uno. La desventaja de requerir una recolección permanece con esto. Además, existe una gran cantidad de investigaciones que eliminan las funciones de activación para hacer que la atención sea lineal, lo cual es ventajoso para duraciones de secuencias largas.

En sus estudios, la precisión disminuyó cuando se eliminó por completo la activación. Sus pruebas utilizan configuraciones de entrenamiento de ImageNet-21k e ImageNet-1k de la fuente BigVision sin cambiar los hiperparámetros. Entrenan durante 30 épocas en sus experimentos en ImageNet-21k y 300 épocas en sus pruebas en ImageNet-1k. Como resultado, ambas ejecuciones de entrenamiento toman alrededor de 9e5 pasos, que es una cantidad similar. Como se descubrió previamente que esto es necesario para evitar la inestabilidad al escalar el tamaño del modelo, utilizan ViTs con la norma de capa qk. Concluyen que este no es un elemento crucial en sus escalas.

Informan la precisión de ImageNet-1k para los modelos de ImageNet-21k tomando la clase superior entre los de ImageNet-1k sin ajuste fino. Utilizan los términos i21k e i1k para denotar ImageNet-21k e ImageNet-1k, respectivamente. Utilizan una sonda lineal de 10 disparos promediada en tres semillas para evaluar el rendimiento de transferencia en actividades posteriores. Las tareas posteriores son Caltech Birds, Caltech101, Stanford Cars, CIFAR-100, DTD, ColHsit, Pets y UC Merced. Este estudio plantea muchas preguntas sin respuesta. Deben descubrir por qué el factor L^(-1) mejora el rendimiento o si este concepto se puede aprender. Además, puede haber una función de activación más efectiva que no están investigando.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El Ascenso y Caída de la Ingeniería Rápida ¿Moda o Futuro?

Este artículo proporciona una visión general de la ingeniería rápida, desde sus inicios hasta su estado actual.

Ciencia de Datos

10 hiperparámetros confusos de XGBoost y cómo ajustarlos como un profesional en 2023.

Un tutorial detallado y visual sobre cómo ajustar 10 de los hiperparámetros más confusos de XGBoost con Optuna.

Inteligencia Artificial

Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable

En medio de todo el revuelo en torno a la inteligencia artificial, las empresas están comenzando a darse cuenta de la...

Inteligencia Artificial

¡No, no, no lo pongamos ahí! Este método de IA puede realizar edición de diseño continua con modelos de difusión

En este punto, todos están familiarizados con los modelos de texto a imagen. Se hicieron conocidos con el lanzamiento...