RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Ideas de un artículo de investigación de Google DeepMind

RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Artículo de investigación de Google DeepMind

Hoy en día, una arquitectura común de aprendizaje automático es la arquitectura de transformer. Una de las partes principales del transformer, la atención, tiene un softmax que genera una distribución de probabilidad entre los tokens. La paralelización es difícil con Softmax ya que es costoso debido a un cálculo exponencial y una suma sobre la longitud de la secuencia. En este estudio, investigan alternativas de softmax puntuales que no siempre proporcionan una distribución de probabilidad. Un hallazgo destacado es que, para los transformadores visuales, el comportamiento de escalamiento para la atención con ReLU dividida por la longitud de la secuencia puede acercarse o coincidir con el de la atención softmax clásica.

Este hallazgo abre nuevas posibilidades para la paralelización, ya que la atención con ReLU se puede paralelizar más fácilmente que la atención estándar a lo largo de la dimensión de la longitud de la secuencia. En estudios anteriores, se ha considerado a ReLU o ReLU al cuadrado como posibles reemplazos de softmax. Sin embargo, estos métodos no se dividen por longitud de secuencia, lo cual los investigadores de Google DeepMind consideran crucial para lograr una precisión comparable a softmax. Además, investigaciones anteriores han asumido el papel de softmax, aunque la normalización a lo largo del eje de la longitud de la secuencia sigue siendo necesaria para garantizar que los pesos de atención sumen uno. La desventaja de requerir una recolección permanece con esto. Además, existe una gran cantidad de investigaciones que eliminan las funciones de activación para hacer que la atención sea lineal, lo cual es ventajoso para duraciones de secuencias largas.

En sus estudios, la precisión disminuyó cuando se eliminó por completo la activación. Sus pruebas utilizan configuraciones de entrenamiento de ImageNet-21k e ImageNet-1k de la fuente BigVision sin cambiar los hiperparámetros. Entrenan durante 30 épocas en sus experimentos en ImageNet-21k y 300 épocas en sus pruebas en ImageNet-1k. Como resultado, ambas ejecuciones de entrenamiento toman alrededor de 9e5 pasos, que es una cantidad similar. Como se descubrió previamente que esto es necesario para evitar la inestabilidad al escalar el tamaño del modelo, utilizan ViTs con la norma de capa qk. Concluyen que este no es un elemento crucial en sus escalas.

Informan la precisión de ImageNet-1k para los modelos de ImageNet-21k tomando la clase superior entre los de ImageNet-1k sin ajuste fino. Utilizan los términos i21k e i1k para denotar ImageNet-21k e ImageNet-1k, respectivamente. Utilizan una sonda lineal de 10 disparos promediada en tres semillas para evaluar el rendimiento de transferencia en actividades posteriores. Las tareas posteriores son Caltech Birds, Caltech101, Stanford Cars, CIFAR-100, DTD, ColHsit, Pets y UC Merced. Este estudio plantea muchas preguntas sin respuesta. Deben descubrir por qué el factor L^(-1) mejora el rendimiento o si este concepto se puede aprender. Además, puede haber una función de activación más efectiva que no están investigando.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Desbloqueando la optimización de la batería Cómo el aprendizaje automático y la microscopía de rayos X a escala nanométrica podrían revolucionar las baterías de litio

RELU vs. Softmax en Vision Transformers ¿Importa la longitud de la secuencia? Ideas de un artículo de investigación de Google DeepMind

Was this article helpful?

Branch and Bound – Introducción antes de codificar el algoritmo desde cero

Desbloqueando la optimización de la batería Cómo el aprendizaje automático y la microscopía de rayos X a escala nanométrica podrían revolucionar las baterías de litio

Inteligencia Artificial

El Ascenso y Caída de la Ingeniería Rápida ¿Moda o Futuro?

10 hiperparámetros confusos de XGBoost y cómo ajustarlos como un profesional en 2023.

Conoce a SPHINX Un modelo de lenguaje grande multi-modal y versátil (MLLM) con una combinación de tareas de entrenamiento, dominios de datos y embebimientos visuales.

Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable

¡No, no, no lo pongamos ahí! Este método de IA puede realizar edición de diseño continua con modelos de difusión

Acelerando la lucha contra el Covid Investigadores validan antivirales generados por IA, abriendo camino para el desarrollo rápido de medicamentos en futuras crisis.