Investigadores de China proponen iTransformer Repensando la arquitectura Transformer para una mejora en la previsión de series temporales

Repensando la arquitectura Transformer Investigadores chinos proponen iTransformer para mejorar la previsión de series temporales

El Transformer se ha convertido en el modelo básico que se adhiere a la regla de escalado después de alcanzar un gran éxito en el procesamiento de lenguaje natural y la visión por computadora. La predicción de series temporales está viendo la aparición de un Transformer, que es altamente capaz de extraer representaciones de varios niveles de secuencias y representar relaciones de pares, gracias a su enorme éxito en otras disciplinas amplias. Sin embargo, la validez de las predicciones basadas en Transformadores, que suelen incrustar varias variables del mismo momento en canales indistinguibles y enfocar el énfasis en esos tokens temporales para capturar las relaciones temporales, ha sido objeto de escrutinio recientemente por parte de académicos.

Observan que la predicción de series temporales multivariables puede necesitar una mejor adaptación a la estructura actual de los pronosticadores basados en Transformers. El panel izquierdo de la Figura 2 señala el hecho de que los puntos del mismo paso de tiempo, que reflejan radicalmente diferentes significados físicos capturados por mediciones contradictorias, se combinan en un solo token con correlaciones multivariables borradas. Además, debido al campo receptivo altamente local del mundo real y a los desajustes de tiempo de varios puntos de tiempo, el token creado por un solo paso de tiempo puede tener dificultades para revelar información útil. Además, en la dimensión temporal, se utilizan mecanismos de atención invariables ante la permutación aunque el orden de la secuencia pueda tener un impacto significativo en las variaciones de la serie.

Como resultado, el Transformer pierde su capacidad para describir correlaciones multivariables y capturar representaciones cruciales de series, lo que limita su aplicación y capacidades de generalización en diversos datos de series temporales. Utilizan una perspectiva invertida sobre las series temporales e incrustan toda la serie temporal de cada variable por separado en un token, el ejemplo extremo de Patching que amplía el campo receptivo local en respuesta a la irracionalidad de incrustar puntos multivariables de cada paso temporal como un token. El token incrustado invierte y agrega representaciones globales de series, que pueden ser mejor utilizadas por los mecanismos de atención en auge para la correlación multivariable y más centrados en la variable.

Figura 1: Rendimiento de iTransformer. Se utiliza TimesNet para informar sobre los resultados promedio (MSE).

Mientras tanto, la red de avance también puede ser entrenada para adquirir representaciones suficientemente bien generalizadas para diferentes variables que se codifican a partir de cualquier serie anterior y luego se decodifican para pronosticar la serie posterior. Por las razones expuestas anteriormente, consideran que el Transformer se está utilizando incorrectamente en lugar de ser ineficaz para la predicción de series temporales. Repasan nuevamente la arquitectura del Transformer en este estudio y promueven iTransformer como el marco esencial para la predicción de series temporales. En términos técnicos, utilizan la red de avance para la codificación de series, adoptan la atención para las correlaciones multivariables e incrustan cada serie temporal como tokens de variables. En términos de experimentación, el iTransformer sugerido aborda inesperadamente las deficiencias de los pronosticadores basados en Transformer mientras logra un rendimiento de vanguardia en los puntos de referencia de pronóstico del mundo real en la Figura 1.

Figura 2: Una comparación del iTransformer sugerido (abajo) y el Transformer original (arriba). En contraste con el Transformer, que incrusta cada paso de tiempo en el token temporal, el iTransformer incrusta toda la serie de manera independiente en el token de variado. Como resultado, la red de avance codifica las representaciones de las series y el mecanismo de atención puede mostrar correlaciones multivariadas.

Tres cosas a las que han contribuido son las siguientes:

• Investigadores de la Universidad de Tsinghua sugieren el iTransformer, que considera las series de tiempo independientes como tokens para capturar correlaciones multivariadas mediante autoatención. Utiliza normalización de capa y módulos de red de avance para aprender mejores representaciones de series a nivel global para la predicción de series de tiempo.

• Reflexionan sobre la arquitectura del Transformer y refinan la capacidad competente de los componentes nativos del Transformer en las series de tiempo, que es poco explorada.

• En comparación con los puntos de referencia de predicción del mundo real, el iTransformer obtiene consistentemente resultados de vanguardia en los experimentos. Su análisis exhaustivo de los módulos invertidos y las decisiones arquitectónicas apunta a un camino potencial para avanzar en los predictores basados en el Transformer en el futuro.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceDeep LearningEditors PickMachine Learning

Was this article helpful?

93 out of 132 found this helpful

¿Estás utilizando la Generación Aumentada con Recuperación (RAG) para Biomedicina? Conoce a MedCPT Un Modelo Transformador Pre-entrenado Contrastivo para la Recuperación de Información Biomédica sin Necesidad de Datos de Entrenamiento

Investigadores de China proponen iTransformer Repensando la arquitectura Transformer para una mejora en la previsión de series temporales

Was this article helpful?

Generando más perspectivas de calidad por mes

¿Estás utilizando la Generación Aumentada con Recuperación (RAG) para Biomedicina? Conoce a MedCPT Un Modelo Transformador Pre-entrenado Contrastivo para la Recuperación de Información Biomédica sin Necesidad de Datos de Entrenamiento

Inteligencia Artificial

¿Podemos generar imágenes humanas hiperrealistas? Este artículo de IA presenta HyperHuman un avance en modelos de texto a imagen

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

Usando los GPT, el creador de aplicaciones de IA personal sin código de OpenAI

Generando más perspectivas de calidad por mes

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

En el Festival de Wagner, la nueva tecnología revela una brecha de liderazgo