Investigadores de UCLA y CMU presentan Stormer Una red neuronal Transformadora escalable para una pronóstico meteorológico de mediano alcance hábil y confiable.

Investigadores de UCLA y CMU presentan Stormer Una red neuronal transformadora escalable para un pronóstico meteorológico de mediano alcance hábil y confiable.

Uno de los principales problemas que enfrenta la ciencia y la sociedad hoy en día es la predicción del tiempo. La precisión en la predicción del tiempo desempeña un papel crucial en ayudar a las personas a planificar y recuperarse de catástrofes naturales y fenómenos climáticos extremos, así como en ayudar a los investigadores a comprender mejor el medio ambiente a la luz de las crecientes preocupaciones sobre el cambio climático. Los modelos de predicción del tiempo numérico (NWP, por sus siglas en inglés) han sido históricamente el pilar del trabajo de los científicos atmosféricos. Estos modelos utilizan sistemas de ecuaciones diferenciales que explican la termodinámica y el flujo de fluidos, y se pueden integrar a lo largo del tiempo para producir proyecciones para el futuro. Los modelos NWP tienen varias desventajas, aunque se utilizan ampliamente, como errores de parametrización de fenómenos físicos significativos a pequeña escala, como la radiación y la física de las nubes.

Debido a la dificultad de integrar un gran sistema de ecuaciones diferenciales, los enfoques numéricos también tienen costos de computación sustanciales, especialmente cuando se modela a resoluciones espaciales y temporales precisas. Además, dado que los modelos dependen del conocimiento de los científicos del clima para mejorar las ecuaciones, la parametrización y los algoritmos, la precisión de las predicciones del NWP sigue siendo la misma con datos adicionales. Un número creciente de personas está interesado en los métodos de predicción del tiempo basados en el aprendizaje profundo y orientados por los datos para superar los problemas con los modelos NWP. Utilizando datos históricos, como el conjunto de datos de reanálisis ERA5, se entrenan redes neuronales profundas para pronosticar las condiciones meteorológicas futuras. Esta es la premisa principal de la técnica. A diferencia de los modelos NWP tradicionales, que tardan horas en hacer pronósticos, pueden hacerlo en segundos una vez entrenados.

Los primeros esfuerzos en este campo buscaron emplear arquitecturas de visión convencionales como ResNet y UNet para la predicción del tiempo, ya que los datos meteorológicos y las imágenes naturales tienen estructuras espaciales comparables. Sin embargo, su rendimiento fue inferior al de los modelos numéricos. Sin embargo, gracias a diseños de modelos mejorados, metodologías de entrenamiento y aumento de datos y potencia, se han logrado avances notables recientemente. El primer modelo que superó al IFS operativo fue Pangu-Weather, un modelo de transformador 3D específico de la Tierra entrenado con datos de 0,25∘ (721×1440 cuadrículas). Poco después, el diseño de la red neuronal gráfica de Keisler se escaló para datos de 0,25∘ mediante GraphCast, que demostró mejoras sobre Pangu-Weather.

Aunque la precisión de los pronósticos es excepcional, los enfoques actuales a veces emplean topologías de redes neuronales intrincadas y altamente personalizadas con experimentos de ablación mínimos o nulos, lo que dificulta identificar los elementos precisos que conducen a su eficacia. Por ejemplo, se desconoce cuánto contribuye el paso de mensajes entre mallas múltiples en GraphCast a su eficiencia y qué ventajas tiene el transformador 3D específico de la Tierra sobre un transformador normal. Avanzar en este sector requerirá un mejor entendimiento de estas metodologías actuales y, preferiblemente, una simplificación. Un marco unificado también facilitaría la creación de modelos base para el clima y el tiempo que vayan más allá de la predicción del tiempo. Este estudio demuestra que un diseño sencillo puede superar a las técnicas de vanguardia cuando se combina con una fórmula de entrenamiento adecuada.

Investigadores de las universidades de UCLA, CMU, Argonne National Laboratory y Penn State University presentan Stormer, un modelo de transformador sencillo que requiere modificaciones mínimas en el esqueleto convencional del transformador para ofrecer un rendimiento de vanguardia en la predicción del tiempo. A partir de una arquitectura de transformador de visión convencional (ViT), el equipo de investigación llevó a cabo investigaciones de ablación en profundidad para determinar los tres elementos esenciales que influyen en el rendimiento del modelo: Tres componentes conforman el modelo: (1) una capa de incrustación específica del clima que modela las interacciones entre variables atmosféricas para convertir los datos de entrada en una secuencia de tokens; (2) un objetivo de pronóstico de dinámica aleatorizada que capacita al modelo para predecir la dinámica del clima en intervalos aleatorios; y (3) una pérdida ponderada por presión que aproxima la densidad en cada nivel de presión mediante la ponderación de variables en diferentes niveles de presión en la función de pérdida. Su objetivo propuesto de pronóstico de dinámica aleatorizada, al emplear diversas combinaciones de los intervalos para los que se capacitó el modelo, permite que un solo modelo genere muchos pronósticos para un tiempo de liderazgo determinado durante la inferencia.

Por ejemplo, al distribuir los pronósticos de 6 horas 12 veces o los pronósticos de 12 horas 6 veces, se puede obtener un pronóstico de 3 días. La combinación de estas proyecciones resulta en mejoras significativas de rendimiento, especialmente para tiempos de liderazgo prolongados. El equipo de investigación evalúa Scalable transformers for weather forecasting (Stormer), su enfoque sugerido, utilizando WeatherBench 2, un benchmark popular para la predicción del tiempo basada en datos. Los resultados de las pruebas demuestran que Stormer supera al sistema de predicción de vanguardia después de 7 días, logrando una precisión de predicción competitiva de variables atmosféricas importantes para 1-7 días. Es importante destacar que Stormer supera los resultados en comparación con las líneas de base en rendimiento mediante el entrenamiento con datos de resolución casi 5 veces más baja y con órdenes de magnitud menos horas de GPU. Por último, su investigación sobre escalado demuestra la posibilidad de mejoras adicionales al demostrar que el rendimiento de Stormer mejora continuamente con un mayor aumento de la capacidad del modelo y del tamaño de los datos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Samet honrado con el Premio ACM SIGSPATIAL al Impacto de por Vida

Hanan Samet fue honrado con el Premio Inaugural al Impacto de toda la Vida de ACM's Special Interest Group on Spatial...

Inteligencia Artificial

Google AI propone E3-TTS, una solución sencilla y eficiente de texto a voz basada en difusión para convertir texto en voz de manera fácil y completa.

En el aprendizaje automático, un modelo de difusión es un modelo generativo comúnmente utilizado para tareas de gener...

Inteligencia Artificial

Conoce DiffusionDet Un Modelo de Inteligencia Artificial (IA) Que Utiliza Difusión para la Detección de Objetos

La detección de objetos es una técnica poderosa para identificar objetos en imágenes y videos. Gracias al aprendizaje...

Inteligencia Artificial

Dando a los usuarios más de lo que pueden manejar

¿Están los archivos de inteligencia artificial de Microsoft creando problemas de seguridad para los clientes?