Un conjunto de datos de referencia para modelos de IA del clima

Una base de datos de referencia para modelos de IA del clima

Comparar modelos de clima impulsados por datos con WeatherBench

Foto de NOAA en Unsplash

Los conjuntos de datos de referencia son fundamentales para la investigación de aprendizaje automático. Son conjuntos de datos estandarizados que son fáciles de obtener, preprocesados y limpios, lo que los hace ideales para el aprendizaje automático.

El pronóstico del clima impulsado por datos es un tema muy activo. Los laboratorios de investigación, incluidos NVIDIA, DeepMind y Huawei, están lanzando algoritmos de aprendizaje automático que pueden competir con los servicios establecidos de pronóstico del clima.

¿Cómo se pueden comparar estos modelos de clima impulsados por datos entre sí y con el referente del pronóstico del clima “estándar”? Los conjuntos de datos de referencia y la evaluación estandarizada podrían ayudar.

Aquí, resumimos WeatherBench, un conjunto de datos de referencia para modelado climático y meteorológico desarrollado por Stephan Rasp et al. en 2020 [1].

En esta publicación de blog, haremos lo siguiente:

  1. Revisar conjuntos de datos de referencia conocidos como MNIST y proporcionar algunos criterios importantes para un buen conjunto de datos de referencia.
  2. Presentar el conjunto de datos de reanálisis climático global ERA5, que es la base de WeatherBench.
  3. Discutir WeatherBench y el estado actual de la tabla de clasificación correspondiente.

Conjuntos de datos de referencia

El conjunto de datos de referencia más famoso es probablemente MNIST, una colección de dígitos escritos a mano desarrollada originalmente para sistemas de procesamiento de imágenes. MNIST contiene 70,000 imágenes, 60,000 para entrenamiento y 10,000 para pruebas, y cada imagen es un cuadrado de 28 por 28 píxeles en escala de grises. Como señala Yann LeCun,

Es una buena base de datos para las personas que desean probar técnicas de aprendizaje y métodos de reconocimiento de patrones en datos del mundo real mientras invierten un esfuerzo mínimo en el preprocesamiento y formato.

Ejemplos de dígitos escritos a mano del conjunto de datos MNIST. Crédito: Josef Steppan [CC-BY-SA 4.0]

Otros conjuntos de datos de referencia interesantes incluyen

  • FashionMNIST: Una colección similar a MNIST de 70,000 imágenes de productos de moda desarrollada por el minorista en línea Zalando.
  • ImageNet: 14 millones de imágenes en más de 20,000 categorías. Utilizado en el reconocimiento visual a gran escala de ImageNet…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Algoritmo encuentra esperma en hombres infértiles más rápido y con mayor precisión que los médicos.

La herramienta identifica instantáneamente el esperma, luego deja al embriólogo decidir si el esperma está realmente ...

Inteligencia Artificial

Premio Gordon Bell otorgado por simulaciones de materiales que logran precisión cuántica a gran escala

Un equipo de investigadores de instituciones estadounidenses e indias fue galardonado con el Premio Gordon Bell 2023 ...

Ciencias de la Computación

Vidrio de grado óptico impreso en 3D a escala nanométrica.

Los ingenieros han impreso en tres dimensiones vidrio de calidad óptica a escala nanométrica a baja temperatura utili...

Inteligencia Artificial

Los desarrolladores buscan OpenUSD en la era de la IA y la digitalización industrial

Desde fábricas inteligentes hasta sistemas ferroviarios de próxima generación, desarrolladores y empresas de todo el ...

Inteligencia Artificial

Upstage presenta Solar-10.7B modelos de lenguaje grandes pioneros con escalado en profundidad y precisión ajustada para conversaciones de un solo turno

Los investigadores de Upstage (una empresa de IA de Corea del Sur) han abordado el desafío de maximizar el rendimient...