Un conjunto de datos de referencia para modelos de IA del clima

Una base de datos de referencia para modelos de IA del clima

Comparar modelos de clima impulsados por datos con WeatherBench

Los conjuntos de datos de referencia son fundamentales para la investigación de aprendizaje automático. Son conjuntos de datos estandarizados que son fáciles de obtener, preprocesados y limpios, lo que los hace ideales para el aprendizaje automático.

El pronóstico del clima impulsado por datos es un tema muy activo. Los laboratorios de investigación, incluidos NVIDIA, DeepMind y Huawei, están lanzando algoritmos de aprendizaje automático que pueden competir con los servicios establecidos de pronóstico del clima.

¿Cómo se pueden comparar estos modelos de clima impulsados por datos entre sí y con el referente del pronóstico del clima “estándar”? Los conjuntos de datos de referencia y la evaluación estandarizada podrían ayudar.

Aquí, resumimos WeatherBench, un conjunto de datos de referencia para modelado climático y meteorológico desarrollado por Stephan Rasp et al. en 2020 [1].

En esta publicación de blog, haremos lo siguiente:

Revisar conjuntos de datos de referencia conocidos como MNIST y proporcionar algunos criterios importantes para un buen conjunto de datos de referencia.
Presentar el conjunto de datos de reanálisis climático global ERA5, que es la base de WeatherBench.
Discutir WeatherBench y el estado actual de la tabla de clasificación correspondiente.

Conjuntos de datos de referencia

El conjunto de datos de referencia más famoso es probablemente MNIST, una colección de dígitos escritos a mano desarrollada originalmente para sistemas de procesamiento de imágenes. MNIST contiene 70,000 imágenes, 60,000 para entrenamiento y 10,000 para pruebas, y cada imagen es un cuadrado de 28 por 28 píxeles en escala de grises. Como señala Yann LeCun,

Es una buena base de datos para las personas que desean probar técnicas de aprendizaje y métodos de reconocimiento de patrones en datos del mundo real mientras invierten un esfuerzo mínimo en el preprocesamiento y formato.

Ejemplos de dígitos escritos a mano del conjunto de datos MNIST. Crédito: Josef Steppan [CC-BY-SA 4.0]

Otros conjuntos de datos de referencia interesantes incluyen

FashionMNIST: Una colección similar a MNIST de 70,000 imágenes de productos de moda desarrollada por el minorista en línea Zalando.
ImageNet: 14 millones de imágenes en más de 20,000 categorías. Utilizado en el reconocimiento visual a gran escala de ImageNet…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Un conjunto de datos de referencia para modelos de IA del clima

Comparar modelos de clima impulsados por datos con WeatherBench

Conjuntos de datos de referencia

Was this article helpful?

Ampliando la longitud del contexto en los modelos de lenguaje grandes

Tutorial para principiantes Conectar modelos GPT con datos de la empresa en Microsoft Azure

Inteligencia Artificial

Investigadores de Google revelan la Consistencia Universal de Auto (USC) Un nuevo avance en las capacidades de los modelos de lenguaje para el rendimiento en tareas complejas

Algoritmo encuentra esperma en hombres infértiles más rápido y con mayor precisión que los médicos.

Premio Gordon Bell otorgado por simulaciones de materiales que logran precisión cuántica a gran escala

Vidrio de grado óptico impreso en 3D a escala nanométrica.

Los desarrolladores buscan OpenUSD en la era de la IA y la digitalización industrial

Upstage presenta Solar-10.7B modelos de lenguaje grandes pioneros con escalado en profundidad y precisión ajustada para conversaciones de un solo turno