Un conjunto de datos de referencia para modelos de IA del clima
Una base de datos de referencia para modelos de IA del clima
Comparar modelos de clima impulsados por datos con WeatherBench
Los conjuntos de datos de referencia son fundamentales para la investigación de aprendizaje automático. Son conjuntos de datos estandarizados que son fáciles de obtener, preprocesados y limpios, lo que los hace ideales para el aprendizaje automático.
El pronóstico del clima impulsado por datos es un tema muy activo. Los laboratorios de investigación, incluidos NVIDIA, DeepMind y Huawei, están lanzando algoritmos de aprendizaje automático que pueden competir con los servicios establecidos de pronóstico del clima.
¿Cómo se pueden comparar estos modelos de clima impulsados por datos entre sí y con el referente del pronóstico del clima “estándar”? Los conjuntos de datos de referencia y la evaluación estandarizada podrían ayudar.
Aquí, resumimos WeatherBench, un conjunto de datos de referencia para modelado climático y meteorológico desarrollado por Stephan Rasp et al. en 2020 [1].
- Ampliando la longitud del contexto en los modelos de lenguaje grandes
- ¿Puede la IA convertirse en un Terminator de la vida real?
- Esta investigación de encuestas de Inteligencia Artificial proporciona una visión general completa de los modelos de lenguaje grandes aplicados al dominio de la salud.
En esta publicación de blog, haremos lo siguiente:
- Revisar conjuntos de datos de referencia conocidos como MNIST y proporcionar algunos criterios importantes para un buen conjunto de datos de referencia.
- Presentar el conjunto de datos de reanálisis climático global ERA5, que es la base de WeatherBench.
- Discutir WeatherBench y el estado actual de la tabla de clasificación correspondiente.
Conjuntos de datos de referencia
El conjunto de datos de referencia más famoso es probablemente MNIST, una colección de dígitos escritos a mano desarrollada originalmente para sistemas de procesamiento de imágenes. MNIST contiene 70,000 imágenes, 60,000 para entrenamiento y 10,000 para pruebas, y cada imagen es un cuadrado de 28 por 28 píxeles en escala de grises. Como señala Yann LeCun,
Es una buena base de datos para las personas que desean probar técnicas de aprendizaje y métodos de reconocimiento de patrones en datos del mundo real mientras invierten un esfuerzo mínimo en el preprocesamiento y formato.
![Ejemplos de dígitos escritos a mano del conjunto de datos MNIST. Crédito: Josef Steppan [CC-BY-SA 4.0]](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*Ft2rLuO82eItlvJn5HOi9A.png)
Otros conjuntos de datos de referencia interesantes incluyen
- FashionMNIST: Una colección similar a MNIST de 70,000 imágenes de productos de moda desarrollada por el minorista en línea Zalando.
- ImageNet: 14 millones de imágenes en más de 20,000 categorías. Utilizado en el reconocimiento visual a gran escala de ImageNet…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Este estudio de investigación de IA propone FireAct un nuevo enfoque de Inteligencia Artificial para el ajuste fino de modelos de lenguaje con trayectorias de múltiples tareas y métodos de agentes.
- Investigadores de Apple y CMU revelan el Aprendiz de IU Sin Fin Revolucionando la accesibilidad de las aplicaciones a través del Aprendizaje Automático Continuo
- Revisión del Generador de Voz de WellSaid Labs AI (Octubre 2023)
- ¿Es verdaderamente seguro el IA multilingüe? Exponiendo las vulnerabilidades de los grandes modelos de lenguaje en idiomas con recursos limitados
- ¿Puede comprimir los documentos recuperados mejorar el rendimiento del modelo de lenguaje? Este artículo de IA presenta RECOMP Mejorando los modelos de lenguaje con recuperación y compresión selectiva.
- Rendimiento de Apple M1 y M2 para entrenar modelos SSL
- ReactJS para IA y Aprendizaje Automático Una Combinación Poderosa