3 Poderosas Bibliotecas de Python para (Parcialmente) Automatizar EDA Y Ayudarte a Comenzar con tu Proyecto de Datos
3 Bibliotecas Poderosas de Python para Automatizar (en parte) el Análisis Exploratorio de Datos y Ayudarte a Comenzar con tu Proyecto de Datos
Todos los problemas de aprendizaje automático son problemas de datos.
Para evitar el viejo dicho de “basura entra, basura sale”, tiene sentido que dediques un tiempo considerable a comprender y limpiar tus datos. Recientemente leí “El libro de Kaggle” de Konrad Banachewicz y Luca Massaron, donde entrevistan a varios maestros Kaggle. Curiosamente, apresurarse o saltarse el EDA es el error más común que cometen ellos y los principiantes.
Todos sabemos lo importante que es el EDA, y sin embargo, todavía nos saltamos este paso. Puede ser porque es difícil saber por dónde empezar, qué preguntas debes hacer, o tal vez estamos demasiado ansiosos por comenzar con la modelización.
Aquí hay 3 bibliotecas de Python que puedes usar para automatizar parcialmente tu Análisis Exploratorio de Datos y comenzar con tu proyecto de datos.
Los datos para el análisis a continuación provienen de Kaggle, la competencia House Prices – Advanced Regression Techniques.
- Introducción a la Optimización Matemática en Python
- 15 Proyectos Guiados para Reforzar tus Habilidades en Ciencia de Datos
- Control de versiones en la práctica datos, modelo de ML y código
YData Profiling
Esta es la nueva versión de Pandas profiling que cuenta con el soporte de Spark y ahora va más allá de DataFrame en Pandas.
El objetivo, sin embargo, sigue siendo el mismo: proporcionar una experiencia de Análisis Exploratorio de Datos (EDA) en una sola línea. Este paquete destaca la importancia de tener un marco de evaluación de calidad de datos fácil de implementar. Este marco no debe limitarse a la fase inicial de tu proyecto, sino que debe implementarse a lo largo de todo el proyecto de datos.
Puedes ejecutar el perfil de datos de Ydata en dos líneas.
!pip install ydata-profiling
from ydata_profiling import ProfileReport#Generar el informe de perfil de datosprofile = ProfileReport(train, title='EDA')#mostrar el informe en el bloc de notasprofile.to_notebook_iframe()
![Alertas que indican alta correlación, desequilibrios de clase, datos faltantes, etc... Imagen del autor](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*RAkh58ETeF28ok9IFwLGxQ.png)
![Distribución de variables. Imagen del autor](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*qyR1c1unX8mN9zfFEEsdlg.png)
La salida muestra la distribución de las variables y te proporciona un conjunto de alertas…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de Microsoft presentan el Marco de Consorcio Confidencial (CCF) un marco de inteligencia artificial de propósito general para el desarrollo de aplicaciones de la CIA seguras y con estado.
- Investigadores de Google DeepMind presentan DiLoCo un novedoso algoritmo de aprendizaje automático distribuido y de baja comunicación para un entrenamiento efectivo y resistente de modelos de lenguaje grandes.
- Investigadores de Google y UIUC proponen ZipLoRA un novedoso método de inteligencia artificial para fusionar de manera fluida LoRAs de estilo y de tema entrenadas de forma independiente’.
- ¿Quién hace qué trabajo? Roles laborales a los ojos de la IA
- Si ves la vida como un juego, más te vale saber cómo jugarlo
- Construyendo una tubería RAG para datos semi-estructurados con Langchain
- Cómo los ex empleados de Apple están llevando la inteligencia artificial generativa al escritorio