3 Poderosas Bibliotecas de Python para (Parcialmente) Automatizar EDA Y Ayudarte a Comenzar con tu Proyecto de Datos

3 Bibliotecas Poderosas de Python para Automatizar (en parte) el Análisis Exploratorio de Datos y Ayudarte a Comenzar con tu Proyecto de Datos

Todos los problemas de aprendizaje automático son problemas de datos.

Para evitar el viejo dicho de “basura entra, basura sale”, tiene sentido que dediques un tiempo considerable a comprender y limpiar tus datos. Recientemente leí “El libro de Kaggle” de Konrad Banachewicz y Luca Massaron, donde entrevistan a varios maestros Kaggle. Curiosamente, apresurarse o saltarse el EDA es el error más común que cometen ellos y los principiantes.

Foto de Choong Deng Xiang en Unsplash

Todos sabemos lo importante que es el EDA, y sin embargo, todavía nos saltamos este paso. Puede ser porque es difícil saber por dónde empezar, qué preguntas debes hacer, o tal vez estamos demasiado ansiosos por comenzar con la modelización.

Aquí hay 3 bibliotecas de Python que puedes usar para automatizar parcialmente tu Análisis Exploratorio de Datos y comenzar con tu proyecto de datos.

Los datos para el análisis a continuación provienen de Kaggle, la competencia House Prices – Advanced Regression Techniques.

YData Profiling

Esta es la nueva versión de Pandas profiling que cuenta con el soporte de Spark y ahora va más allá de DataFrame en Pandas.

El objetivo, sin embargo, sigue siendo el mismo: proporcionar una experiencia de Análisis Exploratorio de Datos (EDA) en una sola línea. Este paquete destaca la importancia de tener un marco de evaluación de calidad de datos fácil de implementar. Este marco no debe limitarse a la fase inicial de tu proyecto, sino que debe implementarse a lo largo de todo el proyecto de datos.

Puedes ejecutar el perfil de datos de Ydata en dos líneas.

!pip install ydata-profiling

from ydata_profiling import ProfileReport#Generar el informe de perfil de datosprofile = ProfileReport(train, title='EDA')#mostrar el informe en el bloc de notasprofile.to_notebook_iframe()
Alertas que indican alta correlación, desequilibrios de clase, datos faltantes, etc... Imagen del autor
Distribución de variables. Imagen del autor

La salida muestra la distribución de las variables y te proporciona un conjunto de alertas…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Creando increíbles visualizaciones de árbol de decisiones con dtreeviz.

Ser capaz de visualizar modelos de árboles de decisión es importante para la explicabilidad del modelo y puede ayudar...

Inteligencia Artificial

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

Todo sobre los grandes modelos de lenguaje es grande: los modelos gigantes se entrenan en conjuntos de datos masivos ...

Inteligencia Artificial

Conoce a SAM-PT Un nuevo método de IA que amplía la capacidad del modelo Segment Anything (SAM) para rastrear y segmentar cualquier cosa en videos dinámicos.

Existen numerosas aplicaciones, como la robótica, la conducción autónoma y la edición de video, que se benefician de ...

Inteligencia Artificial

Limpieza con TidyBot

Un equipo multinstitucional de ingenieros acopló un brazo robótico móvil a un modelo de visión y a un gran modelo de ...