3 Poderosas Bibliotecas de Python para (Parcialmente) Automatizar EDA Y Ayudarte a Comenzar con tu Proyecto de Datos

3 Bibliotecas Poderosas de Python para Automatizar (en parte) el Análisis Exploratorio de Datos y Ayudarte a Comenzar con tu Proyecto de Datos

Todos los problemas de aprendizaje automático son problemas de datos.

Para evitar el viejo dicho de “basura entra, basura sale”, tiene sentido que dediques un tiempo considerable a comprender y limpiar tus datos. Recientemente leí “El libro de Kaggle” de Konrad Banachewicz y Luca Massaron, donde entrevistan a varios maestros Kaggle. Curiosamente, apresurarse o saltarse el EDA es el error más común que cometen ellos y los principiantes.

Todos sabemos lo importante que es el EDA, y sin embargo, todavía nos saltamos este paso. Puede ser porque es difícil saber por dónde empezar, qué preguntas debes hacer, o tal vez estamos demasiado ansiosos por comenzar con la modelización.

Aquí hay 3 bibliotecas de Python que puedes usar para automatizar parcialmente tu Análisis Exploratorio de Datos y comenzar con tu proyecto de datos.

Los datos para el análisis a continuación provienen de Kaggle, la competencia House Prices – Advanced Regression Techniques.

YData Profiling

Esta es la nueva versión de Pandas profiling que cuenta con el soporte de Spark y ahora va más allá de DataFrame en Pandas.

El objetivo, sin embargo, sigue siendo el mismo: proporcionar una experiencia de Análisis Exploratorio de Datos (EDA) en una sola línea. Este paquete destaca la importancia de tener un marco de evaluación de calidad de datos fácil de implementar. Este marco no debe limitarse a la fase inicial de tu proyecto, sino que debe implementarse a lo largo de todo el proyecto de datos.

Puedes ejecutar el perfil de datos de Ydata en dos líneas.

!pip install ydata-profiling

from ydata_profiling import ProfileReport#Generar el informe de perfil de datosprofile = ProfileReport(train, title='EDA')#mostrar el informe en el bloc de notasprofile.to_notebook_iframe()

Alertas que indican alta correlación, desequilibrios de clase, datos faltantes, etc... Imagen del autor — Alertas que indican alta correlación, desequilibrios de clase, datos faltantes, etc… Imagen del autor

Distribución de variables. Imagen del autor

La salida muestra la distribución de las variables y te proporciona un conjunto de alertas…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

3 Poderosas Bibliotecas de Python para (Parcialmente) Automatizar EDA Y Ayudarte a Comenzar con tu Proyecto de Datos

Todos los problemas de aprendizaje automático son problemas de datos.

YData Profiling

Was this article helpful?

Introducción a la Optimización Matemática en Python

Navegando el liderazgo en software en una era dinámica

Inteligencia Artificial

Creando increíbles visualizaciones de árbol de decisiones con dtreeviz.

Investigadores de Eindhoven y la Universidad Northwestern han desarrollado un nuevo biosensor neuromórfico capaz de aprendizaje en el chip que no necesita entrenamiento externo.

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

Conoce a SAM-PT Un nuevo método de IA que amplía la capacidad del modelo Segment Anything (SAM) para rastrear y segmentar cualquier cosa en videos dinámicos.

Limpieza con TidyBot

Una nueva investigación de IA introduce MONAI Generative Models una plataforma de código abierto que permite a investigadores y desarrolladores entrenar, evaluar e implementar fácilmente modelos generativos.