2 tareas para mejorar tus habilidades de manipulación de datos en Python

2 pasos para perfeccionar tus habilidades de manipulación de datos en Python

Cómo convertir datos raw en un formato más usable y estructurado.

(imagen creada por el autor con Midjourney)

Cuando aprendemos una nueva herramienta, generalmente revisamos la documentación, vemos tutoriales, leemos artículos y resolvemos ejemplos. Este enfoque es suficiente y te ayudará a aprender la herramienta hasta cierto punto.

Sin embargo, cuando comenzamos a usar la herramienta en entornos reales o para resolver problemas reales, necesitamos ir un poco más allá de lo que se cubre en la mayoría de los tutoriales.

En este artículo, explicaré paso a paso cómo usé Python para manejar dos tareas diferentes de limpieza y procesamiento de datos en mi trabajo. Para cada tarea, te mostraré los datos raw y el formato deseado. Luego, explicaré el código para obtener los datos en ese formato.

Profundizaremos en las estructuras de datos integradas de Python y la biblioteca Pandas, por lo que puedes esperar aprender cosas interesantes sobre la manipulación de datos con Python.

1. Estadísticas del problema

Tengo un DataFrame con una lista de problemas y sus resúmenes. No estoy utilizando ni compartiendo los datos originales aquí. En su lugar, generé datos simulados en el mismo formato que los originales. Si quieres seguir ejecutando el código, descarga el archivo “mock_issues.csv” de mi repositorio de datasets.

Lo que haremos en términos de manipulación de datos depende del formato más que del contenido, por lo que las funciones y métodos que aprenderemos en este artículo son aplicables a los datos originales. De hecho, el proceso es exactamente el mismo que hice en mi trabajo.

Imaginemos que tenemos un DataFrame de varias filas con las siguientes columnas:

Cada fila en la columna de problemas raw contiene una lista de problemas en el siguiente formato:

""""[1-El método find_duplicates está utilizando ineficientemente las estructuras de datos, lo que conduce a una alta complejidad temporal., 2-No se utilizan eficientemente las estructuras de datos integradas en el método generate_meta.,3- En la clase ExerciseGenerator, el uso excesivo de variables globales puede ralentizar el programa.,4- El método get_all_contributors_for_repo no está utilizando las estructuras de datos integradas…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

2 tareas para mejorar tus habilidades de manipulación de datos en Python

Cómo convertir datos raw en un formato más usable y estructurado.

1. Estadísticas del problema

Was this article helpful?

Cómo ganar una moneda al aire? ¡Cada vez, siempre!

Soluciones inteligentes de respuesta a emergencias ante condiciones meteorológicas severas

Inteligencia Artificial

Financiamiento en Startups de IA Edición Sept-1 ConverSight, Voxel, AI21 y Gesund

Conoce a Nous-Hermes-Llama2-70b Un modelo de lenguaje de última generación ajustado finamente en más de 300,000 instrucciones.

Aprende IA Generativa con Google

Científicos secuencian la última pieza del genoma humano el cromosoma Y

Investigadores de UCSD y Microsoft presentan ColDeco una herramienta de inspección sin código para columnas calculadas.