2 tareas para mejorar tus habilidades de manipulación de datos en Python

2 pasos para perfeccionar tus habilidades de manipulación de datos en Python

Cómo convertir datos raw en un formato más usable y estructurado.

(imagen creada por el autor con Midjourney)

Cuando aprendemos una nueva herramienta, generalmente revisamos la documentación, vemos tutoriales, leemos artículos y resolvemos ejemplos. Este enfoque es suficiente y te ayudará a aprender la herramienta hasta cierto punto.

Sin embargo, cuando comenzamos a usar la herramienta en entornos reales o para resolver problemas reales, necesitamos ir un poco más allá de lo que se cubre en la mayoría de los tutoriales.

En este artículo, explicaré paso a paso cómo usé Python para manejar dos tareas diferentes de limpieza y procesamiento de datos en mi trabajo. Para cada tarea, te mostraré los datos raw y el formato deseado. Luego, explicaré el código para obtener los datos en ese formato.

Profundizaremos en las estructuras de datos integradas de Python y la biblioteca Pandas, por lo que puedes esperar aprender cosas interesantes sobre la manipulación de datos con Python.

1. Estadísticas del problema

Tengo un DataFrame con una lista de problemas y sus resúmenes. No estoy utilizando ni compartiendo los datos originales aquí. En su lugar, generé datos simulados en el mismo formato que los originales. Si quieres seguir ejecutando el código, descarga el archivo “mock_issues.csv” de mi repositorio de datasets.

Lo que haremos en términos de manipulación de datos depende del formato más que del contenido, por lo que las funciones y métodos que aprenderemos en este artículo son aplicables a los datos originales. De hecho, el proceso es exactamente el mismo que hice en mi trabajo.

Imaginemos que tenemos un DataFrame de varias filas con las siguientes columnas:

(imagen por el autor)

Cada fila en la columna de problemas raw contiene una lista de problemas en el siguiente formato:

""""[1-El método find_duplicates está utilizando ineficientemente las estructuras de datos, lo que conduce a una alta complejidad temporal., 2-No se utilizan eficientemente las estructuras de datos integradas en el método generate_meta.,3- En la clase ExerciseGenerator, el uso excesivo de variables globales puede ralentizar el programa.,4- El método get_all_contributors_for_repo no está utilizando las estructuras de datos integradas…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Financiamiento en Startups de IA Edición Sept-1 ConverSight, Voxel, AI21 y Gesund

En el paisaje en constante evolución de la tecnología, la Inteligencia Artificial (IA) se erige como una frontera mon...

Inteligencia Artificial

Conoce a Nous-Hermes-Llama2-70b Un modelo de lenguaje de última generación ajustado finamente en más de 300,000 instrucciones.

El Transformer de Hugging Face es una biblioteca inmensamente popular en Python, que proporciona modelos pre-entrenad...

Inteligencia Artificial

Aprende IA Generativa con Google

Aprende IA Generativa con los 10 cursos gratuitos de Google. Domina los modelos de difusión, la arquitectura codifica...

Inteligencia Artificial

Científicos secuencian la última pieza del genoma humano el cromosoma Y

El consorcio Telomere-to-Telomere ha completado la secuenciación del genoma humano al agregar el cromosoma Y completa...

Inteligencia Artificial

Investigadores de UCSD y Microsoft presentan ColDeco una herramienta de inspección sin código para columnas calculadas.

En el artículo “COLDECO: una herramienta de inspección de hojas de cálculo para código generado por IA” u...