2 tareas para mejorar tus habilidades de manipulación de datos en Python
2 pasos para perfeccionar tus habilidades de manipulación de datos en Python
Cómo convertir datos raw en un formato más usable y estructurado.
![(imagen creada por el autor con Midjourney)](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*hnvTvRs2oTgH6QBITMY3_g.png)
Cuando aprendemos una nueva herramienta, generalmente revisamos la documentación, vemos tutoriales, leemos artículos y resolvemos ejemplos. Este enfoque es suficiente y te ayudará a aprender la herramienta hasta cierto punto.
Sin embargo, cuando comenzamos a usar la herramienta en entornos reales o para resolver problemas reales, necesitamos ir un poco más allá de lo que se cubre en la mayoría de los tutoriales.
En este artículo, explicaré paso a paso cómo usé Python para manejar dos tareas diferentes de limpieza y procesamiento de datos en mi trabajo. Para cada tarea, te mostraré los datos raw y el formato deseado. Luego, explicaré el código para obtener los datos en ese formato.
Profundizaremos en las estructuras de datos integradas de Python y la biblioteca Pandas, por lo que puedes esperar aprender cosas interesantes sobre la manipulación de datos con Python.
- Cómo ganar una moneda al aire? ¡Cada vez, siempre!
- LangChain Cheatsheet – Todos los secretos en una sola página
- Esta investigación de IA de China proporciona una evaluación exhaustiva del último modelo de lenguaje visual del Estado del Arte GPT-4V(isión) y su aplicación en escenarios de conducción autónoma
1. Estadísticas del problema
Tengo un DataFrame con una lista de problemas y sus resúmenes. No estoy utilizando ni compartiendo los datos originales aquí. En su lugar, generé datos simulados en el mismo formato que los originales. Si quieres seguir ejecutando el código, descarga el archivo “mock_issues.csv” de mi repositorio de datasets.
Lo que haremos en términos de manipulación de datos depende del formato más que del contenido, por lo que las funciones y métodos que aprenderemos en este artículo son aplicables a los datos originales. De hecho, el proceso es exactamente el mismo que hice en mi trabajo.
Imaginemos que tenemos un DataFrame de varias filas con las siguientes columnas:
![(imagen por el autor)](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*19R23uK3qjwQplbwaenTWw.png)
Cada fila en la columna de problemas raw contiene una lista de problemas en el siguiente formato:
""""[1-El método find_duplicates está utilizando ineficientemente las estructuras de datos, lo que conduce a una alta complejidad temporal., 2-No se utilizan eficientemente las estructuras de datos integradas en el método generate_meta.,3- En la clase ExerciseGenerator, el uso excesivo de variables globales puede ralentizar el programa.,4- El método get_all_contributors_for_repo no está utilizando las estructuras de datos integradas…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Zero123++ Un solo modelo base de difusión multivista consistente a partir de una sola imagen
- Considera los riesgos antes de subirte al tren de las extensiones de IA
- El Mundo Oculto de los Índices (Vectoriales)
- Proyecciones de particiones AWS Mejorando el rendimiento de las consultas de Athena
- Principales documentos importantes de LLM para la semana del 06/11 al 12/11
- El Ascenso y Caída de la Ingeniería Rápida ¿Moda o Futuro?
- Una mejor manera de evaluar los LLMs