6 Errores de Pandas que Silenciosamente Revelan que Eres un Novato
6 errores de Pandas que revelan que eres un novato
Sin mensajes de error, eso es lo que los hace sutiles
![Imagen por mí](https://miro.medium.com/v2/resize:fit:640/format:webp/1*tErNq6db4n9CwBoqLt6Z_g.png)
Introducción
Estamos acostumbrados a los grandes, gordos y rojos mensajes de error que aparecen con frecuencia mientras programamos. Afortunadamente, la gente no los nota porque siempre solucionamos esos errores. Pero, ¿qué pasa con los errores que no generan mensajes de error? Estos son los más difíciles, pero los profesionales pueden detectarlos fácilmente.
Estos errores no están relacionados con la API o la sintaxis de la herramienta que estás utilizando, sino que están directamente asociados con las mejores prácticas y el tiempo que dedicas a una herramienta. Hoy vamos a hablar de seis de estos errores que suelen surgir con frecuencia entre los usuarios principiantes de Pandas, y aprenderemos cómo solucionarlos.
1. Usando Pandas en sí mismo
Es irónico que el primer error esté relacionado con el uso de Pandas para ciertas tareas. Específicamente, los conjuntos de datos tabulares del mundo real de hoy en día son simplemente enormes. Leerlos en tu entorno con Pandas sería un gran error.
¿Por qué? ¡Porque es muy lento! A continuación, cargamos el conjunto de datos TPS de octubre de 2021 con 1 millón de filas y ~300 características, que ocupan impresionantes 2,2 GB de espacio en disco.
- Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.
- El CEO de NVIDIA se reúne con el Primer Ministro de India, Narendra Modi
- Navegando la IA Específica de la Industria De Héroes Transitorios a Soluciones a Largo Plazo
Tomó ~22 segundos. Ahora, podrías decir que 22 segundos no es tanto, pero imagina esto. En un solo proyecto, realizarás muchos experimentos durante diferentes etapas. Probablemente crearás scripts o notebooks separados para la limpieza, la ingeniería de características, la elección de un modelo y muchos más para otras tareas.
Esperar a que los datos se carguen durante 20 segundos varias veces realmente te pone de los nervios. Además, tu conjunto de datos puede ser aún más grande. Entonces, ¿cuál es una solución más rápida?
La solución es abandonar Pandas en esta etapa y utilizar otras alternativas diseñadas específicamente para una E/S rápida. Para esta etapa, mi favorita es datatable
, pero también puedes optar por Dask
, Vaex
, cuDF
o incluso polars
. Así es cuánto tarda en cargar el mismo conjunto de datos con datatable
:
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Explained Meta-Heurísticas Optimización de Colonia de Hormigas
- Cómo crear personas utilizando IA generativa como ChatGPT
- De Oppenheimer a la IA generativa Valiosas lecciones para las empresas de hoy
- Investigadores de Corea del Sur proponen VITS2 un avance en los modelos de síntesis de voz de una sola etapa para una mayor naturalidad y eficiencia.
- Principales documentos importantes de Visión por Computadora para la semana del 28/8 al 3/9
- Este artículo de IA presenta un estudio sobre las pruebas de AIS (Síndrome de Insensibilidad a los Andrógenos) utilizando modelos de aprendizaje profundo
- ¿Deberías iniciar tu carrera en FAANG o en una startup? (Parte 1)