6 Errores de Pandas que Silenciosamente Revelan que Eres un Novato

6 errores de Pandas que revelan que eres un novato

Sin mensajes de error, eso es lo que los hace sutiles

Introducción

Estamos acostumbrados a los grandes, gordos y rojos mensajes de error que aparecen con frecuencia mientras programamos. Afortunadamente, la gente no los nota porque siempre solucionamos esos errores. Pero, ¿qué pasa con los errores que no generan mensajes de error? Estos son los más difíciles, pero los profesionales pueden detectarlos fácilmente.

Estos errores no están relacionados con la API o la sintaxis de la herramienta que estás utilizando, sino que están directamente asociados con las mejores prácticas y el tiempo que dedicas a una herramienta. Hoy vamos a hablar de seis de estos errores que suelen surgir con frecuencia entre los usuarios principiantes de Pandas, y aprenderemos cómo solucionarlos.

1. Usando Pandas en sí mismo

Es irónico que el primer error esté relacionado con el uso de Pandas para ciertas tareas. Específicamente, los conjuntos de datos tabulares del mundo real de hoy en día son simplemente enormes. Leerlos en tu entorno con Pandas sería un gran error.

¿Por qué? ¡Porque es muy lento! A continuación, cargamos el conjunto de datos TPS de octubre de 2021 con 1 millón de filas y ~300 características, que ocupan impresionantes 2,2 GB de espacio en disco.

Tomó ~22 segundos. Ahora, podrías decir que 22 segundos no es tanto, pero imagina esto. En un solo proyecto, realizarás muchos experimentos durante diferentes etapas. Probablemente crearás scripts o notebooks separados para la limpieza, la ingeniería de características, la elección de un modelo y muchos más para otras tareas.

Esperar a que los datos se carguen durante 20 segundos varias veces realmente te pone de los nervios. Además, tu conjunto de datos puede ser aún más grande. Entonces, ¿cuál es una solución más rápida?

La solución es abandonar Pandas en esta etapa y utilizar otras alternativas diseñadas específicamente para una E/S rápida. Para esta etapa, mi favorita es datatable, pero también puedes optar por Dask, Vaex, cuDF o incluso polars. Así es cuánto tarda en cargar el mismo conjunto de datos con datatable:

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

6 Errores de Pandas que Silenciosamente Revelan que Eres un Novato

Sin mensajes de error, eso es lo que los hace sutiles

Introducción

1. Usando Pandas en sí mismo

Was this article helpful?

Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.

¿Qué es la Redundancia de Datos? Beneficios, Desventajas y Consejos

Inteligencia Artificial

Los ingenieros están en una misión de encontrar fallas

Más personas están quedando ciegas. La IA puede ayudar a combatirlo.

Estados Unidos será el único ganador si Japón copia las restricciones de chips en China, advierte el enviado de Beijing a Tokio.

Automatiza la preetiquetado de PDFs para Amazon Comprehend

Microsoft AI lanza LLMLingua una técnica única de compresión rápida que comprime los mensajes para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Multimodal AI Inteligencia Artificial que puede ver y escuchar