6 Errores de Pandas que Silenciosamente Revelan que Eres un Novato

6 errores de Pandas que revelan que eres un novato

Sin mensajes de error, eso es lo que los hace sutiles

Imagen por mí

Introducción

Estamos acostumbrados a los grandes, gordos y rojos mensajes de error que aparecen con frecuencia mientras programamos. Afortunadamente, la gente no los nota porque siempre solucionamos esos errores. Pero, ¿qué pasa con los errores que no generan mensajes de error? Estos son los más difíciles, pero los profesionales pueden detectarlos fácilmente.

Estos errores no están relacionados con la API o la sintaxis de la herramienta que estás utilizando, sino que están directamente asociados con las mejores prácticas y el tiempo que dedicas a una herramienta. Hoy vamos a hablar de seis de estos errores que suelen surgir con frecuencia entre los usuarios principiantes de Pandas, y aprenderemos cómo solucionarlos.

1. Usando Pandas en sí mismo

Es irónico que el primer error esté relacionado con el uso de Pandas para ciertas tareas. Específicamente, los conjuntos de datos tabulares del mundo real de hoy en día son simplemente enormes. Leerlos en tu entorno con Pandas sería un gran error.

¿Por qué? ¡Porque es muy lento! A continuación, cargamos el conjunto de datos TPS de octubre de 2021 con 1 millón de filas y ~300 características, que ocupan impresionantes 2,2 GB de espacio en disco.

Tomó ~22 segundos. Ahora, podrías decir que 22 segundos no es tanto, pero imagina esto. En un solo proyecto, realizarás muchos experimentos durante diferentes etapas. Probablemente crearás scripts o notebooks separados para la limpieza, la ingeniería de características, la elección de un modelo y muchos más para otras tareas.

Esperar a que los datos se carguen durante 20 segundos varias veces realmente te pone de los nervios. Además, tu conjunto de datos puede ser aún más grande. Entonces, ¿cuál es una solución más rápida?

La solución es abandonar Pandas en esta etapa y utilizar otras alternativas diseñadas específicamente para una E/S rápida. Para esta etapa, mi favorita es datatable, pero también puedes optar por Dask, Vaex, cuDF o incluso polars. Así es cuánto tarda en cargar el mismo conjunto de datos con datatable:

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los ingenieros están en una misión de encontrar fallas

Un algoritmo desarrollado por investigadores del Instituto de Tecnología de Massachusetts tiene como objetivo identif...

Ciencias de la Computación

Más personas están quedando ciegas. La IA puede ayudar a combatirlo.

La detección temprana es crucial para tratar enfermedades oculares. Los análisis de escaneo ocular mejorados por AI p...

Ciencias de la Computación

Estados Unidos será el único ganador si Japón copia las restricciones de chips en China, advierte el enviado de Beijing a Tokio.

El embajador chino Wu Jianghao afirma que Japón arriesgaría el futuro de su sector de semiconductores si corta el acc...

Inteligencia Artificial

Automatiza la preetiquetado de PDFs para Amazon Comprehend

Amazon Comprehend es un servicio de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) que proporcion...

Inteligencia Artificial

Microsoft AI lanza LLMLingua una técnica única de compresión rápida que comprime los mensajes para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés), debido a su gran capacidad de generalización ...

Noticias de Inteligencia Artificial

Multimodal AI Inteligencia Artificial que puede ver y escuchar

La inteligencia artificial (IA) ha recorrido un largo camino desde su inicio, pero hasta hace poco, sus capacidades s...