¿Qué formato de datos utilizar para tu proyecto de Big Data?

¿Qué formato de datos utilizar en tu proyecto de Big Data?

Pickle, Parquet, CSV, Feather, HDF5, ORC, JSON: ¿Cuál deberías usar y por qué?

Imagen de Maarten van den Heuvel — Unsplash

Elegir el formato de datos adecuado es crucial en proyectos de Ciencia de Datos, impactando desde la velocidad de lectura/escritura de datos hasta el consumo de memoria y la interoperabilidad. Este artículo explora siete formatos populares de serialización/deserialización en Python, centrándose en su velocidad y uso de memoria.

A través del análisis, también veremos cómo podemos utilizar el perfilado en Python (usando el módulo integrado cProfile) y cómo podemos obtener estadísticas sobre el uso de memoria para archivos específicos en tu sistema de archivos (usando el módulo Python os).

Por supuesto, cada proyecto tiene sus especificidades, más allá de la velocidad y el uso de memoria. Pero sacaremos algunas tendencias, que esperamos sean útiles para arrojar luz sobre qué formato podemos elegir para un proyecto dado.

Comprensión de la Serialización y Deserialización

La serialización es el proceso de guardar un objeto (en Python, por ejemplo, un DataFrame de pandas) en un formato que se puede guardar en un archivo para su posterior recuperación. La deserialización es el proceso inverso.
IMPACT ¡El Data Observability Summit regresa el 8 de noviembre y la lista de presentadores es más grande y mejor que nunca!
Meet FreeU Una nueva técnica de IA para mejorar la calidad generativa sin entrenamiento adicional ni ajuste fino
Intuitivo logra un mayor rendimiento mientras ahorra en costos de IA/ML utilizando AWS Inferentia y PyTorch

Un dataframe es un objeto de Python y no se puede persistir tal cual. Necesita ser traducido a un archivo para poder cargar este objeto en una etapa posterior.

Cuando guardas un dataframe, “serializas” los datos. Y cuando lo cargas nuevamente, “deserializas” o lo traduces de nuevo a un formato legible (aquí, legible por Python).

Ciertos formatos se utilizan ampliamente porque son legibles para los humanos, como JSON o CSV. Estos dos formatos también se utilizan porque son independientes del lenguaje. Al igual que protocol buffers, que fueron desarrollados originalmente por Google. JSON y Protocol buffer también son populares para las API y permiten enviar datos entre diferentes servicios escritos en diferentes lenguajes.

Por otro lado, algunos formatos, como el pickle de Python, son específicos del lenguaje y no son ideales para transferir datos entre servicios en diferentes lenguajes de programación. Por ejemplo, para un caso de uso de aprendizaje automático, si un repositorio entrena un modelo y lo serializa en pickle, este archivo solo podrá leerse desde Python. Entonces, si la API que…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

¿Qué formato de datos utilizar para tu proyecto de Big Data?

Pickle, Parquet, CSV, Feather, HDF5, ORC, JSON: ¿Cuál deberías usar y por qué?

Comprensión de la Serialización y Deserialización

Was this article helpful?

IMPACT ¡El Data Observability Summit regresa el 8 de noviembre y la lista de presentadores es más grande y mejor que nunca!

Cómo crear una visualización de grafo de red de series temporales en Python

Inteligencia Artificial

Un nuevo marco de Aprendizaje por Reforzamiento Profundo (DRL) puede reaccionar ante atacantes en un entorno simulado y bloquear el 95% de los ciberataques antes de que se intensifiquen.

Principales herramientas para simplificar y estandarizar el aprendizaje automático

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

La Inteligencia Artificial está controlando la lucha contra el robo de paquetes de UPS

¿Puede (Muy) Simple Matemáticas Informar RLHF Para Modelos de Lenguaje Grandes LLMs? ¡Este artículo de IA dice que sí!

Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA que personaliza los modelos de difusión con retroalimentación iterativa