Mejores funciones de manipulación de datos en PySpark

Las mejores funciones de manipulación de datos en PySpark

Aprende las funciones más útiles para manipular grandes volúmenes de datos con PySpark

Foto de Oskar Yildiz en Unsplash

Introducción

Trabajo con PySpark en Databricks a diario. Mi trabajo como Científica de Datos requiere lidiar con grandes cantidades de datos en muchas tablas diferentes. Es un trabajo desafiante, muchas veces.

Por mucho que el proceso de Extracción, Transformación y Carga (ETL) parezca algo sencillo, puedo decir que no siempre es así. Cuando trabajamos con Big Data, mucho de nuestro pensamiento tiene que cambiar por dos razones:

  1. Las cantidades de datos son mucho mayores que los conjuntos de datos regulares.
  2. Cuando trabajamos con cómputo paralelo en clústeres, debemos tener en cuenta que los datos se dividirán entre muchos nodos trabajadores para realizar parte del trabajo y luego se unirán como un todo. Y este proceso, muchas veces, puede llevar mucho tiempo si la consulta es demasiado compleja.

Sabiendo esto, debemos aprender a escribir consultas inteligentes para Big Data. En este artículo, mostraré algunas de mis funciones favoritas del módulo pyspark.sql.functions, con el objetivo de ayudarte en tu Manipulación de Datos en PySpark.

Mejores Funciones

Ahora pasemos al contenido de este artículo.

Al igual que muchos otros lenguajes, PySpark tiene la ventaja de los módulos, donde puedes encontrar muchas funciones listas para usar para los propósitos más diferentes. Aquí está el módulo que cargaremos en nuestra sesión:

from pyspark.sql import functions as F

Si quieres ver cuán extensa es la lista de funciones dentro de pyspark.sql.functions, visita este sitio web, donde se encuentra la Referencia de la API. Ten en cuenta que esto es para la versión 3.5.0. Es posible que algunas versiones antiguas no contengan todas las funciones que mostraré en este artículo.

Conjunto de Datos

El conjunto de datos que utilizaremos como ejemplo son los Diamantes, de ggplot2, compartidos bajo la Licencia MIT.

# Ruta del archivo de puntospath = '/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv'# Cargar Datadf = spark.read.csv(path, header=True, inferSchema=True)

Creación y Columna de Índices

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Equilibrando la innovación y la sostenibilidad Desentrañando el impacto ambiental de la IA generativa

La asociación francesa Data for Good publicó un documento blanco que explora los problemas sociales y ambientales que...

Inteligencia Artificial

Automatizando la Cadena del Pensamiento Cómo la IA puede impulsarse a sí misma a razonar

El método de generación automática de Auto-CoT permite que los modelos de lenguaje generen automáticamente sus propia...

Inteligencia Artificial

Drones abordan la seguridad de los tiburones en las playas de Nueva York

Los funcionarios de seguridad en Jones Beach, Nueva York, están utilizando drones para monitorear posibles interaccio...

Inteligencia Artificial

DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China

La startup china de IA DeepSeek AI ha iniciado una nueva era en los grandes modelos de lenguaje (LLM, por sus siglas ...

Inteligencia Artificial

Amazon está probando la entrega de medicamentos con drones

Amazon está probando un servicio de entrega con drones para medicamentos recetados en College Station, Texas, con pla...

Inteligencia Artificial

Elon Musk y el equipo de XAi lanzan Grok la nueva frontera de la Inteligencia Artificial (IA) con datos en vivo y el competidor más fuerte de ChatGPT

Elon Musk, el magnate tecnológico conocido por sus proyectos ambiciosos en el espacio y los autos eléctricos, ahora t...