Mejores funciones de manipulación de datos en PySpark

Las mejores funciones de manipulación de datos en PySpark

Aprende las funciones más útiles para manipular grandes volúmenes de datos con PySpark

Introducción

Trabajo con PySpark en Databricks a diario. Mi trabajo como Científica de Datos requiere lidiar con grandes cantidades de datos en muchas tablas diferentes. Es un trabajo desafiante, muchas veces.

Por mucho que el proceso de Extracción, Transformación y Carga (ETL) parezca algo sencillo, puedo decir que no siempre es así. Cuando trabajamos con Big Data, mucho de nuestro pensamiento tiene que cambiar por dos razones:

Las cantidades de datos son mucho mayores que los conjuntos de datos regulares.
Cuando trabajamos con cómputo paralelo en clústeres, debemos tener en cuenta que los datos se dividirán entre muchos nodos trabajadores para realizar parte del trabajo y luego se unirán como un todo. Y este proceso, muchas veces, puede llevar mucho tiempo si la consulta es demasiado compleja.

Sabiendo esto, debemos aprender a escribir consultas inteligentes para Big Data. En este artículo, mostraré algunas de mis funciones favoritas del módulo pyspark.sql.functions, con el objetivo de ayudarte en tu Manipulación de Datos en PySpark.

Mejores Funciones

Ahora pasemos al contenido de este artículo.

Al igual que muchos otros lenguajes, PySpark tiene la ventaja de los módulos, donde puedes encontrar muchas funciones listas para usar para los propósitos más diferentes. Aquí está el módulo que cargaremos en nuestra sesión:

from pyspark.sql import functions as F

Si quieres ver cuán extensa es la lista de funciones dentro de pyspark.sql.functions, visita este sitio web, donde se encuentra la Referencia de la API. Ten en cuenta que esto es para la versión 3.5.0. Es posible que algunas versiones antiguas no contengan todas las funciones que mostraré en este artículo.

Conjunto de Datos

El conjunto de datos que utilizaremos como ejemplo son los Diamantes, de ggplot2, compartidos bajo la Licencia MIT.

# Ruta del archivo de puntospath = '/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv'# Cargar Datadf = spark.read.csv(path, header=True, inferSchema=True)

Creación y Columna de Índices

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Mejores funciones de manipulación de datos en PySpark

Aprende las funciones más útiles para manipular grandes volúmenes de datos con PySpark

Introducción

Mejores Funciones

Conjunto de Datos

Creación y Columna de Índices

Was this article helpful?

Streaming en Ingeniería de Datos

Enseñando a la IA a jugar juegos de mesa

Inteligencia Artificial

Equilibrando la innovación y la sostenibilidad Desentrañando el impacto ambiental de la IA generativa

Automatizando la Cadena del Pensamiento Cómo la IA puede impulsarse a sí misma a razonar

Drones abordan la seguridad de los tiburones en las playas de Nueva York

DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China

Amazon está probando la entrega de medicamentos con drones

Elon Musk y el equipo de XAi lanzan Grok la nueva frontera de la Inteligencia Artificial (IA) con datos en vivo y el competidor más fuerte de ChatGPT