Mejores funciones de manipulación de datos en PySpark
Las mejores funciones de manipulación de datos en PySpark
Aprende las funciones más útiles para manipular grandes volúmenes de datos con PySpark
![Foto de Oskar Yildiz en Unsplash](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*LlxgFt-AYtjLWSaxak8YlQ.jpeg)
Introducción
Trabajo con PySpark en Databricks a diario. Mi trabajo como Científica de Datos requiere lidiar con grandes cantidades de datos en muchas tablas diferentes. Es un trabajo desafiante, muchas veces.
Por mucho que el proceso de Extracción, Transformación y Carga (ETL) parezca algo sencillo, puedo decir que no siempre es así. Cuando trabajamos con Big Data, mucho de nuestro pensamiento tiene que cambiar por dos razones:
- Las cantidades de datos son mucho mayores que los conjuntos de datos regulares.
- Cuando trabajamos con cómputo paralelo en clústeres, debemos tener en cuenta que los datos se dividirán entre muchos nodos trabajadores para realizar parte del trabajo y luego se unirán como un todo. Y este proceso, muchas veces, puede llevar mucho tiempo si la consulta es demasiado compleja.
Sabiendo esto, debemos aprender a escribir consultas inteligentes para Big Data. En este artículo, mostraré algunas de mis funciones favoritas del módulo pyspark.sql.functions
, con el objetivo de ayudarte en tu Manipulación de Datos en PySpark.
Mejores Funciones
Ahora pasemos al contenido de este artículo.
- Streaming en Ingeniería de Datos
- Acuerdo preliminar de la UE sobre la regulación de la IA Implicaciones para ChatGPT
- Investigación de Google revela Transformadores Generativos de Vocabulario Infinito (GIVT) Pioneros en secuencias de vectores de valor real en IA
Al igual que muchos otros lenguajes, PySpark tiene la ventaja de los módulos, donde puedes encontrar muchas funciones listas para usar para los propósitos más diferentes. Aquí está el módulo que cargaremos en nuestra sesión:
from pyspark.sql import functions as F
Si quieres ver cuán extensa es la lista de funciones dentro de pyspark.sql.functions
, visita este sitio web, donde se encuentra la Referencia de la API. Ten en cuenta que esto es para la versión 3.5.0. Es posible que algunas versiones antiguas no contengan todas las funciones que mostraré en este artículo.
Conjunto de Datos
El conjunto de datos que utilizaremos como ejemplo son los Diamantes, de ggplot2, compartidos bajo la Licencia MIT.
# Ruta del archivo de puntospath = '/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv'# Cargar Datadf = spark.read.csv(path, header=True, inferSchema=True)
Creación y Columna de Índices
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Regresando a lo humano El viaje de la IA desde el código hasta los abrazos
- Rastreando la memoria de la sesión de Python usando Tracemem
- Potenciando la fiabilidad del aprendizaje automático Cómo la atipicidad mejora el rendimiento del modelo y la cuantificación de la incertidumbre
- EE.UU. acuerda sobre reglas históricas de Inteligencia Artificial
- Enfoque de computación cuántica utiliza moléculas individuales como bits cuánticos por primera vez
- Gafas de realidad virtual para ratones crean escenarios inmersivos para la investigación cerebral
- El año en que la inteligencia artificial se comió internet