Introducción a la regresión logística en PySpark

Una introducción a la regresión logística en PySpark

Tutorial para ejecutar tu primer modelo de clasificación en Databricks

Introducción

Big Data. Conjuntos de datos grandes. Nube…

Esas palabras están en todas partes, siguiéndonos y en los pensamientos de los clientes, entrevistadores, gerentes y directores. A medida que los datos se vuelven más y más abundantes, los conjuntos de datos solo aumentan en tamaño de tal manera que, a veces, no es posible ejecutar un modelo de aprendizaje automático en un entorno local, en una sola máquina, en otras palabras.

Este asunto requiere que nos adaptemos y encontremos otras soluciones, como el modelado con Spark, que es una de las tecnologías más utilizadas para Big Data. Spark acepta lenguajes como SQL, Python, Scala, R y tiene sus propios métodos y atributos, incluida su propia biblioteca de aprendizaje automático [MLlib]. Cuando trabajas con Python en Spark, se llama PySpark, por ejemplo.

Además, hay una plataforma llamada Databricks que envuelve Spark en una capa muy bien creada que permite a los científicos de datos trabajar en ella como Anaconda.

Cuando creamos un modelo de ML en Databricks, también acepta modelos de Scikit Learn, pero como estamos más interesados en Big Data, este tutorial se creó completamente usando MLlib de Spark, que es más adecuado para conjuntos de datos grandes y de esta manera agregamos una nueva herramienta a nuestro conjunto de habilidades.

Vamos allá.

Conjunto de datos

El conjunto de datos para este ejercicio ya está dentro de Databricks. Es uno de los conjuntos de datos de UCI, llamado Adults, que es una extracción de un censo y está etiquetado con personas que ganan menos o más de $50k al año. Los datos están públicamente disponibles en esta dirección: https://archive.ics.uci.edu/dataset/2/adult

Nuestro tutorial consiste en construir un clasificador binario que indique si una persona gana menos o más de $50k de ingresos en un año.

Codificación

En esta sección, repasemos cada paso de nuestro modelo.

Aquí están los módulos que necesitamos importar.

from pyspark.sql.functions import colfrom pyspark.ml.feature import UnivariateFeatureSelectorfrom pyspark.ml.feature import RFormulafrom pyspark.ml.feature import StringIndexer, VectorAssemblerfrom pyspark.ml import...

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Introducción a la regresión logística en PySpark

Tutorial para ejecutar tu primer modelo de clasificación en Databricks

Introducción

Conjunto de datos

Codificación

Was this article helpful?

Explicación intuitiva de los multiplicadores de Lagrange, las condiciones KKT y la dualidad

Mi experiencia con DevOps y DataOps

Inteligencia Artificial

Google Research explora ¿Puede la retroalimentación de IA reemplazar la entrada humana para un aprendizaje por refuerzo efectivo en modelos de lenguaje grandes?

La función de detección de suplantación de identidad protege a las marcas y personalidades de las cuentas falsas en las redes sociales

Escribir canciones con GPT-4 Parte 3, Melodías

Trabajos que la IA no puede reemplazar

Cómo definir un problema de IA

Cómo este investigador ganador del Premio Turing se convirtió en un legendario asesor académico