Introducción a la regresión logística en PySpark

Una introducción a la regresión logística en PySpark

Tutorial para ejecutar tu primer modelo de clasificación en Databricks

Foto de Ibrahim Rifath en Unsplash

Introducción

Big Data. Conjuntos de datos grandes. Nube…

Esas palabras están en todas partes, siguiéndonos y en los pensamientos de los clientes, entrevistadores, gerentes y directores. A medida que los datos se vuelven más y más abundantes, los conjuntos de datos solo aumentan en tamaño de tal manera que, a veces, no es posible ejecutar un modelo de aprendizaje automático en un entorno local, en una sola máquina, en otras palabras.

Este asunto requiere que nos adaptemos y encontremos otras soluciones, como el modelado con Spark, que es una de las tecnologías más utilizadas para Big Data. Spark acepta lenguajes como SQL, Python, Scala, R y tiene sus propios métodos y atributos, incluida su propia biblioteca de aprendizaje automático [MLlib]. Cuando trabajas con Python en Spark, se llama PySpark, por ejemplo.

Además, hay una plataforma llamada Databricks que envuelve Spark en una capa muy bien creada que permite a los científicos de datos trabajar en ella como Anaconda.

Cuando creamos un modelo de ML en Databricks, también acepta modelos de Scikit Learn, pero como estamos más interesados en Big Data, este tutorial se creó completamente usando MLlib de Spark, que es más adecuado para conjuntos de datos grandes y de esta manera agregamos una nueva herramienta a nuestro conjunto de habilidades.

Vamos allá.

Conjunto de datos

El conjunto de datos para este ejercicio ya está dentro de Databricks. Es uno de los conjuntos de datos de UCI, llamado Adults, que es una extracción de un censo y está etiquetado con personas que ganan menos o más de $50k al año. Los datos están públicamente disponibles en esta dirección: https://archive.ics.uci.edu/dataset/2/adult

Nuestro tutorial consiste en construir un clasificador binario que indique si una persona gana menos o más de $50k de ingresos en un año.

Codificación

En esta sección, repasemos cada paso de nuestro modelo.

Aquí están los módulos que necesitamos importar.

from pyspark.sql.functions import colfrom pyspark.ml.feature import UnivariateFeatureSelectorfrom pyspark.ml.feature import RFormulafrom pyspark.ml.feature import StringIndexer, VectorAssemblerfrom pyspark.ml import...

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Google Research explora ¿Puede la retroalimentación de IA reemplazar la entrada humana para un aprendizaje por refuerzo efectivo en modelos de lenguaje grandes?

La retroalimentación humana es esencial para mejorar y optimizar los modelos de aprendizaje automático. En los último...

Inteligencia Artificial

La función de detección de suplantación de identidad protege a las marcas y personalidades de las cuentas falsas en las redes sociales

Una empresa canadiense ha incorporado una función de protección contra la suplantación de identidad en su plataforma ...

Aprendizaje Automático

Escribir canciones con GPT-4 Parte 3, Melodías

Cómo usar ChatGPT con GPT-4 de OpenAI para escribir melodías para nuevas canciones utilizando tablaturas de guitarra ...

Inteligencia Artificial

Trabajos que la IA no puede reemplazar

Introducción Ya seas un cibernauta o no, es probable que hayas escuchado el debate sobre los “empleos que la IA...

Inteligencia Artificial

Cómo definir un problema de IA

Con más de 25 años de experiencia en ingeniería de software, he respondido muchas preguntas de desarrolladores de sof...

Inteligencia Artificial

Cómo este investigador ganador del Premio Turing se convirtió en un legendario asesor académico

El científico teórico de la computación Manuel Blum ha guiado a generaciones de estudiantes de posgrado hacia carrera...