Introducción a la regresión logística en PySpark
Una introducción a la regresión logística en PySpark
Tutorial para ejecutar tu primer modelo de clasificación en Databricks
![Foto de Ibrahim Rifath en Unsplash](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*gLUycAUhg_cJY1NcT07PIQ.jpeg)
Introducción
Big Data. Conjuntos de datos grandes. Nube…
Esas palabras están en todas partes, siguiéndonos y en los pensamientos de los clientes, entrevistadores, gerentes y directores. A medida que los datos se vuelven más y más abundantes, los conjuntos de datos solo aumentan en tamaño de tal manera que, a veces, no es posible ejecutar un modelo de aprendizaje automático en un entorno local, en una sola máquina, en otras palabras.
Este asunto requiere que nos adaptemos y encontremos otras soluciones, como el modelado con Spark, que es una de las tecnologías más utilizadas para Big Data. Spark acepta lenguajes como SQL, Python, Scala, R y tiene sus propios métodos y atributos, incluida su propia biblioteca de aprendizaje automático [MLlib]. Cuando trabajas con Python en Spark, se llama PySpark, por ejemplo.
Además, hay una plataforma llamada Databricks que envuelve Spark en una capa muy bien creada que permite a los científicos de datos trabajar en ella como Anaconda.
- Explicación intuitiva de los multiplicadores de Lagrange, las condiciones KKT y la dualidad
- 5 Visualizaciones con Python para Mostrar Cambios Simultáneos en Datos Geoespaciales
- Este chip centrado en la Inteligencia Artificial redefine la eficiencia duplicando el ahorro de energía al unificar el procesamiento y la memoria.
Cuando creamos un modelo de ML en Databricks, también acepta modelos de Scikit Learn, pero como estamos más interesados en Big Data, este tutorial se creó completamente usando MLlib de Spark, que es más adecuado para conjuntos de datos grandes y de esta manera agregamos una nueva herramienta a nuestro conjunto de habilidades.
Vamos allá.
Conjunto de datos
El conjunto de datos para este ejercicio ya está dentro de Databricks. Es uno de los conjuntos de datos de UCI, llamado Adults, que es una extracción de un censo y está etiquetado con personas que ganan menos o más de $50k al año. Los datos están públicamente disponibles en esta dirección: https://archive.ics.uci.edu/dataset/2/adult
Nuestro tutorial consiste en construir un clasificador binario que indique si una persona gana menos o más de $50k de ingresos en un año.
Codificación
En esta sección, repasemos cada paso de nuestro modelo.
Aquí están los módulos que necesitamos importar.
from pyspark.sql.functions import colfrom pyspark.ml.feature import UnivariateFeatureSelectorfrom pyspark.ml.feature import RFormulafrom pyspark.ml.feature import StringIndexer, VectorAssemblerfrom pyspark.ml import...
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Revolucionando las habilidades de escucha de la IA La Universidad de Tsinghua y ByteDance revelan SALMONN, una revolucionaria red neuronal multimodal para el procesamiento avanzado de audio
- Cómo creo personajes consistentes con DALL-E 3 en ChatGPT.
- Mejorando la seguridad en los juegos con la integración de IA y Blockchain
- Asistentes de correo electrónico AI más valorados (noviembre de 2023)
- Conoce a Watsonx Code Assistant de IBM Revolucionando la codificación empresarial con asistencia impulsada por IA
- Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión
- Aceptando la IA en el periodismo El carrusel de noticias