Escalado de datos con Python

Data scaling with Python

Cómo escalar tus datos para hacerlos adecuados para la construcción de modelos.

En el proceso de aprendizaje automático, la escalación de datos se encuentra en el preprocesamiento de datos, o ingeniería de características. Escalar sus datos antes de utilizarlos para la construcción del modelo puede lograr lo siguiente:

La escalación garantiza que las características tengan valores en el mismo rango.
La escalación garantiza que las características utilizadas en la construcción del modelo sean adimensionales.
La escalación se puede utilizar para detectar valores atípicos.

Existen varios métodos para escalar datos. Las dos técnicas de escalación más importantes son la Normalización y la Estandarización.

Escalado de datos utilizando Normalización

Cuando los datos se escalan utilizando la normalización, los datos transformados se pueden calcular utilizando la siguiente ecuación:

$\boldsymbol{\mathbf{X^{(i)}_{norm}=\frac{X^{(i)}-X_{min}}{X_{max}-X_{min}}}}$

donde $\boldsymbol{\mathbf{X_{max}}}$

Implementación de la Normalización en Python

La escalación utilizando la normalización se puede implementar en Python utilizando el siguiente código:

from sklearn.preprocessing import Normalizer
norm = Normalizer()
X_norm = norm.fit_transform(data)

Sea X un conjunto de datos dado con $\boldsymbol{\mathbf{X_{max}=17.7}}$

El X normalizado se muestra en la figura siguiente:

Figura 2. X normalizado con valores entre 0 y 1. Imagen del autor.

Escalado de datos utilizando Estandarización

Idealmente, la estandarización se debe utilizar cuando los datos se distribuyen de acuerdo a la distribución normal o Gaussiana. Los datos estandarizados se pueden calcular de la siguiente manera:

$\boldsymbol{\mathbf{X^{(i)}_{std}=\frac{X^{(i)}-\bar{X}}{^{\sigma}X}}}$

Aquí, $\boldsymbol{\mathbf{\bar{X}}}$ es la media de los datos y $\boldsymbol{\mathbf{\sigma_{X}}}$ es la desviación estándar. Los valores estandarizados deberían estar típicamente en el rango [-2, 2], lo cual representa el intervalo de confianza del 95%. Los valores estandarizados inferiores a -2 o mayores a 2 se pueden considerar como valores atípicos. Por lo tanto, la estandarización se puede utilizar para la detección de valores atípicos.

Implementación de la Estandarización en Python

La escalación utilizando la estandarización se puede implementar en Python utilizando el siguiente código:

from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_std = stdsc.fit_transform(data)

Utilizando los datos descritos anteriormente, los datos estandarizados se muestran a continuación:

Figura 3. X estandarizado. Imagen del autor.

La media estandarizada es cero. Observamos en la figura anterior que excepto por algunos valores atípicos, la mayoría de los datos estandarizados se encuentran en el rango [-2, 2].

Conclusión

En resumen, hemos discutido dos de los métodos más populares para la escala de características, a saber: estandarización y normalización. Los datos normalizados se encuentran en el rango [0, 1], mientras que los datos estandarizados suelen encontrarse en el rango [-2, 2]. La ventaja de la estandarización es que se puede utilizar para la detección de valores atípicos. Benjamin O. Tayo es un físico, educador de ciencia de datos y escritor, además de ser el propietario de DataScienceHub. Anteriormente, Benjamin enseñaba ingeniería y física en la U. de Central Oklahoma, la U. Grand Canyon y la U. Pittsburgh State.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Machine Learning

Was this article helpful?

93 out of 132 found this helpful

Un nuevo enfoque de investigación de Inteligencia Artificial (IA) presenta el Aprendizaje Basado en Instrucciones en Contexto como un problema de aprendizaje de algoritmos desde una perspectiva estadística.

Escalado de datos con Python

Escalado de datos utilizando Normalización

Implementación de la Normalización en Python

Escalado de datos utilizando Estandarización

Implementación de la Estandarización en Python

Conclusión

Was this article helpful?

AI Engaña a los Estafadores La Ingeniosa Batalla Contra las Llamadas Automáticas

Un nuevo enfoque de investigación de Inteligencia Artificial (IA) presenta el Aprendizaje Basado en Instrucciones en Contexto como un problema de aprendizaje de algoritmos desde una perspectiva estadística.

Ciencia de Datos

Investigadores de Alibaba presentan la serie Qwen-Audio Un conjunto de modelos de audio-idioma a gran escala con habilidades universales de comprensión de audio.

Por qué tus canalizaciones de datos necesitan un control de retroalimentación en bucle cerrado

Un impulso cuántico cuQuantum con PennyLane permite que las simulaciones se ejecuten en supercomputadoras

Una forma altamente subestimada de construir capital de carrera en Ciencia de Datos

Conoce Video-ControlNet Un nuevo modelo de difusión de texto a video que cambiará el juego y dará forma al futuro de la generación de video controlable.

GANs (Redes Generativas Adversarias)