Escalado de datos con Python

Data scaling with Python

Cómo escalar tus datos para hacerlos adecuados para la construcción de modelos.

En el proceso de aprendizaje automático, la escalación de datos se encuentra en el preprocesamiento de datos, o ingeniería de características. Escalar sus datos antes de utilizarlos para la construcción del modelo puede lograr lo siguiente:

  • La escalación garantiza que las características tengan valores en el mismo rango.
  • La escalación garantiza que las características utilizadas en la construcción del modelo sean adimensionales.
  • La escalación se puede utilizar para detectar valores atípicos.

Existen varios métodos para escalar datos. Las dos técnicas de escalación más importantes son la Normalización y la Estandarización.

Escalado de datos utilizando Normalización

Cuando los datos se escalan utilizando la normalización, los datos transformados se pueden calcular utilizando la siguiente ecuación:

donde

Implementación de la Normalización en Python

La escalación utilizando la normalización se puede implementar en Python utilizando el siguiente código:

from sklearn.preprocessing import Normalizer
norm = Normalizer()
X_norm = norm.fit_transform(data)

Sea X un conjunto de datos dado con

El X normalizado se muestra en la figura siguiente:

Figura 2. X normalizado con valores entre 0 y 1. Imagen del autor.

Escalado de datos utilizando Estandarización

Idealmente, la estandarización se debe utilizar cuando los datos se distribuyen de acuerdo a la distribución normal o Gaussiana. Los datos estandarizados se pueden calcular de la siguiente manera:

Aquí, es la media de los datos y es la desviación estándar. Los valores estandarizados deberían estar típicamente en el rango [-2, 2], lo cual representa el intervalo de confianza del 95%. Los valores estandarizados inferiores a -2 o mayores a 2 se pueden considerar como valores atípicos. Por lo tanto, la estandarización se puede utilizar para la detección de valores atípicos.

Implementación de la Estandarización en Python

La escalación utilizando la estandarización se puede implementar en Python utilizando el siguiente código:

from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
X_std = stdsc.fit_transform(data)

Utilizando los datos descritos anteriormente, los datos estandarizados se muestran a continuación:

Figura 3. X estandarizado. Imagen del autor.

La media estandarizada es cero. Observamos en la figura anterior que excepto por algunos valores atípicos, la mayoría de los datos estandarizados se encuentran en el rango [-2, 2].

Conclusión

En resumen, hemos discutido dos de los métodos más populares para la escala de características, a saber: estandarización y normalización. Los datos normalizados se encuentran en el rango [0, 1], mientras que los datos estandarizados suelen encontrarse en el rango [-2, 2]. La ventaja de la estandarización es que se puede utilizar para la detección de valores atípicos. Benjamin O. Tayo es un físico, educador de ciencia de datos y escritor, además de ser el propietario de DataScienceHub. Anteriormente, Benjamin enseñaba ingeniería y física en la U. de Central Oklahoma, la U. Grand Canyon y la U. Pittsburgh State.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Alibaba presentan la serie Qwen-Audio Un conjunto de modelos de audio-idioma a gran escala con habilidades universales de comprensión de audio.

Investigadores de Alibaba Group presentaron Qwen-Audio, que aborda el desafío de los modelos de audio pre-entrenados ...

Inteligencia Artificial

Por qué tus canalizaciones de datos necesitan un control de retroalimentación en bucle cerrado

A medida que los equipos de datos se expanden en la nube, los equipos de plataforma de datos deben asegurarse de que ...

Inteligencia Artificial

Un impulso cuántico cuQuantum con PennyLane permite que las simulaciones se ejecuten en supercomputadoras

A diez millas de la costa atlántica de Long Island, Shinjae Yoo está acelerando su motor. El científico computacional...

Ciencia de Datos

Una forma altamente subestimada de construir capital de carrera en Ciencia de Datos

Claro, LinkedIn es una excelente manera de construir una red profesional y los portfolios brindan una gran forma de m...

Aprendizaje Automático

Conoce Video-ControlNet Un nuevo modelo de difusión de texto a video que cambiará el juego y dará forma al futuro de la generación de video controlable.

En los últimos años, ha habido un rápido desarrollo en la generación de contenido visual basado en texto. Entrenados ...

Inteligencia Artificial

GANs (Redes Generativas Adversarias)

GANs, redes generativas adversariales, primero vamos a entender qué son GANs. Así que ya he escrito un blog sobre IA ...