¿Por qué y qué es la ingeniería de características en el aprendizaje automático?

¿Qué es la ingeniería de características en el aprendizaje automático?

Transformación y selección de datos para el aprendizaje automático

Introducción

Es un proceso de transformación y selección o extracción de características para crear datos mejorados para un modelo de aprendizaje automático. Depende de la persona especializada en ciencia de datos manejar y mejorar los datos para obtener un buen modelo. Diferentes personas pueden tener enfoques diferentes, pero casi todos pasan por técnicas de ingeniería de características. En este artículo, discutiremos diferentes técnicas en ingeniería de características.

La ingeniería de características consta de cuatro partes:

Transformación de características
Construcción de características
Selección de características
Extracción de características

Este artículo de la Parte 1 discutirá la Transformación de características y sus diferentes técnicas.

Transformación de características
Guía de Ingeniería 101 Zero, One y Prompting de Pocas Muestras
¿Qué significa cuando el aprendizaje automático comete un error?
Diseñando ciudades resilientes en Arup utilizando las capacidades geoespaciales de Amazon SageMaker

Los métodos y técnicas son el enfoque más utilizado para realizar el preprocesamiento de datos antes de proporcionarlos al modelo. Estos procesos incluyen imputación de datos faltantes, escalado, codificación, detección de valores atípicos, etc.

Escalado:

Este método se utiliza cuando hay variaciones en los números de los datos. Supongamos que en una columna de entrada los valores son muy bajos y en otra columna de entrada los valores son muy altos, por lo que existe la posibilidad de que el modelo se desvíe de un buen rendimiento. Las columnas con valores más grandes dominan en el aprendizaje del modelo y el modelo dará menos importancia a otras características.

Puntos clave:

Es deseable realizar el escalado después de la división de entrenamiento y prueba.
Si realizamos el escalado después de otras transformaciones, es posible obtener un mejor rendimiento del modelo.

Tipos de escalado:

Estandarización:

En este tipo de escalado, los valores se ajustan a la media y la desviación estándar. Los puntos de datos recién transformados tendrán una media de cero y una desviación estándar de uno.
Cuando usamos la biblioteca “scalar” en sklearn, devuelve una matriz numpy de una columna recién transformada, pero las necesitamos en un marco de datos.
Úselo cuando no haya idea de qué modelo aplicar.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

¿Por qué y qué es la ingeniería de características en el aprendizaje automático?

Transformación y selección de datos para el aprendizaje automático

Introducción

Escalado:

Was this article helpful?

Guía de Ingeniería 101 Zero, One y Prompting de Pocas Muestras

Desbloqueando LangChain y Flan-T5 XXL | Una guía para consultas eficientes de documentos

Inteligencia Artificial

El Ejército de los Estados Unidos pone a prueba la Inteligencia Artificial Generativa

Evaluando el Potencial de Conciencia en la IA Una Exploración Científica de las Propiedades Indicadoras Basadas en Teorías Neurocientíficas

Manteniendo la Calidad de Datos en Sistemas de Aprendizaje Automático

Los fabricantes de chips apilan 'chiplets' como bloques de Lego para impulsar la IA

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

DreamBooth Difusión estable para imágenes personalizadas