¿Por qué y qué es la ingeniería de características en el aprendizaje automático?

¿Qué es la ingeniería de características en el aprendizaje automático?

Transformación y selección de datos para el aprendizaje automático

Una imagen del autor

Introducción

Es un proceso de transformación y selección o extracción de características para crear datos mejorados para un modelo de aprendizaje automático. Depende de la persona especializada en ciencia de datos manejar y mejorar los datos para obtener un buen modelo. Diferentes personas pueden tener enfoques diferentes, pero casi todos pasan por técnicas de ingeniería de características. En este artículo, discutiremos diferentes técnicas en ingeniería de características.

La ingeniería de características consta de cuatro partes:

  1. Transformación de características
  2. Construcción de características
  3. Selección de características
  4. Extracción de características

Este artículo de la Parte 1 discutirá la Transformación de características y sus diferentes técnicas.

Transformación de características

Los métodos y técnicas son el enfoque más utilizado para realizar el preprocesamiento de datos antes de proporcionarlos al modelo. Estos procesos incluyen imputación de datos faltantes, escalado, codificación, detección de valores atípicos, etc.

Escalado:

Este método se utiliza cuando hay variaciones en los números de los datos. Supongamos que en una columna de entrada los valores son muy bajos y en otra columna de entrada los valores son muy altos, por lo que existe la posibilidad de que el modelo se desvíe de un buen rendimiento. Las columnas con valores más grandes dominan en el aprendizaje del modelo y el modelo dará menos importancia a otras características.

Puntos clave:

  • Es deseable realizar el escalado después de la división de entrenamiento y prueba.
  • Si realizamos el escalado después de otras transformaciones, es posible obtener un mejor rendimiento del modelo.

Tipos de escalado:

  1. Estandarización:
  • En este tipo de escalado, los valores se ajustan a la media y la desviación estándar. Los puntos de datos recién transformados tendrán una media de cero y una desviación estándar de uno.
  • Cuando usamos la biblioteca “scalar” en sklearn, devuelve una matriz numpy de una columna recién transformada, pero las necesitamos en un marco de datos.
  • Úselo cuando no haya idea de qué modelo aplicar.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El Ejército de los Estados Unidos pone a prueba la Inteligencia Artificial Generativa

El Departamento de Defensa de los Estados Unidos está probando cinco modelos de lenguaje grandes como parte de un esf...

Inteligencia Artificial

Evaluando el Potencial de Conciencia en la IA Una Exploración Científica de las Propiedades Indicadoras Basadas en Teorías Neurocientíficas

La posibilidad de sistemas de IA conscientes es un tema candente en este momento. Los principales investigadores se e...

Ciencia de Datos

Manteniendo la Calidad de Datos en Sistemas de Aprendizaje Automático

En el deslumbrante mundo del aprendizaje automático (ML), es bastante fácil quedar absorto en la emoción de idear alg...

Inteligencia Artificial

Los fabricantes de chips apilan 'chiplets' como bloques de Lego para impulsar la IA

Los fabricantes de chips están apilando chips preexistentes para acelerar el desarrollo de chips más potentes.

Inteligencia Artificial

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

Los sectores de animación, videojuegos y moda pueden beneficiarse del campo de vanguardia de la estimación expresiva ...

Inteligencia Artificial

DreamBooth Difusión estable para imágenes personalizadas

Introducción Bienvenido al mundo de las técnicas de Difusión Estable para crear imágenes personalizadas, donde la cre...