¿Qué características son perjudiciales para su modelo de clasificación?
Características perjudiciales para el modelo de clasificación.
Cómo calcular la Contribución de Error de las características de un clasificador, con el objetivo de comprender y mejorar el modelo
![[Imagen por Autor]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*MPwCU1NWRcvhHiusOULhHA.png)
La importancia de las características es la herramienta más común para explicar un modelo de aprendizaje automático. Es tan popular que muchos científicos de datos terminan creyendo que la importancia de las características es igual a la bondad de las características.
No es así.
Cuando una característica es importante, simplemente significa que el modelo la encontró útil en el conjunto de entrenamiento. Sin embargo, ¡esto no dice nada acerca de la capacidad de la característica para generalizar en nuevos datos!
Para tener en cuenta eso, necesitamos hacer una distinción entre dos conceptos:
- Conoce T2I-Adapter-SDXL Modelos de Control Pequeños y Eficientes.
- Grandes Modelos de Lenguaje SBERT
- LLMs y Análisis de Datos Cómo la IA está dando sentido a los grandes datos para obtener información empresarial
- Contribución de Predicción: el peso que una variable tiene en las predicciones realizadas por el modelo. Esto se determina por los patrones que el modelo encontró en el conjunto de entrenamiento. Esto es equivalente a la importancia de las características.
- Contribución de Error: el peso que una variable tiene en los errores cometidos por el modelo en un conjunto de datos de retención. Esto es un mejor indicador del rendimiento de la característica en nuevos datos.
En este artículo, explicaré la lógica detrás del cálculo de estas dos cantidades en un modelo de clasificación. También mostraré un ejemplo en el cual utilizar la Contribución de Error para la selección de características conduce a un resultado mucho mejor en comparación con el uso de la Contribución de Predicción.
Si estás más interesado en la regresión en lugar de la clasificación, puedes leer mi artículo anterior “¿Tus características son importantes? No significa que sean buenas”.
Tabla de Contenidos
- Partiendo de un ejemplo sencillo
- ¿Qué “error” deberíamos usar para modelos de clasificación?
- ¿Cómo deberíamos manejar los valores SHAP en modelos de clasificación?
- Calculando “Contribución de Predicción”
- Calculando “Contribución de Error”
- Un ejemplo de conjunto de datos real
- Probando que funciona: Eliminación de Características Recursiva con “Contribución de Error”
- Conclusiones
1. Partiendo de un ejemplo sencillo
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Ingeniería de Aprendizaje Automático en el Mundo Real
- Conoce a PhysObjects Un conjunto de datos centrado en objetos con 36.9K anotaciones físicas obtenidas de la colaboración de la multitud y 417K anotaciones físicas automáticas de objetos comunes del hogar.
- Cómo construir una estrategia de Ciencia de Datos para cualquier tamaño de equipo
- Dominio de Amazon SageMaker en modo solo VPC para admitir SageMaker Studio con configuración de ciclo de vida de apagado automático y SageMaker Canvas con Terraform
- Matemáticos encuentran 12,000 soluciones para el problema de los tres cuerpos
- ¿Qué tienen en común las neuronas, las luciérnagas y bailar el Nutbush?
- Microsoft protegerá a los clientes de Copilot que hayan pagado de cualquier disputa por derechos de autor de IA que se inicie