Detección de valores atípicos con Scikit-Learn y Matplotlib una guía práctica
Detección de valores atípicos una guía práctica con Scikit-Learn y Matplotlib
Aprende cómo las visualizaciones, los algoritmos y las estadísticas te ayudan a identificar anomalías para tus tareas de aprendizaje automático.
![¿Qué tienen que ver los globos con los valores atípicos? Encuentra la respuesta en la introducción. Fuente de la imagen: pixabay.com.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*vGf8PYRayK_JvOHH8PIN0Q.jpeg)
Imagínate una habitación llena de globos coloridos, cada uno simbolizando un punto de datos en un conjunto de datos. Debido a sus diferentes características, los globos flotan a diferentes alturas. Ahora, imagina algunos globos llenos de helio que de repente ascienden muy por encima del resto. Así como estos globos excepcionales interrumpen la uniformidad de la habitación, los valores atípicos interrumpen el patrón en un conjunto de datos.
Regresando de esta analogía colorida a las estadísticas puras, los valores atípicos se definen como anomalías, o mejor dicho, puntos de datos que se desvían significativamente del resto del conjunto de datos.
Consideremos un algoritmo de Aprendizaje Automático desarrollado para diagnosticar enfermedades basado en datos de pacientes. En este ejemplo del mundo real, los valores atípicos podrían ser valores extremadamente altos en los resultados de laboratorio o parámetros fisiológicos. Aunque su origen puede deberse a diversas razones como errores en la recopilación de datos, inexactitudes en las mediciones o eventos raros genuinos, su presencia puede llevar al algoritmo a realizar diagnósticos incorrectos.
Esta es la razón por la cual nosotros, los practicantes de Aprendizaje Automático o Ciencia de Datos, siempre debemos tratar los valores atípicos con cuidado.
- Predicción de la medición del registro de pozo utilizando redes neuronales con Keras
- Gestionando múltiples versiones de CUDA en una sola máquina Una guía completa
- Cómo crear una visualización de grafo de red de series temporales en Python
En esta breve publicación, discutiré varios métodos para identificar y eliminar eficientemente los valores atípicos de tus datos.
Uno de ellos es SVM, el cual exploré en esta publicación.
Máquina de Vectores de Soporte con Scikit-Learn: una introducción amigable
Cada científico de datos debe tener SVM en su caja de herramientas. Aprende cómo dominar este modelo versátil con un enfoque práctico…
towardsdatascience.com
¿Qué son los valores atípicos?
Los valores atípicos son puntos de datos no representativos en un conjunto de datos, o mejor dicho, puntos de datos que se desvían significativamente del resto. A pesar de su definición simple, detectar estas anomalías no siempre es sencillo, pero primero, respondamos la siguiente pregunta básica.
¿Por qué queremos detectar valores atípicos en un conjunto de datos?
Existen dos respuestas a esta pregunta. La primera razón para detectar valores atípicos es que estos…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Qué formato de datos utilizar para tu proyecto de Big Data?
- IMPACT ¡El Data Observability Summit regresa el 8 de noviembre y la lista de presentadores es más grande y mejor que nunca!
- Meet FreeU Una nueva técnica de IA para mejorar la calidad generativa sin entrenamiento adicional ni ajuste fino
- Intuitivo logra un mayor rendimiento mientras ahorra en costos de IA/ML utilizando AWS Inferentia y PyTorch
- El cielo es el límite ‘Cities Skylines II’ se transmitirá esta semana en GeForce NOW
- Buscar inteligentemente el contenido de Drupal utilizando Amazon Kendra
- AI ‘Avance’ Red neuronal tiene capacidad similar a la humana para generalizar el lenguaje