Fuga de datos Qué es y por qué causa el fracaso de nuestros sistemas predictivos
Fuga de datos y su impacto en los sistemas predictivos
La fuga de datos representa, junto con el sobreajuste/subajuste, la principal causa de fallo de los proyectos de aprendizaje automático que se implementan en producción
La fuga de datos es sin duda una amenaza que acecha a los científicos de datos, sin importar su nivel de experiencia.
Es ese fenómeno que puede afectar a todos, incluso a profesionales con años de experiencia en el sector.
Junto con el sobreajuste/subajuste, representa la principal causa de fallo de los proyectos de aprendizaje automático que se implementan en producción.
La fuga de datos ocurre cuando la información presente en el conjunto de entrenamiento se filtra al conjunto de evaluación (ya sea conjunto de validación o conjunto de pruebas)
Pero, ¿por qué la fuga de datos cobra tantas víctimas?
Porque incluso después de muchos experimentos y evaluaciones en la fase de desarrollo, nuestros modelos pueden fallar espectacularmente en un escenario de producción.
Avoiding data leakage is not easy. I hope that with this article you’ll understand why and how to avoid it in your projects!
Ejemplos de fuga de datos
Aquí tienes un ejemplo que puede ser útil para que entiendas qué es la fuga de datos.
Imagina que somos desarrolladores de IA aplicada y estamos empleados por una empresa que fabrica juguetes para niños en serie.
Nuestra tarea es crear un modelo de aprendizaje automático para identificar si un juguete estará sujeto a una solicitud de reembolso en los 3 días posteriores a su venta.
Recibimos los datos de la fábrica, en forma de imágenes que capturan el juguete antes de ser enlatado.
Utilizamos estas imágenes para entrenar nuestro modelo, que funciona muy bien en la validación cruzada y en el conjunto de pruebas.
Entregamos el modelo y durante el primer mes, el cliente informa solo un 5% de solicitudes de reembolso de juguetes defectuosos.
En el segundo mes nos preparamos para el reentrenamiento del modelo. La fábrica nos envía más fotografías, que utilizamos para…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- El Problema de Enrutamiento de Vehículos Soluciones Exactas y Heurísticas
- ¿Qué es la Inteligencia de Negocios?
- Por qué deberías preocuparte por la Ley de IA de la UE hoy
- Generative AI para Audio y Música de AudioCraft Meta
- Una nueva investigación de IA de CMU propone un método de ataque simple y efectivo que hace que los modelos de lenguaje alineados generen comportamientos objetables.
- Mejorando el procesamiento inteligente de documentos de AWS con IA generativa
- Hoja de ruta de Aprendizaje Automático Recomendaciones de la Comunidad 2023