Fuga de datos Qué es y por qué causa el fracaso de nuestros sistemas predictivos

Fuga de datos y su impacto en los sistemas predictivos

La fuga de datos representa, junto con el sobreajuste/subajuste, la principal causa de fallo de los proyectos de aprendizaje automático que se implementan en producción

Foto de Grianghraf en Unsplash

La fuga de datos es sin duda una amenaza que acecha a los científicos de datos, sin importar su nivel de experiencia.

Es ese fenómeno que puede afectar a todos, incluso a profesionales con años de experiencia en el sector.

Junto con el sobreajuste/subajuste, representa la principal causa de fallo de los proyectos de aprendizaje automático que se implementan en producción.

La fuga de datos ocurre cuando la información presente en el conjunto de entrenamiento se filtra al conjunto de evaluación (ya sea conjunto de validación o conjunto de pruebas)

Pero, ¿por qué la fuga de datos cobra tantas víctimas?

Porque incluso después de muchos experimentos y evaluaciones en la fase de desarrollo, nuestros modelos pueden fallar espectacularmente en un escenario de producción.

Avoiding data leakage is not easy. I hope that with this article you’ll understand why and how to avoid it in your projects!

Ejemplos de fuga de datos

Aquí tienes un ejemplo que puede ser útil para que entiendas qué es la fuga de datos.

Imagina que somos desarrolladores de IA aplicada y estamos empleados por una empresa que fabrica juguetes para niños en serie.

Nuestra tarea es crear un modelo de aprendizaje automático para identificar si un juguete estará sujeto a una solicitud de reembolso en los 3 días posteriores a su venta.

Recibimos los datos de la fábrica, en forma de imágenes que capturan el juguete antes de ser enlatado.

Foto de Jerry Wang en Unsplash

Utilizamos estas imágenes para entrenar nuestro modelo, que funciona muy bien en la validación cruzada y en el conjunto de pruebas.

Entregamos el modelo y durante el primer mes, el cliente informa solo un 5% de solicitudes de reembolso de juguetes defectuosos.

En el segundo mes nos preparamos para el reentrenamiento del modelo. La fábrica nos envía más fotografías, que utilizamos para…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

La IA se está comiendo la Ciencia de Datos.

Cuando todo esté dicho y hecho, y la Inteligencia Artificial haya sido universalmente reconocida como nuestros legíti...

Inteligencia Artificial

Cómo utilizar ChatGPT en Google Sheets

Introducción Google Sheets es una aplicación amplia y ampliamente conocida de hojas de cálculo. A lo largo de los año...

Inteligencia Artificial

Detecta cualquier cosa que desees con UniDetector

El aprendizaje profundo y la IA han avanzado notablemente en los últimos años, especialmente en los modelos de detecc...

Inteligencia Artificial

La sinfonía creativa de la inteligencia artificial generativa en la composición musical

Introducción La IA generativa es inteligencia artificial que puede producir nuevos datos, como libros de texto, imáge...

Inteligencia Artificial

Investigadores de UC San Diego presentan TD-MPC2 Revolucionando el aprendizaje de refuerzo basado en modelos en diversos dominios

Los Modelos de Lenguaje Grandes (LLMs) están constantemente mejorando, gracias a los avances en Inteligencia Artifici...