Manteniendo la Calidad de Datos en Sistemas de Aprendizaje Automático

'Quality Data Maintenance in Machine Learning Systems'

DATOS | APRENDIZAJE AUTOMÁTICO | QA

Una recomendación sobre la piedra angular invisible del Aprendizaje Automático

Foto de Battlecreek Coffee Roasters en Unsplash

En el deslumbrante mundo del aprendizaje automático (ML), es bastante fácil sumergirse en la emoción de idear algoritmos sofisticados, visualizaciones cautivadoras e impresionantes modelos predictivos.

Sin embargo, al igual que la durabilidad de un edificio no solo depende de su estructura visible sino también de sus cimientos ocultos, la efectividad de los sistemas de aprendizaje automático pivota en un aspecto a menudo pasado por alto pero totalmente crucial: la calidad de los datos.

La importancia de la garantía de calidad de los datos aguas arriba

Imagina tu entrenamiento de ML y las tuberías de inferencia como el viaje de un tren de vapor.

Es fundamental mantener la salud del propio tren, es decir, del sistema de ML, pero ¿qué pasa si las vías están comprometidas?

Si no se garantiza la calidad de los datos que alimentan tu sistema desde el principio, es como tener una vía férrea dañada: tu tren está destinado a descarrilar, tarde o temprano, especialmente cuando se opera a gran escala.

Por lo tanto, es primordial controlar la calidad de los datos desde el principio, justo en la fuente.

Como un inspector de trenes que examina las vías antes de un viaje, debemos examinar nuestros datos en su punto de origen.

Esto se puede lograr a través de un concepto conocido como “Contratos de Datos”.

El papel de los Contratos de Datos en mantener la calidad de los datos

Imagina que te invitan a una cena compartida, donde cada invitado trae un plato.

¡Sin coordinación, podrías terminar con una fiesta totalmente compuesta por postres!

De manera similar, en el vasto panorama de los datos, debe haber un acuerdo (es decir, el Contrato de Datos) entre los productores y consumidores de datos para garantizar que los datos producidos cumplan con estándares de calidad específicos.

Este contrato es esencialmente un plan, que abarca una lista no exhaustiva de metadatos, como:

  1. Definición del esquema: Detalles de la estructura de los datos, como campos, tipos de datos, etc.
  2. Versión del esquema: Garantiza la consistencia en vista de alteraciones o mejoras.
  3. Metadatos del Acuerdo de Nivel de Servicio (SLA): Especificaciones del SLA para gestionar las expectativas.
  4. Semántica: Clarifica el significado e interpretación de los datos.
  5. Línea de tiempo: Cronología del viaje de los datos, desde el origen hasta el destino.

Veamos esto mejor a través de una arquitectura que aplica los Contratos de Datos.

Contratos de Datos en Acción: Una arquitectura de ejemplo

Imagina una línea de ensamblaje de fabricación, donde cada trabajador conoce su función y el estándar que debe cumplir.

Ahora, apliquemos este concepto a nuestra arquitectura de datos.

  1. Los cambios en el esquema se realizan primero en el control de versiones y una vez aprobados, se implementan en aplicaciones productoras de datos, bases de datos y un Registro de Contratos de Datos central. Aquí es donde idealmente comienza la aplicación de los contratos de datos, en la etapa misma de la producción de datos. Cualquier paso de validación más adelante actúa como salvaguarda para evitar que los datos de baja calidad se infiltren en el sistema.
  2. Los datos, una vez producidos, se envían a sistemas de mensajería como los temas de Kafka. Esto podría incluir eventos emitidos directamente por los servicios de aplicaciones o temas de datos sin procesar para Captura de Datos de Cambio (CDC).
  3. Ahora, imagina las aplicaciones de Flink como guardianes vigilantes, consumiendo datos de los flujos de datos sin procesar y validándolos con los esquemas en el Registro de Contratos.
  4. Los datos que no cumplen con el contrato, al igual que los rechazos en una línea de ensamblaje, se dirigen al Tema de Cartas Muertas.
  5. Los datos validados se aprueban para el Tema de Datos Validados, al igual que los productos aprobados por calidad listos para ser empaquetados y enviados.
  6. Los datos validados se envían a almacenamiento de objetos para otra ronda de validación, actuando como un mecanismo de doble comprobación.
  7. Según un cronograma, los datos en el Almacenamiento de Objetos se someten a validación con SLAs adicionales en los Contratos de Datos. Después de pasar por este escrutinio, se envían al Data Warehouse, donde se transforman y modelan con fines analíticos.
  8. A partir de aquí, los datos modelados y curados siguen un camino bifurcado. Se envían al Sistema de Almacenamiento de Características para un mayor desarrollo de características, y las características en tiempo real se ingieren directamente desde el Tema de Datos Validados. Ten en cuenta que asegurar la calidad de los datos en esta etapa puede ser desafiante debido a la dificultad de realizar verificaciones con respecto a los SLAs.
  9. Estos datos de alta calidad se utilizan luego en los Tuberías de Entrenamiento de Aprendizaje Automático.
  10. Los mismos datos se utilizan para servir características en la inferencia.

Recuerda, los sistemas de ML también son susceptibles a problemas relacionados con los datos, como el cambio de datos y el cambio de concepto.

Aunque se consideran “fallas silenciosas” y se pueden monitorear, generalmente no se incluyen en el Contrato de Datos.

Profundizaremos más en el tema del cambio de datos en un artículo posterior.

Observaciones Finales

La fortaleza oculta de los sistemas de aprendizaje automático radica en la integridad invisible de los datos que los alimentan.

La calidad de los datos, aunque poco glamour, desempeña un papel fundamental en el éxito de los proyectos de ML.

El concepto de los Contratos de Datos asegura que este aspecto vital no se pasa por alto.

Recuerda, no se trata solo de construir el tren más rápido o la estación más impresionante, también se trata de mantener la calidad de las vías.

No importa cuán sofisticado sea tu sistema de aprendizaje automático, sin datos de alta calidad, su viaje estará lleno de interrupciones y posibles descarrilamientos.

Ten esto en cuenta y asegúrate de que la calidad de los datos se le dé la importancia que merece en tus esfuerzos de aprendizaje automático.

Después de todo, los avances de ML más emocionantes se construyen no solo en algoritmos revolucionarios, sino también sobre la base de datos confiables y de alta calidad.

¿Disfrutaste de esta publicación? Por $5/mes, puedes convertirte en miembro para desbloquear acceso ilimitado a Zepes. Estarás apoyándome directamente a mí y a todos tus otros escritores favoritos en Zepes. ¡Así que muchas gracias por eso!

Como miembro de Zepes, una parte de tu tarifa de membresía se destina a los escritores que lees, y obtienes acceso completo a cada historia…

david-farrugia.medium.com

¿Quieres ponerte en contacto?

Me encantaría escuchar tus pensamientos sobre el tema o cualquier cosa relacionada con IA y datos.

Envíame un correo electrónico a [email protected] si deseas ponerte en contacto.

Linkedin

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El (Largo) Cola Mueve al Perro Las Consecuencias Inesperadas del Arte Personalizado de la IA

La reciente presentación de Meta de Emu en el mundo de las películas generativas marca un punto de inflexión, un mome...

Inteligencia Artificial

Detección de objetos utilizando RetinaNet y KerasCV

Después de terminar un mini-proyecto basado en la segmentación de imágenes (ver aquí), estaba listo para pasar a otra...

Ciencia de Datos

Teoría de Recursos Donde las Matemáticas se Encuentran con la Industria.

En mi introducción a la Teoría de Categorías, mencioné que una de sus aplicaciones viene en forma de Teoría de Recurs...

Ciencia de Datos

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

La evaluación confiable del modelo es fundamental en MLops y LLMops, guiando decisiones cruciales como cuál modelo o ...

Inteligencia Artificial

Resolución de Entidades Identificación de Entidades del Mundo Real en Datos Ruidosos

En el mundo actual impulsado por datos, las organizaciones a menudo enfrentan desafíos con diversas y inconsistentes ...