Una guía paso a paso para construir una estrategia efectiva de calidad de datos desde cero

Guía para construir estrategia de calidad de datos desde cero

Cómo construir un marco de calidad de datos interpretable basado en las expectativas del usuario

Foto de Rémi Müller en Unsplash

Como ingenieros de datos, somos (o deberíamos ser) responsables de la calidad de los datos que proporcionamos. Esto no es nada nuevo, pero cada vez que me uno a un proyecto de datos, me hago las mismas preguntas:

  • ¿Cuándo debo empezar a trabajar en la calidad de los datos?
  • ¿Cuánto me debería preocupar por la calidad de los datos?
  • ¿En qué aspectos de la calidad de los datos debería enfocarme?
  • ¿Por dónde empiezo?
  • ¿Cuándo mis datos son lo suficientemente buenos para ser utilizados?
  • ¿Cómo puedo resaltar la calidad de mis datos ante las partes interesadas?

La perfección no existe y no quieres perder impulso para mostrar todo el valor que tus datos pueden aportar al negocio. Necesitas encontrar un equilibrio entre calidad y tiempo invertido. Responder a estas preguntas es clave para encontrar tu equilibrio.

El objetivo de este artículo es compartir una guía paso a paso para obtener todas las respuestas que necesitas para construir una estrategia efectiva de calidad de datos que satisfaga las necesidades del negocio. Este proceso implica la colaboración entre las partes interesadas, los propietarios de productos, los desarrolladores y compartir métricas de calidad de datos con los posibles usuarios.

Además, mostraré artefactos prácticos desarrollados para un producto de datos que proporcionaría datos para una herramienta de informes de campañas de marketing, demostrando cómo la estrategia finalmente se traduce en valor para el negocio.

Para terminar, repasaré cómo los productos de datos dentro de una implementación de data-mesh nos ayudan a compartir el nivel de calidad de nuestros datos con nuestros usuarios incluso antes de acceder a los datos.

Empecemos con la primera pregunta

¿Cuándo debo empezar a trabajar en la calidad de los datos?

Creo que todos tenemos una voz interior con la respuesta a la primera pregunta: desde el primer día. Trabajar y comprender las expectativas de calidad de los datos desde el principio es clave para garantizar la confianza y la adopción temprana por parte de los usuarios. Esto nos lleva a recibir comentarios tempranos que nos ayudan a realizar mejoras a medida que desarrollamos. Y como productores de datos, no queremos acabar en una situación en la que la credibilidad de nuestros datos se vea afectada por algún problema de calidad inicial.

¿Cuánto nos deberíamos preocupar por la calidad de los datos?

Esta pregunta es específica para cada caso de uso. Para responder a esto, tu equipo debe comprender la naturaleza de la necesidad que nuestros datos pretenden solucionar. El punto de partida es saber cómo se utilizarán nuestros datos.

Podemos realizar una sesión con las partes interesadas y los propietarios del negocio para obtener información sobre cómo pretenden utilizar los datos. A través de esta colaboración, estableceremos los estándares de calidad de datos que están alineados con las necesidades y expectativas reales de nuestros usuarios.

Este sería el artefacto para nuestro ejemplo práctico, la consolidación de datos para una herramienta de informes de campañas de marketing

Ejemplo de resultado del patrón de uso de datos (imagen del autor)

A partir de este ejemplo, obtuvimos:

  • Con qué frecuencia y cuántas personas accederán a nuestros datos, para comprender qué tipo de rendimiento debemos proporcionar
  • Qué tan completos y precisos deben ser nuestros datos, para comprender qué tipo de controles debemos agregar a nuestro flujo de datos. Proporcionar un alto nivel de precisión y completitud implica comprobaciones de unicidad, completitud y gestión de inconsistencias.
  • Qué tan actualizados deben estar nuestros datos, para comprender con qué frecuencia debemos ejecutar nuestras transformaciones para actualizar los datos
  • Cuándo deben estar accesibles nuestros datos, para comprender la disponibilidad que debemos proporcionar

Objetivos de nivel de servicio

El resultado final de esta práctica es establecer la línea base para nuestros Objetivos de Nivel de Servicio. En calidad de datos, un Objetivo de Nivel de Servicio (SLO) es una meta específica y medible que define el nivel esperado de calidad de datos para un servicio o proceso de datos en particular. Los SLO establecen métricas y umbrales cuantificables para garantizar que los datos cumplan con los estándares de calidad predefinidos y se alineen con las necesidades y expectativas de los usuarios y las partes interesadas.

En nuestro escenario, uno de los SLOs que podemos definir es que nuestros datos deben ser recalculados cada 6 horas. En caso de que los datos sean más antiguos que este umbral, no cumplen este SLO específico.

¿En qué aspectos de la calidad de los datos debo enfocarme?

Ahora estamos en una posición dentro del equipo para reducir el nivel de abstracción a las dimensiones de calidad de los datos. Una dimensión de calidad de los datos representa una faceta específica de la calidad de los datos que posee características específicas. Cada dimensión de calidad de los datos se centra en un aspecto particular de los datos y ayuda a identificar áreas que pueden requerir mejoras.

Algunas de estas dimensiones son:

  • Precisión: El grado en que los valores de los datos reflejan la realidad y están libres de errores.
  • Completitud: La medida en que todos los elementos de datos requeridos están presentes sin valores faltantes.
  • Consistencia: El nivel de armonía y conformidad de los datos en diferentes fuentes o dentro del mismo conjunto de datos.
  • Oportunidad: La medida de qué tan actualizados están los datos.
  • Unicidad: El grado en que cada registro es único y no duplicado en el conjunto de datos.

Al comprender el patrón de uso de nuestros datos y SLOs, identificamos las dimensiones en las que debemos trabajar y asociamos cada una de ellas al valor real que aportan a nuestro escenario. Esto nos ayuda a identificar los aspectos más relevantes de la calidad de los datos en los que necesitamos trabajar y comenzar a pensar en acciones específicas.

Las dimensiones de calidad de los datos están directamente vinculadas al valor real del negocio en nuestro ejemplo (imagen del autor)

Siguiendo nuestro ejemplo, vinculamos las dimensiones de calidad de los datos identificadas en la sesión Patrón de Uso con el valor empresarial que proporcionan directamente.

¿Por dónde empiezo?

Una vez identificadas las dimensiones de calidad de los datos junto con el valor empresarial correspondiente que proporcionan, realizaremos una sesión colaborativa dentro del equipo para establecer metas específicas, medibles y alcanzables para cumplir efectivamente cada dimensión. Estas metas servirán como base para definir tareas concretas, como agregar pruebas de calidad de datos en la fase de transformación, realizar análisis de brechas o incorporar procesos sólidos de limpieza de datos. Al alinear nuestros esfuerzos de calidad de datos con estas metas bien definidas, aseguramos que nuestras acciones aborden directamente las necesidades comerciales y mejoren la calidad general de los datos.

Todas las acciones encontradas en el proceso se agregarán a nuestra lista de tareas pendientes y se priorizarán por el equipo. El resultado final es un marco de calidad de datos adaptado a las necesidades empresariales que nos permite rastrear nuestro progreso.

Marco de calidad de datos con nuestras metas y acciones para garantizar el valor empresarial de nuestros datos en nuestro ejemplo (imagen del autor)

Tener un marco de calidad de datos visible y fácil de interpretar para los interesados tiene algunos beneficios:

  • Proporciona claridad sobre cómo se gestiona, supervisa y mejora la calidad de los datos dentro de la organización.
  • Promueve la confianza y la transparencia en las prácticas de gestión de datos.
  • Reduce las posibilidades de interpretación errónea de los estándares de calidad de los datos.
  • Demuestra el compromiso del equipo y la organización con la calidad de los datos y su importancia para impulsar el éxito empresarial.

¿Cuándo mis datos son lo suficientemente buenos para su uso?

Tu marco responderá a esto. Una vez que hayas logrado todas tus metas para preparar tus datos y satisfacer las expectativas empresariales, puedes tener suficiente confianza para entregarlos a los usuarios y buscar sus comentarios para futuras mejoras.

Recuerda que la entrada para tu trabajo fueron los Objetivos de Nivel de Servicio que se identificaron en la sesión de Patrón de Uso. Como tus datos se alinean con estos objetivos, no hay razón para retenerlos temiendo que aún no cumplan con los requisitos.

¿Qué hacer una vez que tus datos se han publicado?

Monitoreo

Todas las acciones y objetivos definidos en tu estrategia de calidad de datos deben ser monitoreados activamente. Utilizar herramientas de monitoreo que puedan generar alertas y comunicarse a través de varios canales es esencial para la detección temprana.

También es crucial registrar tus incidentes y categorizarlos según las dimensiones afectadas. Esta práctica te permite centrar tu atención en áreas específicas e identificar posibles brechas en tu estrategia. Incluso mejor, si mantienes un informe de incidentes, te permite reflexionar sobre cómo tu trabajo en áreas específicas contribuye a reducir el número de incidentes con el tiempo.

Registro de incidentes por mes y por dimensión de calidad de datos. En las etiquetas se incluye una breve descripción del incidente (imagen del autor)

Revisiones periódicas del marco de trabajo

Tu equipo debe revisar periódicamente el registro de incidentes y actualizar tu marco de trabajo de calidad de datos en consecuencia para llenar las brechas identificadas. Esto asegura que tus acciones y objetivos reflejen la realidad y estén actualizados.

Indicadores de nivel de servicio y transparencia

Es esencial medir el cumplimiento de tus Objetivos de Nivel de Servicio. Para cada ONS, debes tener un Indicador de Nivel de Servicio (INS) que muestre el cumplimiento del ONS. Por ejemplo, en nuestro ejemplo podrías tener un INS que muestre el porcentaje de éxito en los últimos X días de no tener datos que sean más antiguos de 6 horas en producción (dimensión de puntualidad). Esto ayuda a los usuarios a entender cómo se comportan los datos y genera confianza en su calidad.

Indicadores de Nivel de Servicio para nuestras dimensiones de calidad de datos (imagen del autor)

La transparencia en la práctica es clave para aumentar la adopción por parte de los usuarios y los Indicadores de Nivel de Servicio son los encargados de proporcionar esta transparencia.

Compartir nuestras métricas de calidad de datos

Para compartir nuestras métricas de calidad de datos (INS), me gusta mucho adoptar el concepto de “producto de datos” dentro de una implementación de “data mesh”.

Nuestra estrategia de calidad de datos tiene las siguientes características:

  • Es específica del dominio ya que los objetivos provienen de una necesidad empresarial
  • Transparente ya que podemos compartirlo y queremos compartirlo con los usuarios
  • Visible ya que nuestro marco de trabajo de calidad de datos es fácil de interpretar

Esto se alinea perfectamente con la definición que “data mesh” da a los productos de datos. Recomiendo totalmente utilizar un enfoque de “data mesh” que encapsule los datos y sus métricas de calidad en productos de datos para mejorar la transparencia.

Por qué productos de datos para compartir nuestras métricas de calidad de datos

Por definición, un producto de datos en “data mesh” es una unidad autocontenida y específica del dominio de capacidades de datos. Encapsulan datos, lógica de procesamiento y verificaciones de calidad de datos, promoviendo la propiedad de datos descentralizada y la integración sin problemas en el ecosistema de datos más amplio. Están diseñados para satisfacer necesidades comerciales específicas en un dominio específico. Son fácilmente encontrables y transparentes. Como componentes integrales de nuestro marco de trabajo de calidad de datos, los productos de datos aseguran que nuestra estrategia se alinee precisamente con los requisitos únicos de cada dominio, proporcionando visibilidad y transparencia para la calidad de datos específica del dominio.

Una de las principales ventajas de los productos de datos en el contexto de la calidad de datos es su capacidad para tener sus propios INS. Al integrar indicadores de calidad de datos directamente en los productos de datos y hacerlos visibles a través de un catálogo fácil de usar, empoderamos a los usuarios para buscar, solicitar acceso y explorar datos con pleno conocimiento de su calidad. Esta transparencia y visibilidad mejoran la confianza del usuario y fomentan una mayor adopción.

Conclusión

A lo largo de esta guía paso a paso, hemos aprendido cómo establecer Objetivos de Nivel de Servicio medibles que cubran las necesidades comerciales, identificar dimensiones de calidad de datos y alinear nuestras acciones con los objetivos para cumplir con las expectativas definidas por los ONS. Al adoptar la transparencia y visibilidad ofrecida por los productos de datos, podemos compartir nuestras métricas de calidad de datos de manera efectiva para generar confianza y aumentar la adopción por parte de los usuarios. Recuerda, la perfección no existe. El monitoreo continuo, el registro de incidentes y las revisiones periódicas nos ayudan a mantener nuestro marco de trabajo de calidad de datos actualizado.

Siguiendo estos pasos, podrás crear un marco robusto de calidad de datos y construir un conjunto de artefactos que sirvan como una base de conocimiento compartible para la calidad de datos y sean fáciles de interpretar para los interesados y miembros del equipo. Y aún mejor, tu marco de calidad de datos mantiene un equilibrio perfecto entre esfuerzo y necesidades que permitirá a tu equipo lanzar tus datos tan pronto como estén listos para cubrir los requisitos del negocio.

¡Feliz ingeniería de datos!

Referencias

https://www.thoughtworks.com/es/insights/blog/transformacion-digital/como-elaborar-una-estrategia-perfecta-de-manera-responsable-parte-uno

https://towardsdatascience.com/como-crear-un-marco-de-calidad-de-datos-6887dea268ae

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce al Omnívoro Diseñador Industrial combina el Arte y el OpenUSD para crear Activos 3D para el Entrenamiento de IA

Nota del editor: esta publicación es parte de nuestra serie Conoce al Omnivore, que presenta a creadores y desarrolla...

Inteligencia Artificial

Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Después de su debut en NLP, el Transformer se transfirió al ámbito de la visión por computadora, donde demostró ser p...

Inteligencia Artificial

Automatiza la preetiquetado de PDFs para Amazon Comprehend

Amazon Comprehend es un servicio de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) que proporcion...

Inteligencia Artificial

Acélere los resultados comerciales con mejoras del 70% en el rendimiento del procesamiento de datos, entrenamiento e inferencia con Amazon SageMaker Canvas

Amazon SageMaker Canvas es una interfaz visual que permite a los analistas de negocios generar predicciones precisas ...

Inteligencia Artificial

Conoce AUDIT Un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Los modelos de difusión están avanzando rápidamente y facilitando la vida. Desde el Procesamiento del Lenguaje Natura...

Inteligencia Artificial

Maximizar el rendimiento en aplicaciones de IA de borde

Este artículo proporciona una visión general de las estrategias para optimizar el rendimiento del sistema de IA en im...