Observabilidad de Datos Pionera Datos, Código, Infraestructura y IA

Observabilidad de Datos y IA

Las cuatro dimensiones de la observabilidad de datos: datos, código, infraestructura y IA. Imagen cortesía del autor.

Describiendo el pasado, presente y futuro de la arquitectura de sistemas de datos confiables.

Cuando lanzamos la categoría de observabilidad de datos en 2019, apenas podía pronunciar el término.

Cuatro años después, la categoría se ha establecido firmemente como una capa fundamental del stack de datos moderno. La Observabilidad de Datos es una categoría de G2, reconocida por Gartner, Forrester y más, y lo más importante, ampliamente adoptada por cientos de empresas, incluyendo algunas de las organizaciones de datos más avanzadas del mundo.

De hecho, el CTO de una empresa en rápido crecimiento me dijo recientemente: “Esta es la tendencia secular dada la forma en que el mundo está cambiando. La observabilidad de datos iba a ocurrir tarde o temprano y no hay nada que nadie pueda hacer para detenerlo”.

Aunque todavía no siempre puedo pronunciarlo (¿inglés como segundo idioma, alguien?), la observabilidad de datos se ha convertido en una necesidad para los equipos de datos modernos, y no podría estar más orgulloso de lo lejos que ha llegado este movimiento y hacia dónde nos dirigimos.

Entonces, ¿qué nos depara el futuro de la confiabilidad de los datos? Para entender hacia dónde nos dirigimos, es útil retroceder y evaluar cuánto hemos avanzado.

Dónde empezamos

A mediados de la década de 2010, los equipos de datos comenzaron a migrar a la nube y a adoptar tecnologías de almacenamiento y procesamiento de datos, como Redshift, Snowflake, Databricks, GCP, ¡vaya! para satisfacer la creciente demanda de análisis. La nube hizo que los datos fueran más rápidos de procesar, más fáciles de transformar y mucho más accesibles.

A medida que los datos se volvieron más ubicuos, los pipelines se volvieron más complejos, nuevas personas entraron en escena para gestionar este caos (hola, ingenieros de datos) y el número de casos de uso posibles explotó.

¿La ventaja? Toma de decisiones más informada, más casos de uso de datos y software más inteligente.

¿La desventaja? Los conceptos básicos, como la calidad de los datos, fueron descuidados y pasaron a un segundo plano en comparación con las partes más llamativas de este stack de datos moderno.

En una vida pasada, vi de primera mano las implicaciones de los datos incorrectos. Mensajes a las 5 a.m. de nuestro director financiero cuando “los datos parecen incorrectos”. Notas adhesivas en mi monitor de computadora de los interesados cuando los paneles de control no se actualizaban. Clientes frustrados rascándose la cabeza porque nuestro producto se alimentaba de datos inexactos.

La observabilidad de datos nació de este dolor, lo que llamamos tiempo de inactividad de los datos, y ofreció una solución tangible. Inspirada por la observabilidad de aplicaciones y la ingeniería de confiabilidad del sitio, la observabilidad de datos monitorea y alerta a las organizaciones sobre incidentes de datos antes de que afecten al negocio. La observabilidad de datos ofreció una alternativa automatizada y basada en procesos para lograr la confiabilidad de los datos, que redujo costos, impulsó el crecimiento y redujo sustancialmente las situaciones de emergencia a las 5 a.m.

Históricamente, los enfoques más sólidos de observabilidad de datos incorporan tres etapas principales: detección, resolución y prevención.

Detección: La observabilidad de datos detecta anomalías y otros problemas en tus datos y alerta a los propietarios apropiados del equipo de datos antes de que los interesados se enteren.
Resolución: Al mismo tiempo, las plataformas de observabilidad de datos brindan a los equipos las herramientas para resolver el problema, incluyendo linaje a nivel de campo, análisis de causa raíz automatizado y análisis de impacto, información sobre incidentes pasados que afectan ese activo, registros de consultas relacionadas y modelos dbt, informes afectados y más.
Prevención: Finalmente, la observabilidad de datos también proporciona mecanismos para prevenir problemas de datos antes de que ocurran, como la implementación de circuit breakers en los pipelines y crear visibilidad sobre el impacto que los cambios de código tendrían en los datos, entre otras medidas proactivas para prevenir que datos incorrectos ingresen a tus pipelines desde el principio.

Al principio, la observabilidad de datos se centraba exclusivamente en detectar, resolver y prevenir problemas de datos aprovechando tanto los metadatos como los propios datos para armar una imagen de la salud de los datos. Al monitorear y alertar sobre problemas en los datos desde la ingestión hasta el consumo, los equipos podían detectar cambios en las tablas de origen no anticipados, lo que provocaba que las fuentes de datos posteriores se rompieran o se volvieran poco confiables.

Ampliando la detección y resolución más allá de los datos

Sin embargo, al igual que en cualquier industria, el espacio de datos ha evolucionado, impactando la forma en que los equipos necesitan pensar en la detección y resolución de incidentes, y en la observabilidad de datos de manera más amplia. Esta evolución se debe a algunas tendencias emocionantes: el auge de los productos de datos y, como resultado, la migración continua de los equipos de datos más cerca o directamente dentro de la organización de Ingeniería.

A medida que los equipos de datos aumentan su alcance en la organización y los casos de uso de datos crecen, el equipo de datos tiene un impacto más importante en los resultados finales que nunca. Ahora, todos en el negocio aprovechan los datos todos los días para obtener información, alimentar servicios digitales y entrenar modelos de aprendizaje automático (ML). De hecho, hemos pasado de tratar los datos simplemente como un producto. En 2023, los datos SON un producto.

Después de cientos de clientes, incluidos equipos de Pepsi, Gusto, MasterClass y Vimeo, hemos descubierto que necesitamos mirar más allá de los datos para lograr la confiabilidad de los datos. Los datos no confiables no existen en un vacío… se ven afectados por los tres componentes del ecosistema de datos: datos + código + infraestructura.

Esta visión más amplia refleja cómo nuestros amigos en ingeniería de software abordan la detección y resolución de problemas, también. La observabilidad de aplicaciones comienza con la infraestructura, pero analiza mucho más que eso para detectar y resolver problemas de software; el análisis de la causa raíz tiene en cuenta el código, la infraestructura, los servicios, la red y muchos otros factores. Para los ingenieros de software, la confiabilidad no se logra en un vacío, a menudo se ve afectada por múltiples factores que actúan en conjunto o se combinan entre sí.

En el ámbito de los datos, el escenario a menudo es el mismo y es hora de que comencemos a tratarlo de esa manera.

Veamos un ejemplo hipotético del mundo de los datos.

Imagina que tienes un panel que muestra resultados obsoletos. Primero, miras tus datos, en este caso, tal vez una tabla de aguas arriba ingesta de Google que describe tus campañas publicitarias. ¿Alguien cambió el nombre de una campaña, rompiendo un canal de datos codificado en duro? ¿O tal vez estás obteniendo nulos en lugar de UUID de usuario en tu tabla de eventos de clics? Nada, entonces ¿qué sigue?

Miras el código. Tal vez tu ingeniero de análisis hizo un cambio en tu SQL que filtra los datos más recientes. Tenían buenas intenciones, pero ¿quizás tuvo consecuencias no deseadas? Echas un vistazo a tu repositorio de dbt. No, todo está bien allí.

Finalmente, miras tu infraestructura. Haces clic rápidamente en tu interfaz de Airflow: tal vez estás ejecutando Airflow en una instancia pequeña y se quedó sin memoria (¡¡no deberías haber cargado esas filas en memoria!!), lo que causó el problema de frescura aguas abajo. ¡Eureka, lo encontraste!

La experiencia nos enseña que los tres factores contribuyen significativamente a la caída de datos. Así que no importa dónde mires primero, te espera un proceso largo y tedioso de hacer suposiciones educadas y eliminarlas una por una. Ah, ¿y mencionamos que requiere acceso y competencia en las 8 herramientas diferentes que conforman tu pila de datos?

Ahora, imagina que podrías correlacionar rápidamente el síntoma que estás viendo (panel obsoleto…) con todos los cambios que han ocurrido en los datos, el código y la infraestructura. Ah, y no necesitas un doctorado en estadística o 10 años de experiencia en la empresa para conocer cada columna en el almacén de datos. Todo está a tu alcance: una comprensión integral de cómo los datos, el código y la infraestructura trabajaron juntos para resultar en un panel roto. Piensa en todo el tiempo y los recursos que podrías haber ahorrado y en la frustración de las partes interesadas que podrías haber evitado, sin mencionar la llamada de despertador temprano en la mañana.

La observabilidad de datos requiere una visión de tres capas del entorno de datos: datos, código e infraestructura. Imagen cortesía del autor.

Para realmente aprovechar el potencial de la observabilidad de datos y lograr datos confiables, los equipos deben adoptar un enfoque de tres niveles que combine una imagen integral de los datos, el código y la infraestructura que afectan la salud de los datos.

También hemos llegado a comprender que lograr la confiabilidad de los datos no se trata solo de activar una herramienta. Se trata de crear una nueva disciplina en el equipo, una mentalidad operativa por así decirlo. Los equipos deben introducir procesos en torno a la supervisión de los sistemas de datos, responder a incidentes y mejorar iterativamente con el tiempo.

Las estructuras organizativas, los procesos y las tecnologías deben evolucionar para lograr esos objetivos. Piensa en tableros de control que definen y supervisan la confiabilidad de los productos de datos basados en las tablas de origen que los alimentan, y que pueden compartirse fácilmente en toda la organización para lograr transparencia, colaboración y responsabilidad. Y en dominios que segmentan los datos y los flujos de trabajo en función del caso de uso y los responsables para una resolución de problemas e incidentes dirigida.

Datos confiables y el futuro de la IA

Apoyarse en modelos de lenguaje grandes (LLM) como el futuro de [insertar industria aquí] es casi un cliché en este punto, pero el impacto en la industria de datos es diferente.

Los casos de uso actuales de IA generativa en datos e ingeniería se centran casi exclusivamente en aumentar la productividad, como GitHub Co-Pilot, Snowflake Document AI y Databricks LakehouseIQ. En muchos aspectos, no sabemos qué deparará el futuro de la IA generativa, pero sí sabemos que los equipos de datos desempeñarán un papel importante en su éxito.

Existe una emocionante oportunidad para que los LLM ayuden con la calidad de los datos, pero la tesis aún más poderosa es que la calidad y confiabilidad de los datos pueden ayudar a los LLM. De hecho, argumentaría que los LLM que se utilizan en casos de uso de producción no pueden existir sin una base sólida: tener muchos datos confiables, de alta calidad y confiables.

En general, la gran mayoría de las aplicaciones de IA generativa de hoy se alojan en la nube y se exponen a través de una API. Para admitirlas, necesitas una pila de datos robusta basada en la nube para almacenar, transformar, entrenar y servir de manera confiable los datos que las alimentan.

En consonancia con este sentimiento, durante la llamada de ganancias del primer trimestre de 2023 de Snowflake, Frank Slootman, CEO de Snowflake, argumentó que “la IA generativa se alimenta de datos. Así es como los modelos se entrenan y se vuelven cada vez más interesantes y relevantes… No puedes simplemente soltar indiscriminadamente estos [LLM] en datos que las personas no comprenden en términos de su calidad, definición y linaje”.

Ya hemos visto las implicaciones de un entrenamiento de modelos poco confiable. Justo el año pasado, Equifax, el gigante global de crédito, compartió que un modelo de aprendizaje automático entrenado con datos incorrectos les hizo enviar puntuaciones crediticias incorrectas a millones de consumidores. Y no mucho antes de eso, Unity Technologies informó una pérdida de ingresos de $110 millones debido a datos publicitarios incorrectos que alimentaban sus algoritmos de segmentación. En los próximos años, esto inevitablemente se convertirá en un problema aún mayor a menos que prioricemos la confianza.

A medida que presenciamos el surgimiento de aplicaciones de IA para la empresa en los próximos años, la observabilidad de los datos surgirá como una capacidad crítica para respaldar a los LLM y a todos los demás casos de uso de IA.

Como sugieren los cofundadores de Databricks, Matei Zaharia, Patrick Wendell, Reynold Xin y Ali Ghodsi: “Las aplicaciones empresariales también tienen poca tolerancia a las alucinaciones o respuestas incorrectas… En cada etapa del ciclo de vida del aprendizaje automático, los datos y los modelos deben ser curados conjuntamente para construir las mejores aplicaciones. Esto es aún más importante para los modelos generativos, donde la calidad y la seguridad dependen tanto de los buenos datos de entrenamiento”.

No podría estar más de acuerdo. ¿Primer paso hacia una IA mejor y más impactante? Datos buenos y confiables, ¡y muchos de ellos!

Únete a nosotros, ¿quieres?

Comunícate con Barr Moses en LinkedIn con tus pensamientos, sentimientos y emociones. ¿Hacia dónde crees que se dirige este espacio?

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

DataData EngineeringData Observabilitydata qualityLarge Language Models

Was this article helpful?

93 out of 132 found this helpful

Observabilidad de Datos Pionera Datos, Código, Infraestructura y IA

Dónde empezamos

Ampliando la detección y resolución más allá de los datos

Datos confiables y el futuro de la IA

Was this article helpful?

Esta investigación de IA presenta un modelo de aprendizaje profundo que puede robar datos escuchando las pulsaciones de teclas grabadas por un teléfono cercano con un 95% de precisión.

Reorganización de las conferencias de fútbol universitario – node2vec

Inteligencia Artificial

Esta investigación de IA presenta CoDi-2 un innovador modelo de lenguaje multifuncional multimodal que transforma el panorama de procesamiento de instrucciones entrelazadas y generación de salida multimodal.

NVIDIA DGX Cloud ahora disponible para impulsar el entrenamiento de IA generativa

Drones abordan la seguridad de los tiburones en las playas de Nueva York

La caja de voz de Meta la IA que habla todos los idiomas.

Esta revisión de investigación de IA explora la integración de imágenes satelitales y aprendizaje profundo para medir la pobreza basada en activos.

Trabajos que la IA no puede reemplazar