Ingeniería de datos una guía inspirada en la Fórmula 1 para principiantes

Ingeniería de datos Una emocionante guía inspirada en la Fórmula 1 para principiantes

Un Glosario con Casos de Uso para Principiantes en Ingeniería de Datos

Un feliz Ingeniero de Datos en el trabajo

¿Eres un novato en ingeniería de datos interesado en saber más sobre las infraestructuras de datos modernas? Apuesto a que sí, ¡este artículo es para ti!

En esta guía la Ingeniería de Datos se encuentra con la Fórmula 1. Pero, lo mantendremos simple.

Introducción

Creo firmemente que la mejor manera de describir un concepto es a través de ejemplos, aunque algunos de mis profesores universitarios solían decir: “Si necesitas un ejemplo para explicarlo, significa que no lo entendiste”. En fin, no prestaba suficiente atención durante las clases universitarias, y hoy te guiaré a través de las capas de datos usando, adivina qué, un ejemplo.

Escenario Empresarial y Arquitectura de Datos

Imagina esto: el próximo año, un nuevo equipo en la parrilla, Red Thunder Racing, nos llamará (sí, a mí y a ti) para configurar su nueva infraestructura de datos.

En la Fórmula 1 de hoy, los datos están en el centro, mucho más que hace 20 o 30 años. Los equipos de carreras están mejorando el rendimiento con un enfoque fenomenal basado en datos, realizando mejoras milisegundo a milisegundo.

No se trata solo del tiempo por vuelta; la Fórmula 1 es un negocio multimillonario. Aumentar la participación de los fanáticos no es solo por diversión; hacer el deporte más atractivo no es solo por diversión de los pilotos. Estas actividades generan ingresos. Una infraestructura de datos robusta es imprescindible para competir en el negocio de la F1.

Construiremos una arquitectura de datos para apoyar a nuestro equipo de carreras comenzando desde las tres capas canónicas: Data Lake, Data Warehouse y Data Mart.

Data Lake

Un data lake serviría como un repositorio para datos crudos y no estructurados generados desde diversas fuentes dentro del ecosistema de la Fórmula 1: datos de telemetría de los autos (por ejemplo, presión de los neumáticos por segundo, velocidad, consumo de combustible), configuraciones de los pilotos, tiempos de vuelta, condiciones climáticas, feeds de redes sociales, boletería, fans registrados en eventos de marketing, compras de mercancías, …

Todo tipo de datos se pueden almacenar en nuestro data lake consolidado: no estructurados (audio, video, imágenes), semiestructurados (JSON, XML) y estructurados (CSV, Parquet, AVRO).

Enfrentaremos nuestro primer desafío mientras integramos y consolidamos todo en un solo lugar. Crearemos trabajos por lotes extrayendo registros de herramientas de marketing y también trabajaremos con datos de telemetría de transmisión en tiempo real (y ten la seguridad de que habrá requisitos de baja latencia para eso).

Tendremos una larga lista de sistemas que integrar y cada uno admitirá un protocolo o interfaz diferente: Kafka Streaming, SFTP, MQTT, REST API y más.

No estaremos solos en esta recopilación de datos; afortunadamente, hay herramientas de integración de datos disponibles en el mercado que se pueden adoptar para configurar y mantener tuberías de ingesta en un solo lugar (por ejemplo, en orden alfabético: Fivetran, Hevo, Informatica, Segment, Stitch, Talend, …). En lugar de depender de cientos de scripts de Python programados en crontab o tener procesos personalizados que manejen la transmisión de datos desde los temas de Kafka, estas herramientas nos ayudarán a simplificar, automatizar y orquestar todos estos procesos.

Almacén de datos

Después de unas semanas definiendo todas las corrientes de datos que necesitamos integrar, ahora estamos ingresando una notable variedad de datos en nuestro lago de datos. Es hora de pasar a la siguiente capa.

El almacén de datos se utiliza para limpiar, estructurar y almacenar datos procesados del lago de datos, proporcionando un entorno estructurado y de alto rendimiento para análisis e informes.

En esta etapa, no se trata de ingresar datos y nos enfocaremos cada vez más en casos de uso empresarial. Debemos considerar cómo nuestros colegas utilizarán los datos ofreciendo conjuntos de datos estructurados, actualizados regularmente, sobre:

Rendimiento del automóvil: los datos de telemetría se limpian, normalizan e integran para proporcionar una vista unificada.
Estrategia y revisión de tendencias: se utilizan datos de carreras pasadas para identificar tendencias, rendimiento del conductor y comprender el impacto de estrategias específicas.
KPI del equipo: tiempos de parada en boxes, temperatura de los neumáticos antes de la parada en boxes, control del presupuesto en el desarrollo del automóvil.

Data Warehouse & Data Transformation — Almacén de datos y transformación de datos

Tendremos numerosos pipelines dedicados a la transformación y normalización de datos. Al igual que en la integración de datos, hay muchos productos disponibles en el mercado para simplificar y gestionar de manera eficiente los pipelines de datos. Estas herramientas pueden agilizar nuestros procesos de datos, reducir costos operativos y aumentar la efectividad de los desarrollos (por ejemplo, en orden alfabético: Apache Airflow, Azure Data Factory, DBT, Google DataForm, …).

Data Marts

Existe una línea delgada entre los almacenes de datos y los data marts. No olvidemos que estamos trabajando para Red Thunder Racing, una gran empresa con miles de empleados involucrados en diversas áreas. Los datos deben ser accesibles y adaptados a los requisitos específicos de las unidades de negocio. Los modelos de datos se construyen en torno a las necesidades comerciales.

Los data marts son subconjuntos especializados de almacenes de datos que se enfocan en funciones comerciales específicas.

Car Performance Mart: El equipo de I+D analiza los datos relacionados con la eficiencia del motor, aerodinámica y confiabilidad. Los ingenieros utilizarán este data mart para optimizar la configuración del automóvil para diferentes pistas de carreras o realizar simulaciones para comprender la mejor configuración del automóvil según las condiciones climáticas.
Fan Engagement Mart: El equipo de marketing analiza los datos de redes sociales, encuestas de fans y calificaciones de espectadores para comprender las preferencias de los fanáticos. El equipo de marketing utiliza estos datos para realizar estrategias de marketing personalizadas, desarrollo de productos y mejorar su conocimiento sobre los Fan360.
Bookkeeping Analytics Mart: El equipo de finanzas también necesita datos (¡muchos números, creo!). Ahora más que nunca, los equipos de carreras deben lidiar con restricciones presupuestarias y regulaciones. Es importante realizar un seguimiento de las asignaciones presupuestarias, los ingresos y las vistas generales de costos en general.

Además, a menudo es necesario garantizar que los datos sensibles sigan siendo accesibles solo para los equipos autorizados. Por ejemplo, el equipo de investigación y desarrollo puede requerir acceso exclusivo a información de telemetría, y necesitan que los datos puedan analizarse utilizando un modelo de datos específico. Sin embargo, es posible que no se les permita (o interesen) acceder a informes financieros.

Data Mart & Data Modeling — Data Mart y modelado de datos

Nuestra arquitectura de datos en capas permitirá a Red Thunder Racing aprovechar el poder de los datos para la optimización del rendimiento del automóvil, la toma de decisiones estratégicas, la mejora de campañas de marketing… ¡y más!

¿Eso es todo?

¡Absolutamente no! Apenas hemos rascado la superficie de una arquitectura de datos. Probablemente haya otros cientos de puntos de integración que debemos considerar, además de mencionar únicamente la transformación de datos y el modelado de datos.

No hemos cubierto el dominio de la Ciencia de Datos en absoluto, lo cual probablemente merece su propio artículo, al igual que la gobierno de datos, la observabilidad de datos, la seguridad de datos, y más.

Pero bueno, como dicen, “Roma no se construyó en un día”. Ya tenemos bastante en nuestro plato para hoy, incluyendo el primer borrador de nuestra arquitectura de datos (abajo).

Arquitectura de Datos - Resumen — Arquitectura de Datos – Resumen

Conclusiones

Ingeniería de datos es un reino mágico, con una plétora de libros dedicados a ello.

A lo largo del viaje, los ingenieros de datos interactuarán con herramientas de integración ilimitadas, diversas plataformas de datos que apuntan a cubrir una o más de las capas mencionadas anteriormente (por ejemplo, en orden alfabético: AWS Redshift, Azure Synapse, Databricks, Google BigQuery, Snowflake, …), herramientas de inteligencia de negocios (por ejemplo, Looker, PowerBI, Tableau, ThoughtSpot, …) y herramientas de canalización de datos.

Nuestro viaje de ingeniería de datos en Red Thunder Racing acaba de comenzar y debemos dejar mucho espacio para la flexibilidad en nuestra caja de herramientas.

Las capas de datos a menudo se pueden combinar, a veces en una sola plataforma. Las plataformas y herramientas de datos están elevando el listón y reduciendo las brechas día a día al lanzar nuevas características. La competencia es intensa en este mercado.

¿Siempre se necesita tener un lago de datos? Depende.
¿Siempre se necesita tener los datos almacenados lo más pronto posible (es decir, transmisión y procesamiento en tiempo real)? Depende, ¿cuál es el requisito de frescura de datos por parte de los usuarios de negocios?
¿Siempre se necesita depender de herramientas de terceros para la gestión de canalizaciones de datos? Depende.
<Espacio reservado para cualquier otra pregunta que puedas tener>? Depende.

Si tienes alguna pregunta o sugerencia, no dudes en ponerte en contacto conmigo en LinkedIn. Prometo responder con algo diferente a: Depende.

Las opiniones expresadas en este artículo son únicamente mías y no reflejan las opiniones de mi empleador. A menos que se indique lo contrario, todas las imágenes son del autor.

La historia, todos los nombres e incidentes descritos en este artículo son ficticios. No se pretende ni debe inferirse ninguna identificación con lugares, edificios y productos reales.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Big dataData EngineeringFormula 1Getting StartedTechnology

Was this article helpful?

93 out of 132 found this helpful

Ingeniería de datos una guía inspirada en la Fórmula 1 para principiantes

Un Glosario con Casos de Uso para Principiantes en Ingeniería de Datos

Introducción

Escenario Empresarial y Arquitectura de Datos

Data Lake

Almacén de datos

Data Marts

¿Eso es todo?

Conclusiones

Was this article helpful?

Algoritmo de conversión de enteros a cadenas un 34% más rápido

6 Podcasts de GenAI que deberías estar escuchando

Inteligencia Artificial

Investigadores de UC Berkeley proponen una novedosa técnica llamada Cadena de Retrospección (CoH) que puede permitir a los LLM aprender de cualquier forma de retroalimentación para mejorar el rendimiento del modelo.

China redacta reglas para la tecnología de reconocimiento facial

Conoce al Creador Estudiante de Robótica presenta la Silla de Ruedas Autónoma con NVIDIA Jetson

Cómo Nexusflow's NexusRaven-V2 supera a GPT-4 en su propio juego!

El Proceso de IA

Entendiendo Flash-Atención y Flash-Atención-2 El camino para ampliar la longitud del contexto de los modelos de lenguaje