Una guía para construir modelos de datos en tiempo real con alto rendimiento
Guía para modelos de datos en tiempo real de alto rendimiento
Los datos se han convertido en una herramienta crítica para la toma de decisiones. Para que sean accionables, los datos deben ser limpiados, transformados y modelados.
Este proceso a menudo forma parte de un pipeline ELT que se ejecuta con una frecuencia determinada, por ejemplo, diariamente.
Por otro lado, para ajustar y tomar decisiones rápidas, a veces los interesados necesitan acceso a los datos más recientes para poder reaccionar rápidamente.
Por ejemplo, si hay una gran caída en el número de usuarios de un sitio web, necesitan ser conscientes de este problema rápidamente y recibir la información necesaria para entender el problema.
- Google AI presenta Visually Rich Document Understanding (VRDU) un conjunto de datos para un mejor seguimiento del progreso de la tarea de comprensión de documentos
- Scikit-Learn vs TensorFlow ¿Cuál elegir?
- Integrando la Medición de la Actividad Cerebral con la Realidad Virtual
La primera vez que me pidieron construir un panel de control con datos en tiempo real, lo conecté directamente a la tabla sin procesar que era en tiempo real y proporcionaba algunos KPI simples como el número de usuarios y los fallos. Para gráficos mensuales y análisis más profundos, creé otro panel de control conectado a nuestro modelo de datos, que se actualizaba diariamente.
Esta estrategia no era óptima: estaba duplicando la lógica entre el almacén de datos y la herramienta de BI, por lo que era más difícil de mantener. Además, el panel de control en tiempo real solo podía funcionar bien con unos pocos días de datos, por lo que los interesados tenían que cambiar al histórico para consultar fechas anteriores.
Sabía que teníamos que hacer algo al respecto. Necesitábamos modelos de datos en tiempo real sin comprometer el rendimiento.
En este artículo, exploraremos diferentes soluciones para construir modelos en tiempo real y sus ventajas y desventajas.
Vistas
Una vista SQL es una tabla virtual que contiene el resultado de una consulta. A diferencia de las tablas, las vistas no almacenan datos. Se definen mediante una consulta que se ejecuta cada vez que alguien consulta la vista.
Aquí tienes un ejemplo de definición de una vista:
CREATE VIEW orders_aggregated AS ( SELECT order_date, COUNT(DISTINCT order_id) AS orders, COUNT(DISTINCT customer_id) AS customers FROM orders GROUP BY order_date )
Incluso cuando se agregan nuevas filas a la tabla, las vistas se mantienen actualizadas. Sin embargo, si la tabla es grande, las vistas pueden volverse muy lentas ya que no se almacenan datos.
Deberían ser la primera opción a probar si estás trabajando en un proyecto pequeño.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Accediendo a tus datos personales
- ¿Te sientes arriesgado al entrenar tu modelo de lenguaje con datos restringidos? Conoce a SILO Un nuevo modelo de lenguaje que gestiona los compromisos entre riesgo y rendimiento durante la inferencia.
- Desmitificando el Aprendizaje Profundo Una Introducción de un Estudiante a las Redes Neuronales
- El caso en contra de la regulación de la IA no tiene sentido
- Lo mejor de ambos mundos desarrolladores humanos y colaboradores de IA
- ¡Atención Industria del Gaming! No más espejos extraños con Mirror-NeRF
- Optimización del tamaño del archivo de salida en Apache Spark