Recogiendo datos con Apache Airflow en una Raspberry Pi
Recolectando datos con Apache Airflow en una Raspberry Pi
Un Raspberry Pi es todo lo que necesitas
![Raspberry Pi Zero (modelo 2021), Fuente de la imagen Wikipedia](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*AftvNvKCjd4ToFHZxLho9w.png)
A menudo, necesitamos recopilar datos en un cierto período de tiempo. Pueden ser datos del sensor IoT, datos estadísticos de las redes sociales o algo más. Como ejemplo, la API de datos de YouTube nos permite obtener el número de visitas y suscriptores de cualquier canal en el momento actual, pero los análisis y los datos históricos solo están disponibles para el propietario del canal. Por lo tanto, si queremos obtener resúmenes semanales o mensuales sobre estos canales, necesitamos recopilar estos datos nosotros mismos. En el caso del sensor IoT, es posible que no haya una API en absoluto, y también necesitamos recopilar y guardar los datos por nuestra cuenta. En este artículo, mostraré cómo configurar Apache Airflow en un Raspberry Pi, lo cual permite ejecutar tareas durante un largo período de tiempo sin involucrar ningún proveedor de servicios en la nube.
Obviamente, si trabajas para una empresa grande, es probable que no necesites un Raspberry Pi. En ese caso, si necesitas una instancia adicional en la nube, simplemente crea una solicitud de Jira para tu departamento de MLOps 😉 Pero para un proyecto personal o una startup con un presupuesto limitado, puede ser una solución interesante.
Vamos a ver cómo funciona.
Raspberry Pi
¿Qué es realmente un Raspberry Pi? Para aquellos lectores que no han estado interesados en hardware en los últimos 10 años (el primer modelo de Raspberry Pi fue introducido en 2012), puedo explicar brevemente que se trata de una computadora de placa única que ejecuta Linux completo. Por lo general, un Raspberry Pi tiene una CPU ARM de 1GHz y 2-4 núcleos, y 1-8 MB de RAM. Es pequeño, barato y silencioso; no tiene ventiladores ni unidad de disco (el sistema operativo se ejecuta desde una tarjeta Micro SD). Un Raspberry Pi solo necesita un suministro de energía USB estándar; se puede conectar a través de Wi-Fi o Ethernet a una red y ejecutar diferentes tareas durante meses e incluso años.
- Python para Ingenieros de Datos
- CountVectorizer para extraer características de textos en Python, en detalle
- Nueve reglas para validar formalmente algoritmos de Rust con Dafny (Parte 2)
Para mi proyecto personal de ciencia de datos, quería recopilar las estadísticas de los canales de YouTube durante 2 semanas. Para una tarea que solo requiere 30-60 segundos dos veces al día, una arquitectura sin servidor puede ser una solución perfecta, y podemos usar algo como Google Cloud Function para eso. Pero cada tutorial de Google empezaba con la frase “activa la facturación para tu proyecto”. Hay un crédito inicial gratuito y cuotas gratuitas proporcionadas por Google, pero no quería tener otro dolor de cabeza monitorizando cuánto dinero…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¡Oh, ¿Querías decir Gestionar el cambio?
- El Lado No Contado de RAG Abordando sus Desafíos en Búsquedas Específicas de Dominio
- Comprendiendo la retención con Gradio
- Reformando la memoria del modelo sin necesidad de volver a entrenarlo
- QLoRA Entrenando un Modelo de Lenguaje Grande en una GPU de 16GB.
- Objetivo De la pesadilla de Metaverso al éxito de la IA
- Integrando la IA generativa y el aprendizaje por refuerzo para el auto-mejoramiento