Pipeline de datos Cloud-Native en Producción, orquestado con Airflow y procesado con Apache Spark en Google Cloud Platform.
<aside> 🚀 Status: Production Ready | Stack: Python 3.11, Spark 3.5, Airflow 2.10
</aside>
graph LR
SRC[Supabase] --> RAW[Bronze-Raw]
RAW --> SILVER[Silver-Clean]
SILVER --> GOLD[Gold-Agg]
GOLD --> BQ[BigQuery]
BQ --> LOOKER[Studio]
graph LR
SRC[Supabase DB] -->|Extract| RAW[GCS Raw (Bronze)]
RAW -->|Spark Clean| SILVER[GCS Silver]
SILVER -->|Spark Agg| GOLD[GCS Gold]
GOLD -->|Load| BQ[BigQuery]
BQ -->|Viz| LOOKER[Studio]
<aside> ⚡ Logro Principal: Reducción de tiempo de ejecución de 32 min a 4 min (700% Boost).
</aside>
| Métrica | Valor |
|---|---|
| Registros Históricos | 30,000+ |
| Tiempo E2E | ~5 minutos |
| Costo | Optimizado (Spot Instances) |