🏗️ PySpark & Airflow Data Platform

Pipeline de datos Cloud-Native en Producción, orquestado con Airflow y procesado con Apache Spark en Google Cloud Platform.

<aside> 🚀 Status: Production Ready | Stack: Python 3.11, Spark 3.5, Airflow 2.10

</aside>

graph LR
    SRC[Supabase] --> RAW[Bronze-Raw]
    RAW --> SILVER[Silver-Clean]
    SILVER --> GOLD[Gold-Agg]
    GOLD --> BQ[BigQuery]
    BQ --> LOOKER[Studio]
graph LR
    SRC[Supabase DB] -->|Extract| RAW[GCS Raw (Bronze)]
    RAW -->|Spark Clean| SILVER[GCS Silver]
    SILVER -->|Spark Agg| GOLD[GCS Gold]
    GOLD -->|Load| BQ[BigQuery]
    BQ -->|Viz| LOOKER[Studio]

2. Historias de Guerra (Performance Wins)

<aside> ⚡ Logro Principal: Reducción de tiempo de ejecución de 32 min a 4 min (700% Boost).

</aside>

3. Stack Tecnológico

4. Métricas Clave

Métrica Valor
Registros Históricos 30,000+
Tiempo E2E ~5 minutos
Costo Optimizado (Spot Instances)