Arquitetura de Dados - Base

Pipeline de dados (extração, transformação, carregamento - ETL)

Pipeline de dados é o fluxo que os dados percorrem desde a origem até o consumo. Pode seguir duas abordagens:

Etapa	ETL (Extração, Transformação, Carregamento )	ELT (Extração, Carregamento , Transformação)
Extração (Extract)	Coleta os dados de diversas fontes	Coleta os dados de diversas fontes
Transformação (Transform)	Os dados são tratados ANTES de serem enviados ao destino	Os dados são tratados DEPOIS de estarem no destino
Carregamento (Load)	Dados já transformados são carregados no destino (ex: Data Warehouse)	Os dados brutos são carregados e transformados no destino (ex: BigQuery, Snowflake)

🧭 Exemplo real de pipeline:

Uma empresa extrai dados de vendas de seu sistema ERP, transforma os dados para corrigir erros e padronizar formatos (como datas e valores), e carrega tudo em um Data Warehouse, como o Amazon Redshift, onde os analistas vão gerar relatórios no Power BI.

Papéis como Data Engineer, Data Analyst, Data Scientist e DBA.

Papel	Responsabilidades	Ferramentas e Tecnologias
Data Engineer	Constrói e mantém pipelines de dados, garante escalabilidade, limpeza e integração entre sistemas	Python, Spark, Airflow, Kafka, Hadoop, SQL
Data Analyst	Interpreta os dados e gera insights para o negócio usando relatórios e dashboards	Excel, Power BI, Tableau, SQL
Data Scientist	Cria modelos preditivos e aplica Machine Learning para gerar previsões e análises mais avançadas	Python, R, Jupyter, TensorFlow, Scikit-learn
DBA (Database Administrator)	Gerencia o banco de dados, performance, backups e segurança	Oracle, SQL Server, PostgreSQL

🧠 Exemplo prático de atuação:

O engenheiro de dados cria o pipeline que coleta dados de sensores de temperatura de uma fábrica.
O analista de dados identifica padrões de falha em determinadas temperaturas.
O cientista de dados desenvolve um modelo para prever falhas com base nos dados históricos.
Ferramentas comuns no ecossistema

Categoria	Ferramentas	Usos Práticos
Extração de dados (ETL)	Apache Nifi, Talend, Pentaho	Conectar bancos, APIs e arquivos
Orquestração de pipelines	Apache Airflow, Prefect, Luigi	Agendar e monitorar processos ETL
Armazenamento de dados	PostgreSQL, BigQuery, Snowflake, Redshift	Guardar dados estruturados e acessá-los via SQL
Processamento distribuído	Apache Spark, Databricks, Hadoop	Lidar com grandes volumes de dados
Visualização	Power BI, Tableau, Looker	Criar dashboards e relatórios
Machine Learning	Scikit-learn, TensorFlow, PyTorch	Criar modelos preditivos e análises avançadas

📦 Exemplo real de uso integrado:

Uma fintech pode usar:

Kafka para receber transações em tempo real,
Spark para processar os dados em lote,
Snowflake como data Warehouse,
dbt para modelagem de dados,
Power BI para criar relatórios de risco financeiro.