1. Amazon S3 (Simple Storage Service) – Armazenamento
- O que é: Serviço de armazenamento de objetos (não é banco de dados, é armazenamento de arquivos/dados).
- Casos de uso:
- Data Lake (armazenar dados brutos e processados).
- Backup e recuperação.
- Hospedagem de sites estáticos.
- Integração com ML/DW (dados no S3 podem ser consumidos pelo Redshift, Glue, Athena, etc.).
- Pontos-chave:
- Escalável (quase infinito).
- Classes de armazenamento (Standard, IA – Infrequent Access, Glacier – arquivamento).
- Permissões e segurança via IAM e políticas de bucket.
- Versionamento e replicação entre regiões.
2. Amazon Redshift – Data Warehouse
- O que é: Serviço de banco de dados analítico em nuvem, otimizado para consultas de alta performance.
- Casos de uso:
- Consolidação de dados de múltiplas fontes (ERP, CRM, logs, etc.).
- Dashboards de BI (Power BI, Tableau, QuickSight).
- Análises preditivas (integração com ML).
- Pontos-chave:
- Baseado em PostgreSQL (mas otimizado para DW).
- Armazena dados em colunas (colunar → consultas analíticas mais rápidas).
- Pode ler direto do S3 (Redshift Spectrum).
- Suporta petabytes de dados.
3. AWS Glue – ETL
- O que é: Serviço serverless de ETL (Extract, Transform, Load) para preparar e transformar dados.
- Casos de uso:
- Transformar dados brutos do S3 antes de carregar no Redshift.
- Construção de pipelines de dados automatizados.
- Catálogo de dados (Glue Data Catalog) → metadados para organizar o Data Lake.
- Pontos-chave:
- Usa Apache Spark por baixo dos panos.
- Serverless (não precisa gerenciar servidor).
- Integra com S3, Redshift, RDS, DynamoDB, etc.
- Jobs podem ser escritos em Python (PySpark) ou Scala.
4. AWS Lambda – Serverless Compute
- O que é: Serviço de computação sem servidor, executa funções sob demanda.
- Casos de uso:
- Processar eventos do S3 (ex: quando um arquivo chega, a Lambda dispara e processa).
- Automação de tarefas (notificações, integrações).
- Backend para APIs serverless (via API Gateway).
- Integração com ETL (pré-processar dados antes do Glue/Redshift).
- Pontos-chave:
- Paga só pelo tempo de execução.
- Suporta várias linguagens (Python, Node.js, Java, Go, etc.).
- Integra com praticamente todos os serviços AWS.
- Escala automaticamente.