데이터 분석 및 빅데이터
EMR 클러스터
- Elastic MapReduce
- 대규모 데이터 분석
- 빅데이터 처리 프레임워크
- 대규모 로그 분석 -> 클릭 스트림 데이터
- S3에 저장된 데이터 정기적으로 변환 및 로드
- 배치 분석 에 가장 적합함
Kinesis Data Firehose
- 들어오는 데이터 양에 따라서 자동으로 확장 | 여러 영역 분산으로 인해서 장애 처리 -> 고가용성
- AWS가 자동으로 여러 서버 및 가용 영역에 걸쳐서 인프라를 관리함 -> 완전 관리형으로 운영 오버헤드 ⬇️
Lake Formation
- AWS Lake Formation은 Amazon S3에 구축된 데이터 레이크를 쉽게 설정, 보호 및 관리할 수 있도록 돕는 완전 관리형 서비스
- S3 버킷을 등록하고 AWS Glue를 통해 데이터를 카탈로그화하는 등의 복잡한 데이터 레이크 구축 과정을 자동화.
- 중앙 집중식 권한 관리: Lake Formation은 데이터 레이크에 대한 중앙 통제 지점 역할을 함. 사용자가 Athena, Redshift Spectrum, EMR 등 어떤 분석 도구를 사용하더라도 단일 정책을 통해 테이블, 열, 행 수준에서 접근 권한을 관리함.
- 데이터 보안 및 거버넌스: 데이터 접근 권한을 IAM 사용자 또는 역할에 직접 적용할 수 있으며, 데이터에 대한 접근 이력을 추적(감사)할 수 있음.
"모든 데이터를 한 곳으로 통합한다 ~" 멘트가 나오면, 데이터 레이크 문제일 확률이 높음!
Glue
- 클라우드에서 데이터 준비, 이동 및 변환 작업을 쉽게 수행할 수 있도록 돕는 서버리스 ETL(Extract, Transform, Load) 서비스
- 다양한 데이터 저장소(S3, RDS 등)에서 데이터를 추출하여 변환하고, 데이터 웨어하우스나 데이터 레이크로 로드하는 데이터 통합 파이프라인을 구축