Spark | Notion

출처

Java Virtual Machine

Spark Structured Streaming

목차

Transformation & Action

Spark Architecture

Runtime Architecture

Catalyst Optimizer & Tungsten

Broadcast Hash Join & Shuffle Sort Merge Join

Dynamic Resource Allocation

Spark Deploy mode Cluster vs Client

Pyspark Architecture

구글 플랫폼의 철학 (분산 & 자동화)

한대의 고가 장비보다 여러 대의 저가 장비가 낫다
- 고가 장비에는 한계가 있다
데이터는 분산 저장한다
- parallel computing: cpu를 병렬로 처리, distributed computing: 데이터를 분산
시스템은 언제든 죽을 수 있다
시스템 확장이 쉬워야 한다