Java Virtual Machine
Spark Structured Streaming
목차
Hadoop
HDFS
MapReduce
Spark
RDD
Transformation & Action
Partitioning
Shuffle
Repartition
Coalesce
Spark Architecture
Runtime Architecture
Plan Execution
Catalyst Optimizer & Tungsten
DPP
AQE
Broadcast Hash Join & Shuffle Sort Merge Join
Spark Memory
Spark Cache
Dynamic Resource Allocation
Spark Deploy mode Cluster vs Client
Pyspark Architecture
Python UDF
PyArrow
구글 플랫폼의 철학 (분산 & 자동화)
- 한대의 고가 장비보다 여러 대의 저가 장비가 낫다
- 데이터는 분산 저장한다
- parallel computing: cpu를 병렬로 처리, distributed computing: 데이터를 분산
- 시스템은 언제든 죽을 수 있다
- 시스템 확장이 쉬워야 한다