Java Virtual Machine

Spark Structured Streaming

목차

Hadoop

HDFS

MapReduce

Spark

RDD

Transformation & Action

Partitioning

Shuffle

Repartition

Coalesce

Spark Architecture

Runtime Architecture

Plan Execution

Catalyst Optimizer & Tungsten

DPP

AQE

Broadcast Hash Join & Shuffle Sort Merge Join

Spark Memory

Spark Cache

Dynamic Resource Allocation

Spark Deploy mode Cluster vs Client

Pyspark Architecture

Python UDF

PyArrow

구글 플랫폼의 철학 (분산 & 자동화)

  1. 한대의 고가 장비보다 여러 대의 저가 장비가 낫다
  2. 데이터는 분산 저장한다
  3. 시스템은 언제든 죽을 수 있다
  4. 시스템 확장이 쉬워야 한다