5章 Exactly-Once and Side Effects

この章では Dataflow や他のシステムがどうやって exactly once を実装しているかを見ます.

これらはパイプライン全体を通しての処理およびある注目している一箇所について用いられます. 後者は例えば DoFn -> Runner の呼び出し や sink の処理など.

Why Exactly Once Matters

正確な結果を得たいので... (当たり前)

障害となるのは例えば

低レイテンシと正確性のために, 例えば1章で紹介した Lambda architecture を用いることができる. が, 問題は

Accuracy Versus Completeness

Exactly once は completeness に効くのであって accuracy に効くのではない. completeness をバッチの場合と同じにするのが目的. (許容時間内に届いたレコードをちゃんと処理する仕組み. バッチでも遅れて来たものは捨てる.)

Side Effects