Spark 中的 CheckPoint 机制

引言

Checkpoint 解决什么问题

Spark 在生产环境下经常会面临 Transformation 的 RDD 非常多(例如一个Job 中包含1万个RDD) 或者是具体的 Transformation 产生的 RDD 本身计算特别复杂和耗时(例如计算时常超过1个小时) , 可能业务比较复杂，此时我们必需考虑对中间计算结果的持久化。
Spark 是擅长多步骤迭代，同时擅长基于 Job 的复用。这个时候如果可以对计算的过程进行复用，就可以极大的提升效率。因为有时候有共同的步骤，就可以免却重复计算的时间。
如果采用 persists 把数据在内存中的话，虽然最快速但是也是最不可靠的；如果放在磁盘上也不是完全可靠的，例如磁盘会损坏，系统管理员可能会清空磁盘。而通过 Checkpoint 机制指定将中间计算结构放在一个可靠的存储媒介中（如 HDFS ），完成最大化的可靠的持久化数据的方式。

Checkpoint 是什么

Checkpoint 是为了最大程度保证绝对可靠的复用 RDD 计算数据的 Spark 的高级功能，是针对整个RDD 计算链条中特别需要数据持久化的环节(后面会反覆使用当前环节的RDD) 开始基于HDFS 等的数据持久化复用策略。

通过 Checkpoint 我们通过把数据持久化到 HDFS 上来保证数据的最大程度的安全性，从而实现容错与高可用。

CheckPoint 运行原理

CheckPoint 分析

CheckPoint 会涉及到一些类，以及他们之间的关系：DStreamGraph 类负责生成任务执行图，而 JobGenerator 则是任务真实的提交者。任务的数据源则来源于 DirectKafkaInputDStream，checkPoint 一些相关信息则是由类 DirectKafkaInputDStreamCheckpointData 负责。

好像涉及的类有点多，其实没关系，我们完全可以不用关心他们。先看看 checkpoint 都干了些啥，checkpoint 其实就序列化了一个类而已：

以下是其中的类成员：

其他的都比较容易理解，最重要的是 graph ( DStreamGraph )，该类里面有两个核心的数据结构是：