概览:

**定义:”**数据血缘(Data Lineage)是 跟踪数据随时间流动、记录其起源、变更及最终去向 的过程”

Data lineage is the process of tracking the flow of data over time, providing a clear understanding of where the data originated, how it has changed, and its ultimate destination within the data pipeline. 【2】

**主要用途:**观察数据流转时的不同处理、验证数据准确性/一致性、保障数据质量、追踪问题来源。

This type of documentation enables users to observe and trace different touchpoints along the data journey, allowing organizations to validate for accuracy and consistency. This is a critical capability to ensure data quality within an organization. It is commonly used to gain context about historical processes as well as trace errors back to the root cause. 【2】


构成:

  1. **数据源:**数据从哪里来。 ****内部数据源:数据库表、文件系统 外部数据源:第三方提供、传感器数据

  2. 处理过程:数据经过了什么处理步骤。 以ETL【3】流程举例:

    **抽取 (Extract):**源数据 (raw data)从来源位置(例:SQL、JSON、邮件、网页等)复制或者提取到暂存区 (staging area)的过程。 **转换 (Transform):**在暂存区进行处理的过程,可能包括:清洗、聚合、派生计算、纬度合并、加密/脱敏、格式化等。 **加载 (Load):**经过处理的数据被移动到目标存储位置等过程。

    除了ETL,在现代应用场景中还存在将加载转换顺序调换的ELT流程。

  3. **数据去向:**数据去了哪里。 数据库、报表、数据分析等。


价值:

数据血缘的价值在于其可追溯性,将数据生命周期中的每一个过程都清晰地记录了下来,有了这个记录,便可以对问题来源进行追溯、评估问题影响范围、评估数据价值等。

  1. **追溯问题来源:**如果在应用中发现数据存在问题,可以通过追溯发现问题出在哪里。是数据源不可靠或是数据处理过程存在偏差。
  2. **评估影响范围:**在发现某一步的问题后,可以顺着相应的查找这一问题的影响范围如何。例如发现数据处理过程存在问题后,通过数据血缘可以查找哪些数据经过了该处理,这些问题数据流向了哪里。
  3. **评估数据价值:**数据血缘记录了数据的去向,举例来说,被使用更多的数据可能有更高的价值。
  4. **审计:**例如 GDPR、CCPA,需要证明个人数据在全链路上的处理方式;血缘可自动生成审计证据。
  5. **影响分析:**字段改名等操作前,运用血缘图定位受影响的脚本报表等。