**定义:”**数据血缘(Data Lineage)是 跟踪数据随时间流动、记录其起源、变更及最终去向 的过程”
Data lineage is the process of tracking the flow of data over time, providing a clear understanding of where the data originated, how it has changed, and its ultimate destination within the data pipeline. 【2】
**主要用途:**观察数据流转时的不同处理、验证数据准确性/一致性、保障数据质量、追踪问题来源。
This type of documentation enables users to observe and trace different touchpoints along the data journey, allowing organizations to validate for accuracy and consistency. This is a critical capability to ensure data quality within an organization. It is commonly used to gain context about historical processes as well as trace errors back to the root cause. 【2】
**数据源:**数据从哪里来。 ****内部数据源:数据库表、文件系统 外部数据源:第三方提供、传感器数据
处理过程:数据经过了什么处理步骤。 以ETL【3】流程举例:
**抽取 (Extract):**源数据 (raw data)从来源位置(例:SQL、JSON、邮件、网页等)复制或者提取到暂存区 (staging area)的过程。 **转换 (Transform):**在暂存区进行处理的过程,可能包括:清洗、聚合、派生计算、纬度合并、加密/脱敏、格式化等。 **加载 (Load):**经过处理的数据被移动到目标存储位置等过程。
除了ETL,在现代应用场景中还存在将加载转换顺序调换的ELT流程。
**数据去向:**数据去了哪里。 数据库、报表、数据分析等。
数据血缘的价值在于其可追溯性,将数据生命周期中的每一个过程都清晰地记录了下来,有了这个记录,便可以对问题来源进行追溯、评估问题影响范围、评估数据价值等。