整体流程和技术

ODS 属于数据湖层,负责存储和管理源数据,确保数据的完整性和一致性。

DW 属于数据仓库层,负责存储和管理经过处理和整合后的数据,支持全局性的分析和报表需求。

ADS 可以看作是数据仓库层的延伸或数据分析层的一部分,专注于为具体应用或业务需求提供优化的数据存储和查询服务。

大数据开源生态也推出了各种解决方案,最流行的就是Spark/Flink/Presto开源数据处理引擎,深度集成开源数据湖Hudi、Delta Lake和Iceberg三剑客,践行统一的计算引擎和统一的数据存储思想来综合提供解决方案

CDC | ETL|采集

数据同步工具:tapdata, seatunel, datax、Canal、Logstash

Extract, transform, and load (ETL) is the process of combining data from multiple sources into a large, central repository called a data warehouse.

CDC|Change Data Capture

数据存储 数据湖 数据仓库