数据中台在数据仓库建设方面的核心规范与方法

Viewed 1

以下是龙石数据中台在数据仓库建设方面的核心规范与方法。

数据仓库建设是数据中台的核心基础,旨在实现数据的标准化、简化处理逻辑、提升复用性和可维护性。依据相关标准文档,其建设遵循“理、采、存、管、用”的方法论,并制定了详细的分层规范和模型建设指南。

一、 数据仓库分层规范

为了实现数据的有效治理和应用,数据中台将数据仓库划分为五个清晰层次:

序号 数据仓库分层 英文缩写 说明
1 来源层 SRC 指需要接入的原始数据源,包括各类数据库、API、文件等。
2 贴源层 ODS 存放未经处理的原始数据,结构与来源数据保持一致,是数据仓库的数据准备区,记录数据历史变化。
3 治理层 DW 存储经过标准化治理、加工、整合后的数据。为简化工作,通常不细分,特殊场景可细分为DWD(细节层)和DWS(汇总层)。
4 应用层 ADS 面向具体业务需求,从中间层提取数据加工成报表、指标或专题数据,直接服务于数据分析与决策。
5 共享层 DS 存放本部门共享出去或接收其他部门共享的数据,分为共享发送库和共享接收库。

二、 物理模型建设规范

各层物理模型的设计遵循统一的命名和管理字段规范,以确保模型的清晰度和可管理性。

序号 数据库层 规范说明
1 贴源库 (ODS) - 名称以 ods_ 开头。
- 物理表命名:来源库名称简称(10字符内)_物理表名称
- 增加 ods_source(数据来源部门编码)和 ods_process_time(数据处理时间)管理字段。
2 治理库 (DW) - 名称以 dw_ 开头。
- 所有物理表增加 dw_process_time 字段。
3 应用库 (ADS) - 名称以 ads_ 开头。
- 所有物理表增加 ads_process_time 字段。
4 共享库 (DS) - 共享发送库:名称以 ds_部门名称拼音首字母小写_send 开头,增加 ds_process_time 字段。
- 共享接收库:名称以 ds_部门名称拼音首字母小写_recv 开头。
- :共享层物理模型通常由流程自动化创建,无需手工建模。

三、 数据模型分类目录

数据模型(概念、逻辑、物理模型)共享统一的分类目录。分类方法通常融合业务场景和数据库分层。

数据模型分类目录

  • 来源层:无需创建数据模型,接入数据源后可逆向生成物理模型查看。
  • 贴源层:可直接逆向来源库的物理模型,并按规范添加字段。
  • 治理层:按实际需求在治理库主题下创建模型,可按主题域(如客户域、商品域)进一步分类。
  • 应用层:面向应用,为通过数据开发形成的宽表、指标、标签等数据建立对应模型。
  • 共享层:物理模型由共享流程自动创建,可直接逆向共享库进行维护。

四、 关键技术与架构支撑

检索到的资料显示,数据仓库的建设依托于先进的技术架构:

  • 湖仓一体存储:支持HDFS、MinIO、Doris、HBase、Hudi等,满足结构化、半结构化、非结构化海量数据的存储与分析需求。
  • 流批一体计算:基于Spark、Flink等框架,支持离线批量计算与实时流式计算,满足高吞吐与低时延的处理要求。
  • 多源异构数据适配:能够高效集成和转换来自不同数据库(如MySQL、Oracle、SQLServer等)、API、文件的数据。
  • 实时数据同步:采用CDC(如Debezium + Kafka)技术实现实时数据采集与同步。

五、 建设方法论

数据仓库建设是“存”这一环节的核心,其上游是“理”与“采”,下游是“管”与“用”。

数据中台建设思路

  • :盘点数据资源,理清业务流程,为数据归集做准备。
  • :通过可视化的ETL工具,将零散数据按需归集至数据仓库。
  • :即本文重点,规划与设计科学合理的数据模型和分层架构。
  • :涵盖元数据、数据标准、质量、安全等全方位管理,提升数据质量。
  • :通过数据共享、应用(如查询、可视化、指标标签)释放数据价值。

总结来说,数据仓库建设方案是一套从分层设计、模型规范、分类管理到技术支撑的完整体系,旨在帮助企业构建一个稳定、高效、易于维护的数据核心,为后续的数据治理与价值应用奠定坚实基础。

0 Answers