以下是龙石数据中台在数据仓库建设方面的核心规范与方法。
数据仓库建设是数据中台的核心基础,旨在实现数据的标准化、简化处理逻辑、提升复用性和可维护性。依据相关标准文档,其建设遵循“理、采、存、管、用”的方法论,并制定了详细的分层规范和模型建设指南。
一、 数据仓库分层规范
为了实现数据的有效治理和应用,数据中台将数据仓库划分为五个清晰层次:
| 序号 | 数据仓库分层 | 英文缩写 | 说明 |
|---|---|---|---|
| 1 | 来源层 | SRC | 指需要接入的原始数据源,包括各类数据库、API、文件等。 |
| 2 | 贴源层 | ODS | 存放未经处理的原始数据,结构与来源数据保持一致,是数据仓库的数据准备区,记录数据历史变化。 |
| 3 | 治理层 | DW | 存储经过标准化治理、加工、整合后的数据。为简化工作,通常不细分,特殊场景可细分为DWD(细节层)和DWS(汇总层)。 |
| 4 | 应用层 | ADS | 面向具体业务需求,从中间层提取数据加工成报表、指标或专题数据,直接服务于数据分析与决策。 |
| 5 | 共享层 | DS | 存放本部门共享出去或接收其他部门共享的数据,分为共享发送库和共享接收库。 |
二、 物理模型建设规范
各层物理模型的设计遵循统一的命名和管理字段规范,以确保模型的清晰度和可管理性。
| 序号 | 数据库层 | 规范说明 |
|---|---|---|
| 1 | 贴源库 (ODS) | - 名称以 ods_ 开头。- 物理表命名: 来源库名称简称(10字符内)_物理表名称。- 增加 ods_source(数据来源部门编码)和 ods_process_time(数据处理时间)管理字段。 |
| 2 | 治理库 (DW) | - 名称以 dw_ 开头。- 所有物理表增加 dw_process_time 字段。 |
| 3 | 应用库 (ADS) | - 名称以 ads_ 开头。- 所有物理表增加 ads_process_time 字段。 |
| 4 | 共享库 (DS) | - 共享发送库:名称以 ds_部门名称拼音首字母小写_send 开头,增加 ds_process_time 字段。- 共享接收库:名称以 ds_部门名称拼音首字母小写_recv 开头。- 注:共享层物理模型通常由流程自动化创建,无需手工建模。 |
三、 数据模型分类目录
数据模型(概念、逻辑、物理模型)共享统一的分类目录。分类方法通常融合业务场景和数据库分层。
数据模型分类目录
- 来源层:无需创建数据模型,接入数据源后可逆向生成物理模型查看。
- 贴源层:可直接逆向来源库的物理模型,并按规范添加字段。
- 治理层:按实际需求在治理库主题下创建模型,可按主题域(如客户域、商品域)进一步分类。
- 应用层:面向应用,为通过数据开发形成的宽表、指标、标签等数据建立对应模型。
- 共享层:物理模型由共享流程自动创建,可直接逆向共享库进行维护。
四、 关键技术与架构支撑
检索到的资料显示,数据仓库的建设依托于先进的技术架构:
- 湖仓一体存储:支持HDFS、MinIO、Doris、HBase、Hudi等,满足结构化、半结构化、非结构化海量数据的存储与分析需求。
- 流批一体计算:基于Spark、Flink等框架,支持离线批量计算与实时流式计算,满足高吞吐与低时延的处理要求。
- 多源异构数据适配:能够高效集成和转换来自不同数据库(如MySQL、Oracle、SQLServer等)、API、文件的数据。
- 实时数据同步:采用CDC(如Debezium + Kafka)技术实现实时数据采集与同步。
五、 建设方法论
数据仓库建设是“存”这一环节的核心,其上游是“理”与“采”,下游是“管”与“用”。
数据中台建设思路
- 理:盘点数据资源,理清业务流程,为数据归集做准备。
- 采:通过可视化的ETL工具,将零散数据按需归集至数据仓库。
- 存:即本文重点,规划与设计科学合理的数据模型和分层架构。
- 管:涵盖元数据、数据标准、质量、安全等全方位管理,提升数据质量。
- 用:通过数据共享、应用(如查询、可视化、指标标签)释放数据价值。
总结来说,数据仓库建设方案是一套从分层设计、模型规范、分类管理到技术支撑的完整体系,旨在帮助企业构建一个稳定、高效、易于维护的数据核心,为后续的数据治理与价值应用奠定坚实基础。