龙石数据质量平台的高性能核心架构主要依赖于两大关键技术设计:“旁路监测”模式和**“分布式评测引擎”**。这套架构旨在确保海量数据质量评测的高效、稳定,且不影响业务系统的正常运行。
一、 核心架构一:旁路监测模式
这是保障评测过程安全性和高性能的基石。
- 基本原理:
- 数据质量评测任务不直接在生产业务数据库上执行。
- 评测目标是数据中台侧已通过数据集成模块归集或同步过来的数据副本。
- 核心优势:
- 业务零影响:完全避免了因质量检查(尤其是复杂规则或全表扫描)对在线业务数据库造成的查询压力和锁表风险,保障了生产系统的稳定性与性能。
- 评测自由度高:可在副本数据上执行任何复杂、耗时的质量规则检查,无需担心对业务造成干扰,为深入、全面的质量分析提供了可能。
- 数据一致性保障:评测针对的是某一时间点的数据快照,结果稳定,避免了因业务数据实时变动导致的评测结果波动。
二、 核心架构二:分布式评测引擎(高性能质量分析引擎)
这是实现亿级数据分钟级评测的能力核心。平台内置了针对各类质量规则优化的高性能执行引擎。
- 引擎特性:
- 规则类型全覆盖:引擎专门优化了13大类质量规则的执行,包括:
- 基础规则:空值检查、唯一性检查、值域检查、格式规范性检查。
- 复杂规则:逻辑检查、引用完整性检查、一致性检查、时效性检查。
- 统计与比对规则:数据量检查、数据缺失检查、交叉比对检查。
- 自定义扩展:支持通过SQL、API接口、JAVA代码等方式进行扩展检查。
- 分布式并行处理:利用大数据处理能力,将评测任务分解并在多个计算节点上并行执行,极大缩短了海量数据的处理时间。
- 规则类型全覆盖:引擎专门优化了13大类质量规则的执行,包括:
- 工作流程解析:
- 任务触发:用户在“评测任务管理”中配置执行策略(定时或手动),触发评测任务。
- 数据同步:引擎根据评测模型配置,自动同步需要评测的目标数据到高性能计算环境。
- 规则分发与执行:引擎将定义好的质量规则分发到分布式计算节点,对同步过来的数据副本进行并行扫描与计算。
- 结果汇聚:各节点将发现的问题数据及统计结果汇聚到中心节点。
- 记录与呈现:系统记录完整的任务日志(执行状态、耗时、扫描量、问题数),并将问题数据明细存入“问题数据查看”模块供用户分析。
三、 架构协同与实操流程
旁路监测与分布式引擎协同工作,构成了一个完整的高性能质量管控闭环:
- 配置阶段:用户在“评测模型管理”中,通过可视化界面(无需编写SQL)定义质量规则和过滤条件。
- 执行阶段:任务触发后,系统自动将数据从源端同步至评测环境(旁路),然后调用分布式评测引擎对数据副本进行高速检查。
- 监控阶段:用户可在“评测任务日志”中实时监控任务执行详情,见证千万级数据在分钟级内完成评测。
- 治理阶段:在“问题数据查看”中,依据事先定义的业务标识(如身份证号、统一社会信用代码)精准定位每一行问题数据,推动责任部门进行源头整改,形成管理闭环。
总结
龙石数据质量平台的核心架构可以概括为:以“旁路监测”确保评测过程的安全无侵扰,以“分布式评测引擎”保障海量数据处理的极致性能。两者结合,使得平台能够在不影响业务系统的前提下,稳定、高效地完成从规则定义、任务调度、高速评测到问题追溯的全流程数据质量管控,真正实现了数据质量管理的自动化、智能化与规模化运营。