数据源接入是数据中台建设的基础和首要步骤,其核心在于实现异构数据源的统一接入、分类管理和规范化配置。以下是数据源接入的关键要点:
一、 核心功能与支持类型
数据源接入模块旨在对组织内所有数据源进行统一纳管,为后续的数据集成、治理和应用奠定基础。
- 统一管理:支持对数据库、文件、API等多种异构数据源进行集中接入和维护。
- 广泛兼容:支持主流的关系型数据库(如MySQL、Oracle、SQLServer、PostgreSQL、达梦DM8、Doris等)、非关系型数据库(如MongoDB)、大数据数据库(如Hive、HBase、Hadoop HDFS、Trino)、文件服务(FTP/FTPS)、对象存储(如深信服EDS)、消息队列(Kafka)以及电子文件、API接口等。
二、 接入前的准备工作
- 组织与用户创建:由中心管理员在“用户中心”模块创建组织架构和用户,并分配相应角色(如数据治理员、空间管理员)。
- 工作空间划分:建议根据实际业务部门或板块创建独立的工作空间,以实现功能和数据的隔离管理。
- 网络与资源准备:确保待接入的数据源与数据中台平台(包括管理端服务器和归集执行机器)网络互通。
三、 关键配置要点(操作核心)
在“数据集成 > 数据源接入”模块进行配置时,需重点关注以下属性:
数据源接入操作步骤
- 数据源分层:这是数据仓库架构规划的关键,必须正确选择:
- 来源库 (SRC):业务系统的原始数据库。
- 贴源库 (ODS):存放从来源库同步的、未经处理的原始数据。
- 治理库 (DW):存放经过清洗、加工、整合后的标准化数据。
- 应用库 (ADS):存放面向业务查询、报表、指标的聚合数据或宽表。
- 共享库 (DS):存放准备对外共享或接收外部共享的数据。
- 分类与部门归属:
- 分类:建议按照数据仓库分层(SRC/ODS/DW/ADS/DS)或业务主题创建树形分类目录,便于管理。
- 部门:选择该数据源的责任归属部门。来源库原则上属于对应的业务部门,治理库原则上属于信息部门。
- 连接配置:准确填写主机地址、端口、数据库名、用户名、密码等连接信息。
- 高级参数调优:对于关系型数据库,可根据数据量和并发场景调整连接池、游标读取行数等JDBC参数,以避免性能瓶颈或内存溢出。
四、 接入后的深度管理(数据库设置)
数据源接入后,需在“数据库设置”功能中进行精细化管理,这是数据治理的前置工作。
- 物理表管理:可设置表的同步方式(全量/增量)、增量字段、同步周期,并为没有物理主键的表设置逻辑主键(用于数据质量唯一性校验)。
- 业务标识:为物理表设置业务标识字段(如人员表的“姓名+证件号码”),便于在数据质量监测时快速定位问题数据。
- 数据来源映射:支持全局或单表级别的来源映射,将数据记录关联到具体的来源部门,实现数据血缘追溯。
- 核心数据标识:标记核心物理表,聚焦治理重点。
- 字典关联:将字段与标准代码集关联,在查看问题数据时显示易懂的字典值而非编码。
五、 文件类数据源管理
对于FTP/FTPS类数据源,平台提供Web化的“文件管理”功能,支持在线目录创建、文件上传/下载/移动/删除、操作日志记录等,无需登录FTP服务端。
总结
数据源接入并非简单的连接测试,而是一套包含规划(分层分类)、配置(连接与参数)、管理(表与字段属性) 的完整流程。正确规范地完成接入,能为后续的数据归集、质量监测、模型设计和应用开发提供清晰、可靠的基础。