数字化转型中的湖仓一体化大数据底座平台

2022-06-01 06:30 浏览量:686

01 数据是数字化转型的基础和引擎
 

早期业务发展过程中,企业为了解决些当下的业务问题,按照垂直的、个性化的业务逻辑部署IT系统,各种信息系统大多是独立采购与建设的,与流程、底层系统耦合较深,横向和上下游系统之间的交叉关联也较多,导致企业内部形成多个数据孤岛,很难做到信息的完全互联互通。

 

数据湖是支撑企业数字化转型的数据底座,是提供数据驱动、精准决策的全方位技术支撑。

 

面向企业各个事业部、子公司,建设统一数据湖:

 

统一整合企业内、外部各类业务系统数据,确保企业数据最全,唯一。

 

统一管理内外部数据资产,形成企业统一数据治理标准及规范,加强数据安全管控及数据安全。

 

支撑企业以及各个事业部、子公司创新型应用和业务,推动企业数字化转型。

 

数据价值将经历数据统一化、数据资产化、数据业务化、数据生态化四个阶段,最终实现数据交易共享。

 

02 数据底座的新架构

 

1.数据仓库
 

通常是业务发展到一定规模后,业务分析师、CIO、决策者们,希望从大量的应用系统、业务数据中进行关联分析,最终得到“干货”出来。

 

比如为什么利润会下滑?为什么库存周转变慢了?向数据要答案,生成报告、图表出来给决策层汇报,辅助经营决策。可是,数据库“脑容量不足”,擅长事务性工作,不擅长分析型的工作,于是就产生了数据仓库。

 

数据仓库相当于一个集成化数据管理的平台,从多个数据源抽取有价值的数据,在仓库内转换和流动,并提供给BI等分析工具来输出干货。

 

 

2.数据湖

 

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
 

数据湖的本质是由 数据存储架构 + 数据处理工具 组成的解决方案。
 

由数据源抽取经过管理流程完成进入数据湖区,出湖数据对外分发时也需要配套管理流程,进入数据仓库对应的数据区,经数据治理后形成数据资产目录,最后根据不同使用角色落地应用。

 

 

一类工具,解决的问题是如何把数据“搬到”湖里,包括定义数据源、制定数据访问策略和安全策略,并移动数据、编制数据目录等等。
 

一类工具,就是要从湖里的海量数据中“淘金”。数据并不是存进数据湖里就万事大吉,要对数据进行分析、挖掘、利用,比如要对湖里的数据进行查询,同时要把数据提供给机器学习、数据科学类的业务,便于“点石成金”
 

数据仓库可以是独立的标准化产品,数据湖则是一种架构,通常是围绕对象存储为“湖底座”的大数据管理方案组合。

 

目前来看,数据仓库主要应用于批处理报告、BI及可视化分析,而数据湖主要应用于机器学习、数据发现、流处理等高阶应用。
 

3.湖仓一体
 

湖仓一体架构最重要的一点,是实现“湖里”和“仓里”的数据/元数据能够无缝打通,并且“自由”流动。
 

湖里的“新鲜”数据可以流到仓里,甚至可以直接被数仓使用,而仓里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。

 

4.数据中台
 

数据中台是聚合跨域数据,对数据进行清洗、转换、整合,实现数据标准化、集成化、标签化,沉淀共性数据服务能力,以快速响应业务需求,支撑数据融通共享、分析挖掘和数据运营,创造业务价值。
 

各类数据技术是构建数据中台的基础,能够高效对数据进行统一收集、处理、储存、计算、分析和可视化呈现,使数据最终与业务链条结合,真正转化为企业核心资产。而从广义上,数据中台更是一种企业组织管理模式和理念,集公司战略决心、组织架构、技术架构于一体,企业从战略上构建统一的协同基座即中台化组织,以协调和支持各业务部门,用技术拓展商业边界,为新业务、新部门提供成长空间。
 

中台战略核心是数据服务的共享。数据中台是围绕向上层应用提供数据服务构建的,中台战略让数据在数据平台和业务系统之间形成了一个良性的闭环,也就是实现应用与数据之间解藕,并实现紧密交互。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,并通过多租户技术进行资源打包整合,并进行开放,为用户提供“一站式”数据服务。

 

数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台。

 

03 数据底座设计方案

 

1.数据湖功能架构

 

一般来说,数据湖主要由数据接入、数据存储、数据处理、建模、微服务、中间件等组件组成。


 

2.数据流转架构

 

由统一的租户(企业集团层面)进行数据的归集,并加工成标准统一的数据集或指标。基于租户权限自动将数据分发给相应的租户。各租户无需重复进行数据集成和加工,一般是1+N模式的企业组织架构,如一个集团,N个不同地域但相同业务属性的子公司。

1+N数据湖体系:1个数据湖,N个租户、N个数据仓库、N个数据集市、N个数据创新实验室。

 

3.数据入湖流程

 

非/半机构化数据采用离线采集的方式,批量导入任务调度工具,结构化数据采用ETL工具进入任务调度工具,实时数据采用各种采集器经Kafka与流处理引擎进入数据湖。
 


 

04 数据底座的数据治理
 

聚焦“战略指导、组织机制、专项能力、技术支撑”四层建设,为企业数字化转型提供稳定数据保障基础。

 

1.统一的数据管控平台

 

数据管控管控服务,集成数据标准、数据质量、数据安全等全方位数据治理能力。

 

主要能力包括:

 

数据标准:数据标准编目、录入、发布、贯标、落标全方位能力提供。

 

落标检查:通过贯标流程,执行标准落标检查,赋能数据标准落地,实现贯标成果。

 

数据质量:以SQL形式灵活构建数据质量检查规则,高效检测数据质量缺陷。

 

质量模板:参数化的模板形式,复用质量规则,解决质量规则构建低效、繁杂的痛点。

 

质量报告:可视化展示数据质量检查结果,多维度展示质量问题。

 

数据权限:以最细粒度管控至行列级权限的全方位数据权限管控,保证数据使用安全。

 

数据保护:结合智能化手段和咨询方法论,妥善处理敏感数据,保护数据隐私。

 

2.数据资产目录

 

统一的数据资产目录,实现全局数据资产统管,对外提供数据资产服务。

 

主要能力包括:

 

元数据:自动化采集多元异构数据库资源列表详情,提供全局元数据服务。

 

数据血缘:自动化采集数据血缘关系,提效数据溯源和故障定位。

 

数据特征:分析数据资产全方位信息视图,赋能用户高效数据探查。

 

数据推荐:通过协同过滤算法,精准推荐用户需要的数据资产。

 

相似性分析:基于数据相似性来实现数据资产的智能匹配,赋能自动标签、自动落标。

 

数据地图:数据地图门户,支持可视化、层级化展现全局数据资产,根据数据探查需求进行下钻、分析。

 

数据搜索:提供高性能全局数据资产搜索,帮助用户快速获取目标数据资产。

 

资产关联:提供标签、描述、关联数据标准和其他数据资产的方式丰富资产视图。

 

3.数据安全

 

《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》提出:加强数据资源整合和安全保护。探索建立统一规范的数据管理制度,提高数据质量和规范性,丰富数据产品。
 

研究根据数据性质完善产权性质。制定数据隐私保护制度和安全审查制度。推动完善适用于大数据环境下的数据分类分级安全保护制度,加强对政务数据、企业商业秘密和个人数据的保护。

 

隐私计算使数据在加密状态下可以计算,安全性和准确性由数学理论保证,无需提供可信第三方、平台硬件以及操作系统。

 

 

05 数据服务能力
 

能力构成包括:

 

数据API:通过API为各个应用提供数据接口,打通应用之间的数据流转,构建新型应用。

 

数据标签平台:为业务部门直接提供有业务语义的高质量数据生产资料。

 

数据交换共享平台:为各个不同的部分提供有业务语义的数据搜索与共享能力,打通数据孤岛,构建业务协同效应。

 

数据报表平台:提供可视化报表的开发与分享能力,从数据统计中发现数据价值。

 

数据科学平台:提供数据建模、模型运行、模型服务发布等能力,帮助数据分析师构建端到端的机器学习开发与运行能力。

 

数据API服务开发、发布、调用管理与监控统计的数据服务平台,将多样的数据转换为业务应用直接使用的数据资产,打通数据与业务,完善企业数据中台建设,数据API服务开发、发布、管控。

 

标签建设开发、生命周期管理、标签应用为一体,支撑企业差异化的标签画像服务和运营需求;通过标签开发、管理、更新、监控、用户画像赋能企业更好的洞察客户需求、防控业务风险、提高服务质量和效率。

 

数据交换共享平台支撑企业数据共享交换的基础性互联互通平台。促进数据交易,实现企业内外部跨层级、跨系统、跨部门的数据共享和业务协同提供基础支撑。

 

在数据交换共享过程中,要明确定位企业数据提供者、数据管理者及数据消费者三者角色,确保数据资源应用高效率落地为企业赋能。

 

来源:数据学堂

上一篇:数据中台厂商-阿里数据中台的12年建设实践总结

下一篇:教育大数据之数据采集系统

分享到-微信
X

为什么选择龙石数据?