数据中台:浅析数据湖和数据中台的关系

2020-09-04 08:00 浏览量:312

 1 

那些让人眼花缭乱的概念

 

不知道大家有没有发现,这几年的数据领域有好多的概念,例如:大数据、人工智能、物联网、边缘计算、数据治理、数据湖、数据中台、数据可视化……。这说明数据这个领域真的很“火”,可谓是“百花齐放”!

新技术、新概念的出现,为企业业务和管理的创新,社会经济的发展,注入新活力,激发新动能。很多企业都认识到了数据的重要性,数据是企业的重要资产,成为了企业的普遍共识。这激活了企业创新和改革的动力,加速了企业向互联网化、数字化方向的转型,提高了企业跨行业、跨领域的学习能力,推动了整个社会的数字化发展。

纷至沓来的新概念在推动社会的数字化发展的同时,给相关领域的从业人员带来了一定的困惑。一个新概念还未来及吸收和消化,新新的概念又来了。再加上,一些“别有用心”的厂商不遗余力的“忽悠”和“炒作”,导致了很多人的迷茫困惑、心浮气躁!有的人一味追求新概念、新技术而脱离了业务、脱离了实际,认为新概念(例如:数据中台)能够“包治百病”,一些企业花费很大的成本买来数据中台之后才发现:在人家那儿是治病的良药,而到了你这里却成了“埋人的深坑”。所以有人叫苦道:“中台搞了2年,项目叫停,CIO被裁!本以为是个送分题,没想到是个送命题!”

面对着纷繁芜杂的新概念,面对着浩瀚的数字化海洋,面对着“厂商们”的炒作,不论是企业,还是我们这些IT从业人员,都需要保持好初心,坚守初衷。不要看:“人家都【数据中台】了,你还在做数据报表,人家都【数据湖】了,你还在搞数据仓库,人家都【人工智能】了,你还在抽数、取数”!

这里说明下,我并不是一个顽固的守旧派,也不是排斥新概念、新技术。反而,我也非常喜欢研究一些新概念,也非常支持大家对新的概念、技术进行探索和实践。但要强调的是,企业也好,个人也好,在使用引进或使用一个新概念和新技术的同时,不要忘记问自己:我们使用它们的初衷是什么?我们的本质需求是什么?要用这些新的概念和技术来帮我们解决什么问题?……

坚守初心,不被繁杂的概念所迷惑,才能找到适合企业或个人的数字化转型之路!


 

 2 

数据湖和数据中台的概念

 

我们先说说数据湖

数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。

数据湖的权威定义(来自维基百科):数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。

数据湖概念的提出时间是仅次于大数据,可以说是一个很老的概念了。笔者认为数据湖本质上就是一个大数据平台,它随着大数据的技术不断完善,目前成熟的数据湖体系已具备了大数据存储、大数据处理、机器学习、大数据分析等等能力。国外公司好像对数据湖情有独钟,像亚马逊的AWS、Informatica、IBM、微软等公司都有数据湖的相关产品和解决方案。而在国内,数据湖到底是个啥?他有啥用?时至今日依然存在着不少的争议。

正如来自网友 @流风(网名)的疑问:绝大部分企业的需求数据仓库基本都能满足了,只有少部分企业才能用到数据湖或大数据平台,好多企业都被忽悠上了大数据平台,光有个架子,却不知道能用来干嘛。对非结构化数据的处理,大多数企业本身除了数据存储之外,几乎不知道该怎么用。甚至大多数据企业连结构化数据都还处理不好,数据意识还停留在起步阶段。

@流风(网名)所说的是事实,也是目前的普遍现象。但在笔者看来:一项新技术,一个新事物从诞生到发展到普及,是需要一个由“基础认知---知识学习---能力建设---探索应用---成熟应用”的过程。在这个过程中,各企业的发展水平一定是参差不齐的,没有那两家企业的现状、需求、目标、数据是完全相同的,所以不同企业对数据的意识程度不相同、技术能力不一样、应用水平差异大也是正常的。

我们再说数据中台

对于数据中台,笔者阅读了很多大咖的文章,查阅了很多资料,也没有找到关于数据中台的标准定义。事实上也确实如此,数据中台是具有“中国特色”的一个概念,在国外并没有太多的人谈数据中台。而我们中国人创造的数据中台概念,目前还未形成一个统一的认知和基于共识的标准定义。

中台概念的鼻祖——阿里巴巴的数据产品部总经理朋新宇表示:“数据中台是数据+技术+产品+组织的组合,是企业开展新型运营的一个中枢系统。具象的说,它是一套解决方案,抽象的理解,它是一种新的公司运营理念”。

数澜科技CDO付登坡表示:“数据中台是让数据用起来持续的一套机制,经过业务数据化、数据资产化、资产服务化,并在有权限管理的情况下以 API 的方式开放出去 ”。

袋鼠云CEO 拖雷认为:“数据中台可以理解为企业的最核心的数据大脑……是一种理念,一种思维,是一种面向未来的架构”。袋鼠云将其总结为“5+1”模式,5是建设数据中台的五步法,即:咨询、规划、建设、应用、运营,1是是指一个大数据平台,提供大数据的处理、计算、分析、应用。

云徙首席架构师陈新宇表示:“数据中台与业务中台的一体化,其核心作用便是业务中台天然打通、统一了各个渠道的数据,所有数据都是高质量的,而这些数据通过分析能够反哺到业务本身,业务本身又将数据留给数据平台,从而形成良好的正向反馈”。

网易严选的魏文庆给出了网易严选对数据中台的定义:“数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合”,无论是数据中台、业务总台、技术中台,核心都是“标准化”,实现流程都是先“规范化”,然后把规范“产品化工具化”。

百分点程佳表示:“数据中台是一个集数据采集、融合、治理、组织管理、智能分析为一体,持续促进业务创新为目标的整体平台”。

我们看到这么多企业都试图给数据中台下一个标准的定义,尽管各家的说法都略有差异,并不相同,但却也有异曲同工之妙!那么,数据湖与数据中台到底有什么关系?我们不妨先看一看业界典型的数据湖和数据中台架构。


 

 3 

典型的数据湖和数据中台架构


 

1、亚马逊AWS数据湖

亚马逊AWS的张侠看来:“数据湖是一个中心数据存储的容器,这个容器可以存储格式化、非格式化的各种各样的数据;这些数据非常容易被快速缩放、有各种方法和工具对这些数据进行查询、可以做各种各样的分析”。如下图所示,AWS数据湖提供了大量的数据处理组件,支持把数据按需要移动、加载到不同地方;然后把数据清理好,建成数据目录。这些数据要安全的、合规的存好、管好,需要的时候使用工具把这些数据拿出来做各种分析。

AWS数据湖架构

2、微软Azure数据湖

Azure数据湖是在微软内部的大数据平台Cosmos的技术和经验教训基础上构建的。Cosmos用来处理应用程序比如Azure, AdCenter, Bing,MSN, Skype和Windows Live的数据。Cosmos有一个像SQL一样的查询引擎叫做SCOPE,U-SQL是在其上构建的。Azure数据湖包括Azure Datalake Store和Azure Datalake Analytics。前者是存储,有API提供。后者是分析平台。它的分析平台支持Hadoop的那一套,也支持一个全新的U-SQL。如果你想要同时读取在Datalake里面的数据和Datalake外面的数据做分析的话,那就只有U-SQL可以选了。由于U-SQL和Hadoop生态圈不兼容,而且是基于没有多少人愿意学习的C#语言的,这导致了Azure数据湖卖的并不好。也有内部人传由于各种原因,Azure数据湖几乎要凉凉了。

微软Azure数据湖

3、阿里系数据中台

作为“中台”的开山鼻祖——阿里巴巴的数据中台全景图如下图所示:阿里巴巴数据中台核心内核是OneData体系,即数据中台构建的方法论体系总称,包括数据构建管理的OneModel,实现数据融通连接的OneID,再到提供统一数据服务的One Service,贯穿于整个数据研发流程中并且通过工具实施落地,帮助企业高效建设及管理数据。有兴趣可以参考笔者之前写的一篇:《什么是One Data体系?阿里数据中台解读》

阿里巴巴数据中台

实际上阿里的数据中台并不是一套产品,而是阿里的数据中台方法论体系+生态产品。这里所谓的数据中台生态产品,就是带着明显的阿里基因的数据中台产品或解决方案,例如:数澜科技、袋鼠云、奇点云、云徙等创业公司都属于阿里生态,他们很多公司的核心成员甚至创始人都是从阿里巴巴出来的,所以带着阿里基因也很正常。阿里基因是什么?笔者认为的阿里基因即做电商或者说2C业务的商业化思维。由于这篇文章重点在写数据湖与数据中台的关系,就不对阿里基因和阿里系数据中台做过多介绍了。其实,通过以下各公司的数据中台架构,您就可以窥探一二了。

(图片来自数澜科技)

(图片来自袋鼠云)

(图片来自奇点云)

(图片来自云徙)


 

 4 

数据湖与数据中台的关系
 

 

看过了各大厂的数据湖和数据中台的介,我们回过头来再来看数据湖与数据中台的关系。
 

大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。

数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。

数据中台从技术的层面承接了数据湖的技术,通过数据技术,对海量、多源、多样的数据进行采集、处理、存储、计算,同时统一标准和口径,把数据统一之后,以标准形式存储,形成大数据资产层,以满足前台数据分析和应用的需求。数据中台更强调应用,离业务更近,强调服务于前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能更快速的相应业务和应用开发的需求,可追溯,更精准。


 

 5 

数据湖和数据中台那家强?

 

我们都数据中台了,为什么老外还在数据湖?

在近代史上,由于欧美国家的工业起步早,所以在科技领域我们的创新能力(从0到1的能力)一直不如一些欧美国家,但是中国人的应用能力非常强,更注重商业和管理的创新(商业模式的各种玩法和创新),中国人始终要比老外玩的溜,也就是说我们从1到100的能力是极强的。因此,更强调业务和应用的“数据中台”在国内以迅雷不及掩耳之势,迅速成为了国内IT界的“头牌网红”。

随着以大数据、云计算、人工智能等新技术为主要特征的第四次工业革命的到来,中国大数据战略的布局和“新基建”的发展,我相信,在这场数字化的变革中,我们的技术创新能力也一定会追上甚至超越欧美的!

 

 

来源:谈数据

作者:石秀峰

 

上一篇:带你一起窥探企业数据中台的秘密 NO.1 什么是数据中台

下一篇:数据安全治理的九大要素

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话