史凯 | 数据中台建设要遵循的六大趋势

2023-03-10 07:07 浏览量:283

数据中台6大技术趋势
    大部分企业还在用20世纪的技术管理现在的数据,同时新的数据加工生产的技术正在以前所未有的速度不断涌现,这些技术将带来数据要素生产的新时代,从这些层出不穷的新名词新概念中,以下的几大技术趋势直接影响数据中台的建设方向,如图7-14所示:
 

图7-14 数据中台6大技术趋势
1.云原生推动存算分离
应用上云的大势不可阻挡,随之而来的是数据智能平台也必然走向云原生。
云原生是一个新的技术概念,目前业界的定义尚未统一,但是总的来讲,云原生就是一种构建和运行应用程序的方法,让应用程序产生的时刻就为了云的环境而设计充分利用和发挥云计算的弹性和分布式优势。
未来所有的应用都将云原生演进,同时云原生也从底层逻辑改变了数据的生产模式,最重要的就是存算分离。
云原生让数据存储和应用计算分离成为可能,如图7-15所示:

 

图7-15 云原生推动存算分离
左边是传统应用架构,分两层,上面是一套整体的程序代码,是需要CPU和内存去计算的内容,在计算平台上运行,下面是数据存储,也就是需要持久化的内容,传统架构下存储和计算是紧耦合的,边界不清晰。

这样的架构带来了以下3类问题:

计算和存储,只要有一个达到瓶颈都会导致应用的崩溃,为了避免这样的问题,就会存在不少浪费。

计算和存储紧耦合模式下,扩展会带来大量数据的迁移,难以扩展。

当企业有很多应用的时候,必然会产生数据孤岛和重复的数据,导致数据质量的问题。
云原生架构让存算分离成为可能,如图7-15所示,右边是云原生下的新架构。

应用程序从一个整体的程序包分解成一个个的微服务,部署在云计算平台上,各自独立运行。数据通过云上数据仓库或者云上数据湖这样的基基础设施来存储,由微服务直接访问存取。

 

这样的架构下,不论哪个环节出现了问题,都可以依托云计算平台的弹性,可扩展能力进行最快的解决,并不影响其他模块。同时由于数据不再是与某个应用紧耦合的,数据独立于计算存在,就能实现企业级的数据持久化,多个应用可以访问一个数据存储,减少数据的重复性建设,从根本上解决数据孤岛的问题。
在云原生的架构加持下,未来的企业,应用和数据将分离,应用是快速变化迭代的,是一个个镜像的实例化运行,而数据将持久的存在,成为企业业务的数字化存在形式。
 

未来的数据中台一定是基于云原生架构的。



 

2.一站式数据能力平台
企业的数据生产,加工和利用无处不在,数据已经成为所有岗位工作的基础生产要素。与之而来的是,各种数据采集,加工,处理,分析得工具铺天盖地的蓬勃生长。
但是数据生产是一个团队活动,分散的,割裂的,混乱架构的数据生产技术和工具已经给企业的数据生产和管理带来了很大的问题,一站式数据能力平台将是未来数据中台的必然发展方向。以Snowflake,Databricks为代表的新型数据服务厂商都在提“One Platform”的战略,通过一个平台为企业提供端到端的数据能力。
一站式数据能力平台有四大价值定位,如下所示:

 

用户全服务
数据平台要能够服务于所有的用户,而不仅仅是技术开发人员,例如Netflix的数据中台就包括管理层和业务人员,未来企业所有的用户都会是数据的用户,所以数据中台要服务于所有的用户,成为企业的一站式数据能力平台
链路全打通
数据从产生到利用,最后在形成数据产品被消费,再产生新的数据,这是一个闭环的链路,一站式数据能力平台要能够把这个数据生命周期的全链路都覆盖到,全部打通,减少人工线下的环节。
要素全协同
整个数据生产利用的过程,有非常多的要素,包括人,应用,设备等,要通过这个一站式数据能力平台,让所有的要素都能够协同起来,从而减少浪费,提升生产利用的效率。
功能全集成
通过一站式数据能力平台,将所有用户生产利用数据所需要的功能,工具和技术都集成整合在一起,从而避免多环境工作,带来一致的体验,提升工作的延续性,这也是数据中台必须具备的能力。
3.AI成为主流数据生产力
数据的加工生产利用,已经是所有互联网公司主要的生产动作,而传统企业数字化转型也正朝数据驱动的企业转变。提升数据要素的生产,加工的能力,数据生产力成了所有企业都希望达成的目标。数据生产力正处在从3.0向4.0转型的阶段,如下图7-16所示:
 

图7-16 数据生产力的4个阶段
从1.0到2.0阶段,人们对于数据的处理,以人脑和辅助的物理型工具,如算盘为主。到了3.0的阶段,软硬件成了帮助人们处理数据的主要生产力,但是以算力为主,无法自主思考。
人工智能技术目前正逐渐成为主流的数据生产力主要体现在6个方面,如下所示。

 

 

数据生产
在数据生产环节,通过机器学习训练数据模型,掌握数据生成的规律,然后自动化生成数据,典型的如语音生成,图像生成,视频生成,包括人工智能写文章。
数据建模加工
机器学习已经成为主流的数据建模工具,在很多场景替代了以微分方程,概率论为主的数学建模的工作方式。例如通过机器学习来训练机器人下棋。
数据采集提取
通过机器学习来掌握数据的规律,然后从数据中自动提取那些符合条件的内容,生成摘要,简介,已经被广泛地应用到内容领域。
数据质量管理
原来人工做数据整理,梳理数据的问题,需要一条条地去匹配,核对,即使采用工具,也是效率很低的。可以利用人工智能技术,来进行稽核,识别数据的问题,发现异常数据。
数据安全风控
人工智能在数据安全领域的应用是非常广泛的,在数据交换,集成,共享越来越充分的今天,很多企业都在利用机器学习模型来发现数据交互过程中的风险。
数据运营增长
就像Netflix一样通过对用户数据的分析,追踪浏览,观看等数据,通过机器学习技术识别数据的趋势找到新的增长点,人工智能技术已经广泛地应用于数据运营增长领域。
4.数据智能工程化
数据智能要成为企业的生产力,就必须以工程化的技术来解决模型开发、部署、管理、预测等全链路生命周期管理的问题。
数据智能的工程化,是数据和人工智大规模应用到企业生产经营的必备条件,否则数据和人工智能还只能停留在点状的原型和局部场景。
构建数据智能的功能化能力是一个体系化的工程,但是可以以3个关键能力作为抓手去构建,如下所示:

 

 

 

DataOps
DataOps是一套实践、流程和技术,它将综合的、面向流程的数据观点与敏捷软件工程中的自动化和方法相结合,以提高质量、速度和协作,促进数据分析领域的持续改进文化。
企业通过构建DataOps体系能够提升数据生产和利用的持续交付,快速迭代,高效协同的能力。
MLOps
MLOps是Machine Learning Ops的简称,是在机器学习过程中借鉴和利用敏捷思想的一种实践,MLOps的流程和工具可以帮助机器学习团队构建,自动化、可重复的工作流和可重用的资产来提高效率并加速机器学习算法的迭代生命周期。
AIOps
AIOps 是利用大数据、现代机器学习以及其他先进的分析技术,直接或间接地增强 IT 运维(监控、自动化和服务台)能力,让产品具有前瞻性、个性化以及动态的洞察力,从而更稳定,高效地运行。
从DataOps到AIOps的构建能够提升企业从数据智能应用的端到端能力,规模化发掘数据智能的业务价值,本章节会详细介绍DataOps。


 

5.可用不可见的隐私计算
随着数据作为生产要素的大规模应用,个体和消费者数据隐私保护也成了备受关注的重点,从欧洲出台的《通用数据保护条例》到《个人信息保护法》都充分体现了各国政府对于数据隐私保护的重视,在这种背景下,如何能够既能保证数据隐私,安全合规,又能够充分地发挥数据的价值呢?隐私计算是目前的一个重要趋势。
隐私计算(Privacy compute 或Privacy computing)是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,达到对数据“可用、不可见”的目的,在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放,使数据价值最大化。
隐私计算目前的主要有多方安全计算,联邦学习,可信执行环境,多方中介计算等技术方向。
6.混合型数据处理(HTAP)
本书3.1节介绍了数据技术中很重要的两种处理形式,在线事务处理(OLTP)和在线分析处理(OLAP),分别承担了业务系统数据处理和数据分析洞察的职责。但是随着外部环境的高度不确定性,市场和客户的变化越来越快,原来通过OLAP系统进行分析后将业务洞察反馈给业务系统的模式已经不能满足业务的需求,比如最典型的场景就是金融的信用卡应用,既要计算当前消费,又要分析历史交易统计出剩余额度。



 

这样的背景下,OLTP和OLAP融合的数据处理架构,交易分析混合型处理模式开始被企业所应用,也就是Hybrid Transaction/Analytic Processing,简称HTAP。


 

HTAP融合了OLTP的实时数据处理能力和OLAP的历史数据分析能力,能够通过对历史数据挖掘分析,给到实时业务交易决策需要的洞察和建议,主要优势有4点,如下图7-17所示:
 

 

图7-17 HTAP兼有OLTP和OLAP的优势

来源:凯哥讲故事系列

上一篇:关于数据治理的实践与思考

下一篇:数据治理:需要一个“村庄”!

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话