产业与政策丨数据安全现状与发展趋势研究

2022-11-17 17:00 浏览量:234

摘要:数据安全是近年来安全界的新风口,也是备受企业和机构关注的信息安全新领域。通过对国内数据安全法律法规及制度、数据安全现状和问题的分析,引出数据安全治理框架和数据安全技术体系,对几个核心技术进行了简述,并对后续数据安全发展趋势进行了预测。

关键词:数据安全治理;分类分级;策略管控;隐私计算

 

 

0  引言

 

当今的信息网络,互联网、移动互联网以及物联网飞速发展、日益普及,因此催生的以数据为核心的信息技术也在飞速发展,复杂且大量的数据所蕴含的经济价值和社会价值逐渐提升,数据安全风险随之增加,数据安全问题不断涌现。数据的存储环境以及传输过程中的安全性较低或者网络边界越来越模糊直接导致了数据的直接或间接泄露,造成的损失不可估量。

 

早在2015年,我国就陆续发布了《促进大数据发展行动纲要》《大数据产业发展规划(2016—2020 年)》和《国家网络空间安全战略》等一系列重大文件,提出了大数据的发展战略,支持大数据相关技术和产业的发展,并提出涵盖了数据安全在内的国家网络空间安全战略,数据安全问题逐渐被重视。

 

2021年9月,《中华人民共和国数据安全法》(简称《数据安全法》)正式施行,2021年11月,《中华人民共和国个人信息保护法》颁布,数据安全相关的议题在我国被提到了非常重要的高度。2020年3月,《关于构建更加完善的要素市场化配置体制机制的意见》提出,数据对于个人、社会以及国家来说,其重要程度越来越高。在2021年相继发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》以及《要素市场化配置综合改革试点总体方案》等文件中,数据已经作为第五大要素,已经成为了信息网络普及不可或缺的资源,成为了经济发展新的增长点,经济数字化、数字经济化已成为各地政府、各行各业投建的热点。而这些都离不开数据安全的保驾护航,数据的多元、复杂和流通也带来了更多的威胁和挑战,促进了数据安全的不断发展。

 

本文对数据安全国内现状、问题和挑战进行了分析,提出了相应的数据安全治理架构和技术解决办法,并对未来的挑战进行了反思。

 

1  国内数据安全现状及问题

 

数据与信息化息息相关。互联网、移动互联网和物联网的飞速发展,让数据活了起来。从单一系统中产生、存储和使用的少量且离散的数据,发展成数据大集中、数据大流通的状态,数据扮演的角色日益重要。传统的网络安全、信息安全侧重于对信息资产的管理,企业或机构更多的是对信息或数据的承载网络和资产进行静态的防护和管理,而当数据不单属于某个企业或机构时,动态、大规模流转起来的数据需要进行海量数据处理,这时传统的网络安全、信息安全管理方式已无法满足现实需要[1]。本文重点列出了现阶段数据安全面临的3方面问题和挑战。

 

1.1  数据资产管理、分类分级问题

《数据安全法》 中提出并强调了要进行数据分类分级保护制度建立,并贯彻落实相应的数据分类分级保护制度。数据分类分级保护是现有的针对数据安全保护最行之有效的措施。

 

依据数据所属不同的行业或主体,其内容、使用方式和重要程度不同,数据分类分级的思路、方法和路径也不相同的[2]。各行各业在近几年也相继提出了数据分类分级的要求和相关指引规范。2018年9月,中国证券监督管理委员会正式公布实施《证券期货业数据分类分级指引》,给出了证券期货行业数据分类分级的原则、方法、流程和参考内容;2019年6月,工业和信息化部办公厅发布了《电信和互联网行业提升网络数据安全保护能力专项行动方案》,要求电信和互联网行业对数据进行分类分级保护,而中国电信和中国移动等运营商也对自身数据的分类分级建立了详细的实施指南;2020年2月,工业和信息化部发布了《工业数据分类分级指南(试行)》,对工业数据做出了相应的分类分级指导,但具体的执行方法尚不明确,由于工业领域行业众多,还需根据不同领域不同行业进行特定方式方法的分类分级;2020年9月,中国人民银行发布了《金融数据安全 数据安全分级指南》,对金融行业的数据分级工作进行了详细的指导。除上述行业发布了相关的数据分类分级指南外,其他行业也在数据分类分级这个问题上非常重视,如政务行业各省相继发布省级的政务数据或公共数据的分类分级指南,医疗行业发布的健康医疗数据安全指南也对健康医疗数据的分类分级做出了指导。

 

数据的分类分级是全行业都在关注的焦点,而数据的分类和分级离不开数据资产的识别和敏感数据的发现。数据分类一般是从业务角度出发,以业务的“实然” 路径对数据进行分类,通过企业或机构涉及的数据,梳理这些元数据属于哪些业务范畴并进行真实的分类;数据分级一般性地是与安全息息相关的,将数据分级成为敏感数据分级,不同敏感级别的数据的保护策略也是不同的[3]。由此可见,若想做好数据分类分级,应当先做好数据资产管理,对数据资产进行识别、对敏感数据进行发现,识别出元数据、敏感数据后才能对数据进行科学的分类和分级,为后续数据安全保护打好基础。因此,数据资产管理和数据分类分级是如今数据安全的必要前提,是整体数据安全能否落地的关键所在,也是现阶段数据安全面临的第一方面问题和挑战。

 

1.2  数据安全集中管控问题

数据由量少且不具有联系性的状态转向数据离散但联系紧密、数据量迅速增加状态,因此传统的数据安全保护机制是无法满足现在的数据安全集中管控需求的。曾经数据安全管控者不会针对数据制定特定的安全保护措施,仅通过网络安全措施,采用传统的安全防护手段,如防火墙、数据库审计、堡垒机等相关安全产品,还欠缺数据安全相关的各项防护能力与手段。因此,仅依靠现有的安全防护能力,难以规范数据处理活动(数据的收集、存储、使用、加工、传输、提供、公开等),同时保障数据处于有效保护和合法利用的状态,存在运维、共享使用数据安全等问题。

 

面向海量的、离散的又具备连续性的客户数据、经营数据、个人数据等敏感信息,由于应用场景的区别,数据的类型和形态也不尽相同。面对此种情况,传统的网络安全管理手段无法就这样的数据进行有效的管控[4]。传统的管控方式,数据安全策略零散地分布在各个安全设备之中,无法进行安全策略的统一展示和管理,没有形成统一的策略管理体系,一旦面向分布广、数据量大且类型众多的数据管控情况,则会带来管理困难、安全风险提高和效率下降等一系列问题。首先,策略分散极易造成头痛医头、脚痛医脚的问题,用户无法进行全局的数据安全策略管理,各类数据安全设备易形成“孤岛”;同时,临时开启或过期的安全策略,无法及时进行清理,极易造成策略冗余,增加数据安全风险;最后,基于纵深防御方针,建立立体的防御体系,这也会出现业务变更时,需要调整多台数据安全设备的策略,若管理不善,将会造成大幅增加管理员的工作量,降低工作效率的问题。因此,数据安全的集中管控是当前环境中应当解决的效率性问题,也是能够由上而下解决数据安全问题的重要保障。

 

1.3  数据共享与流通安全问题

数据要产生价值,就必须共享和流通。但是,在数据共享和流通过程中,数据的权属、权限以及数据共享流通的权限和数据处理等问题就接踵而来,在技术、管理和合规层面均提出了挑战[5]

 

在技术层面,数据提供者无法信任数据购买或使用方的技术处理能力,数据这种易于传播的特点导致了数据极有可能在共享或流通的过程中遭到滥用或泄露,因此共享或流通过程中的技术手段成为了解决共享数据泄露或滥用的保障。但由于新技术不成熟的原因,技术层面的落地实际上也是一大挑战。

 

在管理层面,数据流通的各方,其业务系统不同,因此数据的标准也不尽相同,因此数据安全的标准也是不同的,这可能会导致敏感数据的泄露问题。

 

在法律合规层面,可能数据权属问题是数据流通过程中较为复杂的问题,一是数据权属难以界定,不同的使用或流通方的数据权属应当不同,但当数据流通起来后,难以管束;二是数据在流通过程中很难从合规层面进行数据权属的约束,导致这方面问题很难厘清对错。

 

在数据共享与流通过程中,实际中也可以通过一定的技术手段,来解决技术、管理和合规层面的问题。
 

 

2  数据安全治理框架及关键技术

 

2.1  数据安全治理总体架构

实践中可以使用“治理”的手段,从管理、技术、运营3个方面来解决数据安全问题。图1提供了一种数据安全治理体系的总图框架。

图1  数据安全治理体系框架
 

 

数据安全体系建设需要多方能力输出构建,因此在数据安全组织建设时,应该考虑数据安全管理和执行的团队,同时也要考虑业务、安全等部门的联动,这些均需参与到数据安全建设当中。以“管理”作为数据安全治理的标准和前提条件,通过管理手段,梳理相应的数据安全总体方针、制度体系、人员组织等问题,将数据安全建设作为“一把手”工程进行下去。

 

数据安全治理的核心落地即为数据安全技术体系,通过数据安全技术体系,完善数据识别、分类分级、数据安全管控、风险监测、隐私计算等一系列所需解决的问题,并通过技术手段对策略进行集中管理,有助于企业或机构构建数据安全有效的管控手段和防御机制。

 

当然,数据作为一种流动的资源,其安全风险也会随着数据的流动而动态变化,因此需要通过运营的手段,对数据安全风险进行监测和处置响应、对数据安全策略进行动态调整,以符合数据流动、数据合规以及数据策略变更的目标。

 

数据安全技术体系实际上贯穿了数据的汇聚到数据的共享流通整个过程,主要涉及数据采集、数据存储、数据使用以及数据共享流通几个阶段的数据安全技术实现。

 

2.2  数据安全关键技术

上文概述了数据安全总体所需的技术,其中有几个关键的技术,以解决上文提出的技术性问题和挑战。

 

2. 2.1   数据识别和分类分级技术

数据识别技术包括数据资产识别和敏感数据识别两个技术组成。

 

(1)数据资产识别技术

按照相应的数据资产识别规则,对数据环境(如大数据平台)进行全量扫描,识别数据库、中间件数据,并根据识别的结果,建立数据资产之间的关系,数据的流转全景视图,为后续数据安全相关决策提供便利及指导[6]

 

(2)敏感数据识别技术

敏感数据识别包括结构化数据中的敏感数据以及文档、图片等非机构化数据中的敏感数据识别。其中,结构化数据的识别即扫描数据库,设置敏感数据字段的识别规则及敏感数据特征,通过规则和特征匹配的方式,识别出敏感数据字段(如身份证号码、手机号等)并进行敏感数据字段识别的校验和质量评估,最终输出敏感数据识别结果[7]。非结构化数据的识别,目前比较常用的是文本数据的敏感数据识别:分词技术(中文语义识别可通过PYHANLP语言分析包实现[8])通过分词部件对文本进行分词,结合预置的敏感数据类型关键词库,将分词结果与关键词库进行碰撞,实现复杂文本的数据识别;基于命名实体识别(Named Entity Recognition,NER)的技术对文本中的数据类型尽心标记,在此基础上进行分词、识别;有监督机器学习、人工对数据打标,标注数据类型(可自定义),打标后形成训练样本,基于训练样本进行模型训练,利用训练后的模型对其他未打标的数据进行类型识别,解决对无法准确定义特征的数据的识别。图像、视频识别也是针对图像、视频中的文字,对文字进行提取并执行安全策略检查,进行光学字符识别内容分析,特别适用于网络传输、数据发现以及打印服务器的信息泄露。

 

数据分类分级依托于不同行业的分类分级标准以及敏感数据识别结果。通过模型和元数据、敏感数据的识别,对相应分类和分级数据进行标注,输出分类分级结果,并作为数据安全保护措施的输入,与数据安全策略执行进行关联。

 

2.2.2  数据安全策略管理技术

数据安全策略的集中管理,是解决数据分散、流动且数据量大的有效手段。数据安全策略的集中管理,可实现对发现的敏感数据分级分类,以及对数据安全技术手段的策略定义、任务下发、策略分析等工作。对数据安全的策略进行能力应用,可提供数据资产发现、数据脱敏、数据加密、数据水印等多种能力的集中调度和能力输出。通过数据安全策略管理技术,实现由上而下的数据策略集中管理,使不同数据级别、不同数据使用场景的数据安全管控策略具有一致性,策略基线的维护和管理也具有统一性和时效性。数据安全策略的集中管理,有助于针对场景化的管控措施落地,如运维场景、开发场景、数据使用场景、共享场景等,不同场景针对的用户和策略不同,通过数据安全策略的集中管理可妥善处置不同场景的策略基线。同时,策略的统一管理,也可以根据风险处置的结果,对相应策略进行集中的调整,以策略动态调整的方式对数据风险进行管控。策略集中管理,是将单一数据安全防护升级为数据安全治理的有效手段,也是数据安全升级成为一把手工程后的落地最佳实践。

 

2.2.3  数据安全风险审计技术

数据安全风险审计,需结合多方面的审计数据进行联合分析,包括数据库审计、API审计、行为审计、数据安全事件监测等,并结合数据血缘,进行数据溯源、取证等风险管理工作。在数据安全风险审计技术中,近年来各数据安全厂商和数据运营企业和机构关注和投入的重点技术为API审计技术和数据溯源技术,下面就这两种技术展开介绍。

 

(1)API审计技术

API监测审计一般性地通过端口镜像或Agent的方式,获取PCAP包,并通过API监测设备解析包的内容,对HTTP、HTTPS、FTP、SMTP等协议内容进行解析,综合分析这些协议包中是否有高风险数据请求、敏感数据泄露、异常访问行为等,结合历史数据和数据风险特征学习,对疑似数据脆弱性的接口进行告警[9]。API监测审计可以针对数据滥用的风险、数据泄露的风险以及隐私合规的风险等进行风险监测,提高企业或机构数据安全风险的感知能力。

 

(2)数据溯源技术

数据溯源技术现有3种,一是数据标注法,即给数据进行相应的标注,把标注添加至原始数据之外(与分类分级的标注类似),在数据发生泄漏时,可通过数据标注进行数据的溯源[10];二是数据水印技术,即通过给数据库加水印的方式,给数据库表中增加行、列或编辑数据指纹,后通过一定的算法识别这些嵌入的数据或标记来进行数据溯源[11];三是基于区块链的数据溯源技术,通过去中心化的数据库,对数据的使用信息进行不可篡改的分布式记账,当数据发生泄漏时快速检索溯源[12]。这3种技术可根据不同的数据存储、使用场景来进行选择。

 

2.2.4  隐私计算技术

隐私计算技术是面向数据共享、流通和交易过程的,对隐私信息通过计算模型或加密算法进行保护的一种技术手段。隐私计算技术能够保护数据在不对外泄露的前提下,实现模型、结果等内容的共享,实现数据的安全共享使用,解决数据共享流通过程中的权属、法律和技术问题,帮助实现数据价值的最大化。隐私计算技术现分为3类,一是以密码学为基础的多方安全计算技术;二是以分布式机器学习为基础的联邦学习技术;三是依托于硬件加密的可信执行环境技术。下面分别对3种技术做简要介绍。

 

(1)多方安全计算技术

多方安全计算技术是姚期智教授在1982年通过百万富翁理论提出的,即在没有第三方参与的情况下,采用密码学知识,进行联合的多方共同计算同一函数,使得参与的每一方只能获得自己的计算结果而无法获取其他相关方的结果,且无法通过计算过程逆推其他相关方的输入数据[13]。多方安全计算技术包括秘密分享、不经意传输、混淆电路、零知识证明等。目前,多方安全计算技术仍然着力于解决计算效率问题。

 

(2)联邦学习技术

联邦学习技术是一种多个参与方共同训练同一机器学习任务,并且参与方不共享自己的数据,而是在本地进行机器学习模型训练,共享中间结果和梯度,保障原始数据不出域,数据可用不可见,实现数据隐私保护和数据共享分析的平衡的技术。由于联邦学习是明文计算,且需不断传递中间结果和梯度,因此隐私安全和通信效率问题是联邦学习的短板问题[14]

 

(3)可信执行环境技术

可信执行环境技术是基于密码学的隐私保护技术的现行替代方案,其基于硬件CPU进行内存隔离计算,划分可信的计算区域,敏感数据在此区域进行计算,其他计算不能访问此隔离区域,通过这种硬件隔离的方法实现隐私计算。可信执行环境技术依托于硬件CPU的功能,因此在云环境等情况下有所限制[15]

 

隐私计算技术尚在不断发展过程中,单一的隐私计算技术难以适配复杂的环境需求,因此通过多种隐私计算技术结合的形式,能够解决更多场景下的隐私计算需求。

 

3  结束语

 

数据安全是近年来各方关注的焦点,本文主要研究国内数据安全可能遇到的问题与挑战,并提出了相应的数据安全治理框架、数据安全技术体系以及几个核心的技术问题。对于数据安全领域来说本文所研究的问题远远不够,如数据出入境安全问题、基于不同行业的数据安全问题等本文尚未涉猎,但这些场景和问题在未来会越来越被政府和企业重视,也将为数据安全研究提供新的思路和方向。

 

来源:信息通信技术与政策

作者:雷蕾

 

参考文献

 

[1] 张锋军, 杨永刚, 李庆华, 等. 大数据安全研究综述[J]. 通信技术, 2020,53(5):1063-1076.

[2] 洪延青. 国家安全视野中的数据分类分级保护[J]. 中国法律评论, 2021(5):71-78.

[3] 张峰, 于乐, 马禹昇, 等. 数据安全分类分级研究与实践[J]. 信息通信技术与政策, 2021,47(8):45-50.

[4] 刘曼齐. 有关大数据平台的数据安全技术能力体系建设[J]. 数字技术与应用, 2022,40(4):223-225.

[5] 许可. 数据交易流通的三元治理: 技术、标准与法律[J]. 吉首大学学报(社会科学版), 2022,43(1):96-105.

[6] 刘曼齐. 有关大数据平台的数据安全技术能力体系建设[J]. 数字技术与应用, 2022,40(4):223-225. DOI:10.19695/j.cnki.cn12-1369.2022.04.73.

[7] 刘金. 基于数据特征的敏感数据识别方法[J]. 信息通信, 2016(2):240-241.

[8] 王媛媛, 陈昱翰. 基于语义分析等技术的数据敏感度自动识别[J]. 电子技术与软件工程, 2021(18):202-204.

[9] 张嵩, 周思佳, 丁安安, 等. 基于API安全视角的个人金融信息安全风险防控[J]. 金融电子化, 2020(8):17-18.

[10] 明华, 张勇, 符小辉. 数据溯源技术综述[J]. 小型微型计算机系统, 2012,33(9):1917-1923.

[11] 杨蕾. 基于数据库水印的数据溯源技术研究[D]. 天津:天津理工大学, 2019.

[12] 张国英. 基于区块链的数据溯源技术的研究[D]. 南京:南京邮电大学, 2019. DOI:10.27251/d. cnki.gnjdc.2019.000548.

[13] 蒋凯元. 多方安全计算研究综述[J]. 信息安全研究,2021,7(12):1161-1165.

[14] 周传鑫, 孙奕, 汪德刚, 等. 联邦学习研究综述[J]. 网络与信息安全学报, 2021,7(5):77-92.

[15] 郑显义, 李文, 孟丹. TrustZone技术的分析与研究[J]. 计算机学报, 2016,39(9):1912-1928.


 

上一篇:《上海市公共数据开放实施细则》发布

下一篇:理论丨政府数据安全治理能力提升的对策建议

分享到-微信
X

为什么选择龙石数据?