数据作为新型生产要素的价值正以前所未有的速度释放,特别是在人工智能大模型加持下,这一释放还在进一步加速。但这一过程也始终伴随着深刻的治理挑战。数据作为物理世界在数字空间的映射,作为物理实践的数字载体,天然承载着复杂的现实世界属性。物理世界的实践逻辑决定数据空间的运行规则。现实世界的复杂性决定着数据的多重属性及其位阶结构,决定着数据的治理逻辑。 本文基于数据的主权属性、人身属性、公共属性、价值属性的四维框架展开分析,重点研究面向人工智能应用的数据治理。尤其是数据的主权属性与人身属性,对数据分类分级及敏感性治理起着基础性作用,进而构成人工智能数据利用的先决条件。 数据四大属性的位阶顺序是:主权属性>人身属性>公共属性>价值属性。这种位阶顺序的本质反映了数字社会的治理优先级:国家安全红线不可触碰,人格尊严不可动摇,公共利益需要保障,经济价值需以此为前提释放。在此逻辑下,数据分类分级推动数据价值实现需遵循“主权特征锚定框架,人格特征细化颗粒度,公共特征开放利用”的多层路径。 一、数据四大属性的多维治理架构 (一)数据主权属性的刚性约束 1.依据数据主权属性的分类 依据《数据安全法》《网络安全法》的立法精神,数据主权属性体现为国家对关键领域数据的管控权。主权属性通过数据三级分类制度具象化:除国家秘密数据(不上网,数据价值化不涉及)之外是核心数据、重要数据、一般数据。 核心数据是指对领域、群体、区域具有较高覆盖度或达到较高精度、较大规模、一定深度的数据,一旦被非法使用或共享,可能直接影响政治安全的重要数据。具体包括:一是关系国家安全重点领域的数据(如国防、军事、政治安全等);二是关系国民经济命脉、重要民生、重大公共利益的数据(如国家战略储备、关键基础设施运行数据);三是经国家有关部门评估确定的其他数据。 重要数据是指对特定领域、特定群体、特定区域达到一定精度和规模的数据,一旦被泄露、篡改或损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全等公共利益的数据。仅影响组织自身或公民个体的数据不属于重要数据。典型示例包括:一是关键基础设施的网络安全保护数据;二是涉及国家自然资源、环境监测、人口健康等战略性数据;三是大规模个人敏感信息等。 一般数据是核心数据、重要数据之外的其他数据,其敏感性和潜在风险较低,通常仅涉及组织内部管理或公民个人事务,不直接关联国家安全或公共利益。 核心数据、重要数据、一般数据的分类依据在于对国家安全和公共利益的影响程度。核心数据与重要数据的边界可能混淆,根据《数据安全法》,核心数据是满足更高风险条件的重要数据,需通过行业主管部门或国家安全机构审定。国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。根据国家网信办《促进和规范数据跨境流动规定》,数据处理者应申报重要数据,但重要数据以确认为准,对确认为重要数据的,相关地区、部门应当及时向数据处理者告知或公开发布。 2.主权属性导向的数据敏感性分级 从主权属性角度,数据分类同时就明确了数据敏感性的分级。核心数据为高敏感数据,需要重点保护,甚至采取“物理隔离、逻辑严控”措施。重要数据为敏感数据,应在可信环境下采取“数据不出域、可用不可见”等方式处理。一般数据为非敏感数据,可采取“底线安全+市场激活”方式处理,对社会开放。不过要注意,这里的敏感性分级仅就主权属性而言,例如一般数据中就有个人数据,从人身属性角度,就可能是敏感数据,需要在可信环境下经数据来源者授权处理。因此一般数据的开放可能是普遍开放,也可能需要通过数据产品化而开发开放。 3.依据数据主权属性对数据的管控 对于重要数据,特别是核心数据,需要落实严格的管控措施,包括加密存储、加密传输、访问控制、权限管理、安全审计、容灾备份等。重要数据处理者还应当明确数据安全负责人和管理机构,落实数据安全保护责任。一般数据只需要基础安全管理,可依据业务需求灵活存储和清理,但需满足基本合规性要求(如个人信息保护)。 对于核心数据、重要数据传输的管控,集中体现在出境管控上。核心数据不出境,重要数据限制出境,一般数据可出境。 因此,对于核心数据、重要数据出境的限定不影响数据在境内的开发利用。但是,数据跨境流动、交易等场景则必须以数据分类分级为前提,落实核心数据不出境,重要数据出境按照国家网信办《促进和规范数据跨境流动规定》执行。其中,关键信息基础设施运营者(CIIO)向境外提供任何个人信息或重要数据,必须申报数据出境安全评估;其他数据处理者若向境外提供重要数据,或累计向境外提供超过100万人非敏感个人信息或1万人敏感个人信息,也需申报安全评估。当然,也有场景化豁免、适用标准合同和认证的情形,以及允许自贸区制定负面清单。 (二)数据人身属性的个体穿透 1.依据数据人身属性的分类 根据《个人信息保护法》的原则,数据来源者(即数据关联对象或数据主体)对数据拥有“知情权、决定权”,这里也隐含了对数据的“可携带权”。三权构成了数据人身属性的三大支柱。本质上看,数据依据人身属性可以分类为涉私数据和非涉私数据,前者关涉到了数据来源者(即包含直接或间接身份识别要素),而后者不涉及。因而后者可以直接作为客体进行数据处理,但是前者因为涉及人格权,不能直接作为客体进行数据处理。 涉私数据进一步按位阶降序分为个人私密数据、法人/非法人组织商业秘密数据、个人非私密数据、法人/非法人组织非私密数据。非私密数据主要用于公众对个体的识别,即体现社会交往的可识别性,而私密或商业秘密数据则涉及到相关个体的私密信息。 2.人身属性导向的数据敏感性分级 按照《个人信息保护法》第28条第1款规定,“敏感信息是指一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息。”根据这一对敏感性的原则规定,基于人身属性的数据分级主要有以下几类: 敏感个人数据:即个人私密数据。比如自然人的行踪信息、财富信息、健康信息、性取向信息、私密部位信息等。 敏感法人/组织数据:即法人/非法人组织商业秘密数据。比如法人/组织的经营数据、客户数据等商业秘密,法人/组织的技术诀窍信息等。 非敏感个人数据:即个人非私密数据。比如自然人的姓名、身份证件号码、家庭住址、电话号码、电子邮箱等,主要被用于满足社会交往的需要。 非敏感法人/组织数据:即法人/非法人组织非私密数据。比如法人名称、法人组织机构代码、法人住址、联系方式等。 非涉私数据:属于非敏感数据。 3.依据数据人身属性对数据的管控 对于涉私数据,需要严格落实数据来源者的知情权、决定权以及可携带权,建立经数据来源者知情、同意才能处理的机制。 敏感个人数据需要隐私保护和个人信息保护双重保护,只有在针对特定使用者、特定场景下经个人单独授权才能进行数据处理。同时,个人数据出境也有限制,主要是达到一定量的敏感个人数据出境需要申报数据出境安全评估(1万人以上),或订立个人信息出境标准合同,通过个人信息保护认证(不满1万人)。对于关键信息基础设施运营者还有更严格的要求。 敏感法人/组织数据也需要商业秘密保护和涉私数据保护双重保护,只有在针对特定使用者、特定场景下经数据来源者单独授权才能进行数据处理。 非敏感个人数据需要受到个人信息保护,经个人授权后进行处理。至于是普遍授权公开还是对特定处理者授权,是一揽子授权还是单次授权,由个人自决。同时,个人数据出境也有限制,主要是达到一定量的个人数据(不含敏感个人数据)出境100万人以上的需要申报数据出境安全评估,10万人以上、不满100万人的需要订立个人信息出境标准合同,或通过个人信息保护认证。对于关键信息基础设施运营者则都需要申报数据出境安全评估。 非敏感法人/组织数据需要受到涉私数据保护,经法人/非法人组织授权后进行处理。同样,是普遍授权公开还是对特定处理者授权,是一揽子授权还是单次授权,由数据来源者自决。 非涉私数据没有数据来源者,与个体无关,与隐私保护、涉私数据保护无关。 对涉私数据的处理需要数据来源者知情、同意,即获得数据来源者的授权和相关权益的让渡。因此,对涉私数据的处理需要建立动态授权模型,即通过数据产品化,在数据产品使用场景中触发实时授权请求,让数据来源者能够在应用场景中便利地实时授权,通过智能合约自动执行授权要求,各个来源数据能够向数据产品瞬间组装,数据产品能够瞬间集成,数据产品服务能够瞬间输出。 (三)数据公共属性的开放共享 数据是为利用而生的。在数据主权属性、人身属性对数据的限制性规制之后,数据公共属性则是要让数据开放共享和利用起来。 数据共享的广义用法泛指任何数据处理者之间的数据共享,这是数据公共属性希望趋向却又难以达到的目标。数据共享的狭义用法特指数据在单个机构内部的共享,包括作为整体政府的各公共机构(尤其是政务机构)之间的共享。数据依据公共属性分类,除了不予共享,就是(广义的)数据共享。(广义的)数据共享可以分类为:一是(狭义的)数据共享,即在作为整体的单个机构(或整体政府)内部共享;二是数据普遍开放,即对社会普遍开放,包括无条件开放和有条件开放——由于条件将会通过智能合约实现“秒审”而自动执行,有条件开放会演变为无条件开放或下面的第三类(开发开放);三是数据开发开放,即通过数据产品化,数据嵌入到数据产品在应用场景中开放利用。第二和第三类又可以合称为数据开放。 对于公共数据,(狭义的)共享、开放是公共机构的义务,应扩大普遍开放,不能普遍开放的,通过开发开放实现最大范围的公共数据开放利用。 对于社会数据,鼓励数据持有者开放数据,主要是通过开发开放方式实现(广义的)数据共享。 (四)数据价值属性的权益保护 数据为利用而生,只有在直接和间接的应用中才能发掘数据的价值属性。数据价值化通过数据处理行为才能达成。根据《数据安全法》《个人信息保护法》的原则,只要不违背数据主权属性、人身属性、公共属性的要求,数据处理行为便都是允许的。由此也诞生了数据处理者的“三权”,即数据持有权、数据加工使用权和数据产品经营权,在“数据二十条”中给予了明确。国家数据局等部门发布的《关于促进企业数据资源开发利用的意见》明确:企业对其在生产经营过程中形成或合法获取、持有的数据,依法享有法律法规规定的、民商事合同或行政协议约定的各类数据权益。这事实上是明确了数据处理者“三权”的来源,即合法获取、持有即享有各类数据权益,自然也就无需其他机构登记确认。当然,这也就赋予了数据处理者数据产品开发的自主权。 数据价值化在于应用,而数据产品是从数据到应用的唯一桥梁。因此,依据数据价值属性,对数据进行分类分级,就只能从与数据产品直接或间接的关系来衡量数据价值的高低:一是嵌入数据产品的数据,即数据产品的来源数据,可以直接从数据产品价值中分有数据价值;二是未嵌入数据产品的数据,没有应用便没有直接价值;三是人工智能训练数据,虽然没有在应用场景中直接应用,但是作为人工智能模型的训练素材,在人工智能的应用中具有间接价值。这第三类数据可以单列出来,不过本质上说,可以归入第一类,即作为间接嵌入数据产品的数据,可以视为作为人工智能模型的数据产品的来源数据,因为人工智能模型以及在此基础上的智能体都符合数据产品的定义,可以看作数据产品。 数据产品价值决定来源数据(即数据资源)价值。这也就意味着,数据产品市场决定数据要素市场。当然,随着产品市场的发展,要素(数据资源)市场也会随之呈现出相对独立性。市场会根据类似数据资源嵌入数据产品获得的价值来衡量数据资源的价值,从而形成相对独立的数据资源(要素)市场,并通过数据资源的流通进一步反作用赋能产品市场。这也就意味着,数据要素作为训练数据赋能人工智能大模型也是可以先于基于大模型的数据产品生产的。 数据价值需要得到保护,一方面是对数据产品价值和数据产品来源数据价值的保护,另一方面是对数据处理者“三权”的保护。同时,鉴于数据产品以及数据原子能力(作为经过加工的来源数据)中都含有一定的模型、算法或匿名化等技术,事实上具有知识产权特性,还需要对其进行知识产权保护。[18]例如训练数据,可能就含有知识产权问题,需要体现知识产权价值。这些权益的保护都需要体现在相应数据产品和来源数据的价值上,即体现在价格和收益分配上。 二、面向人工智能应用的数据安全治理 (一)数据多维治理架构 第一部分我们从数据四大属性,也就是从四个维度分别对数据进行了分类分级,兼顾安全保护和开放利用,发掘数据价值。一般说来,一条数据是同时兼具四大属性,因而需要同时从四个维度对数据安全和开放利用进行考量,并且按照四大属性的位阶等级,优先考量主权属性,然后依次考量人身属性、公共属性和价值属性,并将相关标注信息纳入元数据管理体系中。可以采取“多层熔断机制”逐层诊断数据管控要求: 一是主权核验层,对接国家核心数据、重要数据目录实现自动检索、标注; 二是人格声明层,对于涉私数据,标注涉及的数据来源者(关联对象),并将数据纳入“关联对象数字空间”管理,在数据处理时要求数据来源者知情、同意; 三是开放共享层,区分公共数据和社会数据,并依据敏感情况,标注可普遍开放或者可开发开放; 四是风险测算层,根据上表的四个维度治理结构,评估数据敏感度,进行风险测算; 五是应急处置层,制定不同敏感度和风险级别的应急处置措施,保护、屏蔽直至删除数据。 1.管控措施就高不就低 鉴于四个维度的分类分级的交叉重叠,数据需要在多重保护下开放利用。对同一条数据,管控方面不相同的,例如既是个人数据,又涉及持有者的知识产权,管控措施便“既要……又要……”,也就是各个方面的管控都要到位;管控方面相同的,例如针对出境管控,既是重要数据,又是个人数据,管控措施便就高不就低。 通过管控措施的叠加,切实加强数据安全治理,特别是涉及核心数据、重要数据的安全治理,确保主权安全,包括生物安全等。例如对于重要数据出境,需要申报数据出境安全评估。 2.开发利用就宽不就严 在严格管控措施的前提下,开发利用就需要就宽不就严,鼓励开发,鼓励创新。 关于重要数据的利用,在存储、传输、访问控制等安全措施加持下,重点遵照国家网信办《促进和规范数据跨境流动规定》进行数据出境管理。 在此基础上,重要数据的利用,一方面是不影响数据在境内的开发利用,鼓励通过有严格安全管控措施的可信数据空间等数据基础设施充分利用重要数据,鼓励嵌入重要数据的数据产品开发利用;另一方面是针对数据出境,按照规定限定的数据量进行管控,在管控下开发利用,并让数据出境传输量接受监管。同时,自贸区可以充分利用制定负面清单的政策,加强重要数据出境的管理和开放。 关于涉私数据的利用,关键在于数据产品化,将涉私数据嵌入数据产品中,让数据来源者能够在应用场景中实时授权、实时获得服务。 涉及涉私数据出境的情形,就法人/非法人组织数据而言,并无限制;就个人数据而言,按照《促进和规范数据跨境流动规定》,特定个人信息处理情形可免予申报数据出境安全评估、订立个人信息出境标准合同、通过个人信息保护认证: (1)为订立、履行个人作为一方当事人的合同,如跨境购物、跨境寄递、跨境汇款、跨境支付、跨境开户、机票酒店预订、签证办理、考试服务等,确需向境外提供个人信息的; (2)按照依法制定的劳动规章制度和依法签订的集体合同实施跨境人力资源管理,确需向境外提供员工个人信息的; (3)紧急情况下为保护自然人的生命健康和财产安全,确需向境外提供个人信息的; (4)关键信息基础设施运营者以外的数据处理者自当年1月1日起累计向境外提供不满10万人个人信息(不含敏感个人信息)的。 以上四种情形下,个人数据可以出境。此外,还需积极拓展个人数据脱敏即可满足要求的应用场景,通过数据产品化实现“数据不出境、可用不可见”。 3.积极探索数据隔离、数据解耦、数据脱敏等措施 统筹好数据安全治理和开发利用,必须依托完善的数据基础设施(数据平台)。 对核心数据、重要数据探索“主权沙箱”,特别是关键信息基础设施运营者,更需要依托可信数据空间建立“主权沙箱”,原始数据全程隔离,外方通过部署算法模型在“主权沙箱”的密闭计算环境进行分析,输出结果,中间还可采用同态加密、联盟学习等隐私计算技术。这样,不必对大量原始数据进行出境安全评估,而仅需评估服务结果的出境安全即可,从而大大降低数据出境的壁垒,发挥数据价值。 针对涉私数据特别是个人数据,采取可信数字身份认证机制,实现个体身份信息与个体业务信息的关联和解耦,包括各功能角色的解耦,认证和应用的解耦,数据和应用的解耦。可信数字身份认证平台只掌握个人/法人/组织的身份信息,但不掌握个体的应用信息、业务信息等;数据处理者只了解各自服务范围内真实个体的相关应用数据,据此提供服务就好,但是具体是哪个个体不需要了解。应用场景中需要建立关联时,由数据来源者(关联对象)进行授权。 这事实上正是基于可信数据空间(数据基础设施)的“可控匿名化”措施。在可信数据空间内,与身份认证解耦的应用信息、业务信息不再是涉私数据,不必授权便可以进行数据处理,只有在形成数据产品面向应用场景需要落实具体服务对象时,在数据来源者授权下,应用信息、业务信息和身份信息建立关联,数据产品才对服务对象提供个性化服务。 针对可信数据空间内的涉私数据,平台运营者还可以主动对数据进行“可控匿名化”处理,将身份信息和应用信息、业务信息解耦,形成与原始数据结构一致的逻辑真实数据,从而便利数据处理者进行数据治理探查、数据产品开发。 上述机制同样使得不必对大量原始数据进行出境安全评估,而仅需评估服务结果的出境安全即可,从而大大降低数据出境的壁垒,发挥数据价值。注意在这些机制中,贯穿始终都需要落实零信任机制,强化安全认证,也需要同步建设好关联对象“数字空间”,打造数字公民。 三、兼顾大模型数据安全、隐私保护和数据利用 1.从主权属性角度考虑的数据利用机制 针对通用大模型,核心数据、重要数据、个人数据不可用。利用这样的数据只能是针对大模型的私域部署,并且在私域数据中利用了核心数据、重要数据、个人数据的话,还需要落实严格的用户管理措施,以符合对核心数据、重要数据、个人数据的相关法律法规要求,即:涉及核心数据的,禁止境外用户;涉及重要数据和个人数据的,限制境外用户数量和使用数量。 2.从人身属性角度考虑的数据利用机制 针对通用大模型,原则上应全面禁止涉私数据利用。针对大模型的私域部署,也不能直接使用涉私数据。只有在数据来源者对数据处理“知情-同意”之下,涉私数据才可以利用。 涉私数据的利用机制在于使用“可控匿名化”的逻辑真实数据,在大模型的私域部署下,利用逻辑真实数据对大模型进行微调优化,或利用RAG优化大模型的推理。 利用涉私数据关键是要解决涉及到个体的应用问题。涉私数据利用机制的核心是将涉私数据嵌入到面向应用场景的数据产品和智能体之中。采用逻辑真实数据的更大价值在于依托私域部署的大模型支撑嵌入实时逻辑真实数据的数据产品和智能体开发和应用。数据产品和智能体在应用中基于数据来源者授权,将嵌入其中的逻辑真实数据还原为真实数据,从而实现大模型支撑的涉私数据个体化利用。 3.从价值属性角度考虑的数据利用机制 人工智能大模型利用数据涉及第三方的数据权益或知识产权,应取得权益方的授权或形成商业合同,分享利益。 4.数据平台和大模型的融合是数据利用的基础 既然对于核心数据、重要数据、涉私数据,都只能在私域部署下才有利用的可能,并且需要加强用户管理,对涉私数据还需要“可控匿名化”机制,这个私域的“域”就只能是以可信数据空间为核心的数据基础设施(数据平台)。随着大模型在数据平台的部署,数据基础设施和人工智能基础设施实际上在可信数据空间中便融合为一体了。这就是对大模型做私域部署的基础,也是核心数据、重要数据、涉私数据为大模型所利用的基础。因而,可信数据空间为核心的数据平台对大模型的精准利用和落地发展具有关键作用,核心数据、重要数据、涉私数据等高质量数据集都要依托可信数据空间才能落地利用。 5.几个需要重点关注的问题 第一,厘清空间数据边界。近期低空经济发展引人注目,而低空经济本质上属于数字经济。关于低空经济数据的分类分级管理问题迫在眉睫。 从数据安全的主权属性角度,低空经济数据同样要按照核心数据、重要数据、一般数据进行分类分级。涉及国家安全或重大公共利益,如军事禁飞区数据、国家级低空管制系统数据等,属于核心数据,任何未经授权的数据采集行为都被严格禁止,授权采集的数据要严格管控,因为这些区域的数据一旦泄露,可能直接危及国家政治安全。可能危害经济运行或公共安全的数据,如政府机构、关键基础设施(如机场、电网、通信基站)周边的数据,大规模无人机集群控制数据,涉及10万人以上的个人飞行记录等,属于重要数据。在公共空域,数据的敏感度相对较低,属于一般数据,但仍需遵循一定的规范进行管理,以保障公众利益和空域的正常使用秩序。 但是低空经济数据管理比这还要复杂。低空经济数据也会涉及数据人身属性,需要考虑涉私数据保护。如无人机可能采集、标注到人、车等个人信息,可能涉及私宅,可能涉及法人/组织内部空间及相关布局。此外,还有相关人员的飞行轨迹等个人数据、相关运输货物等涉企数据。这些数据都需要作为涉私数据进行相应保护,即在数据来源者“知情-同意”下进行处理。 类似的,城市空间的图像、视频采集设备获取的相关数据,也需要分类分级管理。即将于2025年6月1日起施行的国家互联网信息办公室、公安部联合公布的《人脸识别技术应用安全管理办法》就做了相应规定。 第二,开展脱敏利用。公共数据用于大模型有特殊的难点,这是因为公共机构、公共数据运营机构一般都属于关键信息基础设施运营者,其掌握的平台、数据基本都属于重要数据范畴,向境外提供任何个人信息或重要数据,必须申报数据出境安全评估。相关数据如果用于大模型训练,确实会导致数据结果出境的风险。必须对这些数据进行数据脱敏处理,只能依托公共可信数据空间来支撑大模型,利用“可控匿名化”的逻辑真实数据来支撑大模型训练,同时加强对模型输出结果的管理,以及对模型的用户进行管理,以符合数据出境安全评估要求。事实上我们在这里是做了两方面的措施,以便统筹好安全和利用。一是对关键信息基础设施进行精细化管控,厘清边界,重点保护逻辑真实数据的映射表,而将逻辑真实数据视为匿名化数据(非涉私数据)。二是将数据出境安全评估从源头数据利用转移到对模型输出数据的评估和管控。 第三,加强使用控制。利用公共数据等重要数据的大模型,在使用层面进行控制。主权属性方面,控制跨境使用次数,满足重要数据限制出境相关要求。人身属性方面,依据场景,由数据来源者授权使用——都是通过数据产品化使用,即使用大模型支撑的数据产品或智能体,涉及涉私数据,由数据来源者授权。 第四,强化数据隔离、解耦。《个人信息保护法》对个人信息的去标示化、匿名化的定义基于通常理解的技术手段,并没有考虑到人工智能大模型等新技术的强大能力。基础通用大模型可以利用已经在互联网主动公开的个人数据进行训练,对个人其实是有所了解的,再综合多维度的匿名化的个人数据,是有概率性的可能反推出个人隐私信息的。如果不希望大模型从匿名化的数据中反推出隐私信息,就还需要“魔高一尺道高一丈”,有更多机制、更强技术来加强数据保护。 这就需要尽量采取强化数据隔离、解耦等措施。针对涉私数据,不建议集中归集存储,不建议以这样集中、综合的数据形态提供给大模型,包括让大模型微调、强化学习、RAG等,即使是采取只提供样例数据、逻辑真实数据的方式,也存在一定风险。一是需要数据来源分散,个体身份信息与个体应用信息、业务信息隔离和解耦,不同应用、不同业务、不同功能的信息也要隔离和解耦,并针对大模型服务的领域,只提供相关领域应用数据、业务数据,而不提供不相关领域的数据,以避免大模型综合反推隐私信息。二是涉及个体应用的数据产品和智能体也要分散化,不同的数据产品和智能体针对不同的应用,相对独立,针对多场景的综合应用,则采取多产品、多智能体协同网络相互调用结果方式提供服务,而综合性的、通用的数据产品和智能体主要面向非个体应用场景,不用到涉私数据。三是必要的话还可以采用联邦学习、隐私计算、数据沙盒等方式,进一步强化数据安全管理。 第五,防范区块链穿透。当前,数据产品(数据资产)的通证化已经开始,并且渐成热点,例如RWA(现实世界资产通证化)。这类基于公链的数据应用,存在数据跨境穿透的风险。未来的多智能体协同网络也会通过区块链跨境穿透、互动。需要加快研究监管措施。基本思路可能是采取可控去中心化方式,即在国家主权层面的中心化和局部的去中性化结合。 (本文作者董学耕,原海南省大数据管理局局长,原文有删减)
2025-04-24 17:38 198
数据分析是任何企业的核心需求。在大模型技术蓬勃发展的当下,众多企业都在思考如何将AI能力快速注入现有业务。 从目前的市场表现来看,DataAgent(数据智能体)似乎成为了最易落地且价值明显的Agent应用场景。 为什么DataAgent落地性最强 传统企业数据分析面临多重痛点:专业BI工具使用门槛高、过度依赖技术部门、报表生成周期长、数据洞察获取效率低。 一位数据分析师曾向我吐槽:"公司要求每周提交销售分析报告,我得花一整天编写SQL查询、处理数据、生成可视化,这还不包括临时分析需求。" 这正是DataAgent能够解决的核心问题。DataAgent将大模型与数据分析能力结合,通过自然语言处理实现了普通用户与复杂数据的无缝交互。 用户只需用日常语言提问:"2024年第四季度各地区销售额同比如何变化?"智能体便能自动生成SQL查询、执行分析并以可视化方式呈现结果。 DataAgent落地性强的关键在于其应用场景刚需且价值明确: 业务人员摆脱了对技术团队的依赖,自助完成数据分析决策 企业决策链路缩短,从"提需求→排期→开发→交付"变为即问即得 数据团队从重复性报表工作中解放,专注更高价值的数据治理与模型构建 投资回报明确可量化,通常能减少30%-50%的数据分析人力成本 DataAgent的核心技术路径 DataAgent实现数据分析智能化的核心技术路径主要有三种: 自然语言转代码:利用大模型直接将用户提问转换为Python、R等数据分析代码,执行后生成结果。这种方式适用于灵活性较高的场景,能处理复杂的统计分析和机器学习任务。 自然语言转SQL:让大模型理解用户的问题并生成SQL查询语句,这是目前最成熟的实现路径。针对结构化数据查询效率高,准确率可达到商用水平。实现方式包括微调模型(如SQL-Coder)和精心设计的提示工程,通过添加数据库Schema信息和Few-shot示例显著提升准确率。 自然语言转API:将企业常用分析指标和报表封装成API,大模型只需调用相应接口无需直接接触原始数据。这种方式数据安全性最高,也最容易保证结果准确性,适合对数据安全要求极高的金融、医疗等行业。 智能体实际部署时,这三种技术路径往往是混合使用的。某友薪酬分析助手和某科技Agent产品就融合了多种技术路径,能够根据不同分析场景智能选择最优方案。 如何打造企业级DataAgent 从落地角度看,一个成功的企业级DataAgent需要关注以下几个核心环节: 数据接入与质量:数据是智能体的源头活水。 除传统的结构化数据外,半结构化数据(如日志、Markdown文档)和非结构化数据(图片、PDF、邮件等)也应纳入考量范围。高质量的元数据管理是DataAgent正常运作的基础,应确保数据表和字段有充分的业务描述,便于智能体理解。 技术架构选型:根据企业的安全要求和应用场景,可选择三种典型架构: 直接交互方案:大模型直接访问数据库,架构简单但安全性较低 领域模型分层:通用大模型负责理解意图,领域小模型负责SQL生成 API调用方案:封装核心指标为API,不让大模型直接接触数据 模型与算法策略:对于NL2SQL核心能力,可通过三种方式提升准确率: 丰富的Schema信息:为表和字段提供详细业务描述 Few-shot示例:收集高质量的问题-SQL对作为提示示例 模型微调:针对企业特定数据模型和业务场景微调模型 结果验证与可解释性:数据分析结果直接影响决策,必须保证可靠性。可通过SQL语法检查、结果异常检测、置信度评估等机制,辅以查询过程可视化,确保用户理解结果来源和可靠性。 用户反馈循环:建立用户反馈机制,收集用户对结果的评价和修正,不断优化系统表现。整个系统应形成"提问-分析-反馈-优化"的闭环,实现持续进化。 结语 市场上已有多个成功的DataAgent案例:X友的薪酬分析助手通过自然语言查询薪酬数据,实现了70%的算薪效率提升;X云的TAgent可在企业内私有化部署,确保数据不外流;某势科技的SAgent实现了完整的数据全生命周期管理,支持秒级响应ad hoc查询。 从这些产品表现来看,DataAgent正在从简单查询向更深层次的数据智能演进: 现阶段:以描述性分析为主,回答"发生了什么"的问题 近期目标:加强诊断能力,解答"为什么会这样"的问题 未来方向:提供预测和规范分析,回答"会发生什么"和"应该怎么做" AI驱动的数据分析将帮助企业实现智能分析,从海量的数据中快速获取特定洞察。与传统BI工具不同,DataAgent能根据用户需求动态生成分析对象,无需预先定义所有可能的查询路径,极大提升了数据利用效率。 对于企业而言,DataAgent或许是大模型能力落地的最佳切入点 - 它不仅能够解决实际业务问题,还能带来明确的效率提升和成本节约。随着技术的不断成熟,DataAgent将成为企业标配的数据助手,为数据驱动决策提供强大支持! 来源(公众号):大数据AI智能圈
2025-04-23 20:57 209
在AI大战烽火连天的今天,所有人都在追逐参数规模的增长和架构的优化。然而,行业内的一个秘密正在悄然成形:拥有独特数据资产的企业正在构筑起难以逾越的竞争壁垒。数据,而非算法,正成为区分强弱的决定性要素。 互联网上的公开数据已经被主流模型消耗殆尽。当国际大厂都在Common Crawl的海洋中打捞数据时,真正的价值已经转向了那些深藏在垂直行业内部的专业数据宝库。这不再是谁能获取更多数据的竞争,而是谁能获取更独特、更高价值数据的角逐。 数据差异化:从量变到质变的跃迁 在AI大模型的军备竞赛中,我们正经历一场范式转移:从数据量争夺到数据质争夺。这好比从投石车时代一跃进入精密制导武器时代,精准的打击远胜于漫无目的的轰炸。 真相在于,万亿参数模型的表现或许不如一个在垂直领域精心训练的百亿参数模型。金融风控算法不需要识别猫咪,医疗诊断系统不需理解体育赛事。专注于行业特定数据的"精致小模型"常能击败通用大模型,就像一把手术刀比一把砍刀在手术中更有价值。专业数据不是靠爬虫就能获取的。医疗数据需要专业脱敏和标注;法律文书需要专业解读和结构化;金融数据需要专业筛选和验证。这些高壁垒的数据资产构建需要跨学科团队协作,仅靠技术团队难以突破。 数据质量工程:从筛选到创造 数据处理已从简单清洗进化为系统化工程。一家领先的金融科技公司投入上亿资金构建金融数据处理流水线,其成果使模型在金融场景的表现提升了23%,而这一切仅凭添加3000行处理代码实现。这种投入产出比是纯算法优化难以企及的。 去重看似简单,实则复杂。 当不同来源重复报道同一事件时,模型会过度强化这一信息,形成偏见。当同一知识以不同表达形式出现时,表面上看没有重复,但语义层面重复了。有效的语义去重需要深度理解内容,而非简单的字符串匹配。 跨模态数据处理更是技术与艺术的结合。 当图像与文本配对时,不匹配的内容会产生灾难性影响。一个被广泛采用的多模态数据集尽管经过严格筛选,仍有15-20%的样本存在图文不匹配问题。这类错误一旦进入训练,就会像基因缺陷一样代代相传。 数据护城河:战略资产的构建 垂直行业数据是企业最宝贵的战略资产。 一个令人震惊的事实是:一家中型医疗机构的临床记录处理得当,其价值可能超过整个互联网上的医疗文献。这些专业数据不是靠爬虫就能获取的,而是需要行业深度合作和专业处理的成果。中文AI面临的挑战尤为严峻。相比英语世界,中文互联网上高质量学术内容相对稀缺,对话指令数据更是凤毛麟角。 中文还有特有的语言现象:网络用语、方言表达、简繁转换、古文引用等,这些都需要特别处理。一位行业专家曾惊叹:"解决好中文特有问题的数据处理,足以构建起不可逾越的竞争壁垒。"构建数据护城河是一场持久战。不仅是技术挑战,更是组织能力的体现:跨学科团队协作、持续投入机制、质量管理流程、安全合规体系等缺一不可。那些将数据视为战略资产而非技术附属品的企业,正在构建起真正的不可替代优势。 数据已从支撑要素蜕变为战略资产。在参数规模趋于同质化的AI赛道上,独特数据正成为企业最坚固的护城河。那些能够获取、处理和持续更新高价值垂直领域数据的企业,将在AI时代建立起难以撼动的竞争壁垒。 在一场看似以技术为王的比赛中,真正的王者是数据。你的数据有多好,你的模型就有多强;你的数据有多独特,你的竞争力就有多持久。在这场从海量到精专的数据角逐中,胜利者将不仅拥有最好的算法,更将掌握最具价值的数据资产。 来源(公众号):大数据AI智能圈
2025-04-22 14:16 116
数字化时代,企业拥有的数据量呈爆炸式增长。据统计,全球每天产生的数据超过2.5万亿字节。这些数据是否能转化为企业的核心竞争力?关键在于数据治理的水平。 我遇到过这样一个场景:某大型电商企业高管兴奋地告诉我,他们收集了海量的用户数据,准备开展精准营销。 当我问到数据质量如何时,他面露难色:"说实话,不同部门的数据存在冲突,用户画像准确度只有60%左右。" 这正是缺乏数据治理导致的典型问题。 数据治理中的"治":解决痛点 数据治理的"治"是一种管控思维,聚焦于解决数据使用过程中的实际痛点。 数据质量问题是企业最常遇到的挑战。 一份行业调查显示,62%的数据分析师花费超过一半时间清洗数据。金融机构一个小数点的错误可能导致数百万的损失。 "治"的第一要义是确保数据准确、完整、一致和及时,让企业决策基于可信数据。安全也是"治"的重要方面。 随着数据泄露事件频发,往全球平均每起数据泄露事件造成的损失高达483万美元。企业需要通过严格的加密措施、访问控制机制和安全审计,防范内外部威胁。法律法规的遵从同样不可忽视。在GDPR实施后,违规企业面临高达全球营收4%的罚款。数据治理需确保所有数据处理活动符合各国法规要求,降低法律风险,保护企业声誉。 生命周期管理是"治"的完整闭环。数据从产生到最终销毁的每个环节都需要精细管控。这不仅关乎合规,也直接影响存储成本和数据价值的实现效率。 数据治理中的"理":构建生态 "治"解决问题,而"理"则构建体系。 在数据治理中,"理"代表着一种建设性思维,旨在构建高效的数据生态体系。 理顺数据流程是基础。 我曾在一家制造企业看到这样的情况:产品数据从设计部门到生产部门,再到销售部门,每个环节都有转换和重定义,导致各部门对同一产品的理解存在偏差。 通过元数据管理和数据血缘分析,企业可以清晰展现数据的来源和流转路径,帮助所有人理解数据的上下文和含义。 理清数据权限是保障。 "谁能看到什么数据"是数据治理中的核心问题。数据不是越多人看到越好,而是需要合理分配访问权限,确保数据在需要时能被恰当的人获取,同时防止过度访问。这既是安全问题,也是效率问题。 理解数据价值是关键。 调查显示,44%的企业员工不理解数据对业务的价值。推动数据文化建设,提升全员数据意识,才能让员工从"被迫填表"变成"主动用数",真正发挥数据的潜能。理性决策支持是终极目标。数据治理的最终目的是支持决策,通过数据集成、清洗和分析,为企业提供及时、准确的信息,驱动基于数据的智慧决策。一家零售企业通过数据治理优化其库存管理,年节省成本超过800万元! 数据治理的五步法 数据治理不是一蹴而就的工作,而是需要分步骤、循序渐进地实施。基于多家企业的实践经验,总结了数据治理的五步法: 第一步,盘点数据资产。 这是数据治理的起点,企业需要全面梳理现有数据,了解数据的种类、数量、位置等基本信息。一家零售企业在盘点过程中发现,他们竟然有17个不同系统在独立存储客户信息,而这些信息之间存在大量冲突。盘点不仅要列清单,还要对数据的业务价值进行评估,确定治理优先级。 第二步,让数据变得干净。 通过ETL(提取、转换、加载)流程,进行数据清洗和标准化。这需要建立统一的数据标准,比如统一的日期格式、产品编码等,确保不同系统间数据的一致性。这就像打扫房间,去掉多余的、不需要的物品,让整个环境更加清爽有序。 第三步,重新组织数据。 在完成数据清洗后,企业需要对数据进行整合,包括主数据管理、数据仓库构建等。通过建立主数据系统,确保不同部门和系统中的数据一致性,这是数据共享和整合的前提。 第四步,数据治理持久化。 建立例行的治理机制,如定期数据质量检查、元数据更新和维护、数据标准的动态调整等。数据治理不是一次性工作,而是需要融入到日常运营中,形成持续改进的闭环。 第五步,数据治理延伸。 将数据治理的成果推广到更广泛的数据管理和应用中,开展智能化的数据应用,如数据资产透视、智能搜索和发现等。这时,数据已从静态记录变成可分析、可预测、可挖掘的动态资源。数据治理是一项系统工程,需要技术与管理的结合,更需要组织层面的支持。在组织上,需要建立数据治理委员会,有业务部门和IT部门共同参与,让业务与业务之间、业务与技术之间能够充分沟通,达成共识。在一线实施中,你会发现数据治理既要大处着眼,又要小处着手。有时从几个关键数据项开始,循序渐进,比一开始就追求大而全的方案更容易成功。数据是企业的核心资产,而数据治理是激活这一资产的关键。有"治"有"理",你的数据才能成为真正的宝藏。 来源(公众号):大数据AI智能圈
2025-04-21 20:02 203
2025 年 2 月 19 日,当 ChatGPT - 5 以近乎人类的逻辑能力通过执业医师资格考试时,人们猛然惊觉:在 AI 时代,大模型的能力终将趋于相同,然而,真正决定胜负的关键,是隐匿于算法背后的高质量数据集。这就好比所有厨师都能购置相同的锅具,但唯有掌握独家秘方的人,才能烹饪出米其林三星级别的美食。 一、数据金矿的真相:核心竞争力所在 在 AI 领域,存在着一个有悖于直觉的现象:全球顶尖实验室的算法代码几乎全部开源,然而 OpenAI 仅仅依靠 45TB 高质量训练数据,便构建起了技术壁垒。这有力地印证了一个核心观点:模型能力终会收敛,而数据质量则决定了价值的上限。以谷歌医疗 AI 和特斯拉自动驾驶系统为例: •谷歌医疗 AI 凭借整合 200 万份电子病历、影像数据和基因组信息的多模态医疗数据集,使其诊断准确率高达 94%; •特斯拉自动驾驶系统则得益于车队每日回传的 160 亿帧真实道路场景数据,迭代速度远超同行。这些案例清晰地揭示出:当算力与算法成为基础设施时,数据质量才是真正难以逾越的护城河。相关文献指出,政府部门掌握着全社会 80% 的高价值数据,但当前公共数据开放率不足 30%,大量 “数据原油” 尚未被转化为 “数据汽油”。 同时,企业日常生产和服务中产生的数据,同样是一座尚未被充分开采的金矿。特斯拉每天通过全球 300 万辆汽车收集 160 亿帧道路数据,这些原本只是自动驾驶系统的 “副产品”,却成为其估值突破万亿美元的核心资产。企业数据价值可通过公式 “企业数据价值 = 数据质量 × 应用场景 × 流通效率” 来体现,其中数据质量由准确性、完整性、时效性构成,直接影响价值转化系数。 二、数据炼金术的重重难关 (一)数据荒漠化危机中文互联网优质语料仅占英文数据的 1/5,并且存在严重的长尾效应。据文献显示,某头部大模型在训练时,不得不使用 30% 的低质量网络爬虫数据,这导致模型出现 “幻觉” 的概率提升了 47%。 (二)数据孤岛困境某东部省份政务平台接入了 58 个部门的业务系统,但由于数据标准不统一,需要开发 142 个数据转换接口。这种碎片化的现状,直接致使智慧城市项目中数据分析成本占比高达 65%。 (三)数据标注的 “罗塞塔石碑”在自动驾驶场景中,标注 1 小时激光雷达点云数据,需要专业团队工作 3 天,成本超过 2000 元。文献指出,数据清洗与标注环节,消耗了 AI 项目 70% 的人力和时间成本。 三、企业数据炼金术:化腐朽为神奇 (一)企业构建高质量数据集四步法 1.数据治理筑基:美的集团通过建立 “数据字典”,统一 200 多个业务系统字段定义,将数据清洗效率提升 80%,设备故障预测准确率从 65% 跃升至 92%。关键措施包括: ◦制定《数据质量标准手册》明确 5 级质量评级; ◦部署自动化数据校验工具,实时拦截错误数据; ◦建立数据血缘图谱,实现全生命周期追溯。 2.技术赋能提纯:京东物流运用联邦学习技术,在不共享原始数据的前提下,联合 200 家供应商构建智能补货模型,库存周转率提升 37%。前沿技术应用还包括: ◦智能标注(AI 预标注 + 人工复核,使自动驾驶数据标注成本降低 60%); ◦合成数据(GAN 生成工业缺陷样本,解决小样本训练难题);◦区块链存证(为每个数据单元打上 “数字指纹” 确保可信)。 3.数据资产化运营:某头部电商将用户行为数据封装为 “消费者洞察指数”,通过数据交易所年交易额超 5 亿元。创新模式包括: ◦数据资产入表(按《企业数据资源会计处理规定》将数据集纳入资产负债表); ◦数据质押融资(以医疗影像数据集获得银行 2 亿元授信额度); ◦数据收益分成(与合作伙伴按模型效果进行分成结算)。 4.场景价值闭环:三一重工在工程机械安装 5000 + 传感器,实时数据驱动实现: ◦预测性维护(故障预警准确率 91%,维修成本下降 45%); ◦能耗优化(通过工况数据分析,设备油耗降低 18%); ◦产品迭代(根据 150 万小时作业数据改进新一代挖掘机设计)。 四、构建高质量数据集的多重炼金术 (一)政企协同的数据生态 深圳数据交易所创新推出 “数据海关” 模式,通过区块链技术实现政务数据与企业数据的合规流通。截至 2025 年 1 月,已完成医疗、交通等领域的 12 个跨域数据集建设,数据使用效率提升 300%。 (二)技术驱动的数据提纯 •采用 GAN 网络自动修复缺失数据,某电网公司设备故障预测准确率从 78% 提升至 93%; •银行间通过加密沙箱共享反欺诈数据,模型效果提升 40% 且不泄露原始数据。 (三)标准引领的质量体系 湖北省发布的《高质量数据集白皮书》首创 “5A” 评估标准(Accuracy, Accessibility, Authenticity, Auditability, Actionability),使金融风控数据集交易合格率从 32% 跃升至 89%。 (四)价值循环的商业模式 上海某三甲医院将脱敏后的 30 万份电子病历转化为医疗数据集,通过 “数据入股” 方式与 AI 企业合作,年收益超 2 亿元。这种 “DaaS(数据即服务)” 模式正在引发产业变革。 五、数据价值飞轮:从成本到利润的转变 当某乳企将奶牛体温监测数据转化为 “牧场健康指数” 产品时,意外开拓了年收入 3 亿元的数字化服务市场。这印证了数据价值创造的三大范式: 1.内生价值挖掘: ◦海尔工厂通过 MES 系统数据优化排产,交付周期缩短 32%; ◦顺丰利用运单数据训练智能路由算法,分拣效率提升 28%。 2.外延价值创造: ◦电网公司出售脱敏用电数据,助力新能源企业精准选址; ◦连锁药店联合药企开发 “区域流行病预警系统”,年服务费收入超 8000 万。 3.生态价值重构: ◦汽车制造商开放车辆数据接口,吸引 300 + 开发者创建车联网应用; ◦物流平台构建产业数据中台,带动上下游企业平均降本 15%。 六、数据资本主义时代的企业行动纲领 1.建立首席数据官(CDO)体系:平安集团 CDO 办公室统筹管理 200PB 数据资产,通过数据产品矩阵年创收超百亿。 2.打造数据中台 2.0:某银行升级数据中台为 “智能数据工厂”,实现: ◦实时数据服务响应速度 < 50ms;◦自动化数据产品生成效率提升 10 倍; ◦模型训练数据准备周期从周级降至小时级。 3.构建数据利益共同体:长三角 16 家制造企业共建 “工业数据联盟”,通过可信数据空间交换数据,实现: ◦共享设备故障数据训练行业级预测模型; ◦联合开发数据产品按贡献度分配收益; ◦建立数据质量联保机制防范风险。 七、未来图景:数据要素的崭新大陆 当数据质量认证体系与电力 ISO 标准同等重要时,我们或许将看到: •每个城市出现 “数据精炼厂”,专门处理原始数据到训练数据的转化; •出现类似穆迪的数据质量评级机构,为数据集颁发 “AAA” 信用证书; •数据质量保险成为新险种,承保 AI 模型因数据缺陷导致的决策失误。文献预言,到 2030 年,高质量数据集交易市场规模将突破万亿,成为比云计算更基础的数字经济基础设施。这场悄然发生的数据革命,正在重塑全球创新版图。因为,真正改变世界的,从来不是算法,而是算法背后那些经过千锤百炼的数据真相。在这个 AI 无处不在的时代,数据不是石油,而是能将铅块变成黄金的哲人石。那些率先掌握数据炼金术的企业,正在将生产流程中的每个字节转化为数字时代的硬通货。 参考文献: 1.王晓明。加快建设人工智能高质量数据集。科技日报,2025. 2.彭宗峰,周婧。政府开放数据治理体系构建。光明日报,2023. 3.深圳数据交易所。高质量数据集标准白皮书,2024. 4.企业数据质量管理实践,2024. 5.湖北省数据局。高质量数据集白皮书,2024. 6.华为《如何构建高质量大模型数据集》 来源(公众号):AI数据推进器
2025-04-10 10:36 344
你是否曾面对过这样的困境:海量数据如同洪水般涌来,传统数据库却无力应对?当分析查询需求日益增长,普通数据库却只能提供龟速的响应时间?当业务决策需要实时洞察,而系统返回的只有超时提示? 这正是Apache Doris要解决的核心问题。 Apache Doris:不止于速度的数据分析利器 Apache Doris是一款基于MPP架构的高性能实时分析型数据库,它以极致高效、超级简单和统一整合的特点在数据分析领域脱颖而出,能在亚秒级时间内完成对海量数据的查询请求,无论是高并发点查询还是复杂分析场景,Doris都能轻松应对。 我第一次接触Doris是在一个业务挑战中。当时面对每天超过几十亿条的用户行为数据,传统MySQL已无力支撑实时查询需求,整个团队陷入困境。一位同事推荐了Doris,半信半疑中我们决定一试。部署过程出乎意料地简单,只需配置两类节点:Frontend负责接收请求和解析规划,Backend负责存储和执行。三天后,系统上线,原本需要20分钟的复杂分析查询,响应时间降至1.2秒。 Doris最初是百度广告报表业务的Palo项目,2017年对外开源,2018年由百度捐赠给Apache基金会孵化。2022年6月,正式成为Apache顶级项目。如今,Apache Doris已在全球超过5千多家企业环境中落地应用,包括百度、美团、小米、京东、字节跳动等国内80%的顶级互联网公司,以及众多金融、消费、电信、工业制造、能源和医疗领域的企业。 Doris核心竞争力:架构简洁、性能强劲 与同类产品相比,Doris的架构简洁得令人惊讶。整个系统只有两类进程:Frontend(FE):负责接收用户请求、查询解析规划、元数据管理和节点管理。Backend(BE):负责数据存储和查询计划执行。这种高度集成的架构极大降低了分布式系统的运维复杂度。一位资深运维工程师曾对我说:"相比其他分布式系统动辄十几个组件的复杂架构,Doris就像一股清流,它让我们从繁琐的运维工作中解脱出来。" Doris还支持存算分离架构,用户可以根据业务需求灵活选择。从Doris3.0版本开始,可以使用统一的共享存储层作为数据存储空间,独立扩展存储容量和计算资源,实现最佳性能和成本平衡。性能方面,Doris采用列式存储技术,对数据进行编码与压缩,大幅优化查询性能和存储压缩比。它的查询引擎基于MPP架构,支持向量化执行,能高效处理复杂分析查询,实现低延迟实时分析。一家电商公司的数据团队负责人分享过他们的使用体验:"我们有一张包含1亿条记录的用户行为分析表,在Doris上执行复杂的多维分析查询,平均响应时间仅为0.8秒,而同样的查询在我们之前的系统上需要15秒以上。这种性能差异直接改变了分析师的工作方式。" Doris实战应用:从理论到实践 Doris主要应用于以下场景: 实时数据分析:提供实时更新的报表和仪表盘,支持实时决策需求;实现多维数据分析,支持即席查询;分析用户行为和画像。 湖仓融合分析:加速湖仓数据查询;支持跨多个数据源的联邦查询;结合实时数据流和批量数据处理。 半结构化数据分析:对分布式系统中的日志和事件数据进行实时或批量分析。一家金融科技公司的CTO曾向我展示他们如何利用Doris构建全公司的实时分析平台。 "我们每天处理超过10亿笔交易数据,需要实时监控交易异常、分析用户行为和评估风险。传统方案要么延迟高,要么成本高,直到我们发现了Doris。现在,我们的风控团队可以在秒级内检测可疑交易,大大提高了系统的安全性。" Doris的MySQL协议兼容性也极大降低了用户学习成本。通过标准SQL语法,用户可以使用各类客户端工具访问Doris,实现与BI工具的无缝集成。 结语 一位资深数据架构师曾这样评价:"Doris给我最大的惊喜不是它的速度,而是它的稳定性。在我们长达18个月的使用过程中,即使面对节点故障、网络波动等各种问题,Doris依然保持着稳定的服务。" Apache Doris正在为数据分析带来革命性变化。通过极简的架构、卓越的性能和广泛的生态兼容性,它让企业能够真正发挥数据的价值,从海量信息中获取实时洞察。无论是互联网巨头还是传统行业,Doris都提供了一条高效、低成本的数据分析之路。 来源(公众号):大数据AI智能圈
2025-04-07 18:02 243
大数据领域有个有趣现象:当一项技术引发热议时,我们往往忘记它已经存在多久。数据湖就是这样一个例子。 2010年,Pentaho创始人詹姆斯·狄克逊在纽约Hadoop World大会提出"数据湖"概念。时至今日,这项技术已经走过十多年历程,经历了从概念到应用的完整演变。 让我们放下技术细节,重新审视数据湖在这十几年间发生的变化与未来可能的发展方向。 数据湖:从概念到现实的三次飞跃 詹姆斯·狄克逊最初对数据湖的描述很朴素:"把原来在磁带上存储的东西倒入数据湖,就可以开始探索数据了。"这个概念听起来简单,却解决了当时企业面临的核心痛点:如何高效存储和分析多种类型的数据。 数据湖的引力场:吸引企业的四大磁力 站在2025年回望,数据湖之所以能从概念走向广泛应用,源于其四大独特吸引力:无限包容的数据接纳能力。数据湖支持从结构化数据到半结构化数据,再到非结构化和二进制数据的全方位接入。企业不再担心"这种数据无法存储"的问题。随着5G和物联网的发展,实时流数据处理需求激增,数据湖的这一特性显得尤为珍贵。打破数据孤岛的整合能力。传统企业IT系统呈"烟囱式"架构,各应用间数据互不相通。数据湖通过汇集不同来源的数据,解决了这一长期困扰企业的痛点。一位制造业CIO曾对我说:"数据湖让我们第一次看到了整个公司的全貌。"灵活多变的分析能力。与数据仓库严格的"写时模式"(Schema-On-Write)不同,数据湖采用"读时模式"(Schema-On-Read),保留数据原始状态。这一特性使企业能够根据不同需求灵活定义分析模型,无需预先确定数据用途。敏捷可扩展的架构能力。数据湖基于分布式架构,扩展时不会"牵一发而动全身"。一家电商企业在双11期间只用三天时间就完成了数据湖的扩容,而传统方案可能需要数周甚至数月。 云上数据湖:技术演进的新阶段 数据湖发展十年,最关键的转折点是云计算的普及。企业级数据湖对性能、扩展性、稳定性和经济性要求极高,这恰恰是云服务的优势所在。AWS、微软Azure、阿里云、华为云成为数据湖领域的主力玩家。AWS于2018年推出Lake Formation服务;Azure早在2015年就布局了数据湖服务;阿里云在2018年中推出Data Lake Analytics;华为云则提供了Data Lake Insight服务。云服务商带来三个关键改变:一是降低了数据湖的使用门槛,企业无需复杂的技术积累即可快速部署;二是增强了数据湖的安全性与稳定性,解决了企业对数据安全的顾虑;三是引入了serverless架构,企业可按需付费,避免资源浪费。数据湖与数据仓库的关系也发生了微妙变化。最初业界认为数据湖将替代数据仓库,但十年发展表明两者各有所长,可以协同工作。数据湖适合存储原始数据并支持灵活分析,而数据仓库仍是结构化数据查询报表的理想选择。一位资深数据架构师形象地说:"数据湖是原材料市场,数据仓库是精品超市,两者相辅相成。" 数据湖的未来:AI驱动的智能化演进 数据湖走过十年发展历程,未来道路将更加清晰。结合当前技术发展趋势,未来五年数据湖将呈现五大发展方向:AI增强治理能力。当前数据湖面临的最大挑战是"数据沼泽化"——数据存储容易,但治理困难。未来数据湖将深度融合大模型技术,实现智能元数据管理、自动数据分类和关联分析,降低数据治理成本,提升数据质量。实时处理能力升级。流批一体已成为数据处理的基本需求。下一代数据湖将进一步提升实时处理能力,支持毫秒级数据响应,满足物联网、智能制造等场景的超低延迟需求。多云协同统一视图。企业数据分散在多个云平台已成常态。未来数据湖将突破单云边界,实现跨云数据共享与计算,为企业提供统一数据视图,避免新的"云上数据孤岛"。数据安全与隐私保护。随着数据价值提升,安全重要性日益凸显。未来数据湖将内置更完善的权限控制机制,并融合联邦学习、隐私计算等技术,平衡数据共享与隐私保护的矛盾。数据资产价值量化。数据价值难以衡量一直是困扰企业的问题。未来数据湖将引入数据资产评估模型,通过使用频率、业务贡献等指标量化数据价值,帮助企业精准投资数据资源。 回望数据湖近十几年发展,我们看到的不仅是一项技术的成熟,更是数据价值观念的革命。从"存得下"到"用得好",企业数据应用思维正在发生根本性转变。数据湖从未许诺解决所有数据问题,它只是为企业提供了一个更灵活、更包容的数据管理方案。就像自然界的湖泊需要活水循环才能保持生态平衡,企业数据湖也需要持续的数据流动与治理,才能避免沦为"数据沼泽"。十年前,詹姆斯·狄克逊提出数据湖概念时可能没有预见到今天的繁荣景象。十年后的今天,我们有理由相信,随着AI技术融合与企业数字化转型深入,数据湖还将迎来更广阔的发展空间。未来已来,数据湖的旅程才刚刚开始。 来源(公众号):大数据AI智能圈
2025-04-03 18:21 321
想不想让AI化身你的数据小助手? 21世纪的数据就像一缸水泥,没有合适的工具,就会变得又重又难搬。过去我们靠人工标注、人工研判、人工决策,工作效率就像蜗牛爬楼梯。 直到大模型带着"魔法棒"来了。它不仅能自动分类数据、智能检索信息,还能在1分钟内完成风控决策。就像给数据管理装上了"智慧引擎",让繁重的工作变得轻松自如。 让我们一起来了解如何用大模型这根"魔法棒",搅动数据治理这缸"水泥",让数据工作变得既轻盈又高效的精彩故事。 大模型在数据管理领域的创新应用 如何大模型技术引入数据治理,实现了数据管理效率的质的飞跃?从最开始的数据分类分级到元数据检索,再到风控运营智能化,大模型正在重塑数据管理的未来。 在数据管理领域,大模型展现出强大的智能化能力。通过大模型实现数据分类分级自动化,将人工成本降低90%。过去,数据分类分级需要大量人力投入,研发人员需要逐个标注表格,不仅效率低下,标注结果也存在主观差异。 大模型解决方案采用向量化存储分类规则,结合prompt工程规范化输出。通过这种方式,系统能自动识别数据类型并给出合理的分类分级建议。这项技术不仅提升了效率,还保证了分类结果的一致性。 在元数据检索方面,大模型突破了传统关键词匹配的局限。系统能理解用户意图,自动关联相关信息,提供更精准的检索结果。一个典型场景是,用户查询"财富等级"时,系统不仅返回直接相关的表字段,还会智能联想"风险等级""信用卡等级"等相关信息。 大模型在风控运营领域的创新应用 在金融支付领域,风控决策向来是一个复杂且关键的环节。接下来一起聊聊,如何将大模型引入风控运营,构建了一个全新的智能风控体系。 传统风控运营面临三大挑战:一是信息碎片化,风控人员需要在多个系统间切换查询信息;二是知识更新快,新型风险层出不穷;三是人工研判慢,一个案件处理往往需要30分钟以上。 智能风控架构采用"聚合+AI+工作流"的创新方案。首先构建综合风控平台,将交易信息、身份信息、操作信息等多维数据实时聚合。其次引入Agent技术,将复杂的风控判断拆分为多个微任务,通过工具代理、任务切分、记忆管理等模块协同完成风险研判。 这套系统实现了显著的效率提升。风控案件处理时间从30分钟缩短至1分钟,准确率保持在95%以上。系统不仅能给出风险判断,还能生成详细的处置建议,包括用户画像、风险分析、处置方案等。 在电话照会环节,系统能根据案件特征自动生成个性化的询问话术。通过分析历史成功案例,系统总结出一套智能问询模板,帮助风控人员一次性获取关键信息。这不仅提升了工作效率,还降低了对客户的打扰。 在技术架构上,可以采用了"RAG+Agent+Workflow"的创新组合。RAG技术实现知识库的智能检索,Agent技术负责任务分解与执行,Workflow则确保整个流程的有序推进。 针对RAG召回效率不高的问题,团队创新性地引入了IUR(Incomplete Utterance Rewriting)组件。该组件能智能补全用户查询中的隐含信息,显著提升检索准确度。同时采用HiveToCache架构优化检索速度,使用Rerank算法提升召回质量。 在Agent设计上,采用"规划者-观察者-决策者"的三角色协作模式。规划者负责理解问题并设计执行路径,观察者负责监控执行过程并收集反馈,决策者则基于所有信息作出最终判断。这种设计既保证了处理的全面性,又提升了系统的可靠性。 通过这些技术创新,可以成功实现了数据管理和风控运营的智能化升级。这些实践不仅提升了业务效率,更为金融行业的数智化转型提供了宝贵经验。未来,随着大模型技术的持续演进,数据管理领域将迎来更多创新突破。 来源(公众号):大数据AI智能圈
2025-03-26 18:42 204
你有没有遇到过这样的数据困境:一个指标异常,却不知道问题出在哪里;一个任务变更,担心会影响到哪些下游;几百个数据任务盘根错节,想理清楚却无从下手... 这些让数据从业者头疼的问题,都指向了一个关键技术 - 数据血缘。 数据血缘技术:重塑大数据治理的未来 在超大规模数据驱动的时代,一个企业的数据规模可能达到数百PB,日均任务量轻松破万。数据血缘技术正悄然崛起,成为撬动企业数据资产的关键支点。 数据血缘技术革新正全方位重塑企业数据治理格局。传统数据治理模式下,企业面临着数据资产管理混乱、数据质量难以保障、数据资源浪费等痛点。数据血缘技术通过构建全链路数据关系图谱,让企业数据资产管理进入智能化新阶段。 在现代企业运营中,一个看似简单的数据报表背后,往往涉及复杂的数据加工链路。从原始日志采集、数据清洗、特征计算,到最终的指标呈现,动辄几十上百个任务节点相互依赖。任何一个环节出现问题,都可能导致数据质量受损。数据血缘技术正是解决这一复杂性的关键。数据血缘技术核心在于解析与追踪数据流转过程中的依赖关系。 从技术架构看,一个完整的数据血缘系统包含三层:数据源层负责采集各类数据源信息、处理层通过血缘解析引擎分析数据间的关联关系、应用层则基于血缘数据支撑数据开发、治理等场景 在工程实践中,血缘系统面临三大挑战: 全面性 需要覆盖从埋点采集到应用消费的全链路血缘关系。企业级数据体系涉及多种异构数据源,血缘系统要能适配不同类型数据源的解析需求。 准确性 血缘关系解析必须准确无误。任何解析错误都可能误导下游决策。这要求血缘解析引擎具备强大的解析能力,能正确理解各类数据处理逻辑。 实时性 血缘关系需要随数据处理逻辑变化而实时更新。大规模数据体系下每天都有大量任务变更,血缘系统要能快速感知并更新血缘关系。 数据血缘系统:架构设计与关键突破 解析引擎作为数据血缘系统的大脑,承担着识别和提取数据间依赖关系的重任。面对SQL、Python、Java等多样化的数据处理代码,解析引擎需要准确理解其中的数据流转逻辑。 业界主流方案采用Antlr和Calcite组合架构。Antlr负责词法和语法解析,将代码转化为抽象语法树;Calcite则专注于SQL优化,提供统一的关系代数模型。这种组合让血缘系统既能处理标准SQL,又能应对复杂的脚本语言。 血缘存储层采用图数据库技术,将数据实体和依赖关系建模为点和边。 考虑到海量血缘数据的存取效率,系统往往会同时维护两套数据模型:一套面向写入优化,一套面向查询优化。这种双模型设计既保证了血缘数据的实时性,又兼顾了查询性能。 在实际应用中,数据血缘技术正在重塑数据开发模式。开发人员通过血缘分析快速定位数据来源,评估代码变更影响范围。血缘系统甚至能基于历史血缘关系,智能推荐最佳数据处理方案,大幅提升开发效率。 数据治理领域,血缘技术让资源优化有了精准抓手。通过分析数据血缘图谱,系统能够识别出重复计算、低价值存储等资源浪费点。运维团队据此进行精准治理,既降低存储成本,又提升计算效率。 数据安全方面,血缘技术为敏感数据保护提供全新思路。系统通过追踪敏感数据的传播路径,及时发现潜在风险,并自动采取脱敏、加密等保护措施。这种基于血缘的主动防护,让数据安全管理更加智能和高效。 数据血缘优化:从评估到提升 衡量数据血缘系统的质量,需要构建科学的评估体系。业界普遍采用"三率"指标:覆盖率、准确率和时效性。 覆盖率关注血缘系统对数据全链路的把控能力。一个优秀的血缘系统应该覆盖所有关键数据节点,包括数据源采集、任务处理、应用消费等环节。当前头部互联网公司的血缘覆盖率普遍超过95%,有力支撑了数据治理工作。 准确率衡量血缘关系识别的精准度。血缘关系存在表级和字段级两个粒度,字段级血缘解析难度更大。解析准确性直接影响下游应用的可靠性。领先企业通过持续优化解析引擎,将准确率提升至99%以上。 时效性度量血缘信息的新鲜度。在敏捷开发环境下,数据处理逻辑频繁变更,血缘关系需要实时更新。通过流式采集和增量解析等技术,优秀血缘系统能将更新延迟控制在分钟级。 数据血缘技术正在向更智能、更精细的方向演进。 智能解析引擎将借助机器学习技术,提升复杂代码的解析能力。语义级血缘分析将帮助理解数据间的业务关联。知识图谱技术的引入,将让血缘系统具备推理能力,预测数据变更影响。跨域血缘是另一个重要发展方向。 随着企业数据规模扩大,跨数据中心、跨组织的数据协作日益普遍。构建统一的跨域血缘体系,将成为数据治理的新课题。 大数据时代,血缘技术正在成为连接数据资产的桥梁。通过持续创新和实践,血缘技术必将为企业数据治理带来更大价值。 来源(公众号):大数据AI智能圈
2025-03-25 18:59 198
热门文章