定义 在人工智能(AI)和信息科学领域,本体论指的是对概念的正式且明确的描述。让我们来详细解读一下这个定义。 形式化:本体之所以是形式化的,是因为它们是根据明确的规则和规范设计的。它们通常利用形式逻辑或其他形式化方法,以结构化和系统化的方式表示知识和关系。这种形式化有助于确保知识表示的精确性、一致性和互操作性。 显式规范:本体对概念、其属性以及它们之间的关系进行了显式规范。这种规范通常使用形式化语言或符号进行记录,例如 RDF(资源描述框架)、OWL(Web 本体语言)或其他。本体的显式特性使得不同利益相关者之间能够共享和交流领域知识。 概念化:本体论捕捉领域或主题的概念化。它们定义了与该领域相关的基本概念、类别和关系,并抽象出具体的实例或实现方式。本体论旨在捕捉领域的本质结构和语义,从而促进对领域实体及其相互联系的推理和推断。 总而言之,在人工智能领域,本体是对某一领域概念的正式且明确的表示。它提供了一个结构化的框架来表示知识,促进特定领域内或不同领域间的知识共享、整合和推理。 逻辑选择 用于表示这种概念化的逻辑或形式的选择,可以根据被建模领域的需求和特点而有所不同。 在人工智能中使用模糊逻辑或二阶逻辑等逻辑来表示本体时,本体开发的基本原则仍然适用: 形式化规范:本体无论采用何种逻辑,都应遵循形式化的规则和规范。模糊逻辑和二阶逻辑分别提供了表示不确定性、部分真值或高阶关系的形式化框架。 显式表示:本体应提供领域内概念、属性和关系的显式表示。模糊逻辑和二阶逻辑允许显式地描述传统二元逻辑难以捕捉的复杂关系和属性。 领域概念化:本体捕捉领域的概念化,抽象出具体的实例或实现方式。模糊逻辑和二阶逻辑使本体能够表示领域知识中更细致、更复杂的方面,例如模糊概念或整体-部分关系。 结构化表示:本体应提供一个结构化的知识表示框架,以促进领域内及跨领域的推理、推断和知识共享。模糊逻辑和二阶逻辑可用于构建本体,从而支持形式化的推理和推断。 因此,即使使用模糊逻辑或二阶逻辑等替代逻辑,只要保持领域知识的形式化和显式表示,并且由此产生的本体能够在感兴趣的领域内实现知识表示、推理和推断的预期目的,人工智能中的本体概念仍然具有相关性。 关于本体论的共识方面 在领域内,本体论的共识性对其有效性和实用性至关重要。原因如下: 共享理解:本体为领域内的利益相关者提供共享的词汇表和概念框架。对本体中定义的定义、关系和约束达成共识,可确保所有参与方对该领域的概念及其相互关系有共同的理解。 互操作性:对本体达成共识有助于社区内不同系统、工具和数据集之间的互操作性。当所有参与方都认同通用本体时,数据交换和集成、知识共享以及项目协作都会变得更加容易,从而避免歧义和误解。 可重用性:共识本体更容易被社区内的不同项目和应用程序广泛采用和重用。这有助于提高一致性,减少重复工作,并随着时间的推移积累共享知识。 演化与维护:共识本体可以通过社群内的协作努力而不断演化。随着新的见解、实践或需求的出现,利益相关者可以共同完善和更新本体,以反映领域的变化。共识促进了本体维护的持续过程,并确保其保持相关性和时效性。 验证与质量保证:共识本体需经过社区内部的验证和质量保证流程。通过同行评审、测试以及领域专家的反馈,利益相关者可以确保本体能够准确地表示领域概念,并满足社区的要求和标准。 总而言之,本体在领域内的共识性对于促进共同理解、互操作性、可重用性、演进和验证至关重要。通过就本体达成共识,利益相关者可以利用他们的集体专业知识和视角,构建一个稳健且被广泛接受的领域知识和概念表示。 由此可以推断,使用 OWL 不足以定义本体,它只能定义本体的形式,而不能定义本体的内容,本体的内容应该是关于某个感兴趣的主题的知识,并且需要达成共识。 本体和软件应用开发 在开发软件应用程序时,将本体与数据的概念、逻辑和物理表示联系起来,可以极大地提高开发过程的效率和效力。以下是如何将各个方面联系起来: 本体与概念表示:本体对领域概念化进行了形式化和显式的规范,捕捉了与该领域相关的基本概念、属性和关系。软件开发中的概念表示涉及以与本体一致的方式对领域概念及其关系进行建模。通过将本体与概念表示相结合,开发人员可以确保软件应用程序准确反映领域的结构和语义,从而促进利益相关者之间的共识。 本体与逻辑表示:本体可以与软件应用中数据的逻辑表示(例如数据库模式或面向对象模型)相联系。逻辑表示定义了软件应用中数据元素的结构和组织,包括实体、属性、关系和约束。通过将本体概念映射到逻辑数据结构,开发人员可以确保软件应用中使用的数据模型反映本体对领域的定义,从而提高一致性和互操作性。 本体与物理表示:本体还可以与数据的物理表示相关联,例如存储格式、数据编码方案或序列化格式。物理表示是指在特定技术或平台上实现逻辑数据模型,例如关系数据库、XML 文件或 JSON 文档。通过保持本体、逻辑表示和物理表示之间的一致性,开发人员可以确保数据的存储、交换和处理方式能够保留其语义和含义,从而促进数据互操作性和重用。 因此,将本体与软件应用中数据的概念、逻辑和物理表示联系起来,能够促进开发过程中不同层面的一致性、互操作性和共同理解。通过使这些表示与本体保持一致,开发人员可以确保软件应用准确反映领域知识和语义,从而获得更高效、更易于维护的软件解决方案。 人工智能语境下的本体论 在当前围绕大型语言模型(LLM)和可解释人工智能(XAI)的讨论中,本体在应对与模型透明度、可解释性和可问责性相关的挑战和问题方面发挥着重要作用。以下是本体与这些讨论的交集: 透明性和可解释性:诸如GPT(生成式预训练Transformer)模型之类的语言学习模型(LLM)在各种自然语言处理任务中展现出了卓越的性能。然而,它们的内部运作机制可能并不透明,使得理解它们如何得出预测结果变得困难。本体可以提供结构化的知识表示,从而补充语言学习模型的能力。通过将本体知识融入人工智能系统,可以为模型输出提供上下文相关的信息和解释,从而增强其透明度和可解释性。 可解释人工智能 (XAI):XAI 技术旨在为人工智能系统做出的决策提供解释,使用户能够理解其背后的原理以及影响模型预测的因素。本体论可以通过捕获领域知识和因果关系,为开发 XAI 技术奠定基础。通过将逻辑逻辑模型 (LLM) 的输出与本体论概念和关系相匹配,可以生成有意义且易于解释的模型预测解释。 语义理解:本体通过提供共享的词汇表和语义来表示领域内的概念、实体和关系,从而促进语义理解。这种语义丰富性能够增强语言学习模型(LLM)的可解释性,使其能够基于结构化的知识表示进行推理和推断。通过利用本体,LLM 可以整合领域特定的知识和约束,从而产生更具上下文相关性和可解释性的输出。 信任与问责:逻辑逻辑模型的不透明性引发了人们对信任和问责的担忧,尤其是在医疗保健、金融和刑事司法等高风险应用领域。本体论可以通过提供人工智能系统所用知识的透明且可审计的表示来帮助解决这些问题。通过在本体论中记录知识来源、假设和决策标准,可以追踪和解释模型预测背后的推理过程。 因此,本体通过提供领域知识的结构化表示,在增强大语言模型(LLM)的透明度、可解释性和可问责性方面发挥着至关重要的作用。通过将本体知识与逻辑逻辑模型相集成,可以生成更易于解释且更值得信赖的人工智能系统,使其符合人类的期望和特定领域的要求。本体与逻辑逻辑模型的这种集成有助于在可解释人工智能时代持续开发负责任且符合伦理的人工智能技术。 为新手进行本体论实验 你可以使用 Protégé Desktop 和相关的推理引擎在网络上玩转本体——其中许多本体都是公开可用的。 以下是一种可能的方法: 1)理解领域:确定感兴趣的领域及其关键概念、实体和关系。您可以从领域文档或已有的领域本体入手。 2)选择工具:Protégé 是一款流行的免费本体开发工具。请从其官方网站下载并安装。 3) 设计本体:使用 Protégé 直观的界面设计本体。首先创建概念类,并定义关系属性。 4) 填充知识:添加实例并填写属性,以使用特定领域的知识填充本体。此外,还可以探索网络上现有的本体,例如使用 BioPortal 或 Linked Open Vocabularies (LOV) 等资源,以重用现有的概念和关系。 5) 推理实验:使用 Protégé 内置的推理引擎,在激活引擎后探索和观察推断出的元素。我们可以参考一些现有的教程,例如社区提供的关于披萨的教程。 6)评估与迭代:评估本体的有效性和可用性。根据反馈和评估结果迭代设计,同时考虑本地开发的本体和网络上可用的本体。 7) 记录和分享:记录本体的设计和使用情况,并与 Protégé 社区成员或标准本体库中的其他成员分享。此外,通过提供反馈或运用您的领域知识扩展现有本体,为网络上可用的本体做出贡献。 值得注意的是,Protégé 允许远程访问 Web 上发布的本体,您甚至可以在同一个项目中导入多个本体,以便建立一些依赖于 OWL 等价性和包含关系的语义映射。 小结 本文解释了人工智能中的本体是什么,从定义开始,指出可以使用多种逻辑,强调本体共识的重要性,将其与应用程序开发联系起来,将其置于当前的人工智能背景下,最后提出依靠 Protégé 进行实验的步骤。 我使用本体论已经很多年了,因为本体论是准备和构建操作互操作性的关键推动因素之一。
2026年全国两会期间,数据领域相关话题成为众多全国人大代表和全国政协委员关注的焦点。我们综合各类媒体和平台的公开报道,对2026年两会中有关数据工作的建议提案进行了梳理,倾听代表委员声音,不断提升数据工作质效。 黄群慧 全国政协委员、中国社会科学院经济研究所研究员 完善要素市场化配置 全国政协委员、中国社会科学院经济研究所研究员黄群慧表示,各类生产要素涵盖范围广泛,既包括资金、人才、土地等传统要素,也包括算力、数据等新型要素,知识产权、能源电力等也都属于重要的生产要素范畴。各类要素具有自身独特的属性和运行规律,这就决定了要素市场化配置体制机制建设不能“一刀切”,必须结合要素特点精准施策。 对加快完善要素市场化配置体制机制,黄群慧委员建议:一是畅通要素流动渠道,重点破除城乡流动壁垒,完善户籍制度改革,推进基本公共服务均等化,推进劳动力要素市场化配置;二是健全要素价格形成机制,完善要素市场化定价机制,使价格能真实反映要素稀缺程度和使用效率,引导要素资源向优质高效领域集聚,提升要素配置的整体效率;三是加大反垄断、反不正当竞争力度,强化要素市场监管,经营主体平等使用生产要素、公平参与市场竞争,营造公平透明、规范有序的要素市场环境;四是加大数据要素产权界定的探索力度,深入探索数据资源持有权、加工使用权等各类权能的合理界定,建立健全数据确权授权机制、定价机制和交易规则。 来源:经济日报 王杜娟 全国人大代表、中铁工业总工程师兼中铁装备首席专家 强化对中小企业数字化转型的支持 全国人大代表、中铁工业总工程师兼中铁装备首席专家王杜娟认为,当前我国中小企业缺乏数字化技术能力和专项资金支持,难以实现“工业级数据联动”。现行科技创新政策、税收政策、银行信贷政策等多偏向制造业,而推动数字化转型的数据要素型企业(高营收、低研发占比、轻资产)难以平等受益。她建议,设立专项扶持基金,支持中小企业以低成本获取数字化转型技术,如工业互联网平台接入、数字孪生改造等;同时扩大政策覆盖范围,推出“数据要素型企业”认证国家或行业标准。 来源:央广网 程伟 全国人大代表,中国移动通信集团湖南有限公司党委书记、董事长、总经理 加快完善数据安全可信流通体系 全国人大代表,中国移动通信集团湖南有限公司党委书记、董事长、总经理程伟建议,加快完善适应数字经济特征的数据产权登记制度,探索数据资源持有权、数据加工使用权、数据产品经营权等分置运行的实现路径;同时加快完善政务数据安全合规评估等标准体系,推动建立覆盖国家、省、市、县四级的分布式数据目录体系,明确数据共享范围、责任主体和更新时限,实现全国政务数据“一本账”管理。他还建议,支持符合安全资质的科技企业、专业机构等市场主体,投资建设基于隐私计算、区块链、数据沙箱等技术的第三方可信数据流通服务平台,拓展应用场景深度;鼓励数据持有方与数据服务商合作,将原始数据转化为标准化、模块化、场景化的数据产品(如分析报告、指数产品、模型API等)和安全合规的数据服务。 来源:中国新闻网
本文主要讲如何构建智能体的大脑。图的实际形态是什么样的?代理如何使用它?如何管理它?如何获取部落知识?会遇到什么问题?以及从哪里入手? 一个可作为起点的核心元模型 涵盖所有四个元数据类别的最小模式,既小到足以满足首次迭代的需求,又足够丰富以满足实际代理工作流程的需求: 节点:( : DataAsset { id, name, platform, lifecycle_status, sensitivity } ) ( : Field { name , type , description } ) ( : Metric { name, definition, grain, owner_team } ) ( : Policy { name, type , scope, valid_from } ) ( : Owner { id, name, team, role } ) ( : AgentRun { id, timestamp, task, outcome, success } ) ( : Decision { type , rationale, confidence, human_reviewed } ) ( : TribalKnowledge { text, source, captured_at, validated } )关系:( DataAsset ) - [ : HAS_FIELD ] -> ( Field ) ( Metric ) - [ : DERIVED_FROM ] -> ( DataAsset ) ( DataAsset ) - [ : FEEDS ] -> ( DataAsset ) // 血缘关系( Policy ) ) - [ : APPLIES_TO ] -> (数据资产|字段|指标) (所有者) - [ : OWNS ] -> (数据资产|指标) (代理运行) - [ : MADE_DECISION ] -> (决策) (决策) - [ : USED_ASSET ] -> (数据资产) (决策) - [ : USED_METRIC ] -> (指标) (决策) - [: CITED_POLICY ] -> ( Policy ) ( Decision ) - [ : INFORMED_BY ] -> ( TribalKnowledge ) ( AgentRun ) - [ : CORRECTED_BY ] -> ( Owner ) // 人工反馈 这是最小可行元模型。每个组织都会根据自身领域对其进行扩展,但这些节点和边涵盖了核心用例:血缘遍历、策略执行、指标消歧和决策审计。 代理如何实际使用图 只有当智能体能够在正确的时间检索到正确的上下文时,元模型才有意义。以下三个遍历示例说明了元知识图谱在实践中的工作原理: 1. “找到回答此问题最安全的数据集。”当代理需要数据来回答查询时,它不会直接选择第一个匹配的表。它会遍历:DataAsset 节点,并根据策略合规性(我的角色是否满足策略要求?)、新鲜度(上次更新是否在服务级别协议 (SLA) 范围内?)和质量评分(信任评分是否高于阈值?)进行筛选。该图返回一组按排名排列的候选资产,而不是随意猜测。 2.“解释代理选择指标 X 的原因。”审计员或治理团队从代理的回答开始追溯:代理运行程序做出决策,该决策引用了指标(及其权威定义),该指标源自数据资产(及其沿袭关系),而该决策又参考了所有者(上个月验证该定义的领域专家)的更正。一次遍历即可获得完整的溯源信息。 3. “展示管道故障的影响。”事件触发后,代理程序会从故障数据资产的上游(其数据来源)和下游(其数据流向何处)进行遍历。它会找到依赖于该资产的下游消费者(指标,以及如果组织已扩展元模型,则还包括仪表板和报告),识别所有者,并标记受影响的代理程序运行,因为这些运行的决策可能基于过时的数据。过去需要分析师花费数小时进行手动调查的工作,现在只需进行一次图查询即可完成。 在实践中,代理通常会采用混合检索模式:首先利用图遍历获取结构信息(血缘关系、所有权、策略约束、实体解析),然后结合向量搜索获取非结构化上下文信息(例如运行手册、讨论串和先前经验知识的整合摘要,而非原始对话,因为对碎片化的多文档讨论进行向量搜索会丢失跨文档块的上下文信息,因此结果不够可靠)。最后,利用诸如新鲜度和质量评分等操作信号对结果进行重新排序。图遍历提供精确性和可审计性,而向量搜索则提供对杂乱的人工生成内容的召回率。两者结合,可以覆盖企业上下文的全部范围。 治理即图,而非行政机构 在元知识图谱中,治理是内在的,而非外在的。这是一项设计原则,而非事后考虑:从一开始就定义策略节点。 策略被建模为图中的节点,并通过“Applies_To”边连接到特定的数据资产、列或用户组。当代理请求访问数据集时,系统会从代理的身份节点遍历到目标数据节点。如果路径与代理不满足的限制性策略节点相交,则访问将被拒绝。关键在于,这种策略评估由平台的授权层强制执行,而不是由代理或LLM自行监管。这使得基于属性的动态访问控制能够随着组织复杂性的增加而扩展。 还有一种更为隐蔽的治理风险值得关注。一旦元知识图谱随着时间的推移承载了决策、假设和默认设置,它就不再仅仅是信息载体,而是开始承载权威。原本被记录为“上次我们是这样做的”的模式,可能会悄然变成“我们一直以来都是这样做的”,而这种转变并没有任何明确的授权。记忆变成了无声的政策。如果一个代理从之前的项目中继承了一条解决方案规则,它不仅仅是在重用一个模式,而是继承了一种基于特定决策的行动权限,而这个决策可能是在不同的背景下由一个可能不再对此负责的人做出的。 这意味着代理的内存管理必须像权限管理一样,而不是像文档管理一样。图中的每个持久模式和规则都应该有所有者、过期或审核日期,以及定义其适用范围的权限。该图应该能够轻松地询问:“谁授权了这条规则?何时授权的?它在这个上下文中仍然适用吗?” 如果没有这些控制措施,元知识图谱就会变成积累不受约束的权限的机制,这与其旨在提供的透明性背道而驰。 在实践中,这意味着要根据范围和敏感性对内存进行分类。针对欧洲、中东和非洲地区 (EMEA) 欺诈检测验证的规则不应自动推广到亚太地区 (APAC) 合规性。源自人力资源流程的内存不应向销售代理开放。规则应包含一个随时间衰减的置信度信号,当置信度低于阈值时触发重新验证,而不是静默地保持完全权限。该图通过与数据相同的基于路径的访问控制来强制执行此操作:如果从代理身份到内存节点的遍历路径与代理不满足的范围或敏感性限制相交,则不会显示该内存。 代理做出的每个决策都与图相关联,从而提供完整的溯源信息。如果出现问题,利益相关者可以追踪从决策节点到证据节点和规则节点的路径。治理代理可以遍历新的决策路径,并在最终确定行动之前标记偏差。 该治理层还与运营数据质量相集成。当质量检查失败时,该失败会沿着图传播,并标记下游用户。在受监管行业中,决策轨迹提供了审计人员所需的可验证的溯源信息。元知识图谱以静态政策文件永远无法实现的方式实现了治理。 获取企业知识:最难的问题 每个组织都依靠内部经验运作:不成文的规则、例外情况以及那些“人尽皆知”的假设,这些都不会被写入正式文档。这些经验散落在聊天记录(包括人与人之间的聊天记录和人与人工智能之间的聊天记录)、内部维基、代码注释和拉取请求、支持工单、事件报告和会议记录中。 让我们坦诚面对这其中的困难。部落知识之所以存在,不仅是因为将其正式化从未值得付出努力,更是因为正式化本身就令人望而生畏。它是有机演进的,一次只关注一个例外。围绕每一条细小的知识添加流程,就会引入官僚主义,反而拖慢了知识所支撑的工作效率。多年来,这些非正式规则积累成一个无形的操作系统,没有人能完全理解。掌握这些规则的人通常是组织中最忙碌的人。他们不会停下来,为了方便代理人而将其记录下来。而且,这些规则大多具有情境性、模糊性和矛盾性:一个团队的“永远这样做”可能是另一个团队的“永远不要那样做”。 一个实用的架构包含三种机制,但任何一种机制都并非完美无缺。 被动采集:代理监控通信渠道、文档变更和代码库(提交、拉取请求、配置变更),以识别包含知识的内容。随着编码代理的兴起,这种采集可以直接构建到开发工作流程中,从而使每次代码变更自动注册其元数据和理由。这种方法可以采集广度信息,但无法采集深度信息,并且需要明确的范围控制、最小化、编辑、保留策略以及在适用情况下获得用户许可(此处适用与决策跟踪相同的编辑处理模式)。 主动启发:辅助代理在领域专家的工作流程中向其提出针对性问题,例如:“您刚刚更正了这个指标定义。此更正是否应应用于所有区域?”这种方法可以采集深度信息,但依赖于专家对提示的参与。 结构化集成:将采集到的知识连接到图中相关节点的管道,维护来源信息并支持在推理时进行检索。这是使采集到的知识能够被利用的工程技术。 辅助代理模式值得重点关注。无论是知识工程师、分析师还是业务用户,在使用人工智能工具处理数据任务时,对话本身都包含丰富的上下文信息:澄清的问题、已作出的更正、已阐明的约束条件。在知识产生的瞬间捕获它,远比之后从日志中重建它要有效得多。这种捕获并不总是需要完全结构化。有时,一个摘要就足够了:将对话浓缩并去噪,形成一个可搜索的节点,并带有清晰的标签、来源信息以及指向相关资源的链接。与其将图节点视为僵化的数据库行,不如将其视为动态文件,代理可以通过名称、路径和关键词对其进行更新、丰富和搜索。完整的本体结构固然理想,但可查找和可链接的半结构化捕获也远胜于无任何记录。 元知识图谱如何保持正确性 与现实脱节的元知识图谱比没有图谱更糟糕:它会给用户带来虚假的自信。运行模型与数据模型同等重要。 元数据来源包括数据目录、编排平台、模式注册表、查询引擎、CI/CD 流水线、可观测性和监控工具、事件/工单系统以及代理本身。大部分元数据已经存在于其他地方。图的作用是连接这些元数据,而不是重新创建它们。 数据摄取模式。优先采用事件驱动型摄取:当管道部署、模式变更、质量检查失败或代理完成运行时,会触发事件并更新数据图。目录和注册表的批量扫描作为备用方案和协调机制。数据图的更新不应依赖于人工操作。 决策轨迹以追加事件的形式记录。这一点至关重要。代理不应实时将子图直接写入图。相反,每个代理操作都会生成一个不可变的轨迹事件(一个追加日志条目)。一个独立的处理器负责验证、在必要时编辑敏感内容、强制执行模式,并将轨迹实例化到图中。保留原始事件以供审计,保留图投影以供检索。这是一种标准的数据工程模式(将事件日志记录到经过管理的服务器层),它可以防止因允许对共享图进行不受限制的写入而导致的扩展性、并发性和隐私问题。 幂等性和去重。使用确定性标识符来标识资产和事件。设计时应考虑至少一次的摄取和幂等写入。如果同一管道运行被报告两次,则图不应创建重复节点。 回填机制。如果出现问题,需要根据源日志重建部分图。从一开始就要考虑到这一点:每个节点都应该可追溯到其源事件或元数据记录,以便可以根据其输入重建图。 这项工作并不光鲜亮丽。但如果没有它,元知识图谱的价值流失速度将远超其积累速度。 可能出现什么问题 如果没有对故障模式的真实描述,任何架构文章都是不完整的。 过时的元数据会导致错误的连接。如果图的物理层没有及时更新,代理会根据不再反映实际情况的模式信息推荐连接或数据集。自动化是唯一的防御手段。 错误的语义映射会产生看似正确的错误答案。如果语义层中“客户流失”的定义有误,那么所有依赖该定义的代理都会给出看似权威且来源可靠的错误答案。这比完全没有定义更糟糕,因为它看起来是正确的。领域专家验证至关重要。 反馈回路会放大不良模式。如果行为信号过分强调受欢迎程度,个体就会趋向于使用频率最高的路径,即使该路径并非最优。设计时应考虑多样性:既要展现已被验证的模式,也要标记个体忽略其他选择的情况。 决策追踪风险:数据臃肿和隐私泄露。如果每个微步骤都未经聚合就存储,追踪层将变得难以管理。如果追踪数据包含原始提示或个人身份信息 (PII),则会造成治理风险。因此,应实施数据保留策略,聚合低价值追踪数据,将热数据与冷数据分开存储,并使用仅追加事件模式和数据脱敏处理器。 多智能体系统与共享上下文层 企业人工智能不会是单一的智能体,而是由一系列专业化的智能体组成:数据智能体查询数据仓库,文档智能体处理合同,工作流智能体协调审批流程,分析智能体生成洞察。每个智能体都专注于特定领域,但都需要访问相同的共享上下文。 元知识图谱是协调层。一个智能体的发现会成为另一个智能体的起点。数据智能体学习到某种特定的连接模式不可靠;分析智能体则继承了这一知识。对一个智能体的输出进行修正,就能提升所有智能体未来的性能。 当智能体之间出现分歧时(这种情况不可避免),知识图谱能够清晰地展现并追溯这些分歧。一个智能体的知识图谱切片可能编码了一条与另一个智能体相冲突的规则。双方不会各自默默地覆盖对方的规则,而是会公开各自的推理过程并注明出处,然后由人类来定义在特定情境下应该优化哪个指标。这就像两位副厨在烹饪技巧上意见不一致一样:他们不会争吵解决,而是会把问题提交给主厨,由主厨根据菜肴的最终效果来做出决定。人类也可以直接覆盖智能体的结论,确保在正确的情境中使用正确的元数据。这些覆盖操作在知识图谱中拥有最高的权威性,正是因为它们代表了明确的人类判断。 对于高风险操作,默认设置应该是推荐而非执行:智能体会筛选出具有来源信息的最佳选项,然后由人工审核。随着置信度的提升和决策轨迹展现出可靠性,推荐和自主操作之间的界限可能会发生变化,但该图谱确保该界限始终可见且可审计。 这就是企业元知识图谱与本地内存存储的区别所在。它并非旨在提升单个代理的智能程度,而是旨在使整个组织的代理集群具备集体智能。 先缩小范围,然后复合 上述各层结构和元模型描述了完整的架构图。任何组织都不应该试图一次性构建所有内容。行之有效的模式是: 选择一到两个高价值的代理工作流程,例如事件分类、指标消歧、合同审查和数据集选择。选择那些错误答案代价高昂且正确答案可验证的工作流程。 为这些工作流程构建一个最小的元知识图谱切片。使用核心元模型。将资产与血缘关系、所有权、策略和派生关系连接起来。这就是您的最小可行元知识图谱。 创建评估集。提供具有代表性查询的黄金标准答案及其理由。在元知识图谱出现之前,需要多长时间?答案出错的频率如何?之后,衡量以下指标:准确率、解决时间、升级率、策略违规率。如果无法衡量改进,就无法证明扩展的合理性。 系统地记录人工修正。每当领域专家修正智能体的输出时,该修正都会反馈到图中。这些修正信息是系统中最有价值的数据。 不断迭代改进存储内容、检索内容以及上下文排序方式。第一个版本可能会存在一些有趣的错误。这正是关键所在。每一次迭代都会让下一次迭代更加完善。 第二个项目应该比第一个项目更快。第十个项目应该几乎是自动完成的。这种复利效应就是全部价值所在。 小结 企业数据架构是为人类设计的,而下一批加入团队的同事是人工智能体。智能体元数据是传统框架无法涵盖的新类别。所以构建和管理该架构的蓝图要遵循六项原则: 竞争优势不在于模型本身,而在于你的背景。背景即智慧。模型每季度都在改进,功能也在不断趋同。只有你才拥有的组织背景、你的经验知识、你的决策历史、你的业务逻辑、你积累的修正经验,这些才是任何供应商都无法复制、任何竞争对手都无法购买的。 应由领域专家参与,从语义层面进行组织。了解业务领域的人员必须定义术语的含义。LLM(生命周期管理专家)可以提出结构建议,但他们无权决定含义、治理或约束条件。技术实现应遵循业务建模,而非反之。 从一开始就要设计多智能体架构。企业级人工智能不会是单一的智能体,而是由多个共享同一上下文层的专业化智能体组成的集群。架构必须支持智能体管理自身的知识图谱切片,通过溯源信息发现冲突,并继承人类定义的解决方案。协同作用才是最终目标,而非单个智能体本身。 对代理的记忆进行管控。缺乏管控的记忆就像是无声的策略累积。每个持久模式都需要一个所有者、一个作用域、一个过期时间以及一个随时间衰减的置信度信号。代理的记忆必须像权限管理一样进行管控,而不是像文档管理那样。 让图论自我学习。每一次智能体交互、每一次修正、每一个成功的模式都会在图论中留下痕迹。随着时间的推移,这些痕迹会形成一个可挖掘的结构:隐性关系显性化、关键决策节点被识别、智能体行为聚类成可重用的模式。图论不仅存储已发生过的事情,它还能发现那些无人明确记录的信息。成功的路径会被强化,失败的路径则会逐渐消失。系统积累智能的方式,如同团队积累经验一般。 现在就开始记录决策轨迹。即使在构建完整的元知识图谱之前,记录的每一个模式选择、每一次修正、每一条理由,都会随着时间的推移而积累成宝贵的记忆。第二个项目应该比第一个项目更快。第十个项目应该几乎可以自动完成。 构建元知识图谱的最佳时机是创建第一个数据平台之时,其次就是当下。 来源(公众号):数据驱动智能
简而言之:Malt内部的AI转型并非始于董事会的战略规划或巨额预算,而是始于五个人,他们看到了别人眼中只有任务却蕴藏的巨大潜力。本文讲述了我们如何凭借这股自发的力量将AI采用率提升至55%,以及为什么这还远远不够。 “有了人工智能,我们就不再需要实习生了。” 你到处都能听到这种说法。但在 Malt,我们发现了截然不同的现实。 经验对于制定策略和做出判断至关重要,但我们注意到,初级员工和实习生往往能最快地接受这些新的工作流程。为什么呢?因为他们不受“我们一直以来的做法”的束缚。 他们无需先摒弃旧方法再学习新方法。他们只需要面对一个问题,拥有一个新工具,以及将二者联系起来的好奇心。 许多组织都倾向于通过公司顶层部门推进人工智能项目,而我们的转型则始于更为自然的过程。这主要得益于一群背景多元的核心技术领导者,他们各自发挥独特优势,共同将人工智能打造成为一项切实可行且具有变革意义的业务资产。 不是我们的战略创造了工作,而是工作创造了战略。 催化剂组合 我们的成功并非归功于某一位天才,而是归功于一个团队,团队成员的多元优势自然融合,共同产生了巨大的影响。 当时的首席数据与人工智能官克莱尔很早就意识到,这并非技术上的更新,而是一次组织架构的变革。她为我们提供了失败的掩护。 数据平台总监阿奈斯专注于“交付”。当其他人都在谈论“颠覆”时,她却将愿景转化为切实有效的试点项目。 Nicolas,机器学习运维工程师,利用业余时间构建了第一个智能体 RAG 系统。他将“如果……岂不是很酷?”变成了“来,试试这个链接。” 数据工程师乔丹证明,如果一个Python脚本只能由三个人运行,那么它就毫无用处。他构建了将大脑(人工智能)与双手(Slack)连接起来的基础设施。 而我本人,是数据项目经理。我的职责是打破信息孤岛,将技术能力转化为业务现实。 这个团队之所以能够蓬勃发展,是因为他们能够本能地划分角色,并充分发挥彼此的优势。克莱尔定义了“为什么”,阿奈斯构建了“如何做”,尼古拉斯证明了“这是可能的”,乔丹构建了“可扩展性”,而我则确保了“推广”。 一切的起源——这个用例 产品知识助手(2024年2月) 每个正在扩张的公司都会面临“知识问题”。 在 Malt,以前要找到某个具体的法律政策或产品详情,就像考古挖掘一样,得花上十分钟,翻遍 Notion 页面、Confluence 文档,还要翻遍埋没在 Slack 讨论串里的帖子。 尼古拉斯构建了一个技术精湛的RAG系统,但它过于复杂,只有技术专家才能使用。乔丹则富有远见地将其移植到Slack平台,使之成为人人都能轻松使用的工具。 我的职责是在此基础上进行规模化发展。我们按角色对响应进行了垂直划分(销售人员和支持人员需要的信息不同),使界面更加直观,并向所有员工开放。 技术架构很简单:借助 Dust.tt,RAG(检索增强生成)将我们的文档连接到对话界面。没什么革命性的。 但效果显著。人们第一次感受到了这些工具的潜力。而且,这些工具的使用也通过 Slack 频道自然而然地传播开来。 从最初的成功出发,我们自然而然地开发出了销售异议处理助手、国际团队翻译工具,并逐步构建了如今我们拥有的庞大专业代理库。每一个新的业务需求都成为了拓展新业务领域的契机,而我们始终遵循着同样行之有效的方法:技术创新、Slack平台的便捷访问以及规模化应用。 以下是该 Slack 频道在短短一年内的发展历程: 涟漪效应 我们最初的成功源于一个意想不到的地方:我们影响了我们自己的员工。数据和产品团队率先接受了我们的理念,并非因为我们强制推行,而是因为他们在日常工作中看到了立竿见影的价值。 最初只有数据团队的五个人参与,但这种现象开始在整个组织内蔓延开来。这并非通过强制规定或培训计划实现的,而是源于一种“良性竞争”。 当市场部看到销售部利用邮件草稿节省了大量时间时,他们也想效仿。当产品部看到客服部实现了自动回复时,他们也开发了自己的助手。当财务部看到运营部简化了报表流程时,他们也开始尝试。 这种自然增长感觉很神奇。没有自上而下的压力,没有变革管理顾问,只有人们看到了价值,并渴望从中受益。 凭借这股势头,我们在不到六个月的时间里实现了 40% 的用户采纳率。 55% 高点 到 2025 年 4 月,也就是 12 个月后,这种魔力消失了。我们的用户采用率达到了 55% 的瓶颈。使用指标趋于平稳。新助手的创建速度也放缓了。 我们分析了事件经过: 创新者(约占公司10%)已经全面采用了所有技术。他们不断创造、试验、突破界限。 早期用户(约占15%)的出现是自然而然的。他们看到了价值,并积极参与其中。 随后,约30%的人接受了劝说。这前半部分人很容易通过现场演示被说服。 但早期大多数(接下来的45%)并没有改变主意。他们提出了一些我们尚未解答的合理问题: “我已经能高效工作了,为什么还要花时间学习这个?” “ChatGPT Plus 功能更强大。为什么还要用你们的工具呢?” “如果明年它就过时了怎么办?” “这岂不是让我变得可有可无了吗?” 影子人工智能经济应运而生:90% 的员工使用个人人工智能工具(ChatGPT、Claude、Mistral),但只有 55% 的员工信任我们的官方解决方案。 我们吸取了一个惨痛的教训:自下而上的能量可以点燃火焰,但却无法控制火焰的燃烧。 瓶颈教会了我们什么 第一点:自然增长势头有限。 自下而上的力量对早期推广非常有效,但它无法跨越鸿沟,最终被主流市场接受。早期大众需要的是:证据、支持、清晰的价值主张,以及就业前景的答案。 第二点:创新者自身无法扩大规模。 我们五人的核心团队已经人手饱和。五十多位早期用户热情高涨,但在帮助他人方面却缺乏一致性。我们有活力,但缺乏组织架构。 第三点:我们没有正视人们真正的恐惧。 人们并非害怕人工智能,而是害怕: 把时间浪费在粘性差的工具上。 明明有更好的工具,却偏偏使用劣质工具。 投资于无法转移的技能 被取代而不是增强 第四点:我们需要一种新的方法。 自下而上的创新使我们达到了55%的转化率。要达到90%,我们需要自上而下的赋能。不是控制,而是协调;不是强制,而是系统性的支持。 战略转向 克莱尔和阿奈斯决定:我们将通过研讨会来系统化我们的方法。不是通用培训,而是定制化的实践课程,让人们能够为他们的实际工作构建真正的解决方案。 这一决定标志着增长模式从有机增长转向结构化规模扩张。从5个人四处宣传,到50个团队赋能建设者;从被动接受,到主动推动。 推动变革的三大要素 在这个过程中,我们了解到,跨越鸿沟需要三种特定角色协同合作。我们称之为“三明治模式”。 好奇的C级高管 简介:一位资深领导者,视人工智能为根本性变革而非渐进式改进。他负责分配资源,扫清障碍,并为实验提供支持。 克莱尔正是这种精神的体现。她不仅审批预算,还参与研讨会,分享自己的实验经验,并表明这具有重要的战略意义。 优势:设定愿景,提供资源,为变革创造空间。 缺点:与日常工作距离太远,难以直接推动采用。需要其他层级的配合才能执行。 2. 业务领导 简介:一位注重结果、深入了解团队日常工作的管理者。务实、能够将愿景转化为可衡量的现实。 阿奈斯就是个很好的例子。她找到了高价值的应用案例,严谨地记录了成功案例,并让持怀疑态度的人看到了成果。 优势:精通“如何做”,推动实际应用,并能提供可靠的证据。 缺点:容易形成部门壁垒。过于关注团队绩效,而忽略了跨职能协作。 3. AI原生Junior 简介:通常是实习生或初级员工,从小就接触人工智能。他们没有“我们一直以来都是这么做的”这种先入为主的观念,而是以自动化优先的思维方式来解决问题。 我们遇到了好几个这样的系统。它们带来了没人要求的自动化功能,挑战了长期沿用的流程,并暴露了那些已经变得不易察觉的低效之处。 优势:不带偏见的创造力。快速原型制作。挑战现状。 缺点:缺乏组织背景信息。如果没有经理或高管的支持,影响力有限。 为什么这三层都很重要 缺乏执行的愿景终究只是空想。缺乏支持的基层创新终将消亡。缺乏自上而下愿景或自下而上动力的中层管理者,最终会成为阻碍。 当这三者协同合作时,奇迹就会发生: 高管层提供愿景和资源 管理者将愿景转化为团队执行力 年轻一代带来未经雕琢的创新,并挑战既有观念。 这才是跨越鸿沟的方法。不是自上而下的强制命令,也不是自下而上的混乱局面,而是对这三种力量进行结构化的协调。 我们学到了什么 有效的方法: 从实际问题入手(产品知识) 打造一款简单易用、能立即产生价值的产品 让采用通过同伴影响自然传播 识别并培养天然的冠军 哪些方面行不通: 假设有机增长势头能够一路引领我们走向终点 依靠创新者来教授主流知识 没有及早解决就业能力问题 低估了系统性支持的需求 突破性见解:要引发一场革命,你需要有机能量。 要想在公司范围内推广,就需要构建相应的结构。 第一阶段关注的是火花,第二阶段关注的是系统。 接下来会发生什么? 我们曾拥有发展势头,也取得了显著成效。我们的用户采纳率达到了55%,并且拥有一个忠实的拥护者社群。但我们也遇到了瓶颈,存在一些未解的疑虑,而且对于如何获得剩余的45%的用户,也没有明确的途径。 下一阶段需要采取不同的方法:系统性的研讨会、协调的基础设施,以及对棘手问题的坦诚解答。这需要我们承认自身的不足,并为那些并非天生创新者的人建立支持体系。这需要跨越鸿沟。 来源(公众号):数据驱动智能
龙石数据全国统一服务热线 400-800-9577正式开通启用!
Palantir Ontology Palantir 的软件为全球众多关键的企业和政府领域提供实时、人工智能驱动的决策支持。从公共卫生到电池生产,客户依靠 Palantir AIP 安全、可靠、高效地在其企业中利用人工智能,并推动运营成果。 Ontology旨在表示企业中的决策,而不仅仅是数据。世界上所有组织的首要任务都是在不断变化的内外部环境中,实时做出最佳决策。传统的数据架构无法捕捉决策背后的推理过程或最终的行动,因此限制了学习和人工智能的集成。传统的分析架构无法将计算置于实际环境中,因此与运营脱节。为了在当今世界取得成功,现代企业需要以决策为中心的软件架构。 为了理解Ontology的价值,让我们首先考虑任何决策的三个要素: 数据,用于做出决定的信息。 逻辑,评估决策的过程 行动,决策的执行。 从根本上讲,每个决策都由数据(用于做出决策的信息)、逻辑(评估决策的过程)和行动(决策的执行)组成。Ontology将决策的这三个组成要素整合到一个可扩展、动态、协作的基础中,从而反映出组织随着时间推移而不断变化的情况和目标。 数据 如今,企业面临着前所未有的海量数据。数据源的数量、种类和更新速度不仅在不断增长,而且随着时间的推移还在加速发展。尽管人们已经对数据清洗和统一的益处进行了大量讨论,但在人工智能时代,首要问题是数据的相关性。相关数据当然包括企业的所有数据源——结构化数据、流式和边缘数据源、非结构化存储库、图像数据等等——但也包括最终用户在决策过程中生成的数据。这种“决策数据”包含了特定决策的背景信息、评估的不同选项以及最终选择可能带来的后续影响。生成式人工智能提供了一种突破性的能力,能够从海量的决策数据中综合学习,并持续丰富人工和人工智能驱动的工作流程。当然,将所有企业数据与不断变化的决策数据环境相集成,需要一种与针对报告和分析优化的传统数据库管理解决方案截然不同的架构。 Ontology将所有数据模态整合到一个全面、高保真度的企业语义表示中。各种运营数据源(ERP、MES、WMS 等)可以与来自物联网和边缘系统的数据流、非结构化数据存储库的相关部分、地理空间数据存储等进行同步和上下文关联。Ontology整合并激活这些分散的数据池,并以企业语言呈现它们。它不再使用将丰富运营信息扁平化为狭隘模式的“黄金表”,而是以对象、属性和链接的形式展现企业的完整面貌,这些对象、属性和链接实时演化,并可直接嵌入到决策工作流程中。至关重要的是,Ontology旨在安全地捕获运营用户在日常工作中产生的决策数据(例如,在供应链、医院系统、客户服务中心等)。决策的端到端“决策谱系”,包括决策的做出时间、所依据的企业数据版本以及所使用的应用程序,都会被自动捕获并安全地提供给人类开发人员和生成式人工智能。这为大规模人工智能驱动学习提供了必要的全面基础。 Ontology将所有模态的数据整合到一个全面、全保真度的语义表示中,捕捉企业不断变化的现实,并作为强大的 AI 驱动工作流程的基础。 逻辑 数据固然是基础,但它只是决策过程的一个维度;它必须与推理或逻辑相辅相成,后者决定了何时以及如何做出特定决策。支撑决策的逻辑可以是核心业务系统中的简单业务逻辑,也可以是使用云数据科学工作台维护的预测模型,或是利用多个数据源生成运营计划的优化模型——等等,不胜枚举。在现实世界中,人类的推理能力往往决定着在特定工作流程的不同阶段使用哪些逻辑资源,以及如何将它们串联起来,形成更复杂的流程。随着生成式人工智能的出现,人工智能驱动的推理必须能够像人类历史上那样利用所有这些逻辑资源,这一点至关重要。确定性函数、算法和传统统计过程必须作为“工具”出现,以补充大型语言模型(LLM)和多模态模型的非确定性推理。 Ontology 能够将所有逻辑资产(即决定决策方式的计算和流程)连接起来,并为人类用户和人工智能用户提供上下文关联。这包括客户交互相关的业务逻辑(常见于客户关系管理系统和企业资源计划系统中);驱动传统机器学习的建模逻辑(分布于各种数据科学环境中);以及通常与特定领域工具紧密结合的规划、优化和仿真算法。Ontology灵活的“逻辑绑定”范式提供了一个一致的接口,用于构建能够无缝集成和组合异构逻辑资产的工作流——这些资产可能存在于截然不同的环境中(例如,本地数据中心、企业云环境、SaaS 环境、Palantir 平台)。最终,这意味着人工智能驱动的推理可以顺利地引入到利用各种逻辑集且传统上完全由人类用户主导的决策环境中。 Ontology使用户能够构建整合并组合异构逻辑资产的工作流。最终,这意味着可以将人工智能驱动的推理安全地引入日益复杂的决策环境中。 行动 信息(数据)和推理(逻辑)都融入到共享表示中之后,剩下的建模工作就是决策本身(行动)的执行和协调。实时决策过程中行动闭环的闭合,正是运营系统与分析系统的区别所在。自 Palantir 创立以来,决策的执行与数据综合或分析的整合同等重要。这需要设计和实现一系列广泛的功能,包括如何安全地捕获可能同时发生且潜在冲突的决策;一个协作模型,将能够探索可能决策的人员、能够暂存决策以供审查的人员以及能够最终执行决策的人员进行划分;以及一个用于将决策同步到现有数据库、边缘平台和加固型资产的完善框架。 Ontology以企业决策为中心,构建了一个统一的模型,并对其中的操作进行原生建模。如果Ontology中的数据元素是企业的“名词”(语义化的、现实世界的对象和链接),那么操作就可以被视为“动词”(动态的、现实世界的执行)。在每个本体驱动的工作流中,名词和动词通过人工和/或人工智能驱动的推理组合成完整的句子,其中融合了各种逻辑。虽然将数据整合到语义模型中本身就很有价值,而且整合评估各种可能决策所需的逻辑也至关重要,但除非执行的决策与运营系统同步,否则这一切最终都意义有限。Ontology能够将人工和人工智能驱动的操作安全地部署为场景,并使用与数据和逻辑原语相同的细粒度访问控制进行管理,同时安全地写回企业的每个底层架构——事务系统、边缘设备、自定义应用程序等等。 Ontology以企业决策为中心,在统一的模型中对操作进行原生建模,使人类和人工智能驱动的操作能够安全地作为场景进行安排,并采用与数据和逻辑原语相同的访问控制进行管理,然后安全地写回每个企业底层。简而言之,Ontology将数据、逻辑和行动整合到一个以决策为中心的企业模型中,该模型可供人类和人工智能共同使用。从数据集成到应用程序构建,再到最终用户工作流程,所有环节都通过久经考验的模块化架构驱动——使人类用户和人工智能驱动的辅助系统及自动化流程能够在共享的运营基础上进行查询、推理和行动。 让我们通过一个例子来分析Ontology是如何帮助 50 多个行业的组织在几天内激活 AI 驱动的工作流程的。 操作示例 虚构的医疗设备制造商泰坦工业公司生产一系列成品,从注射器到外科口罩,每一种产品都需要一套精确的原材料经过相应的生产流程。公司拥有一支多元化的团队,负责管理从供应商关系、仓储运营、成品生产到最终客户分销的方方面面;所有决策相互关联,并不断根据不断变化的情况进行调整。简而言之,运营这家公司每天都面临着独特的挑战。 在这个例子中,泰坦工业公司(Titan Industries)的一家主要供应商遭遇了意料之外的供货中断,该供应商提供生产医用口罩所需的关键原材料。鉴于泰坦各制造工厂的生产计划都非常紧凑,而客户对医用口罩的需求却在不断攀升,此次供货中断势必会对完成未完成的客户订单造成严重影响。幸运的是,泰坦的运营管理团队已将各种数据源、逻辑资产和行动系统整合到其企业本体中,因此能够迅速做出响应。 Titan 的Ontology汇集了应对此次原材料短缺所需的所有决策要素:它提供了对每次短缺所涉收入的全面可见性,从而为优先级排序提供信息;它允许人工智能驱动的建议和最终解决方案,这些建议和解决方案都考虑到了企业的运营实际情况;它还推动回写和持续学习,不仅使系统保持最新状态,而且还优化未来的决策。 Titan 将首先评估供应商短缺的直接影响,然后利用人工智能评估生产线上可能的重新分配策略,最后将他们的决定转化为一系列相互关联的行动,这些行动将同时更新仓库流程、生产计划和配送路线。 Titan 的Ontology提供对企业各个相互依存环节运营情况的实时、端到端可视性,使管理层和一线团队都能快速了解供应商中断情况。与供应商管理、仓库运营、工厂生产活动、配送中心处理和客户订单履行相关的关键数据系统都被整合为语义对象和链接,以反映企业的语言。运营负责人只需点击几下,即可精确定位因原材料短缺而面临风险的外科口罩生产线,并通过Ontology中的关联,找到所有同样面临风险的未完成客户订单。Ontology的细粒度安全模型确保随着响应范围扩大到企业内更多团队,更敏感的数据元素(例如财务指标)默认会被自动隐藏。 虽然操作用户可以通过直观的Workshop和SDK驱动的应用程序轻松浏览本体,但大型语言模型 (LLM) 的引入对 Titan Industries 而言却是一次倍增器。利用开源和专有 LLM 的 AI 助手能够流畅地浏览组织本体中包含的供应商信息、库存水平、实时生产指标、发货清单和客户反馈。至关重要的是,所有 AI 活动都受到与人类用户相同的安全策略的控制——确保 Titan 工程师始终能够精确控制 LLM 可以查询、推荐和执行的内容。每个构建和部署的 AI 助手都可以被视为一位新的团队成员,随着 Titan 团队成员对其性能的信心增强,其权限也会逐步扩大。 Titan 的本体整合了来自组织重要系统的数据,将其综合成语义对象和链接,从而提供对运营的实时、端到端可见性,并使领导层和一线用户都能快速评估中断的全面影响。 态势感知只是Ontology冰山一角;泰坦工业公司需要迅速找到应对供应商中断的解决方案,并探索每项可能决策的利弊权衡。幸运的是,泰坦公司已将各种预测模型、分配模型、生产优化器和其他逻辑资产以及上述数据源连接到其Ontology中。这使得供应链分析师能够快速运行一系列模拟,详细分析不同材料替代方案的后果。Ontology的互联性和实时性在此阶段至关重要,因为原材料替代可能会对使用相同材料生产的其他产品(例如注射器、手套)产生下游影响。模拟运行过程中,模拟输出会以Ontology场景的形式呈现,将拟议的变更安全地打包到Ontology的沙盒子集中——使团队能够在做出决策之前安全地探索和分析其影响。 对 Titan 团队而言,真正的变革在于 AI 驱动的辅助驾驶和自动化流程能够安全地利用所有逻辑资产以及相同的场景框架。Ontology使 LLM 能够突破以数据为中心的检索增强生成模式的局限性,并通过可扩展的工具范式与Ontology中相互关联的数据、逻辑和动作原语进行交互。这意味着,当 Titan 的分析和数据科学团队在其云工作台中创建新的机器学习模型、在企业系统中调整优化算法以及使用 Palantir 的开放模型构建框架微调 LLM 时,Ontology会将所有这些逻辑资产安全地呈现为 AI 就绪的工具。在本例中,Titan 创建了一个经过调优的 AI 辅助驾驶“Disruption Bot”,它能够使用一套Ontology驱动的工具来扫描所有企业数据源、先前类似情况下采取的行动的后续报告以及可能适用的物料重新分配模型。由于Ontology提供了丰富而密集的上下文信息,Disruption Bot 能够提出一种全新的资源重新分配方案,该方案采用了一种供应链分析师尚未考虑过的新模型。在模拟场景中安全地呈现了该方案的后果后,人工智能提出的决策将移交给人工分析师进行最终审核。 Ontology安全地将 Titan 的逻辑资产(从机器学习到优化模型)呈现为 AI 就绪工具,为人类和 AI 驱动的工作流程提供丰富、密集的上下文。 泰坦工业公司已制定出切实可行的物料短缺解决方案,需要迅速且安全地将决策下达至运行相关流程的运营系统。鉴于该公司通过收购不断发展壮大,其关键运营系统种类繁多且错综复杂,泰坦的IT团队密切关注哪些流程可以向这些系统回写,以及在何种条件下可以回写。Ontology对操作应用了与数据和逻辑相同的严格控制和验证;这实现了对特定操作执行权限的精细控制、用于发布变更的测试驱动框架、批量暂存和审查变更的能力,以及对每个事件的详细日志记录。在本例中,物料重新分配计划的执行会自动协调一系列回写例程,每个例程都针对接收系统进行了优化:仓库管理系统接收API驱动的更新;三个ERP系统分别通过原生本体驱动的连接器接收更新,这些连接器遵循各自系统中的安全机制;生产计划系统接收一个整合的平面文件,并以异步方式导入。在执行操作的过程中,Titan IT 团队可以监控系统响应,并且始终有权审核过去的活动。 Ontology为人工智能在允许的范围内安全执行操作提供了必要的保障。除了数据和逻辑之外,操作还可以自动呈现为人工智能驱动的辅助驾驶和自动化工具。操作的范围可以仅限于在Ontology本身中反映给定的更改(例如,编辑对象或创建新对象);也可以写回单个或多个系统。在 Titan 的案例中,他们授予了 Disruption Bot 和其他几个生产环境中的人工智能辅助驾驶工具有限的操作权限。默认情况下,这些操作(例如,更改工单状态或推送重新分配计划)只能由人工智能执行,然后交给人工进行最终审核。然而,借助本体(以及更广泛的 Palantir 平台)提供的细粒度日志记录和操作工具,Titan 能够精准地选择哪些值得信赖且成熟的人工智能流程可以自动完成操作闭环,而无需人工审核。随着情况的变化,人工智能的权限可以扩大或缩小,并且会立即反映在所有本体驱动的工作流程中。 Ontology使 Titan 能够自动将操作呈现为 AI 驱动的副驾驶和自动化工具,同时为 AI 提供必要的防护措施,使其能够在预定的范围内安全地采取行动。 危机之后会怎样?Titan 将数据、逻辑和行动整合到其本体中,从而能够开展强大的以决策为中心的学习。在应对物资短缺的特定解决方案中,人机协作也揭示了可推广的工作流程,Titan 希望将这些工作流程记录下来,并在未来加以利用。每个数据元素、逻辑资产和评估的行动都会被记录在端到端的决策谱系中——这为优化 AI 的性能提供了丰富的上下文信息。本体中数千名用户做出的汇总决策可以安全地用作模型微调的训练数据,并可以提炼成在 LLM 提示过程中调用的目标原则。以往隐藏在工作流程缝隙中的“经验知识”可以通过 AI 得到发掘,从而改进 AI 的应用。 Ontology会捕获每个数据元素、逻辑资产和操作在决策过程中的更新——这为随着时间的推移优化 AI 的性能提供了丰富的上下文信息。 小结 最终,Ontology使每个组织都能将人工智能直接融入其核心运营,并精确控制在当前一线环境中如何以及何时使用人工智能驱动的推荐、增强和自动化功能。这之所以成为可能,是因为Ontology以决策为中心,而不仅仅是以数据为中心;它将决策的组成要素——数据、逻辑和行动——整合到一个单一的软件系统中。新数据可以快速集成到高保真语义表示中;新的算法和业务逻辑可以无缝地呈现给人类用户和人工智能用户;通过与所有运营系统的实时连接,可以实现强大的行动集成。每个组织的Ontology都能实时反映各个团队不断变化的情况、目标和决策,从而确保人工智能始终扎根于企业的实际情况之中。 本文仅对Ontology底层以决策为中心的架构、系统原生仿真和场景构建功能、Ontology SDK提供的可扩展性、将商业和开源生成式AI模型连接到安全的数据、逻辑和操作子集的各种方法,以及在整个企业范围内扩展人机协作的方法进行了初步介绍。 来源(公众号):数据驱动智能
近日,《苏州工业园区关于加快高质量数据集建设促进数据要素价值释放的若干措施》(简称《措施》)正式发布,成为全省首个高质量数据集专项政策。 《措施》聚焦数据资源“聚、通、用”全链条,旨在打造全国领先、具有区域影响力的高质量数据集建设和开发利用高地。 苏州工业园区此次出台的《措施》,立足系统性思维,推动实现数据要素 “建设汇聚—高效流通—场景繁荣” 的价值释放闭环。接下来,园区将秉持开放理念、做好系统谋划、落实务实举措,持续推动政策落地见效,稳步推进高质量数据集建设和开发利用工作,努力打造具有区域影响力的发展标杆。 来源(网站):园区大数据管理中心
我们常听到“人工智能应该以透明的方式运行才能赢得信任”。但就人类信任而言,这真的就足够了吗?仅仅解释人工智能代理的内部运作机制或推理过程就能保证用户留存吗?如果产品的目标用户群体不仅限于早期用户,我们就需要更深入地研究:人工智能的心理模型。 虽然可解释的人工智能方法,包括内部运作机制、推理过程和决策树的透明度,在建立用户信任方面发挥着重要作用,但它们并不能保证用户信任。理解一项功能的工作原理并不等同于认同它,对吗? 我当时正在开发一款生成式引擎优化工具,旨在帮助营销团队了解人工智能如何描述他们的品牌。在开发过程中,我发现了一个不匹配之处:我们展示的是他们的内容策略如何涵盖各种提示,而他们却试图找到内容策略如何涵盖提示中包含的“关键词或主题”。我们讨论的是“提示”,而营销人员的思维模式是“关键词”。这就是我们意识到应该突出关键词的原因。同样的数据,不同的思维模式。 问题在于?你的 AI 功能或许能够完美地执行任务并做出解释,但如果流程、标准或方法与人类用户无关,那么协作就会中断,随之而来的是,该功能最终会束之高阁。 “‘解释性’这一属性并非陈述的属性,而是一种互动。何为解释性取决于学习者/用户的需求、用户已有的知识,尤其是用户的目标。” Robert R. Hoffman 即使是功能最完善、最精准的AI功能,即便提供了所有必要的解释说明模型的工作原理、决策过程和推荐方法,最终也可能沦为产品中“无关紧要”的功能。原因往往比我们想象的要简单得多:用户已经习惯了特定的任务处理方式!如果AI替代方案没有考虑到这些习惯、想法和信念,那么即使设计精良的新用户引导流程再好,也无法说服用户改变他们的工作方式。 因此,在回答“我们如何向用户解释这项人工智能功能?”这个问题之前,我们应该先问一个更根本的问题: “这项新功能与用户现有的心理模型有何关联?” 设计师回答这个问题时常用的指导原则是“在用户所在的地方满足他们的需求”,例如,如果用户在错误的地方寻找某个东西,就把它移到他们正在寻找的地方。然而,随着新的AI用户体验模式层出不穷,并且大多朝着基于意图的对话式交互或生成式用户界面发展,问题不再是“在哪里”,而是“如何做”。 在人际协作方面,研究早已证明,共享的思维模式是高效协作的基础。团队拥有共享的思维模式能够促进创造力,因为它强化了与工作相关的冲突和创新之间的积极关系,尤其是在团队就其价值观、工作方式和规范达成共识的情况下。 共享心智模型会影响决策过程,因为它基于对其他团队成员的行为或观点的理解。因此,它们对于理解团队的活动、动态和功能至关重要。 鉴于人工智能将以如此广泛的深度渗透到我们生活的方方面面,假设人类与人工智能之间共享的思维模型对于实现有意义、高效且值得信赖的人机协作也至关重要,这并非异想天开。事实上,一些研究人员已经验证了这一假设,结果不出所料,它是正确的! 有效的人机协作需要具备形成相互心理模型的能力,这有助于人工智能系统和人类用户理解如何相互补充。 我想分 4 个步骤来解释这个问题,所有这些都围绕着“共享的思维模型”展开。 技术舒适区和任务风险 人类对任务或协作的心理模型 人类对人工智能特征的心理模型 人类认知能力与人工智能速度的比较 1. 技术舒适区和任务风险 想象一下,一位资深的公共服务人员,精通复杂的数字仪表盘操作,突然接触到工具上的一个新功能:一个人工智能助手,只需和它聊天就能帮你完成工作。“聊天”——这让她想起自己19岁的儿子和朋友们计划周末聚会——与专业工作完全不搭边。因此,她尽可能地忽略了这个功能。或许尝试过几次,但最终还是觉得“这不适合她”! 无论身处哪个行业或领域,人们日常使用的技术水平都各不相同。这种技术使用行为不仅会影响用户如何定义技术在其个人或职业生活中的角色,还会影响他们对新技术的接受程度和信任度。如果一款产品只面向早期用户,而没有考虑到其他用户的舒适度,那么要说服大多数人信任它就相当困难了,不是吗? 在这种情况下,一个解决办法是寻找“外包安全候选人”。我们每个人都有一些自己讨厌做、不习惯做或者觉得无聊的任务或活动,因此我们很乐意将它们外包出去。这些任务非常适合用人工智能来处理。 举个例子。假设你正在为一位起重机操作员设计系统,他最重要的任务是在搬运重物时确保货物和工作场所的安全。操作员对人工智能助手独立搬运重型昂贵货物的信任度,远低于他对人工智能推荐的最短路线的信任度。这表明,在开发自动驾驶功能之前,应该先着手开发路线推荐功能。 2. 人类对任务或协作设置的心理模型 我们每个人对事情的完成方式都有自己的看法,从寻找咖啡馆或给电子邮件贴标签这样的小事,到工作中的具体任务,莫不如此。现在,想象一下,如果你把这项任务外包给一个遵循完全不同逻辑的人工智能,你会不会感到困惑,甚至心存疑虑? 为了解决这个问题,我们需要首先思考用户目前是如何解决我们将要用人工智能解决的问题的。他们目前的解决方案应该成为我们设计新方案的指南针。 设计师通常最好顺应人们现有的思维模式,而不是试图强迫他们接受新的模式。以拟物化设计为例,这种设计方法借鉴了物理世界的线索,帮助用户掌握新的交互方式。通过利用人们已经熟悉的事物,设计师可以使新的、不熟悉的体验更容易理解(也更少令人沮丧)。 3. 人类对人工智能特征的心理模型 在设计新的可用性模式时,真正的挑战在于:我们如何确保用户对功能的理解是有效的?这需要综合考虑预期管理、清晰的价值沟通和可解释性。 棘手之处在于,对于像 ChatGPT 这样的通用型对话式人工智能,用户很难分辨代理的功能范围。几乎不可能仅凭外观就准确判断对话式人工智能的功能。因此,各种提示信息逐渐消失,最终只能由用户自行摸索使用流程或功能。 Max Stepanov 在他的文章中探讨了用户围绕对话式人工智能功能形成的一些常见心理模型,例如“魔法盒子”或“师生”心理模型。观察用户与人工智能功能交互时的行为、进行“边想边说”的可用性测试以及评估用户对价值理解的准确率,都是我们更好地理解用户围绕人工智能产品形成的心理模型的方法。 4. 人类认知能力与人工智能速度的比较 随着科技发展速度的加快,我们的注意力持续时间却越来越短。注意力持续时间的缩短,也导致我们难以抽出时间进行需要高度认知能力的决策和判断,最终迷失在人工智能推荐和输出的海洋中,忘记了自己的决定和行动。 我用 Lovable 重建作品集的时候就遇到过这种情况。迭代速度太快,以至于做到一半的时候,我才意识到自己忘记了当初为什么做了某些修改或决定。是的,我不得不从头开始,这次要系统地构建,而不是像以前那样只是迭代。 研究表明,在充分了解用户局限性的基础上设计人工智能,往往比简单地向用户解释人工智能自身的局限性更为有效,尤其是在任务速度至关重要的情况下。换句话说,与其向用户提供额外的解释,不如构建一个能够适应人们认知状态的人工智能系统。 尼尔森是这样说的:“别让我思考得更快。”换句话说,不要强迫用户以机器的速度操作。相反,我们应该衡量并改进产品造成的认知延迟:人们需要多长时间才能注意到变化、弄清楚变化的含义、决定下一步该做什么,以及在被打断后重新接上思路。 Google 设计库的框架是理解如何合理利用用户认知能力的绝佳指南。例如,如果需要学习大量新的 UI 操作(图 B),则应确保主要用例基于用户熟悉的事物。如果产品的行为特别动态(图 C),则应使用大量可识别的模式,以免用户感觉像是在摸索前进。 总结 所以,下次当你想要通过为你的AI功能添加更多解释、工具提示或引导流程来解决信任问题时,请先停下来想一想。问题可能不在于用户不理解功能的工作原理,而在于功能不理解用户的使用习惯、逻辑、节奏和舒适区。可解释性固然重要,但这只是第二步。第一步是目标一致性。因为无论你把门后的东西解释得多么清楚,如果你敲错了门,那就没人会应门! 来源(公众号):数据驱动智能
为了系统解决数据治理难题,我们将实战经验汇编成新书《数据治理实战指南—“理采存管用”落地方法、步骤与模板》,助你成为数据治理专家!
近日,《苏州工业园区关于加快高质量数据集建设促进数据要素价值释放的若干措施》(简称《措施》)正式发布,成为全省首个高质量数据集专项政策。《措施》聚焦数据资源“聚、通、用”全链条,旨在打造全国领先、具有区域影响力的高质量数据集建设和开发利用高地。 顶层设计推动数据汇聚构建全链条闭环生态 高质量数据集已成为数智创新的关键资源。自2025年以来,国家、省、市陆续出台相关政策文件,着力推进高质量数据集建设专项行动。园区出台的《措施》,立足区域实际,以强供给、畅流通、促应用、育生态为主线,系统规划高质量数据集发展路径。 根据《措施》,园区将围绕政务与行业双领域协同发力,通过揭榜挂帅、试点示范等机制,推动数据资源从分散建设向系统化汇聚转型,确保数据要素高效赋能经济社会发展。 目标到2028年底,园区将打造100个高质量数据集,汇聚1000个高质量数据集,遴选100个典型示范案例,基本建成全国领先、具有区域影响力的高质量数据建设和开发利用高地,实现高质量数据集规模与应用水平显著提升,形成可复制推广的典型模式,构建数据要素价值释放的完整闭环,加快促进数据要素价值释放。 多措并举强化要素保障提高资源供给与流通效率 依托丰富的数据资源禀赋和多元的应用场景优势,园区数据产业已形成一定集聚优势。目前,园区已有184家企业入选江苏省首批入库培育数据企业名单,占全市30%,涵盖数据资源、数据技术、数据服务、数据应用、数据安全以及数据基础设施六大类别。 此次出台的新政策,通过多元举措打出“组合拳”,着力补齐供给短板,破解数据流通瓶颈,优化要素市场化配置。聚焦资源汇聚,支持政务领域高质量数据集建设,鼓励政企学研协同攻关,激发公共数据开发利用活力;聚焦流通升级,加快行业数据交互平台建设,探索“数据即服务”等新模式,通过示范平台遴选与运营支持,降低数据融合门槛,加速价值共创;聚焦合规保障,推动可信数据空间等基础设施落地,支持数据合规高效流通,确保数据安全与价值协同。 奖励机制加速创新赋能激活应用生态与价值转化 为了让公共数据“跑起来”,要素资源“活起来”,《措施》突出场景牵引、需求导向,聚焦数据资源深度开发、创新应用,根据实效对建设、应用两端实施全过程、全覆盖的奖补激励,打造建设高质量数据集“苗圃”的优质生态。 以应用为牵引,政策鼓励单位采购高质量数据集开发产品服务,对非关联方数据采购给予补贴,推动数据从资源化向资产化转化。围绕示范引领,政策支持申报数据创新典型案例,对入选省级以上示范场景的单位予以奖励,加速数据在垂直领域的落地验证。 此外,政策还鼓励各单位通过标准制定、供需对接、大赛活动等,构建开放包容的创新环境,并对品质型活动给予相应奖励支持,加快吸引全国高质量数据集向园区集聚。 苏州工业园区此次出台的《措施》,立足系统性思维,推动实现数据要素 “建设汇聚—高效流通—场景繁荣” 的价值释放闭环。接下来,园区将秉持开放理念、做好系统谋划、落实务实举措,持续推动政策落地见效,稳步推进高质量数据集建设和开发利用工作,努力打造具有区域影响力的发展标杆。 来源(网站):苏州工业园区管理委员会官网