AI用数智能体的核心原理是以自然语言交互为入口,依托数据治理成果构建的标准化、高质量数据与知识体系,结合大语言模型(LLM)与多种AI技术,将用户的业务问题自动转化为可执行的数据查询与分析动作,并以直观形式呈现结果,从而实现数据随需获取、业务自助分析的智能化服务。
其核心原理可分解为以下四个关键环节:
一、 基础:高质量数据与知识准备
这是智能体准确工作的前提,直接依赖于前序的数据治理成果。
- 数据治理成果转化:智能体依赖元数据(描述数据含义、关系)、数据标准(统一业务术语、指标口径)和高质量数据集,这些治理成果为智能体提供了结构清晰、语义明确的“燃料”。
- 知识库构建:构建本地化知识库,包括预设的业务问题、物理表间的关联关系、字段的业务属性等。这为智能体提供了业务场景和规则知识,使其能够理解用户的业务意图。
二、 核心:意图理解与查询生成
这是智能体的“大脑”,负责将自然语言转换为机器可执行的指令。
- 意图识别:接收用户自然语言提问后,通过双模检索(语义检索+关键词检索)、用户意图分析等技术,识别用户的真实意图(如查询、分析、指令等),并匹配到预设的知识库场景。
- 自然语言转SQL(NL2SQL):对于数据查询类意图,这是核心技术。
- 实体识别:利用LLM提取自然语言中的关键实体(如时间、地点、指标),并通过元数据增强技术关联到具体的物理表和字段。
- 逻辑关系识别:分析实体间的业务逻辑关系(如关联、筛选、聚合),通过元数据知识图谱确定查询路径。
- SQL生成与适配:将理解后的意图和逻辑,自动转换为可在数据仓库中执行的SQL语句,并适配不同数据库的语法差异。
三、 执行:数据获取与结果封装
这是智能体的“执行层”,负责获取数据并处理结果。
- 数据查询执行:将生成的SQL语句提交给数据仓库或数据库执行,获取原始数据结果。
- 结果封装与可视化:对原始查询结果进行智能化处理。
- 格式化处理:进行排序、汇总等操作。
- 可视化呈现:根据数据结构(如分类对比、趋势分析)自动推荐并生成最匹配的图表类型(如表格、饼图、柱状图、折线图)。
- 自然语言解读:对数据结果进行自然语言封装,用业务语言解释数据含义,降低理解门槛。
四、 优化:持续学习与安全管控
这是智能体保持准确、安全、可用的保障机制。
- 多轮对话与反馈优化:支持多轮对话以逐步细化用户需求。记录用户的反馈(如错误、遗弃),将负反馈样本加入知识库,并持续优化提示词和匹配策略,提升语义理解的准确性。
- 安全授权管控:在数据应用层面,依据数据治理中建立的数据安全分类分级和数据授权机制,对用户进行鉴权管理,确保用户只能访问其被授权范围内的数据,实现数据查询的安全可控。
- 测试与调优:通过预设问题管理、召回测试、推理测试、用例管理等功能,持续验证和优化智能体的匹配准确率与SQL生成正确性。
总结来说,AI用数智能体的核心原理是一个 “理解-转换-执行-呈现-优化”的闭环过程。它本质上是数据治理价值在应用层的智能化延伸,通过大语言模型等AI技术,将结构化的治理成果(元数据、标准、质量)与非结构化的业务语言进行桥接,最终将数据的使用门槛降至最低,实现“让数据被随需获取”的目标。