数据标准的宗旨在于为业务、技术及管理提供全方位的服务与支持。数据标准构成了实现数据驱动管理和数据驱动创新的坚实基础,数据治理必须要过数据标准管理这一关! 一、三个方面认识数据标准 1.业务方面 数据标准是解决数据不一致、不完整、不准确等问题的关键基础。各业务部门对数据形成统一的认知和理解,消除数据的“二义性”,从而提升业务的规范性,降低因数据不一致而产生的沟通成本,进而提高业务处理效率。 2.技术方面 统一标准化的数据及其结构是信息共享的基石。标准的数据模型和标准数据元为新建系统提供有力支撑,显著提升应用系统开发及信息系统集成的实施效率。此外,数据标准为数据质量规则的建立和稽核提供了重要依据,是数据质量管理不可或缺的输入。 3.管理方面 通过对业务术语、主数据、参考数据及指标数据等定义统一的标准,为精准数据分析奠定坚实基础。统一的数据标准使业务人员能够轻松获取数据,从而为数据分析和数据挖掘创造可能。 二、数据标准的四项内容 一套完善的数据标准体系是数据管理和应用的基础,有助于实现数据底层的互联互通,提升数据的可用性,消除数据业务中的歧义。数据标准通常涵盖四个方面的内容: 1.数据模型标准 数据模型标准对每个数据元素的业务描述、数据结构、业务规则、质量规则、管理规则及采集规则进行详尽的定义,以确保数据具备可理解性、可访问性、可获取性和可用性。数据模型不仅体现了对业务的理解和定义,还能有效构建组织内部及组织间的沟通桥梁。此外,数据模型有助于识别缺失和冗余数据,并在ETL过程中精准记录数据映射。 在设计数据模型标准时,需重点考虑以下方面: 首先,是否符合设计规范,如遵循统一命名规则、确保元数据与数据的一致性; 其次,实体和属性的含义是否定义清晰且准确; 第三,术语和标准是否与实际情况相符,包括数据名称、属性和规则等; 最后,是否便于查阅,布局是否合理。 2.基础数据标准 基础数据构成系统的数据字典。在系统初始化阶段即已嵌入系统数据库,扮演着结构性和功能性支撑的角色。基础数据标准通常涉及国际标准、国家标准及行业标准。在定义数据实体或元素时,可引用相关标准,并依据组织部门实际需求持续补充完善、更新优化和积累,从而更有效地支撑业务应用开发、信息系统集成及企业数据管理。 基础数据标准包含业务、技术和管理三大属性: 业务属性:描述基础数据业务信息,供业务人员理解,包括标准主题、分类、编码、中英文名称、业务定义、规则、引用标准、来源及依据等; 技术属性:描述技术信息,支持系统实现,涉及数据类型、格式、长度、编码规则、取值范围等; 管理属性:描述管理信息,便于数据管理操作,涵盖定义者、管理者、使用者,以及版本、应用领域、使用系统等。 3.主数据与参考数据标准 主数据是用于描述核心业务实体的数据,如教师、学生、财务、教学、资产等。它具有高业务价值,能在学校内跨业务部门重复使用的“核心数据”。 参考数据则是用于将其他数据进行分类或目录整编的数据,规定了数据属性的域值范围。主数据标准包括主数据分类、主数据编码和主数据模型。主数据分类依据主数据的属性或特征,按照一定原则和方法进行区分和归类,建立相应的分类体系和排列顺序。主数据编码是为事物或概念(编码对象)赋予具有规律性、易于计算机和人识别处理的符号,形成代码元素集合。 4.指标数据标准 学校各业务域和部门设有业务指标,部分指标名称相同但业务含义不同,部分指标名称差异大却指向同一内容。若不进行指标数据标准化处理,同一指标在不同系统统计结果可能不同且难辨准确结果,构建或变更分析主题时需重新定义指标,耗费大。此外,当前大数据分析倡导业务人员自助分析,若无指标数据标准,业务人员难从不同系统获取所需数据,自助式分析难以实现,数据分析报告沦为空谈! 指标数据标准是基于实体数据,通过增加统计维度、计算方式、分析规则等信息加工而成的数据。它对业务指标所涉及的指标项进行统一定义和管理。指标数据标准与基础数据标准相似,同样涵盖业务属性、技术属性和管理属性三部分: 业务属性:包括编码、中英文名称、主题、分类、类型、业务定义、业务规则、数据来源、取数规则、统计维度、计算公式、显示精度及相关基础数据标准等。 技术属性:涵盖来源系统、使用系统、数据源表、数据类型、度量单位、取值范围、生成频度、计算周期、取数精度等。 管理属性:涉及归口管理部门、业务和技术负责人、权限范围等。指标数据标准化适用于业务数据描述、管理、分析和可视化,促进业务部门间、业务与技术间形成共识。 三、推进数据标准的六个阶段 数据标准管理从需求发起到落地执行,通常需经过标准梳理、标准编制、标准审查、标准发布和标准贯彻及管理办法的发布六个阶段。 1.数据标准梳理 根据行业标杆经验和本校实际确定实施范围,制定数据标准优先级和难易度。梳理和定义数据标准步骤如下: 首先,依业务划分业务域,识别关键业务活动并梳理定义,处理活动输入输出的业务单据和用户视图,梳理其数据对象; 其次,分析数据对象,明确所含数据项,提炼业务域的数据指标和数据项,定义数据元标准,详尽描述业务逻辑; 第三,梳理抽象数据实体和指标的关联关系,定义数据间关系,明确数据对象的数据关系; 第四,经上述梳理分析定义,确定企业数据标准管理主体范围,基于系统逻辑归纳抽象,形成数据标准模型,此过程可能涉及数据对象的合并或拆分。 2.数据标准编制 数据标准编制是依业务需求和数据管控要求,对数据对象及其数据项明确定义的过程,涵盖数据项名称、编码、类型、长度等方面。编制可参考国际、国家或行业标准,也可依本校业务需求制定校级标准。数据标准制定分三步实施: 标准制定推进会:召集相关干系人开会推进数据标准制定,讨论标准定义,标识记录数据对象、业务术语和关键指标,得出精确定义以达成共识。该方法有助于识别对象、定义标准、提升效率,解决含义不清和歧义问题。 标准差异专项分析:先查询数据标准是否已有定义,若有则结合需求确定附加信息或修改定义,形成完整可接受的元数据定义和规范。若存在多对象标准,分析是否一致,接受、修改或创建定义以达成共识,删除多余定义。 标准影响风险评估:数据标准管理易出现新旧系统、部门和业务冲突,处理不当会致标准化失败。落地时要做好影响评估和干系人沟通,通过业务影响分析识别对业务的影响范围、程度、价值及风险,确定业务人员可接受范围和程度,为后续沟通做准备。 3.数据标准审查 审查数据标准初稿,评估其是否符合应用、管理需求及数据战略要求,直至满足发布条件。数据标准审查从需求符合性、实用性等方面综合判断是否契合需求与管理现状。 数据标准征集意见:拟定初稿广泛征集意见,降低不可用或难落地风险,包括初步培训和宣贯。征求意见设期限(依业务范围定),规定时间无意见则默认接受。 数据标准专家评审:标准制定和执行依赖专家团队,成员需深入了解业务领域,提供权威定义建议、解决歧义。执行中协调解决部门争议,完善标准体系。 4.数据标准发布 数据标准意见征集工作完成后,经过严格审查,正式发布数据标准。数据标准一旦发布,各部门及各业务系统必须严格遵循执行。对于遗留系统的存量数据,存在一定风险,应进行全面的影响评估,以妥善应对潜在问题。 5.数据标准贯彻 数据标准的贯彻是将已发布的数据标准应用于信息系统建设和改造,消除数据不一致性。将数据标准与业务系统映射,明确标准与现状关联,识别受影响应用。对于新建系统,直接采用已定义的数据标准;旧系统则建立数据映射关系、进行转换,逐步落地标准。同时,要加强对业务人员的数据标准培训和宣贯。宣贯方法有: - 文件传阅:以正式文件发布数据标准供各部门传阅,作为数据维护参考。 - 集中培训:制定培训计划,落实场地等开展宣贯培训,学员反馈心得,老师总结经验。 - 专题培训:针对不同业务领域开展专题培训,通过上机实操强化效果,推动标准落地。 6.数据标准管理办法 数据治理应结合实际情况,制定科学的数据标准管理办法。该办法旨在提供规范性的指导和约束,保障前期数据标准的顺利落地与有效执行。 一份完整的数据标准管理办法通常涵盖但不限于以下内容:数据标准的目的、适用范围及具体细则,数据标准的管理组织架构、管理流程、执行要求、考核机制以及附则等。 四、数据标准的四个常见误区 数据标准管理核心目标是确保信息系统建设和集成遵循标准,保障数据标准完整适用并有效执行。贯彻数据标准要在业务部门和信息系统逐步推行,争取管理层与系统开发部门支持配合。 1.业务驱动,不可一意孤行:数据标准源于业务、归于业务,本质是管理问题,应从业务层面解决。建立数据标准是为促进系统数据互通和业务部门共识,制定时要逐个业务域梳理,靠业务人员努力,技术工具用于固化执行。 2.循序渐进,不可急于求成:从价值链和业务流程角度分段实施数据管理标准,结合业务需求、系统改造和新系统建设契机,选合适落地范围和层次,优先解决紧迫问题,明确业务部门数据职责,确保数据与业务流程匹配。 3.动态管理,不可一劳永逸:数据标准管理要保持定义、设计和使用一致,但标准并非固定不变。新业务需增标准,无价值标准要废弃,数据变化时标准要与时俱进、有前瞻性,建立更新体系和治理平台,有序管理版本。 4.应用为王,不可断章取义:数据标准化是信息化建设基石,工作要着眼信息系统规划、应用方向和需求,做到标准统一。高质量标准化为后续分析建模奠基。建设标准要服务业务、提升效率,结合IT 系统现状,以应用为目标,以国标、行标为基础,减少对现有系统影响,确保标准实用有效,回归业务应用。 五、小结 数据治理的成功很大程度上取决于数据标准的合理性和统一实施程度。数据标准体系构建的过程是信息化部门推进技术与管理深度融合的过程,不仅考验信息化部门的专业化水平,更考验工作人员沟通协调能力。 来源(公众号):数智转型洞察
2025-11-06 14:48 322
“您是否知道,许多‘小型’人工智能模型在性能上优于较老、较大的模型——而且仅使用了一小部分资源?” 想象一下,直接在你的智能手机上运行强大的AI助手,无需访问云端,即可在几毫秒内处理你的请求。这并非科幻小说——小语言模型正在将这一切变为现实,触手可及。 连续三年,人工智能界一直痴迷于一个简单的等式:越大越好。 科技巨头们投入数十亿美元构建庞大的语言模型,每一个模型都比上一个更大: •据传拥有万亿个参数的 GPT-4 •克劳德拥有数千亿 •Meta 的 LLaMA 突破极限,达到 700 亿 每一次突破似乎都遵循同样的模式——更多的参数、更大的功率、更多的可能性。 但2025年发生了一件意想不到的事情。 一 改变一切的剧情转折 随着企业人工智能部署从概念验证阶段过渡到生产阶段,一个令人惊讶的事实浮出水面:越大并不总是越好。 英伟达一项突破性研究表明,40%至70%的企业级人工智能任务可以通过小型语言模型(SLM )更高效地处理——这些紧凑而强大的模型参数少于100亿,具有以下特点: ✓速度比同类巨型设备快 10 倍 ✓部署和维护成本降低 5-20 倍 ✓更可靠,适用于特定业务任务 ✓设备端处理,注重隐私 大型语言模型(LLM)曾经需要昂贵的GPU来运行推理。但最近的进展为经济高效的CPU部署打开了大门,尤其对于小型模型而言。三大变革促成了这一转变: 1.更智能的模型——SLM 的设计旨在提高效率并不断改进。 2.CPU 优化运行时— llama.cpp 、GGUF等框架以及 Intel 的优化可实现接近 GPU 的效率。 3.量化——将模型从 16 位 → 8 位 → 4 位转换,可以大幅减少内存需求,并在几乎不损失准确性的情况下加快推理速度。 二 认识一下小型语言模型 当各大媒体都在追逐最新的十亿参数里程碑时,小型语言模型正在悄然赢得真正的胜利——实际业务部署。 1.市场信号:智能体人工智能正在蓬勃发展 据英伟达称,智能体人工智能(多个专业人工智能代理协作的系统)市场预计将从2024 年的 52 亿美元增长到 2034 年的 2000 亿美元。 2.思想领袖视角:40倍的增长代表了近年来最快的技术普及速度之一。这对企业高管来说意义重大:未来十年人工智能的发展将取决于普及规模,而非参数规模。 3.技术视角:要达到这种规模,人工智能必须从云端转移到边缘环境——智能手机、工厂车间、零售设备、医疗仪器等等。而这只有通过服务层级管理(SLM)才能实现,因为它们对计算和内存的需求更低。 三 快速演化时间线 语音语言模型的发展历程与自然语言处理(NLP)的发展紧密相连: •2017 年之前:基于规则和统计的模型像n-gram和word2vec 这样的模型捕捉到了基本的词语关联,但缺乏深入的理解。 •2017 年:Transformer 革新了 NLP Transformer 架构 的引入(在著名的“Attention is All You Need”论文中)使得深入的上下文理解成为可能。 •2018–2020 年:大型语言模型诞生 BERT、GPT-2 和 T5 带来了数十亿个参数,达到了最先进的基准。 •2021-2023 年:规模之战 OpenAI、Google、Anthropic 等公司通过将模型规模扩大到数百亿甚至数千亿个参数来展开竞争。 2023年至今:小即是美时代。 随着效率成为首要考虑因素,企业开始训练诸如LLaMA、Mistral、Phi、Gemma和TinyLLaMA等紧凑型模型,这些模型可在笔记本电脑、边缘设备甚至手机上运行。 四 小型语言模型究竟是什么 在了解 SLM 之前,我们先来了解一下什么是语言模型(LM)。 1.语言模型(LM) 一种经过训练的人工智能系统,能够通过预测序列中的下一个单词来理解和生成类似人类的文本。 2.小型语言模型(SLM) 一种轻量级的语言模型,参数更少,针对特定任务或设备端任务进行了优化,成本更低,性能更快。 •参数范围:通常为 1 亿至 30 亿个参数。 示例:认识小型人工智能领域的明日之星 3.大型语言模型(LLM) 一种功能强大的语言模型,拥有数十亿个参数,在海量数据集上进行训练,能够处理复杂的通用任务。 •参数范围:通常为 100 亿到 1 万亿以上参数。 例如:LLaMA 3 70B → 700亿、GPT-4 → 估计约 1 万亿、克劳德3号作品 → 数千亿。 大型语言模型 (LLM) 提供一流的推理能力,但需要大量的计算、内存和存储空间。而小型语言模型 (SLM) 则针对速度、效率和设备端使用进行了优化。LLM 能够处理广泛而复杂的任务,而 SLM 则擅长特定任务,能够更快地获得结果并降低成本。得益于量化和 GGUF 格式等技术,SLM 现在无需依赖昂贵的云基础设施即可为实际应用提供支持。 你可以把LLM和SLM的区别理解为: •大学图书馆藏书量(LLM)与专业专家的个人藏书量(SLM) •一把拥有100种工具的瑞士军刀与一把用于手术的精密手术刀。 4.其他值得了解的LM (1)检索增强型语言模型(RLM) 这是一种混合语言模型,它结合了语言生成和从外部来源(例如数据库、知识库或网络)实时检索信息的功能。这使得模型无需重新训练即可访问最新、真实且特定领域的数据,从而提高准确性并减少错误预测。 主要特性:集成检索(搜索)和生成(响应)。 参数范围:取决于基础模型——可构建于 SLM 或 LLM 之上。 示例:ChatGPT 与 Browse / GPT 与 RAG 集成;Perplexity AI(基于 RAG 的搜索助手);Microsoft Copilot(带图形检索功能);基于 LlamaIndex 或 LangChain 的 RAG 系统。 (2)中等语言模型(MLM) 中等语言模型 (MLM) 的规模介于小型语言模型 (SLM) 和大型语言模型 (LLM) 之间,通常包含 10 亿到 70 亿个参数,旨在平衡通用性和效率。它比小型语言模型更能有效地处理复杂任务,同时又比大型语言模型更经济高效。 主要特点:具有广泛的通用性,计算需求适中,通常采用 8 位量化进行优化。 参数范围:10 B–70 B 参数。 示例:Meta LLaMA 3 13B、Mistral Mix Medium 13B、Falcon 40B、GPT-3.5 Turbo(~20 B)。 ⚙️ SLM 的特性 •参数更少— 通常少于30 亿个参数,使其结构紧凑、重量轻。 •快速推理— 即使在 CPU 或消费级 GPU 上也能快速运行,延迟低。 •资源高效——需要更少的内存、计算能力和能源——非常适合边缘设备或本地部署。 •特定任务— 通常针对特定领域或特定任务进行微调(例如,客户支持、代码补全)。 •注重隐私——可在本地运行,无需将数据发送到云服务器。 •成本效益高——与大型模型相比,训练、部署和维护成本更低。 •更易于微调— 针对特定用例进行定制的速度更快、成本更低。 •便携易部署— 易于分发和集成(尤其是GGUF 格式)。 •环保——由于计算需求减少,碳足迹更低。 SLM也存在一些风险,下图详细比较了 SLM 和 LLM 的风险。 神奇之处不仅在于参数数量,更在于智能优化技术,这些技术使这些模型能够发挥远超其自身级别的性能。 五 SLM成功背后的技术创新 助力SLM部署的三项突破性技术 SLM 的兴起并非偶然。三大技术变革使得成本效益高的 CPU 部署成为可能,尤其适用于小型型号: 1. 更智能的模型架构:SLM 利用知识蒸馏等先进的训练技术,使较小的“学生”模型能够从较大的“教师”模型中学习,在参数减少 40% 的情况下,仍能保持 97% 的性能。微软的 Phi-3 系列便是这种方法的典范,在消费级设备上运行时,其性能可与 700 亿参数模型相媲美。 2. CPU 优化的推理运行时:围绕 llama.cpp、GGUF 和 Intel 优化技术的生态系统彻底改变了本地 AI 部署方式。这些框架在标准 CPU 上实现了接近 GPU 的效率,使 AI 无需昂贵的硬件投资即可普及。 3. 高级量化技术 或许最具变革性的创新是量化——将模型从 16 位转换为 8 位再转换为 4 位精度。这显著降低了内存需求,并在精度损失最小的情况下加快了推理速度。 六 混合部署模式 企业正在将两者结合起来,构建混合架构,以优化不同的使用场景。 •大语言模型:负责处理复杂的推理、战略规划和创造性任务 •SLM执行器:管理高频次、特定任务的操作,例如客户支持、数据处理和监控 这种方法既能实现最佳资源分配,又能保持复杂工作流程所需的智能性。 GGUF革命:让AI真正便携 GGUF(GPT生成的统一格式)值得特别关注,因为它代表了我们部署AI模型方式的范式转变。与针对训练优化的传统模型格式不同,GGUF是专门为提高推理效率而构建的。 GGUF的主要优势包括: 单文件可移植性:运行模型所需的一切都高效打包。 •混合精度:智能地为关键权重分配更高精度,而在其他部分使用较低精度。 •硬件灵活性:在 CPU 上高效运行,同时允许 GPU 层卸载 •量化支持:支持 4 位模型,在保持质量的同时大幅减小模型尺寸。 ✅理想的CPU部署配置: •8B参数模型 → 量化到4位时效果最佳 •4B参数模型 → 量化到8位时最优 一个实际的例子:将 Mistral-7B Instruct 量化为 Q4_K_M 格式,可以在配备 8GB 内存的笔记本电脑上流畅运行,同时提供与规模更大的云端模型相当的响应。 七 在本地运行 AI:构建本地 AI 执行架构 步骤 1:基础层 •GGML — 用于高效 CPU 操作的核心张量库 •GGUF — 轻量级二进制格式,支持混合精度量化 •结果:模型存储占用内存最小 步骤 2:推理运行时层 •llama.cpp — 具有原生 GGUF 支持的 CPU 优先引擎 •vLLM — GPU 到 CPU 的调度和批处理扩展 •MLC LLM——跨架构编译器和可移植运行时 •结果:在不同硬件上实现低开销模型执行 步骤 3:部署框架层 •Ollama — 用于无头服务器集成的 CLI/API 封装 •GPT4All — 桌面应用程序,内置 CPU 优化模型 •LM Studio — 用于拥抱脸模型实验的图形用户界面 •结果:简化部署和用户交互 第四步:绩效结果 •低于 200 毫秒的延迟 •低于 8GB 内存要求 •端到端量化管道 •最终结果:实现本地和边缘人工智能推理的民主化 八 实际应用:SLM 的优势所在 1.边缘计算和物联网集成 SLM 最引人注目的应用场景之一在于边缘计算部署。与依赖云的 LLM 不同,SLM 可以直接在以下环境中运行: •用于实时翻译和语音助手的智能手机和平板电脑 •用于即时异常检测的工业物联网传感器 •用于符合隐私保护规定的患者监护的医疗保健设备 •用于瞬间决策的自动驾驶车辆 •用于离线语音控制的智能家居系统 边缘部署的优势远不止于便利性。它能消除延迟,通过本地处理确保数据隐私,即使在网络连接不佳或中断的情况下也能保证持续运行。 2.企业成功案例 医疗保健:医院部署 SLM 以提供实时诊断辅助,处理敏感的患者数据,而无需承担云传输风险。 机器人技术:制造工厂使用 SLM 在工业自动化中进行自主决策,从而能够对不断变化的情况做出即时反应。 金融服务:银行利用特定任务的 SLM 进行欺诈检测和交易处理,与基于 LLM 的解决方案相比,可节省 10 到 100 倍的成本。 智能人工智能的经济学:SLM 与 LLM 成本分析 在单层模块 (SLM) 和层级模块 (LLM) 之间进行选择,对财务的影响非常大。请看以下实际成本比较: LLM部署(每日1000次查询): •API费用:每月3000-6000元 •基础设施:依赖云的扩展 •延迟:平均响应时间为 500–2000 毫秒 SLM部署(相同工作负载): •本地部署:每月 300-1200 元 •基础设施:一次性硬件投资 •延迟:平均响应时间为 50–200 毫秒 结果如何?SLM部署可以节省5-10倍的成本,同时提供更快的响应时间和更强的隐私控制。 或许,SLM 最深远的影响在于普及人工智能的使用。通过降低计算需求,SLM 可以实现: •小型企业如何在没有企业级预算的情况下部署人工智能解决方案 •个人开发者可以在消费级硬件上试验人工智能应用 •教育机构无需昂贵的云服务额度即可教授人工智能概念 •注重隐私的组织将在实施人工智能的同时保持数据控制权 这种民主化正在促进以前服务不足的市场和应用场景的创新。 九 展望未来:SLM的未来 SLM 的发展轨迹预示着几个令人振奋的发展方向: 模块化人工智能生态系统:我们正在从单一的模型转向由专门的SLM(系统生命周期管理)协作的系统,每个SLM都针对推理、视觉或编码等特定任务进行了优化。 绿色人工智能:SLM 的能源需求较低,因此对可持续人工智能部署至关重要,从而减少了人工智能广泛应用带来的碳足迹。 移动人工智能革命:移动芯片设计和SLM优化技术的进步使得无需云连接即可在智能手机上直接实现复杂的人工智能。 行业特定智能:我们看到,针对医疗保健、法律、金融和科学应用领域进行微调的特定领域 SLM 正在涌现,它们在专业任务中表现优于通用 LLM。 小结:静悄悄的革命仍在继续 小型语言模型正在重塑人工智能的部署方式,它将智能从云端转移到我们口袋里的设备、工厂车间的传感器以及真正做出决策的边缘系统。企业不再追求规模越来越大的模型,而是拥抱更智能、更高效的基础架构。到2025年,企业能否成功取决于它们采用这种易于上手且可持续的方法的速度。归根结底,人工智能的未来不在于规模,而在于智能,在这方面,小型模型往往比大型模型表现更出色。 人工智能领域正在飞速发展,及时了解这些变化对于做出明智的技术决策至关重要。小型语言模型不仅代表着一种技术趋势,更是对人工智能如何融入我们日常工作流程和业务流程的根本性重新构想。 来源(公众号):数据驱动智能
2025-11-05 14:51 369
热门文章