2022-11-20 07:36 浏览量:1032
在数据治理中,数据指标一般都是业务中最基础的分析内容,但是业务不断地快速发展迭代,指标管理上就会出现很多问题。所以在数据治理中指标系统的管理也是其中必要的一环。
要回答这一问题,先来看一下在指标管理中经常会遇到的问题有那些:
1. 相同名字逻辑不同
指标名称相同,统计口径不一致,缺少命名规范限制。
不同业务仅从自己部门出发,缺少全局视角,如财务口径的营收要严格按照严谨的逻辑计算实收实付的每一分钱,而产品/运营端则更多考虑转化效果,但在各自的KPI监控报表中,都把指标命名为营收。
2. 相同逻辑名字不同
指标统一逻辑一致,但不同产品命名不一致,不同阶段、或不同业务方/产品经理对指标命名不同,导致在不同数据产品页面,同一指标不同名。
3. 口径不清晰
只是同义词再复述一遍,如活跃用户数:访问用户数。
4. 命名难理解
表意不清模棱两可,或过于专业化仅指标创建人才可以懂。例如转化率指标,有创单转化率、成单转化率,直接叫转化率可读性就非常差。
5. 逻辑不准确
指标口径描述有误,例如UV指标,口径描述为“按照设备ID去重”,实际上不同平台去重逻辑并不一致,如微信小程序按照UnionID去重、APP按照DeviceID去重,PC和H5按照loginkey去重。
6. 数据难追溯
数据产品指标数据来源缺少直观的链路追踪能力,指标数据异常问题排查通过翻代码去看数据来源,路径长、耗时久,早上业务反馈指标问题,排查出结论后可能一上午就过去了。
7. 数据质量差
指标管理常见的问题综合在一起,往往会导致业务对数据指标的信任度大打折扣,发现数据波动后,第一反应是先和数据部门确认数据是不是有问题,而不是去考虑业务上有何变动。
数据域
指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概括为一个个不拆分的行为事件,在业务过程之下,可以定义指标;维度,是度量的环境,如顾客下单事件,订单类型是维度。为了保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护更新的,变动需执行变更流程。
业务过程
指公司的业务活动事件,如加购、支付都是业务过程。其中,业务过程不可拆分。
时间周期
用来明确统计的时间范围或者时间点,如最近30天、自然周、截止当日等。
修饰类型
是对修饰词的一种抽象划分。修饰类型从属于某个业务域,如日志域的访问终端类型涵盖APP端、PC端等修饰词。
修饰词
指的是统计维度以外指标的业务场景限定抽象,修饰词属于一种修饰类型,如在日志域的访问终端类型下,有修饰词APP、PC端等。
度量/原子指标
原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如支付金额。
维度
维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、月、周、日等级别内容)。
维度属性
维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等都属于维度属性。
指标分类主要分为**原子指标、派生指标、衍生指标**
1. **原子指标** 基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名称,如呼单量、交易金额
2. **派生指标** 是1个原子指标+多个修饰词(可选)+时间周期,是原子指标业务统计范围的圈定。派生指标又分以下二种类型:
1. 事务型指标:
是指对业务过程进行衡量的指标。例如,呼单量、订单支付金额,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标。
2. 存量型指标:
是指对实体对象(如司机、乘客)某些状态的统计,例如注册司机总数、注册乘客总数,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截止当前某个时间”。
**衍生指标**是在事务性指标和存量型指标的基础上复合成的。主要有比率型、比例型、统计型均值
主要包括:
1)建立指标生产协同机制,指标的诞生要经过需求申请、审核、数据开发、上线应用流程,收口指标创建过程,避免指标建设的随意性带来的“污染”。
2)制定指标命名、口径说明规范,按照原子指标+业务限定+统计维度的方式,将规则集成到平台内,通过系统规则来把控指标输出。
3)指标字典线上化,解决线下文档(excel)管理指标存在的共享难、更新不及时、权限管控缺失等问题。
4)指标数据逻辑绑定,即除了维护指标的业务元数据外,还要建立指标的技术元数据,指标数据从哪个模型、哪个字段、何种计算逻辑得到。
5)指标输出,指标管理最大的价值还是为数据产品提供数据输出,将Hive层模型同步到MySQL、Greenplumn、Kylin、CK等查询性能更优可以秒级响应的查询引擎,通过接口调用JDBC连接方式直接获取数据。
而实现这些是需要一个完整指标管理系统,来保证对应的规则要求落实到位。例如需要有权限管理,来限制不同的用户有哪些指标的查看权限,指标的审批流程在定义一个指标逻辑计算口径中需要指定负责人和审批人统一负责这个指标的规范。同时具有指标的快速检索功能,方便在定义指标或者查看已有指标时快速定位。
1.提高沟通效率,减少存在相同逻辑不同命名的问题,在同一认知维度进行沟通
2.统计口径收敛在一起统一管理,指标真确性提高
3.指标负责到人,有问题可以直接找到对接人,快速地解决问题。
4.对数据安全和权限的把控将会更加精细化,资源的管理也更加规范,在一定程度上会提升业务指标开发的成本。
来源:大数据架构师
作者:谈数据