《Q_SY10019-2023数据质量管理规范.docx》由会员分享,可在线阅读,更多相关《Q_SY10019-2023数据质量管理规范.docx(18页珍藏版)》请在课桌文档上搜索。
1、O/SY中国石油天然气集团有限公司企业标准Q/SY100192023数据质量管理规范Specificationfordataqualitymanagement2023- 10 - 19 发布20231201实施中国石油天然气集团有限公司发布目次前言II引言III1范围12规范性引用文件I3术语和定义14数据质量管理14.1 总体要求14.2 数据质量管理框架25数据质量计划25.1 明确数据质量提升目标25.2 明确数据质量控制范围26数据质量控制36.1 设计质量控制36.2 执行质量控制37数据质量评估47.1 数据质量评估框架47.2 设计质量评估57.3 执行质量评估57.4 数据质量
2、评估结果68数据质量改进68.1 数据质量改进内容68.2 数据质量改进过程6附录A(资料性)数据质量评估8附录B(资料性)数据质量规则类型10参考文献12本文件按照GB/T1.12020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件由中国石油天然气集团有限公司标准化委员会信息技术专业标准化技术委员会提出并归口。本文件起草单位:中国石油集团共享运营有限公司、数字和信息化管理部、昆仑数智科技有限责任公司、勘探开发研究院。本文件主要起草人:张云辉、方可、刘洋、何梦宁、钱丽娟、张仲猛、晋高杰、赵轩邈、朱玉秀、纪晨曦、冯需、钟磊、杨桦、王薇、王静、陈希、高天宇、侯宁宁、李爱丽、田
3、晓岚、贾文清、何婷婷。本文件审查专家:黄幽丽张万莉、王文革、曲京、梅运谊、李亚东、时付更、刘大为、袁维宁、刘晓、唐爽。为进一步规范中国石油天然气集团有限公司(以下简称“集团公司”)数据管理工作,构建“共建、共治、共享”的数据生态,挖掘数据价值,规划了十二项数据管理标准,数据管理标准的制定可促进集团公司数据管理体系的建立,明确各类数据管理活动的框架和具体要求,促进数据的安全与共享,充分挖掘数据资源价值,持续提升数据应用水平和决策支持能力。十二项数据管理标准包括: 数据管理工作导则; 数据资源目录构建规范;一一数据架构管理规范; 数据质量管理规范;一一数据安全管理规范; 数据湖管理规范; 元数据管
4、理规范;一一数据运营管理规范; 数据分析管理规范; 数据中台管理规范 数据共享与服务管理规范; 数据出境安全管理规范。本文件为此系列标准的第四册,通过规定数据质量管理的要求,包括数据质量计划、控制、评估、改进的循环,持续提升数据质量,建立数据质量持续改进机制,达到数据质量结果满意,不断加强数据质量能力保障,有效支撑集团公司数字化转型工作。数据质量管理规范1范围本文件规定了数据质量计划、质量控制、质量评估和质量改进等数据质量管理的要求。本文件适用于数据管理工作。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;
5、不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。Q/SY100182023数据安全管理规范3术语和定义下列术语和定义适用于本文件3.1数据质量dataquality在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。来源:GB/T360732018,3.103.2根因分析rootcauseanalysis一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。4数据质量管理4.1 总体要求数据质量管理应符合以下要求:a)闭环管理:数据质量管理贯穿数据的全生命周期,从数据产生、汇聚、加工到应用,建立数据质量闭环管理机制。b)谁产生、谁负责:
6、各单位明确数据质量责任部门和岗位职责,建立健全数据质量管理流程,设置数据质量的责任人,将数据质量责任落实到具体岗位。c)需求导向、根因修正:关注对公司及客户最重要的数据,改进的优先顺序应根据业务影响程度及改动成本来判断;数据质量改进除纠正错误外,更需分析问题根因,彻底解决问题,防止问题再次发生。d)源头防范:各信息系统建设过程中严格落实数据质量控制标准,实现数据质量源头管理,及时发现、收集、分析和处理数据质量问题。4.2 数据质量管理框架数据质量管理以业务需求为驱动,以提升数据质量为目标,通过数据质量计划、控制、评估、改进,持续提升数据质量。以数据的设计质量、执行质量两条主线进行控制,达到数据
7、质量结果满意。数据质量管理框架见图1。提升数据质量业务需求结果满意5数据质量计划1.1 明确数据质提升目标数据归口管理部门根据数据质量的现状,制定个管理周期内的数据质量提升目标。目标制定应符合以下要求:a)依据企业战略目标及数据管理要求,根据数据质量现状,从影响财报准确性、业务效率提升、业务合规运营等方面识别数据质量管理的需求,制定阶段性的数据质量提升目标;b)参考外部监管要求,根据国务院国资委或其他监管机构的要求制定监管数据的数据质量提升目标;c)根据各业务领域信息系统数据质量现状,制定信息系统的数据质量提升目标。1.2 明确数据质量控制范围5. 2.1设计质评估范围设计质量是对不同主题域下
8、所有业务对象的数据架构建设情况进行评估。数据归口管理部门可根据确定的数据质量提升目标,基于集团公司数据治理平台发布的数据资源,明确设计质量评估的具体主题域与业务对象。6. 2.2执行质量评估范围执行质量通过聚焦关键数据、结合数据质量评估维度进行全面评估。执行质量的评估范围通过以下4个要素来确定,数据归口管理部门可根据实际管理需求进行调整:a)法律财务风险性:数据与法律、财务的关联性强,一旦发生质量问题,会对公司外部的法律遵从产生较大影响,或给公司带来相关财务损失,如收入、成本等数据;b)业务流程战略性:产生数据的业务流程,是否为公司核心交易流程或战略地位较高的流程,如工艺流程;c)客户关注重要
9、性:数据对客户服务带来直接影响,如合同、验收标准、开票信息等:d)问题发生的频率和影响程度:评价业务对象数据质量问题实际发生的频率和影响程度。6数据质量控制6.1 设计质量控制设计质量控制主要包含以下内容:a)数据认权:业务对象应有明确、唯一的数据归口管理部门b)数据资源目录构建:完整划分业务领域下的主题域,识别业务对象并设计逻辑实体和属性(L1L5);c)数据架构审查:数据归口管理部门定期审查数据架构并更新;d)数据质量运营:数据归口管理部门需要对业务领域数据质量管理全过程负责;e)数据标准发布:数据归口管理部门组织制定本业务领域的数据标准并通过集团公司数据治理平台发布;f)数据标准遵从:数
10、据标准在IT系统及其对应的业务流程中得到应用和遵从:g)数据模型管控:根据逻辑模型设计方法开发和维护逻辑模型,并通过数据专业组织评审:物理数据模型设计应遵从逻辑数据模型设计,数据库中物理表的落地应遵循物理模型设计;h)数据源认证:数据源应经过数据归口管理部门的认证;i)数据定级:根据Q/SY10018-2023的要求确定属性的数据安全级别与个人数据级别;j)共享类型确定:根据中国石油天然气集团有限公司数据管理规定(中油数信2022152号)的相关要求确定属性的共享类型。设计质量评分要素见表A-I6.2 执行质控制7. 2.1数据质量规则数据质量规则是判断数据是否符合数据质量要求的逻辑约束。依据
11、数据产生和使用时的质量特性,以四类、六个评估维度来设计数据质量规则,说明如下。a)数据质量规则分类1)单列数据质量规则:关注数据属性值的有无及是否符合自身规范的逻辑判断;2)跨列数据质量规则:关注数据属性间关联关系的逻辑判断;3)跨行数据质量规则:关注数据记录之间关联关系的逻辑判断;4)跨表数据质量规则:关注数据集关联关系的逻辑判断。b)数据质量规则的评估维度:D完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量评估最基础的维度,例如产品所属的产品组不可为空。2)及时性:指及时记录和传递相关数据,满足业务信息获取的时间要求。数据
12、交付要及时,抽取要及时,展现要及时。不满足及时性的数据可能导致分析结论失去参考意义。3)准确性:指真实、准确地记录原始数据,无虚假信息。例如客户的客户名称必须与营业执照上的信息保持一致。4) 一致性:指遵循统一的数据标准记录和传递数据,主要体现在数据记录是否规范、数据是否符合逻辑。例如同一客户对应的不同系统中的客户编码需一致。5)唯一性:指同一数据只能有唯一的标识符。例如客户有且仅有一个有效客户编码。6)有效性:指数据的值、格式和展现形式符合业务定义的要求。例如客户的客户类型必须是业务明确定义的允许值。c)数据质量规则内容:1)规则名称:规则的简要信息描述,便于规则的理解与传递;2)评估维度:
13、规则关联的评估维度,包括完整性、及时性、港确性、一致性、唯一性、有效性;3)规则分类:规则的分类,包括单列、跨列、跨行与跨表;4)规则类型:规则的类型,包括不可为空类、记录唯一类等,数据质量规则类型说明见表B.1;5)业务判断逻辑:数据质量规则的业务语言描述6)规则制定部门:负责制定和解释数据质量规则的部门。数据质量规则分层结构层级结构一致约束类外关联约束类湾表等值一致约束类一跨表逻辑-致约束类图2数据质规则分层结构6. 2.2执行质控制策略数据创建和维护过程应做到:a)数据的标准化生产:从数据的源头控制好数据质量,该过程可以采用系统自动化校验和人工干预审核相结合的方式进行管理。b)数据质量预
14、警:通过配置数据相似性算法或数据关联性算法,在数据新增、变更等环节调用预置的数据质量算法,进行相似度或关联性分析,并给出数据分析的结果。数据预警机制常用在业务活动的交易风险控制等场景。7数据质评估6.1 数据质评估框架数据质量评估框架见图3,其中设计质量与执行质量的评估权重占比可依据实际管理需求、组织完善度等进行适当调整。6.2 设计质评估基于设计质量控制的规定(见6.1),从数据架构的建设情况进行评估,设计质量评分表见表A.2()6.3 执行质量评估7. 3.1评估任务设计要求7.3.1.1数据质量评估任务由数据归I管理部门基数据分类特性,结合数据质量计划组织设计。评估任务设计应符合以下原则
15、:a)重要性原则:对核心数据、质量问题较严重的数据,应重点考虑b)成本效益原则:管理成熟且质量较高的数据,或度量成本很高但预期改进很少的数据,可以考虑简化评估或不评估c)明确性原则:设计清晰、可衡量:d)分层分级原则:可根据不同层级的管理诉求,分层分级设计;e)持续度量原则:一次性就可解决问题的数据不需要度量。7. 3.1.2数据质量评估任务是数据质量评估的最细粒度,可按照以下优先级对数据质量规则进行整合:a) 一个业务对象对应一个评估任务:业务对象下各质量问题对应的质量规则的整合;b) 一个质量问题对应一个评估任务:质量问题下各业务对象对应的质量规则的整合;c) 一个质量规则对应一个评估任务
16、:规则与规则之间独立,不做整合。7.3.2评估任务设计内容数据质量评估任务设计应包含以下内容:a)任务名称:可根据评估任务颗粒度结合及数据质量评估维度进行命名,例如销售配置发布准确率;b)设置目的:业务运营预期要达到的效果,例如减少产品成本错误;c)计算公式:定义数据取数范围和条件、计算公式;例如单位为百分比,需清晰定义分母、分子的取数据范围和取数规则;d)数据来源:取数的数据源,例如合同管理系统等;e)计算单位:与计算公式匹配的结果值的单位,例如比率“%”;D测评对象:评估数据所属部门最小单元,评估结果反映该部门的数据质量情况,例如数字和信息化部:g)测评部门:发起评估任务的部门;h)测评周
17、期:包括月、季、半年、年等。7.3.3实施数据质量评估数据归口管理部门组织数据管理人员与信息化内部支持单位,在集团公司数据治理平台配置对应的数据质量评估作业,包括配置相关数据库表、质量规则、告警信息与调度信息等内容。平台根据质量作业执行结果计算执行质量评分,执行质量评分表见表A.3。7.4数据质量评估结果数据质量评估结果是设计质量和执行质量的综合评估,数据质量综合评分表见表A.4。数据质量评估结果划分为5个评分等级,包括满意。基本满意、略不满意、不满意和很不满意,数据质量评分等级表见表A.5。8数据质量改进1.1 数据质量改进内容数据质量改进是对数据质量问题进行分析,制定和实施数据质量改进方案
18、,包括错误数据更正、业务流程优化、应用系统问题修复等内容。质量改进要固化在流程体系中进行标准化,通过质量控制使得标准化的流程得以执行实施,确保数据质量改进的成果得到有效保持1.2 数据质改进过程8 .2.1问题收集问题收集是对发现数据质量问题进行提报及分发的过程,通过集团公司数据治理平台实现。问题提报一般有三种途径:一是数据管理中心组织的数据质量评估发现的质量问题:二是信息化内部支持单位在数据质量监控时发现的数据质量问题;三是各业务领域人员日常提报的质量问题。数据质量问题提报内容包含但不限于:所属业务对象,数据质量问题提报人、提报人所属部门、涉及信息系统、问题描述、提报时间等信息。集团公司数据
19、治理平台根据所收集问题的所属业务对象,自动分发至相关数据归口管理部门。9 .2.2问题分析数据归口管理部门组织对所获取的数据质量问题进行初步分析,确定问题原因,按照质量评估内容对问题分类,分析方法包括根因分析和影响分析:a)根因分析:对问题进行归纳、剔除非数据问题,明确问题所在区域及处理范围,分析问题根本原因,并进行质量问题分类和归因;应从设计质量与执行质量两方面展开分析,定位到具体的问题责任人,推动问题整改。b)影响分析:对发现的问题数据进行数据分布分析、血缘分析、影响分析、问题业务影响程度分析等;如果出现了影响系统运行或者是关键数据质量的严重问题,应通知相关数据责任人进行紧急问题处理。8.
20、23 问题整改数据质量问题的整改应符合以下要求:a)制定数据质量整改方案:问题数据的归口管理部门应依据数据质量分析结果组织制定数据质量整改方案,整改方案中应包括:各业务域间配合方法、问题的最终验证方法,以及相应的时间、责任人员安排。b)指派责任人:根据方案,将问题分派到业务与技术的责任人,责任人负责对质量问题进行跟踪解决。c)对于影响非常严重,可能导致关键数据出错的质量问题应优先制定整改方案,并尽快组织整改。如质量问题需源系统整改,则需明确属于人员操作不规范造成的数据问题还是系统功能不完善、缺失造成的影响。8.24 质量提升根据数据质量问题整改成果,进行成果检查和持续优化,保证数据问题的处理并
21、避免重复发生。在设计质量方面,应根据业务需求不断更新完善数据架构信息;在执行质量方面,应根据数据层面整改效果,结合事件驱动契机,推动源系统改造,提升信息系统数据质量。由数据归口管理部门组织对整改结果进行评估和验收,问题提报人对质量问题整改结果进行确认并关闭问题。附录A(资料性)数据质量评估A.1设计质量评分要素设计质量评分要素见表A.1。表A.1设计质量评分要素序号评分要素评分标准分值占比%评分颗粒度1数据认权业务对象应有明确、唯一的数据归口管理部门10业务对象2数据资源目录构建完整划分业务领城下的主题城,识别业务对象并设计逻辑实体和属性(LlL5)10业务领城3数据架构审查数据归口管理部门定
22、期审查数据架构并更新10业务领城4数据质量运营数据归口管理部门需要对业务领域数据质量管理全过程负贡10业务领域5数据标准发布数据归口管理部门组织制定本业务领城的数据标准并通过集团公司数据治理平台发布10业务对象6数据标准遵从数据标准在IT系统及其对应的业务梳程中得到应用和遵从10业务对象7数据模型管控根据逻辑模型设计方法开发和维护逻辑模型,并通过数据专业组织评审;物理数据模型设计应遵从逻辑数据模型设计,数据库中物理表的落地应遵循物理模型设计10业务对象8数据源认证数搪源应经过数据归口管理部门的认证10业务对象9数据定级根据Q/SY10018的相关要求确定属性的数据安全级别与个人数据级别10业务
23、对象10共享类型确定根据中国石油天然气集团有限公司数据管理规定(中油数信2022152号)的相关要求确定属性的共享类型10业务对象注1:全部评分要素的分值占比合计为100%C注2:可依据实际管理需求适当增减评分要素或调整分值占比的大小A.2设计质量评分表设计质量评分表见表A.2。表A.2设计质量评分表(含示例)业务领城业务对象数据认权数据资源目录构建数据架构审查数据质量运营数据标准发布数据标准遵从数据模型管控数据源认证数据定级共享类型确定业务对象得分%物资供应链采购订单9.519.279.339.439.749.499.789.569.869.8195.78注1:业务对象得分等于各个评分要素得
24、分之和,满分为100双注2:业务领城得分通过计算该领城所有业务对象得分的平均值得出。A3执行质量评分表执行质量评分表见表A.3。表A.3执行质量评分表(含示例)业务领城业务对象质量规则评估结果质量规则得分%业务对象得分%物资供应链采购订单采购订单编号一致率82.00%82.0090.00物资供应链采购订单采购订单曷准确率98.00%98.0090.00注1:质量规则得分的满分为100%。注2:业务对象得分通过计算该对象各个质量规则得分的平均值得出。注3:业务领城得分通过计算该领域各个参评业务对象得分的平均值得出。A.4数据质量综合评分表数据质量综合评分表见表A.4。表A.4数据质量综合评分表(
25、含示例)业务领城设计质量得分40%执行质量得分60%综合得分%物资供应链38.3154.0092.31注:综合得分姑设计质量得分叮执行质量得分的加权求和,评估权重可依据实际管理需求适当调整。A5数据质量评分等级数据质量评分等级见表A.5。表A.5数据质量评分等级表综合得分%等级代号等缓评价等级说明80100A满意评估结果已经达到数据质量要求,影响很少或可忽略6080B基本满意评估结果基本能够达到数据质量要求,存在少量的数据质量问题,影响较小40飞0C略不满意评估结果略微达到数据质量要求,存在一些数据质量问题,影响一般2040D不满意评估结果不能达到数据质量要求,存在较多的数据质量问题,影响较大
26、020E很不满意评估结果远不能达到数据质量要求,存在重大的数据质量问题,影响严重注:综合得分区间包含起始值且不含结束值,仅A等级包含100M附录B(资料性)数据质量规则类型数据质量规则类型见表B.I.表IH数据质瞰则类型序号规则分类评估维度规则类型规则类型描述规则示例1完整性不可为空类属性不允许或在满足某种条件下不允许出现空值员工工号不可为空2有效性语法约束类属性值满足数据语法规范取值约束邮箱地址需满足有效邮箱格式,身份证号满足国家标准3有效性格式规范类属性值必须满足展现格式约束日期有多重格式,对于同一属性指定同一类型格式4单列有效性长度约束类属性值须满足约定的长度范围密码的长度至少要8位,不
27、超过16位5有效性值域约束类属性值必须满足已定义的枚举值列的约束合同的合同主类型及子类型必须是合同类型基础数据中定义的枚举值6准确性事实参照标准类存在事实数据或者事实参考标准数据,与该事实或事实参照标准对比一致的约吏企业法人数据必须与国家法人数据库中的信息保持一致7完整性应为空值类属性满足某种条件下不能维护值敏感站点不允许维护经纬度信息8普列一致性单表等值一致约束类某一属性值与本实体其他属性计算值相等的约束合同的RMB签约金额必须等于USD签约金额与汇率的乘积9一致性单表逻辑一致约束类某一属性值与本实体其他属性满足逻辑关系约束(大于或小于)合同的关闭日期不能早于签订日期10及时性入库及时类数据
28、进入系统的及时性约束,通常要包括原始数据产生时间和入库时间才能进行规则设计通过系统中员工的入职H期和系统创建日期判断员工入职信息维护及时性11一致性外关联约束类引用其他业务对象属性时,所维护的属性值必须在其他业务对象中存在的约束合同的签约客户必须为客户主数据中定义的法人客户12跨表一致性跨表等值一致约束类某一属性值与其他实体的一个或多个属性值的函数计算结果相等的约束合同的金额与合同按产品拆分后的金额之和一致13一致性跨表逻辑一致约束类某一属性值满足其他实体的一个或多个属性值的函数关系的约束(大于或小于)员工的任命口期早于员工的到岗日期表B.1(续)序号规则分类评估维度规则类型规则类型描述规则示例14跨行唯一性记录唯一类记录不重复,存在可识别的业务主键进行唯一性判断,是对数据集内部是否存在相似或重竟记录的约束规则组织机构代码在集团范围内唯一15一致性层级结构一致约束类存在层级结构的属性,同层级属性结构一致物资分类分为大类、中类、小类、品名四个层级参考文献1GB/T36073-2018数据管理能力成熟度评估模型2中国石油天然气集团有限公司数据管理规定(试行)中油数信2022152号