《数据交易 第3部分:数据产品质量评估规范.docx》由会员分享,可在线阅读,更多相关《数据交易 第3部分:数据产品质量评估规范.docx(19页珍藏版)》请在课桌文档上搜索。
1、ICS35.240.01CCSL70H31上海市地方标准DB31TXXXX-XXXX数据交易第3部分:数据产品质量评估规范DataexchangePart3:ThequaIityevaIuationspecificationfordataproduct(征求意见稿)在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。XXXX -XX-XX 发布XXXX-XX-XX实施上海市市场监督管理局发布目次前言II引言II1范围12规范性引用文件13术语和定义14评估原则25评估框架2qI质量模型24,指标项组成36指标体系3KI基础质量指标3A1技术使用指标6Kl市场应用指标77评估方法87I
2、评估方法类型87)定量评估871定性评估874结果评分98评估流程9Rl流程模型9R)明确评估主体10Rl设计指标方案10R4实施质量评估11R4提升产品质量11R4数据产品运营11Rl质量需求变更11Rq质量评估完成11附录A(资料性)数据产品质量评估报告编制要求12A.1总体要求12A.2首页12A.3正文12A.4附录12参考文献13刖百数据交易分为下列6个部分:一第1部分:数据流通交易合规指南;一第2部分:数据产品权益认定指南;一第3部分:数据产品质量评估规范;一第4部分:数据资产评估规范;一第5部分:数据产品定价方法;一第6部分:数据产品可信交付技术要求与评估规范。本文件为DB31T
3、XXXX的第3部分。本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由上海市经济和信息化委员会提出并组织实施。本文件由上海市信息标准化技术委员会归口。本文件起草单位:上海数据交易所有限公司、中远海运科技股份有限公司、上海质量管理科学研究院有限公司、中国建筑第八工程局有限公司、上海计算机软件技术开发中心、上海富数科技有限公司、上海浦东软件平台有限公司、蚂蚁科技集团股份有限公司、上海芯化和云数据科技有限公司、北京市中闻(上海)律师事务所、复旦大学、上海商学院、上海华东电信
4、研究院、上海市软件评测中心有限公司、欧冶云商股份有限公司、国网上海市电力公司、中国工商银行软件开发中心、上海浦东发展银行股份有限公司、上海生腾数据科技有限公司、上海久事(集团)有限公司、上海智慧城市发展研究院、上海信投数字科技有限公司、上海数字产业发展有限公司本文件主要起草人:卓训方、韩懿、张瑞韬、司萌萌、杨琳、孟凯、王超毅、李远刚、张绍华、昌文婷、杨天雅、李川、侯觅、关淘、彭莉、张诚、程夏莹、林力、苏运、苏亚武、丁瑾、陆燕、金晶、唐飞、朱喜华、李周平、彭晋、卞阳、常永波、李浩林、李凡、沈蒋瑾、徐宏杰、谈云骏、姜善定、杨晓倩、徐香君、王冠群、胡琼方、胡力旗、罗凌、杨冠军本文件根据中共中央国务院
5、关于构建数据基础制度更好发挥数据要素作用的意见“十四五”数字经济发展规划中共中央国务院关于加快建设全国统一大市场的意见和上海市数据条例等要求制定,旨在促进数据要素流通、培育数据要素市场、推动数字经济高质量发展和加快数据质量标准化体系建设。本文件的落地实施,有利于保障数据的可靠性和实用性,规范数据产品质量评估领域工作,提高数据产品质量水平,促进本市数据产品交易,推进数据要素市场建设,完善数据要素流通交易市场制度体系建设,加快数字经济发展。数据交易第3部分:数据产品质量评估规范1范围本文件提供了可交易数据产品的质量评估框架、指标体系、评估方法和评估流程。本文件适用于各类数据交易场景下的数据产品质量
6、评估,为数据交易中相关方开展质量评估与自评估提供参考。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T36344-2018信息技术数据质量评估指标DB31TXXXX-XXXX数据交易第1部分:数据流通交易合规指南3术语和定义下列术语和定义适用于本文件。a1属性attribute目标数据的固有性质或特性,能用人工或自动手段定量或定性地区分。a9元数据metadata定义和描述其他数据的数据,主要用来指示数据类型、内容概要、存储途径、数据访
7、问权、资源查找、信息记录等。来源:GB/T36344,2.2,有修改数据文件datadocument一个单元化的相关数据记录。数据格式dataformat对于数据的储存或记录的管理编排。数据项dataitem在特定上下文内数据的最小可识别单位,其定义、标识、允许值和其他信息是由一组属性指定,对应于数据源中一列信息的一组完整内容,与字段同义词。a6数据记录datarecord对应于数据源中一行信息的一组完整的内容。,7数据值range通过进行测量对目标实体的属性所赋予的数值或者类别,是数据项的内容,也称为值域。数据标准datastandard数据的命名、定义、结构和取值规范方面的规则和基准,保障
8、数据使用和交换规范性约束。来源:GB/T36344,2.8,有修改O数据质量dataquaIity作为数据产品的内容时,数据的特性满足明确的和隐含的要求的程度。来源:GB/T36344,2.3,有修改4评估原则数据产品质量评估应遵循下列原则:一科学性。评估应能正确、客观地反映数据产品质量状况,主要体现在正确的质量指标选择,以及采用科学合理的评测方法等方面。评估应有一定的理论基础,但又不能脱离实际。指标既要相互联系,相互制约,又要相互独立,不互相包容,避免指标间冲突;严谨性。质量评估过程中应根据业务需求制定清晰、准确的指标计算方式并进行评估实施,避免产生歧义;可操作性。应考虑评估的可行性、操作的
9、便捷性,选取可量化、易获取、可靠的指标进行评估。5评估框架4 1质量模型数据产品质量模型包括基础质量、技术使用及市场应用指标三方面。基础质量要求包括完整性、规范性、一致性、准确性和时效性;技术使用指标包括可用性、可靠性、高效性和可理解性。市场应用质量指标包括转化率、复购率、满意度、改进效率和持续高质量。每个质量特性包含若干个质量测度,见图1。数据产品质量模型基础质量指标技术使用指标市场应用指标持续高质量改进效率满意度复购率转化率可理解性高效性可靠性可用性时效性准确性规范性完整性图1数据产品质量模型5 5指标项组成本文件给出评价表的表头信息如下:一指标编号:采用4位阿拉伯数字,第1位代表所属一级
10、指标,为1表示是通用质量质量指标,为2表示是使用质量指标,为3表示是价值质量指标。第2位代表该二级指标在所属级指标中的排序,3、4位表示该三级指标在所属二级指标里的排序; 指标名称:三级指标的名称; 指标描述:指标的定义、解释与示例; 计算/实施方法:指标的计算公式。6指标体系A1基础质量指标6.1.1 完整性完整性是指数据产品中数据文件记录的数据项被赋予数值程度,评价指标定义见表1。表1完整性评价指标指标编号指标名称指标描述计算方法HOl记录完整性数据产品记录的数据字段被赋值数量完整程度,即行的完整性。X=A/B式中:A=数据产品通过检查被赋值的字段个数;B=被评价的数据产品总字段数的个数。
11、1102属性完整性数据产品记录的条数被赋值数量完整程度,即列的完整性。X=A/B式中:A=数据产品通过检查被赋值的记录条数;B=被评价的数据产品总条数。1103数据值完整性数据产品记录的数据值被赋值数量的完整程度。X=A/B式中:A=数据产品通过检查的数据值的数量;B=被评价的数据产品数据元素总数量。6.1.2 规范性规范性是指数据产品符合数据标准、业务规则、元数据及格式等要求的规范程度,评价指标定义见表2。表2规范性评价指标指标编号指标名称指标描述计算方法1201值域规范性数据产品是否符合值域标准规范。X=A/B式中:A=数据产品通过值域标准规范检查的数量;B=被评价的数据产品数据元素总数量
12、。1202元数据规范性数据产品是否符合元数据标准规范。X=A/B式中:A=数据产品通过元数据标准规范检查的数量;B=被评价的数据产品数据元素总数量。1203格式规范性数据产品是否符合格式标准规范。X=A/B式中:A=数据产品通过格式标准规范检查的数量;B=被评价的数据产品数据元素总数量。1204安全规范性数据产品是否符合法律法规和行业安全标准规范。X=A/B式中:A=数据产品通过法律法规和行业安全标准规范检查的数量;B=被评价的数据产品数据元素总数量。一致性是不同数据产品描述同一件事物的无矛盾程度,评价指标定义见表3。表3一致性评价指标指标编号指标名称指标描述计算方法1301数据赋值一致性数据
13、产品具有相同的意义的数据在同一时点、存储在不同位置的赋值一致程度。X=A/B式中:A=数据产品通过相同含义数据赋值一致检查的数;B=被评价的数据产品数据元素总数量。1302语义一致性数据产品的数据项符合语义规则一致程度。X=A/B式中:A=数据产品通过数据项语义规则检查的数量;B=被评价的数据产品数据元素总数量。6.1.4准确性准确性是数据产品准确描述事件的真实程度,评价指标定义见表4。表4准确性评价指标指标编号指标名称指标描述计算方法1401内容准确性数据产品说明书揭露事项与数据产品中所列的数据项内容致情况X=A/B式中:A=数据产品通过内容表述正确检查的数量;B=被评价的数据产品数据元素总
14、数量。1402数据重复率数据产品之特定字段、记录或数据文件重复记录情况X=A/B式中:A=数据产品重复记录的条数;B=被评价的数据产品记录总条数。1403脏数据出现率数据产品存在非法字符和业务含义错误等无效数据情况X=A/B式中:A=数据产品无效数据数量;B:被评价的数据产品数据元素总数量。6.1.5时效性时效性是数据产品真实反应事件的及时程度,评价指标定义见表5。表5时效性评价指标指标编号指标名称指标描述计算方法1501更新频率及时性数据产品符合业务周期更新频率要求情况X=A/B式中:A=数据产品通过业务周期频率要求的数量;B=被评价的数据产品数据元素总数量。1502更新即时性数据产品符合延
15、迟时间要求更新情况X=A/B式中:A=数据产品通过延迟时间更新要求的数量;B=被评价的数据产品数据元素总数量。6,技术使用指标6.2.1可用性可用性是数据产品能被正常访问的程度,评价指标定义见表6。表6可用性评价指标指标编号指标名称指标描述计算方法2101可访问性数据需方成功请求访问的情况X=A/B式中:A=数据产品被数据需方通过请求访问成功的次数;B=被评价的数据产品清求访问总次数。2102可获取性数据需方成功使用该数据产品的情况X=A/B式中:A=数据需方成功获取数据产品的次数;B=总使用次数。2103可用性数据产品满足数据需方业务使用占比情况X=A/B式中:A=满足业务需求数据项数量;B
16、=总数据量。6.2.2可靠性可靠性是指数据产品在数据需方规定条件下和规定时间内保持正常工作的能力,评价指标定义见表7。表7可靠性评价指标指标编号指标名称指标描述计算方法2201故障率数据需方在使用数据产品过程中,单位时间内发生各类故障的概率X=A/B式中:A=故障次数;B=总使用时间。2202平均无故障时间数据产品在每两次相邻故障之间平均正常运行的时间X=A/B式中:A=无故障使用时间总和B;故障次数。6.2.3高效性高效性是指数据需方在使用数据产品过程中完成业务目标的效率,评价指标定义见表8。表8高效性评价指标指标编号指标名称指标描述计算方法2301业务效率提升数据需方使用数据产品后业务效率
17、的变化情况X=(A-B)/A式中:A=使用数据产品后业务效率;B=使用数据产品前业务效率。2302精度准确性数据产品相关数据项是否满足数据需方业务精度的要求X=A/B式中:A=数据产品通过精度标准规范检查的数据项数量;B=被评价的数据项总数o2303平均修复时间数据产品发生故障后,数据供方修复故障所需平均时间X=A/B式中:A=总修复时间;B=故障次数。6 .2.4可理解性可理解性指标描述的是数据产品在用户理解和使用方面的难易程度。表9可理解性评价指标指标编号指标名称指标描述计算方法2401可理解性数据产品相关数据项是否符合数据需方的理解X=(I-A)/B式中:A=不易于理解的数据项;B=被评
18、价的数据项总数量。A1市场应用指标适用于数据产品质量全生命周期管理,衡量数据产品的综合价值,包括满足数据需方的能力、在关键业务场景中的作用、适应不同场景的实用性以及持续改进的潜力。可用于评估数据产品的整体性能、适用性和未来价值提升潜力,为决策和改进提供参考。指标定义见表10。表10市场应用指标指标编号指标名称指标描述计算方法3101转化率在一定时间内达成交易的比例。X=B式中:A=交易次数;B=总访问量3102复购率在数据镭方完成使用数据产品后一定时间内达成复购的比例。X=AZB式中:A=在完成使用数据产品后完成复购的次数;B二在相同时间段内总交易次数。3103满意度数据需方对数据产品用于不同
19、场景下的评价和反馈。X=AB式中:A=正面评价的数量;B=总评价的数量。3104改进率针对过往检查中发现问题的指标采取定期检查、审计等方式,对数据产品的质量改进效率进行评估。X=AZB式中:A=皂整改指标数量;B=被检查指标数量。3105持续高质量若该数据产品在段时间内对通用质量指标和使用质量指标进行过多次评估,加权平均后得到持续高质量性的数值。数值越高,表明数据产品拥有持续高质量的能力。X=AZB式中:A=基础质量指标的加权平均值;B=技术使用质量指标的加权平均值。7评估方法7 1评估方法类型数据产品质量评估方法分为:a)定量评估方法:通过数学或其他科学手段而做出的判断和评估数据产品质量,能
20、够较好地保证评估结果的科学性和客观性;b)定性评估方法:使用与数据相关的外部知识、专业领域知识和专家经验来推断或评估数据产品质量。7,定量评估7.2.1定量评估通过定量指标评估数据产品质量,定量指标用来描述数据产品的定量质量信息,用来表达符合数据规范的程度。7.2.2定量评估可分为:完全检查方法与抽样检查方法。a)完全检查:完全检查适用于评估对象规模相对较小时,应对评估对象的所有元素进行检查;b)抽样检查:抽样检查适用于评估对象规模相对较大时,应先对评估对象进行采样,然后评估数据产品质量,以样本数据质量代表整体数据产品质量。定性评估通过非定量指标评估数据产品质量,非定量指标用来描述数据产品的非
21、定量质量信息。74结果评分7.4.1当所有已选择的数据产品质量评估经过基础质量指标、技术使用指标和市场应用指标(可选)计算完成之后,数据产品在每个评估维度上都形成一个百分制的评分,可采用加权平均法的方式,将所有的评分聚合成最终质量评分。7.4.2根据最终质量得分,数据产品可以划分为不同质量等级。具体的数据产品质量等级见表11。表11数据产品质量等级质量得分质量等级具体含义90分(含)以上A级应全面满足数据需求方的需求,确保高质量和高满意度,具备出色的数据产品性能。在多种场景中发挥关键性作用,为组织创造长期且显著的回报,展现出卓越的数据产品价值。80分(含)-90分B级应满足大部分需求方的要求,
22、提供符合其需求的数据,具备相对优秀的性能表现。在特定场景中表现出色,能够有效地支持业务决策或解决特定问题,展示出一定的数据产品价值。60分(含)-80分C级应满足部分需求方的要求,能够理解并满足部分数据需求方的需求,但仍存在一些指标不合格。在有限场景中有所表现,但适用范围相对有限,有待提升数据产品质量和挖掘其价值。60分以下D级难以满足需求方的要求,多数指标不合格,存在较大的质量缺陷。应用场景单一,难以在多种业务场景中发挥作用,具有较低资产价值,难以在组织内部产生明显的效益。数据产品质量等级可作为数据产品定价依据,直接影响质量系数的测算。8评估流程A1流程模型数据产品质量评估具体流程见图2。图
23、2数据产品质量流程模型A9明确评估主体开展数据产品质量评估,应明确数据产品质量评估主体。数据供方可委托经过数据交易所认证的数据产品质量评估专业服务机构进行评估,并把完成的评估报告提交至给数据交易所。数据产品质量评估主体专门负责数据产品质量评估的计划、实施与跟踪,其职责主要包括: 确定待评估的可交易数据产品; 整理数据产品质量的评估需求,对其合理性、可操作性进行评估; 确定参与数据产品质量改进的参与角色,包含但不限于数据专家、业务专家、质量管控组织负责人员; 编制数据产品质量评估方案,包括但不限于数据供方、评估对象、评估目标、评估体系、评估方法以及评估计划; 编制并发布数据产品质量评估报告; 跟
24、踪监督数据产品质量提升。根据评估对象具体情况,设计适宜于待评估数据产品的评价指标方案,选取合适的评估维度与指标。确定评估度量和评分标准,应考虑下列影响因素: 内部因素:数据产品的使用目的、内容清单、安全级别等; 外部因素:数据需方的业务需求、供方介绍等。AA实施质量评估8.4.1根据评估方案,利用人工或工具对数据产品质量每个指标进行测评,根据每个度量下各评估指标的评估结果综合得到待评估数据产品的整体评估结果。8.4.2评估完成后,应根据最终评估结果,生成相关数据产品质量评估报告。数据产品进入数据交易所挂牌前应至少进行一次基础质量评估,才可进入后续流程。场内交易应根据不同等级采取相应措施:数据产
25、品质量评估未达合格标准的,质量等级为D级,建议整改提升质量;达C级以上的,允许挂牌。数据产品质量评估报告是完整记录数据产品质量评估过程与结果的文件,其编制要求如附录所示。RS提升产品质量如数据产品质量未达到合格要求,数据供方应根据评估报告,分析确定需要改进的产品内容,并组织相关人员对数据产品进行改进提升。数据产品质量改进应考虑下列因素: 数据产品质量评估报告;数据需方质量需求; 同类数据产品质量情况。ftA数据产品运营数据产品质量达到合格要求时,如同时满足数据交易所其他要求,即可进入挂牌运营阶段。其他要求包括但不限于数据产品的登记、合规评估、权益认定、定价等。A1质量需求变更运营过程中,可根据
26、数据产品质量需求变更,进行单次或定期评估,评估方案可根据评估频率、评估需求进行调整。数据产品质量需求变更包括但不限于: 数据产品内容发生改变; 数据需方提出的评估需求变更,如评估主体变更、指标方案变更等; 数据产品持续运营时间较久,需提供近期数据产品质量评估报告。AA质量评估完成8.8.1 质量合格的数据产品,应根据数据交易所及数据需方要求,提交质量评估报告,供数据产品交易场景使用。8.8.2 数据需方可向数据交易所申请查看数据产品质量评估报告,如对数据产品质量有异议,可由经过数据交易所认证的数据产品质量评估专业服务机构复核并提交质量评估报告。附录A(资料性)数据产品质量评估报告编制要求A.1
27、总体要求数据产品质量评估主体在完成评估之后,应出具相应评估报告,包含首页、正文和附录部分,各部分应满足下列要求: 总体反映数据产品质量评估工作,文字简洁,重点突出,结论明确; 宜采用有助于理解的图表和数据,资料引用表示消晰; 应客观、准确反映评估过程与结果。A.2首页首页可作为数据产品质量评估报告的封面,应包括完整的数据产品名称、数据供方名称、评估机构名称及其公章。A.3正文正文是数据产品质量评估报告主体,一般包括: 数据产品基本情况,如数据产品名称、内容、格式和大小; 评估的规模; 选取的评估指标体系及其定义; 各个指标的评估结果与得分。A.4附录附录是数据产品质量评估中有助于理解的附加信息
28、,一般包括: 各个评估指标的错误示例; 相关的行业标准或规范; 其他支持性文件。参考文献UGB/T5271.1-2000信息技术词汇第1部分:基本术语2 GB/T5271.17-2000信息技术词汇第17部分:数据库3 GB/T25000.12-2017系统与软件工程系统与软件质量要求和评价(SQUaRE)第12部分:数据质量模型(引用)4 GB/T25000.24-2017系统与软件工程系统与软件质量要求和评价(SQUaRE)第24部分:数据质量测量(引用)5 GB/T39400-2020工业数据质量通用技术规范6上海市数据条例7中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见8上海市数据交易场所管理实施暂行办法