《SZSD16 0002—2024公共数据质量评价规范.docx》由会员分享,可在线阅读,更多相关《SZSD16 0002—2024公共数据质量评价规范.docx(18页珍藏版)》请在课桌文档上搜索。
1、ICSCCSSZSD数字山东工程标准SZSD1600022024公共数据质量评价规范Commondataqualityevaluationspecification2024-06-01实施2024-04-15发布滨州市大数据局发布前言II引言HII范围42燃范性引用文件43术谙和定义44评价指标44.1指标框架542指标说明55评价方法65.1 定性评价65.2 定JS评价65.3 定性定量相结合的评价66评价流程66.1 确定评价方法662选择评价指标66.3 确定校缝规则664实施数据质限评估76.5 评价结果输出77公共数据质量结果应用77.1 既破专报编制77.2 质量评价可视化77.
2、3 数据治理7附录R(资料性质量评价方法选取9A. 1定性评价9A.2定量评价9A.3定性评价和定量评价相结合10附录B资料性数据质量校验11B. I校核技术方法118.2 校核范围118.3 公共数据质量校核规则及内容H本文件按照GB/T1.1-2020M标准化工作导则第1部分:标准化文件的结构和起党规则8的规定起草.请注瓯本文件的某些内容可能涉及专利.本文件的发布机构不承担识别专利的责任.本文件由滨州市大数据局提出、归11并组织实施.本文件起草单位:滨州市智魅城市指挥运营中心。本文件主要起草人:王耀翁、刘羊麟、肖俊辉、吴宗月、黄胱杰、曾钊、吕明明.为深入货彻落实数字山东发展规划,扎实推进数
3、字山东标准提升工程,充分发挥标准规范在数字山东建设中的支掠作用,制定本文件.本文将燃范公共数据质量评价工作促进公共数据的质盘提升.更好发挥数据在支押经济运行、社会治理等领域的作用,公共数据质量评价规范1范固本文件规定了公共数据质量评价的术语和定义、评价指标、评价方法、评价流程和评价结果运用.本文件适用于公共数据管理过程中的质t评价.2规范性引用文件下列文件中的内容通过文中的燃范性引用而构成本文件必不可少的条款.其中.注日期的引用文件.仅该口期对应的版本适用于本文件:不注n期的引用文件,其最新版本(包括所有的施改单)适用于木文件.GBT3J079.3-2017暴于云计算的电子政务公共平台服务规范
4、笫3部分:数据管理GB/T35295信息技术大数据术语GB/T36073-2018数据管理能力成魁度评估模?9GB/T36314-2018信息技术数据境呆评价指标(;B/T36-168-201系统评价指标体系3术语和定义GB/T36344-2018、GB/T35295中界定的以及下列术语和定义适用于本文件.公共数据PUtoIiCdata公共管理和服务机构在依法履行公共管理职责、提供公共服务过程中,收集和产生的各类数据.本规范所称公共管埋和服务机构,是指国家机关,法律法规授权的具有管理公共事务职能的组织,具有公共服务职能的企业”业单位,人民团体簪。公共数据质量PublicdataquaIity在
5、指定条件下使用时,公共数据的特性满足明确的和除含的要求的程度.公共数据凑量校核PublicdataquaIityverification对公共数据质量进行校对、核查的过程.公共数据质量评价PubIicdataqua!ityevaluation以原始数据为法础,充分考虑数据之间的相关性、匹配性、逻软性,采用科学方法对数据的真实性、准确性进行判断和分析.对可能存在的数据质Ht问题进行追溯和核实,对公共数据进行确认的过程.4. 1指标框架公共数据质麻评价指标分为规范性、完整性准确性、一致性、及时性和唯一性六个维度.指标也架图见图】。图1公共数据质量评价指标框架图4.2指标说明4.2.1 规场性规范性
6、指公共数据符合数据标准、数据模型、业务规则等的程哎,主要规则包括:数据标准:数据符合数据标准的度埴,评价数据版量时第要收集数据在命名、创建、定义、史新和归档时遵循的标准,包括国际标准、国家标准.行业标准、地方标准或相关规范等:-元数据:数据符合元数据定义的度!ft.元数据标注、描述或刻任其他数据、以使检索、或使用信息更容易;安全规范:安全规范是安全和隐私方面的规则,包括数据权限管理数据脱敏处理等。4.2.2 完整性完整性指按照数据规则要求,数据元素被赋予数值的程度,主要规则包括;空伯校核:对必埴字段(应用必埴、业务必填或者该字段是主键),依杳填充率是否为100%.数据是否完整:记录数校核:通过
7、当前稽核表中满足过活条件的记录数范阚是否满足预先设定的规则,来验证数据的完整性:一一参照校核-双向校核:验证稽核数据包含在参照数据、及参照数据包含在稽核数据中的程位,检杳两张表中待检交的数据在两张衣中都存在的程度。4.2.3 准确性准确性指数据准确衣示其所描述的应实实体实际对象/1实值的程度,主要规则包括;一俄域校核:校裟数据的值是否在预设的莅阳内,数据内容是否是预期数据,例如记录的人的生存状态与其其实的生存状态是否一致.格式校核:对字段假的格式进行校脸包括数据类型、数据范用、数据长度、精度等是否满足预期要求,如性别不能出现男/女之外的内容,参照性校核-单向校核:稽核数据在参照数据中的包含程度
8、,度瓜字段是否正确,记录、文件或数据集是否包含无效的数据.4.2.4 一致性一致性指数据与其他特定上下文中使用的数据无矛西的程度,主要规则为对照源数据际我和目标数据库表,检查在数据迁移过程中是否存在数据丢失。4.2.5 及时性及时性指数据的加工是否满足时效性要求,主要规则为自定义校验是用户自由定义的稽核规则.更新及时性指牵引数据及时更新及数据按照规定展期落地。4.2.6 2.6唯T唯一性:特定字附、记录、文件或数据集唯一性的度量,主要规则为校验某一或多个稽核列数据是否有Hi亚数据,对不能电亚的数据进行唯一性检查,5评价方法1.1 定性评价指运用分析和绘合、比较与分类、归纳和潮缘等选辑分析的方法
9、,对评价所获得的公共数据进行思维加工,评价主体依据专业领域知识和个人羟验理解,按照一定的评价标准对公共数据质疑进行估计和推断.对公共数据的评价维度包括:数捌的规范性.数据的完整性、数据的准确性、数据的一致性、数据的及时性、数据的唯一性.52定量评价指通过采用数据和统计分析的方法,对公共数据进行量化的评价。通过数学或其他科学手段对公共数据做出的判断和分析评估.在专业领域承担管理公共事务职能的事业总位、企业更加充要,数据更加直接、专业、解活、真实、完整,推动此类组织的数据资源要素化对于公共数据要素化就非常重要和关键,1.3 定性定量相结合的评价定性评价和定量评价相结合的评价方法是科学评价公共数据的
10、名耍方式.既强调了数据的客观性,又考虑/数据的复杂性.在定性评价方法的基础上引入数学手段.定性何起通过人工设定的标准进行评分并做出吊化处理,评分的过程都是针对M光建立的指标体系,6评价流程6. 1确定评价方法根据评价时象、评价目的等的不同,确定合适的评价方法.评价方法选取方式可参见附录A.6.1 选择评价指标根据评价目的,参照第I章的要求,对于数据进行全维度的评价.63摘定校验规则根据选定的评价指标,选择合适的数据历Ift校验规Wl.痂量评价维度与质垃校核规则对应见我1.具体校脸方法可参照附录B.3.表1质量评价维度与质量校验规则对应表规范性花林校粮波动性校校关系校校完整性空俄校核记兼数校核参
11、照校桢-双向校桢准确性他域校核格式皎核参照校核-单向依核-JStt致性校校及时性自定义校核(可以自定义明”衲核燃划,根1具怵的校验内容将炊则类型设“为充急性.一致性,准陶性.炫熊性、唯一性与及时性)唯,性复校一6.4实施数据质超评估如果选择定性评价.对公共数据质加进行定性分析,评价一下公共数据的燃范性、完整性、准确性、致性、及时性和哦一性,如果选择定量评价或定性和定量相结合的评价则对数据质琏的指标进行具体的计算、评分,根据数据指标的得分情况计算获取数据的整体质量:情况,并将数据质琏情况根据数据使用侦业要求进行评级,6.5 评价结果输出数据质此评价结果根据选择的评价方法有所不同,如果选持定性评价
12、,数据质计评价结果输出为定级结果,如果选择定量评价,数据质房评价结果输出为量化结果,如果选择定性定量相结合的评价,数据质St评价结果为ffl:化和定级相结合的结果.符数据质Ri刊介得到的结果以报告或者Wob页面的方式提供,直观反映数据的侦量情况。7公共数据质量结果应用7. I质量专报编制根据评价结果编制分析专报.内容宜包括但不限于评估对象及先围、评估指标、计分规则、评估检核方法、评估实施过程、质量问题。72质量评价可视化根据公共数据质麻评价结果,内杵不限于公共数据评估量化得分、公共数据质双定级,将结果制定可视化大屏或者可视化中屏,在大屏或者中屏1:展示。公共数据从归集、治理、共享、开放几方面来
13、讲述公共数据质量的现状与成奴,了解部门、公众的需求情况与高频诉求,进而将归集数据再共享,统一调更利用,限务于各个方面,推动政府部门之间游层级、跨区域、聆系统、跻行业、跨部门的数据流通零边界,让数据多跑旭企业群众少跑班.7.3数据治理市级人民政府大数据工作主管部门负货组织提出数据治理要求,组织有关单位开展数据治理,并通过市级节点进行数据质量核查等.承担公共服务职能的企事业单位应当按照统一要求.开展数据源头治理,提升数据完整性、准确性,确保数据质玳,附录A(资料性)质量评价方法选取Al定性评价主要是用于满足数据用户的制求,采用数据顷量调杏的方式获取对数据顺量的业务规期要求,从业务应用上对数据痂信进
14、行评价.A.1.1明确目标明确评价对象及其葩阳,确定公共数据颇IS评价的目标.Al.2选取评价指标依据具体业务霰求,选取适当的评价指标,包括数据的规范性、完整性、准确性、一致性、及时性、唯一性.A1.3确定评价方法根据选取的指标,确定相应的评价方法,如模糊综合评价法、灰色关联度评价法、主成分分析法等.A.1.4收集数据通过调查、测试等手段,收集相关数据.A15数据处理与分析对收集到的数据进行处埋和分析,如数据清洗、致批:探查等,以排除异常位、决失伯等.A.1.6得出结论根据处埋和分析的结果,得出数据鲂信评价的结论,并掂写报告.A2定量评价定量是一种客观评价方法,但一般缺少对数据业分应用判断.仅
15、是依赖于应用程序的规则或约束判断.A2.1明确评价对敏以数据持有者视角的公共数据范用,包括党政机关、企事业单位.此类企事业单位主要是依据法律法规规章授权的具有管理公共事务职能的组织.A.2.2选取评价指标依据具体业务需求,选取适当的评价指标,包括数据的规范性、完整性、准确性、一致性、及时性、睢一性。根据选取的指标.确定相应的评价方法,如模糊综合评价法、灰色关联境评价法、主成分分析法等。A.2.4收集数据通过调杳、测试等手段,收集相关数据,A2.5数据处理与分析对收集到的数据进行处理和分析,如数据清洗、数据预处理等,以排除异常值、缺失值等.A26得出结论根据处理和分析的结果.得出数据质盘评价的结
16、论.并撰写报告.A.3定性评价和定量评价相结合在数据质i的多维度评价上,定性定址相结合的评价是目前较为常见的评估方法是对前述两种单一评价方法的有益补充和完善,也是本文件中采用的数据质地评价方法。A3.1明谈评价对象及范固确定当前评估工作应用的数据集的范明和边界,明确数据巢在属性、数量、时间等维度的具体界限.需要注意的是,评价对象既可以是数据项也可以是数据集,但一定是一个确定的前态的集合.A. 3.2选取数据质量维度及评价指标数据侦域维度是进行顺取评价的具体质呆反映,如正确性、准确性等,它是控制和评价数据而审:的主要内容.因此,首先要依据具体业务褥求选择适当的数据旗城雉度和评价指标.另外,要选取
17、可泅、可用的面ht维度作为评价指标准则顶,在不同的数据类型和不同的数期生产阶段,同一质限维度有不同的具体含义和内容,应该根据实际需要和生命阶段确定质量维度.A3.3除定质量测度及其评价方法数据质做评价在确定其具体维度和指标对象后,应该根据每个评价对象的特点.确定其测度及实现方法。A. 3.4撰写结果分析并报告经过抽样、度量、评估之后,得到评估结论.附录B(资料性)数据质量校验Bl校核技术方法Bl-I人工校核根据评估指标,结合个人专业判断进行数据检核,如资料对比、经验列断等.通过核对实物、数据表格、或可视化的图形,判断检查内容的正确性.B-1.2系统校核通过设计模型算法和编制系统程序,利用数据之
18、间存在的一定的逻轨关系和规律(血缘图谐,检查和发现公共数据中存在的错误,例如统计数据的空值率、包含的重复数据、数据实际最大长度等.B.2校核葩围B21全量检核对涉及的所有数据进行逐一检核数据质价.B2.2增量检核对涉及的数据,在特定的莅围和时间段内新增的数据迸行逐一检核数据质最,B. 2.3抽样检核按照抽样方案,对抽取的数据进行逐一检核数据质J七B2.4分值设计评估指标分值设计用绝对权数表示绝对权数等同于各指标满分分值.详见图表6质量检查规则对应权重值.B3公共数据质量校核规则及内容B3.1逻辑校核8. 3.1.1单行逻辑校核B3.1.1.1校核内容:财条件表达式和结果表达式同时是否满足的校脸
19、:B3.1.1.2核核方法;系统校核:B.3.1.1.3计算公式:规则得分=(I-不满足条件的数抵条数/稽核总条数*100.式中,满足“条件的数据条数”为防届校验时对总字段数据进行条件JS询后记录的条数,“稽核总条数”为整个数据发中记录的总数,规则得分为校验数据符合某种业务逻辑或者条件的数据占总校验数据中的比分.8. 3.1.2维度汇总统计校核B3.1.21校核内容:对某些维度下数据在定条件下的汇总结果是否存在的校蕤;B. 3.1.2.2校核方法:系统校核:B3.1.2.3计算公式:规则得分:汇总结果存在得满分100,不存在得。分,规则得分为校脸某些维SZSD1600022024健的数据在一定
20、条件或者逻辑下的数据汇总是否存在,存在得100分.不存在得0分.8313维度统计记录效校核B.3.1.3.1校核内容:对满足难度和条件衣达式的结果汇总个数是否存在的校验:B31.3.2校核方法:系统核核:B3.1.3.3计算公式:规则得分=汇总结果个数大于0得满分100,等于0汨0分,规则得分为校骁某些难度的数据在一定条件或者逻辑下的数据汇总个数是否存在,存在得100分,不存在得0分.B32波动性校核B.3.2.1同比校核B32.11校核内容:本期数据与历史同时期的数据比较校蛤:B.3.2.1.2校核方法:系统校核:B3.2.1.3计算公式:规则得分=(本统计周期数据和-历史同一统计周期数据和
21、)/历史同一统计周期数据和的比(ft超出规定不得分0分),未超出规定得满分(100分).式中“本统计周期数据和”为本统计闷期内统计数据的和,“历史同一统计周期数据和”为上一年同一统计周期内统计数据的和,统计周期可以分为:一一年:某年度数据与上一年度数据波动校的: 季;某季度数据与上一年同一季度数据波动校验; 何:某旬度数据与上一年同旬度数据波动校聆:一一月:某月数据与上一年同一个月数据波动校脸: 日:某日数据与上一年同一日数据波动校验.B32.2环比校核B.3.2.2.1校核内容:本时段数据与上一个统计时段的数据比较校验:B3.2.2.2核核方法:系统校核;B.3.2.2.3计算公式:规则得分
22、=(本统计鹿期的数据和-上一个统计WI期的数据和/上一个统计周期的数据和的比值超出规定不得分(0分),未超出规定得满分UOO分),式中“本统计周期的数据和”为本统计周期内统计数据的和.“上一个统计周期的数据和“为本次统计周期的上一次统计周期.统计网期与本文件第46.5.1章节“阿比校验”中统计Ml期划分一致,规则得分为校验统计的数据是否有异常及是否合理,合理无异常满分,有异常或不合理不得分.B3.23占比校核B.3.2.3.1校核内容:某个维度下的稽就数据占总稽核数据的校验:B3.2.3.2核核方法:系统核核:B3.2.3.3计算公式:规则得分=稽核数据冏期维度值下的稽核数据和/稽核数据和的比
23、值超出规定不得分(0分),未超出规定得满分(100分).式中“厢核数据周期维度值下的糖核数据和”为需要做质址校5金的某一个周期维度下的数据的和.“梧粒数据和”为用来做对比的总稽核数据的和.统计周期与本文件第4.6.5.1章节“同比校验”中统计冏期划分一致,规则如分为校验统计的数据是否有异例及是否合理,合理无异常满分,有异常或不合理不得分。B3.3关系校核B3.3.1校核内容:检性具有业务关联关系的数据之间是否具有与业务规则一致的联系:B.3.3.2校核方法:系统校核:B33.3计豫公式:规则得分=(1-稽核列数据不符合参照列数据两者关联关系运算的条数,桶核总第数*100,式中“稽核列数据与参照
24、列数据不符合两者关联关系运算的条数”为稽核数据不包含在参照数据的范用内的数据奴,“稽核总条数”为整个数据次中记录的总数.规则得分为稽核列数据符合参照列数据关联关系数据条数占稽核总条数的比分。B-3.4空值校核B3.4.1校核内容:对必填字段(应用必垃、业务必地或者该字段是主键,检杳填充率是否为I00o如果存在空侑需要调杳原因,包括检食在数据库中实施该字段的可行性;B.3.4.2校核方法:系统校核:B343计尊公式:规则得分=(卜空值条数,精核总条数)/100,式中“空值条数”为稽核数据中的记录为空的数盘,“稽核总条数”为整个数据.表中记录的总数,规则得分为非空的记录条数占f自核总条数的比分.B
25、3.5记录数校核B.3.5.1校核内容:验证当前稽核表中满足过港条件的记录数范围是否满足预先设定规则的校验:B3.52校核方法:系统校核:B-3.5.3计算公式:规则得分=记录数在他眼内用满分100,不在范围内得0分,规则得分为满足过注条件的记录数是否在设定的记录数范围内.B36参照校核一双向校核B.3.6.1校核内容:稽核数据在参照数据中的占比,同时参照数据在稽核数据中占比;B.3.6.2校核方法:系统校核:B363计算公式:规则得分=(1-不符合多照关系数据条数/稽核总条数)*100,式中“不符合多照关系数据条数”为梢核数据不包含在参照数据的范附内的数据量,“稍核总条数”为整个数据表中记录
26、的总数,规则得分为符合参照关系数据条数占稽核总条数的比分。B.3.7值域校核B.3.7.1校核内容:校验数据的值是否在欣设的范用内:B3.7.2校核方法:系统校核:B-3.7.3计算公式:规则得分=1-数据不在预设的范围内的个数,稽核总条数)*10(),式中“数据不在预设的范困内的个数”为稽核的数据不满足数据范出的要求的数据业,“梢核总条数”为整个数据表中记录的息数,规则汨分为数据在应满足的范圉内的数据条数占稽核总条数的比分。B.3.8格式校核B3.81校核内容:刻字段值的格式进行校公,主要包括I期、时间格式校验(YYYYMM.YYYYMMDD、YYYYMMDDHII2IMISS)、电话格式校
27、抬(手机号格式、固定电话格式等:B.3.8.2校核方法:系统校核:B3.8.3计算公式:规则得分=(I-不符合格式条数/稽核总条数*100,式中“不符合格式条数”为辅核数据中不符合格式要求的数据量,”稽核总条数”为整个数据衣中记录的总数,规则得分为符合格式的记录条数占稽核总条数的比分.B3?叁照校核-单向校核B.3.9.1校核内容:稽核数据在参照数据中的占比:B392校核方法:系统校核:B.3.9.3计算公式:规则得分=(1-不符合参照关系数据条数/稽核总条数*100.式中“不符合参照关系数加条数”为稽核数据不包含在参照数抠的他粗内的数据鼠,“稽核总条数”为整个数据非中记录的总数,规则得分为符
28、合参照关系数据条数占稽核总条数的比分。B3.10一致性校核B3.101单表单行校核B.3.10.1.1校核内容:对单个表的稽核列的数据与参照列的数抵进行逐行一致性检查:B3.101.2校核方法:人机交互校核:B310.1.3计匏公式:规则得分=(1-稍核列中与参照列中数据不一致的条数/稽核总条数)*10。,式中“稽核列中与参照列中数据不一诙的条数”为稽核列数据与参照列数据逐行比时数据不一致的数据fit.“稽核总条数”为整个数据表中记录的总数规则得分为稽核列数据与参照列数据比对一致的数据条数占稽核总条数的比分.B.3.10.2单表汇总校核B3.10.2.1校核内容:对单表中的稍核列的数据和与参照
29、列的数据和是否一致校照:B.3.10.2.2校核方法:人机交互校核:B3.1023计算公式:规则得分=数据和一致得满分100,不一致得。分,规则得分为稽核列数据的和与参照列数据的和比对是否一致。B.3.10.3双表汇总校核B31031校核内容:对一个表中的稽核列的数据和与和参照表中列的数据和是否一致校脸:B-3.10.3.2校核方法:人机交互校核:B.3.10.3.3计算公式:爆则得分-数据和一致得满分100.不一致得。分.规则得分为表中稽核列数据的和与参照表中列数据的和比对是否一致。B.3.10.4双表维度汇总校核B3.104.1校核内容:在设定的维收下,对一个表中的稽核列的数据和与和另一个
30、参照表的列数据和是否一致校验;B.3.10.4.2校核方法:人机交互校核:B.3.1043计算公式:视则得分=数据和一致得满分100,不一致得。分,规则得分为在设定的维度下,表中稽核列数据的和与参照表中列数据的和比对是否一致。83105双表单行校核B3.10.5.1校核内容:同时满足稍核表与参照表关岷后的稽核列数据和参照列数据好行的致性校验:B.3.10.5.2校核方法:人机交互校核:B3.10.5.3计算公式:规则得分=(1-稽核表与参照表关联后褶核列数据和参照列数据不致的个数,稽核总条数)100.式中“稽核表与参照表关联后稽核列数据和参照列数据不一致的个数”为稽核发与参照表通过关联字段诳行
31、关联后,对非关联字段的稽核列与参照列进行数据比对后不一致的数据fit.“稽核总条数”为整个数据表中记录的总数,视则得分为两表为岷后稽核列数据与参照列数据比对一致的数据条数占稽核总条数的比分。B3.11自定义校核B.3.11.1校核内容:在常用规则不满足用户业务福求情况下,提供用户自由定义稽核规则使用,根据具体的校验内容将规则类型设置为完整性、一致性、准确性、合理性、唯一性与及时性:B3.112校核方法:人机交互校核:B-3.11.3计算公式:规则得分=(1-数据不在自定义规则内的个数/稽核总条数)*10(),式中“数据不在自定义规则内的个数”为稽核的数据不满足自定义设定的规则的要求的数据依,“稽核总条数”为整个数据表中记录的总数,规则得分为数据在应满足的自定义设定的规则内数据条数占稽核总条数的比分.B3.12重复校核B3.12.1校核内容:对规定为唯值字段的值进行唯一性的检杳:B.3.12.2校核方法:系统校核:B3123计算公式:规则得分=(I-重更条数/稽核总条数)*100.式中“重处条数”为稽核数据中记录重划的数据埴,“稽核总条数”为整个数据表中记录的总数,规则得分为不重发的记录条数占稽核总条数的比分.